De onde veio esse som? O modelo de computador pode responder a essa pergunta, assim como o cérebro humano pode

Crédito:Domínio Público CC0

O cérebro humano é afinado não apenas para reconhecer sons específicos, mas também para determinar de que direção eles vieram. Ao comparar as diferenças nos sons que atingem o ouvido direito e esquerdo, o cérebro pode estimar a localização de um cachorro latindo, de um carro de bombeiros ou de um carro se aproximando.
Os neurocientistas do MIT desenvolveram agora um modelo de computador que também pode realizar essa tarefa complexa. O modelo, que consiste em várias redes neurais convolucionais, não apenas executa a tarefa tão bem quanto os humanos, mas também luta da mesma maneira que os humanos.

"Agora temos um modelo que pode realmente localizar sons no mundo real", diz Josh McDermott, professor associado de ciências do cérebro e cognitivas e membro do Instituto McGovern de Pesquisa do Cérebro do MIT. “E quando tratamos o modelo como um participante experimental humano e simulamos esse grande conjunto de experimentos em que as pessoas testaram humanos no passado, o que descobrimos repetidamente é que o modelo recapitula os resultados que você vê em humanos”.

Os resultados do novo estudo também sugerem que a capacidade dos humanos de perceber a localização é adaptada aos desafios específicos do nosso ambiente, diz McDermott, que também é membro do Centro de Cérebros, Mentes e Máquinas do MIT.

McDermott é o autor sênior do artigo, que aparece hoje em Nature Human Behavior . O principal autor do artigo é o estudante de pós-graduação do MIT Andrew Francl.

Modelagem de localização

Quando ouvimos um som como o apito de um trem, as ondas sonoras atingem nossos ouvidos direito e esquerdo em tempos e intensidades ligeiramente diferentes, dependendo da direção de onde o som está vindo. Partes do mesencéfalo são especializadas para comparar essas pequenas diferenças para ajudar a estimar de que direção o som veio, uma tarefa também conhecida como localização.

Esta tarefa torna-se marcadamente mais difícil em condições do mundo real – onde o ambiente produz ecos e muitos sons são ouvidos ao mesmo tempo.

Os cientistas há muito procuram construir modelos de computador que possam realizar o mesmo tipo de cálculo que o cérebro usa para localizar sons. Esses modelos às vezes funcionam bem em ambientes idealizados sem ruído de fundo, mas nunca em ambientes do mundo real, com seus ruídos e ecos.

Para desenvolver um modelo de localização mais sofisticado, a equipe do MIT recorreu às redes neurais convolucionais. Esse tipo de modelagem computacional tem sido usado extensivamente para modelar o sistema visual humano e, mais recentemente, McDermott e outros cientistas começaram a aplicá-lo também à audição.

As redes neurais convolucionais podem ser projetadas com muitas arquiteturas diferentes, então, para ajudá-los a encontrar aquelas que funcionariam melhor para localização, a equipe do MIT usou um supercomputador que permitiu treinar e testar cerca de 1.500 modelos diferentes. Essa pesquisa identificou 10 que pareciam os mais adequados para localização, que os pesquisadores treinaram e usaram para todos os seus estudos subsequentes.

Para treinar os modelos, os pesquisadores criaram um mundo virtual no qual podem controlar o tamanho da sala e as propriedades de reflexão das paredes da sala. Todos os sons alimentados aos modelos se originaram de algum lugar em uma dessas salas virtuais. O conjunto de mais de 400 sons de treinamento incluía vozes humanas, sons de animais, sons de máquinas, como motores de carros e sons naturais, como trovões.

Os pesquisadores também garantiram que o modelo começou com as mesmas informações fornecidas pelos ouvidos humanos. O ouvido externo, ou pavilhão auricular, possui muitas dobras que refletem o som, alterando as frequências que entram no ouvido, e esses reflexos variam de acordo com a origem do som. Os pesquisadores simularam esse efeito executando cada som por meio de uma função matemática especializada antes de entrar no modelo de computador.

"Isso nos permite dar ao modelo o mesmo tipo de informação que uma pessoa teria", diz Francl.

Depois de treinar os modelos, os pesquisadores os testaram em um ambiente do mundo real. Eles colocaram um manequim com microfones em seus ouvidos em uma sala real e tocaram sons de diferentes direções, então alimentaram essas gravações nos modelos. Os modelos tiveram um desempenho muito semelhante aos humanos quando solicitados a localizar esses sons.

"Embora o modelo tenha sido treinado em um mundo virtual, quando o avaliamos, ele conseguiu localizar sons no mundo real", diz Francl.

Padrões semelhantes

Os pesquisadores então submeteram os modelos a uma série de testes que os cientistas usaram no passado para estudar as habilidades de localização dos humanos.

Além de analisar a diferença no tempo de chegada nas orelhas direita e esquerda, o cérebro humano também baseia seus julgamentos de localização nas diferenças na intensidade do som que chega a cada orelha. Estudos anteriores mostraram que o sucesso de ambas as estratégias varia dependendo da frequência do som recebido. No novo estudo, a equipe do MIT descobriu que os modelos mostraram esse mesmo padrão de sensibilidade à frequência.

“O modelo parece usar diferenças de tempo e nível entre as duas orelhas da mesma maneira que as pessoas, de uma maneira que depende da frequência”, diz McDermott.

Os pesquisadores também mostraram que, quando tornaram as tarefas de localização mais difíceis, adicionando várias fontes de som reproduzidas ao mesmo tempo, o desempenho dos modelos de computador diminuiu de uma maneira que imitava de perto os padrões de falha humana nas mesmas circunstâncias.

“À medida que você adiciona mais e mais fontes, obtém um padrão específico de declínio na capacidade dos humanos de julgar com precisão o número de fontes presentes e sua capacidade de localizar essas fontes”, diz Francl. "Os seres humanos parecem estar limitados a localizar cerca de três fontes ao mesmo tempo, e quando executamos o mesmo teste no modelo, vimos um padrão de comportamento muito semelhante."

Como os pesquisadores usaram um mundo virtual para treinar seus modelos, eles também puderam explorar o que acontece quando seu modelo aprendeu a localizar diferentes tipos de condições não naturais. Os pesquisadores treinaram um conjunto de modelos em um mundo virtual sem ecos e outro em um mundo onde nunca mais de um som era ouvido por vez. Em um terceiro, os modelos foram expostos apenas a sons com faixas de frequência estreitas, em vez de sons naturais.

Quando os modelos treinados nesses mundos não naturais foram avaliados na mesma bateria de testes comportamentais, os modelos se desviaram do comportamento humano e as maneiras pelas quais eles falharam variaram dependendo do tipo de ambiente em que foram treinados. Esses resultados apóiam a ideia que as habilidades de localização do cérebro humano são adaptadas aos ambientes em que os humanos evoluíram, dizem os pesquisadores.

Os pesquisadores agora estão aplicando esse tipo de modelagem a outros aspectos da audição, como percepção de pitch e reconhecimento de fala, e acreditam que também pode ser usado para entender outros fenômenos cognitivos, como os limites sobre o que uma pessoa pode prestar atenção ou lembrar , diz McDermott.

Como analisar melhor big data social

O 5G poderia realmente aterrar aviões? Por que os EUA atrasaram o lançamento da tecnologia perto de aeroportos

Eletrônicos