Crédito CC0:domínio público
Quando sua mãe chama seu nome, você sabe que é a voz dela, não importa o volume, mesmo com uma conexão de telefone celular ruim. E quando você vê o rosto dela, você sabe que é dela - se ela estiver longe, se a iluminação for ruim, ou se você estiver em uma ligação ruim do FaceTime. Essa robustez à variação é uma marca da percepção humana. Por outro lado, somos suscetíveis a ilusões:podemos deixar de distinguir entre sons ou imagens que são, na verdade, diferente. Os cientistas explicaram muitas dessas ilusões, mas carecemos de uma compreensão completa das invariâncias em nossos sistemas auditivo e visual.
As redes neurais profundas também realizaram tarefas de reconhecimento de fala e classificação de imagens com impressionante robustez a variações nos estímulos auditivos ou visuais. Mas as invariâncias aprendidas por esses modelos são semelhantes às invariâncias aprendidas pelos sistemas perceptuais humanos? Um grupo de pesquisadores do MIT descobriu que eles são diferentes. Eles apresentaram suas descobertas ontem na Conferência sobre Sistemas de Processamento de Informação Neural de 2019.
Os pesquisadores fizeram uma nova generalização de um conceito clássico:"metâmeros" - estímulos fisicamente distintos que geram o mesmo efeito perceptivo. Os exemplos mais famosos de estímulos metâmeros surgem porque a maioria das pessoas tem três tipos diferentes de cones em suas retinas, que são responsáveis pela visão de cores. A cor percebida de qualquer comprimento de onda de luz pode ser correspondida exatamente por uma combinação particular de três luzes de cores diferentes - por exemplo, vermelho, verde, e luzes azuis. Cientistas do século XIX inferiram dessa observação que os humanos têm três tipos diferentes de detectores de luz brilhante em nossos olhos. Esta é a base para telas eletrônicas coloridas em todas as telas que vemos todos os dias. Outro exemplo no sistema visual é que quando fixamos nosso olhar em um objeto, podemos perceber as cenas visuais circundantes que diferem na periferia como idênticas. No domínio auditivo, algo análogo pode ser observado. Por exemplo, o som "textural" de dois enxames de insetos pode ser indistinguível, apesar de diferirem nos detalhes acústicos que os compõem, porque eles têm propriedades estatísticas agregadas semelhantes. Em cada caso, os metâmeros fornecem uma visão sobre os mecanismos de percepção, e restringir modelos dos sistemas visuais ou auditivos humanos.
No trabalho atual, os pesquisadores escolheram aleatoriamente imagens naturais e clipes de som de palavras faladas em bancos de dados padrão, e então sintetizou sons e imagens para que redes neurais profundas os classificassem nas mesmas classes que suas contrapartes naturais. Isso é, eles geraram estímulos fisicamente distintos que são classificados de forma idêntica por modelos, ao invés de humanos. Esta é uma nova maneira de pensar sobre metâmeros, generalizar o conceito para trocar o papel dos modelos de computador por percebedores humanos. Portanto, eles chamaram esses estímulos sintetizados de "metâmeros modelo" dos estímulos naturais emparelhados. Os pesquisadores então testaram se os humanos poderiam identificar as palavras e imagens.
"Os participantes ouviram um pequeno segmento de fala e tiveram que identificar em uma lista de palavras qual palavra estava no meio do clipe. Para o áudio natural, essa tarefa é fácil, mas para muitos dos metâmeros modelo, os humanos tiveram dificuldade em reconhecer o som, "explica a primeira autora Jenelle Feather, um estudante de pós-graduação no Departamento de Cérebro e Ciências Cognitivas (BCS) do MIT e um membro do Center for Brains, Minds, e Máquinas (CBMM). Isso é, os humanos não colocariam os estímulos sintéticos na mesma classe que a palavra falada "pássaro" ou a imagem de um pássaro. Na verdade, Os metâmeros do modelo gerados para corresponder às respostas das camadas mais profundas do modelo eram geralmente irreconhecíveis como palavras ou imagens por sujeitos humanos.
Josh McDermott, professor associado em BCS e investigador em CBMM, defende o seguinte caso:"A lógica básica é que, se tivermos um bom modelo de percepção humana, digamos de reconhecimento de fala, então, se escolhermos dois sons que o modelo diz serem iguais e apresentarmos esses dois sons a um ouvinte humano, aquele ser humano também deveria dizer que os dois sons são iguais. Se o ouvinte humano, em vez disso, percebe que os estímulos são diferentes, esta é uma indicação clara de que as representações em nosso modelo não correspondem às da percepção humana. "
Alex Durango se juntou a Feather e McDermott no papel, um estudante pós-bacharelado, e Ray Gonzalez, um assistente de pesquisa, ambos em BCS.
Há outro tipo de falha de redes profundas que tem recebido muita atenção na mídia:exemplos de adversários (ver, por exemplo, "Por que meu classificador simplesmente confundiu uma tartaruga com um rifle?"). Esses são estímulos que parecem semelhantes aos humanos, mas são classificados incorretamente por uma rede modelo (por design - eles são construídos para serem classificados incorretamente). Eles são complementares aos estímulos gerados pelo grupo de Feather, que soam ou parecem diferentes para humanos, mas são projetados para serem co-classificados pela rede modelo. As vulnerabilidades das redes modelo expostas a ataques adversários são bem conhecidas - o software de reconhecimento de rosto pode confundir as identidades; veículos automatizados podem não reconhecer pedestres.
A importância deste trabalho reside em melhorar os modelos de percepção além das redes profundas. Embora os exemplos padrão de adversários indiquem diferenças entre redes profundas e sistemas perceptivos humanos, os novos estímulos gerados pelo grupo McDermott sem dúvida representam uma falha de modelo mais fundamental - eles mostram que exemplos genéricos de estímulos classificados como iguais por uma rede profunda produzem percepções totalmente diferentes para os humanos.
A equipe também descobriu maneiras de modificar as redes do modelo para produzir metâmeros que fossem sons e imagens mais plausíveis para os humanos. Como diz McDermott, "Isso nos dá esperança de que possamos eventualmente desenvolver modelos que passem no teste do metâmero e capturem melhor as invariâncias humanas."
"Os metâmeros modelo demonstram uma falha significativa das redes neurais atuais em coincidir com as invariâncias nos sistemas visuais e auditivos humanos, "diz Feather, "Esperamos que este trabalho forneça uma medida de avaliação comportamental útil para melhorar as representações de modelos e criar melhores modelos de sistemas sensoriais humanos."
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.