Mundo real, imagens irrestritas como essas (a) são usadas para treinar redes de reconhecimento facial. O teste para o estudo foi feito em dados de varredura a laser altamente controlados variando por ponto de vista (b, colunas), iluminação (b, linhas) e força de identidade caricatural (c). Crédito:Universidade do Texas em Dallas
A tecnologia de reconhecimento facial avançou rapidamente nos últimos cinco anos. Enquanto os pesquisadores da Universidade do Texas em Dallas tentam determinar como os computadores se tornaram tão bons quanto as pessoas na tarefa, eles também estão lançando luz sobre como o cérebro humano classifica as informações.
Cientistas da UT Dallas analisaram o desempenho do último escalão de algoritmos de reconhecimento facial, revelando a maneira surpreendente como esses programas - baseados em aprendizado de máquina - funcionam. Seu estudo, publicado online em 12 de novembro em Nature Machine Intelligence , mostra que esses programas de computador sofisticados - chamados de redes neurais convolucionais profundas (DCNNs) - descobriram como identificar rostos de maneira diferente do que os pesquisadores esperavam.
"Nos últimos 30 anos, as pessoas presumiram que os sistemas visuais baseados em computador eliminam todas as informações específicas da imagem - ângulo, iluminação, expressão e assim por diante, "disse a Dra. Alice O'Toole, autor sênior do estudo e professor Aage e Margareta Møller na Escola de Ciências Comportamentais e do Cérebro. "Em vez de, os algoritmos mantêm essas informações enquanto tornam a identidade mais importante, que é uma maneira fundamentalmente nova de pensar sobre o problema. "
No aprendizado de máquina, computadores analisam grandes quantidades de dados para aprender a reconhecer padrões, com o objetivo de ser capaz de tomar decisões com o mínimo de intervenção humana. O'Toole disse que o progresso feito pelo aprendizado de máquina para reconhecimento facial desde 2014 "mudou tudo por saltos quânticos".
"Coisas que nunca foram possíveis antes, que impediram a tecnologia de visão computacional por 30 anos, tornou-se não apenas factível, mas muito fácil, "O'Toole disse." O problema é que ninguém entendeu como funciona. "
Os algoritmos da geração anterior foram eficazes no reconhecimento de rostos que apresentavam apenas pequenas alterações em relação à imagem que eles já conheciam. Tecnologia atual, Contudo, conhece uma identidade bem o suficiente para superar as mudanças na expressão, ponto de vista ou aparência, como remover óculos.
"Esses novos algoritmos operam mais como você e eu, "O'Toole disse." Isso é em parte porque eles acumularam uma enorme quantidade de experiência com variações em como uma identidade pode aparecer. Mas isso não é tudo. "
A equipe de O'Toole começou a aprender como funcionam os algoritmos de aprendizagem - tanto para substanciar a confiança depositada em seus resultados e, como explicou o autor principal Matthew Hill, para esclarecer como o córtex visual do cérebro humano realiza a mesma tarefa.
"A estrutura deste tipo de rede neural foi originalmente inspirada em como o cérebro processa as informações visuais, "disse Hill, estudante de doutorado em cognição e neurociência. "Porque é excelente em resolver os mesmos problemas que o cérebro, pode dar uma ideia de como o cérebro resolve o problema. "
As origens do tipo de algoritmo de rede neural que a equipe estudou remonta a 1980, mas o poder das redes neurais cresceu exponencialmente mais de 30 anos depois.
"No início desta década, duas coisas aconteceram:a internet deu a este programa milhões de imagens e identidades para trabalhar - quantidades inacreditáveis de dados facilmente disponíveis - e o poder da computação cresceu, de modo a, em vez de ter duas ou três camadas de 'neurônios' na rede neural, você pode ter mais de 100 camadas, como este sistema faz agora, "O'Toole disse.
Apesar da finalidade pretendida do algoritmo, a escala de seus cálculos - cujo número é de pelo menos dezenas de milhões - significa que os cientistas são incapazes de entender tudo o que ele faz.
"Mesmo que o algoritmo tenha sido projetado para modelar o comportamento dos neurônios no cérebro, não podemos acompanhar tudo o que é feito entre a entrada e a saída, "disse Connor Parde, autor do artigo e doutorando em cognição e neurociência. "Portanto, temos que focar nossa pesquisa na produção."
Para demonstrar as capacidades do algoritmo, a equipe usou caricaturas, versões extremas de uma identidade, que Y. Ivette Colón BS'17, um assistente de pesquisa e outro autor do estudo, descrito como "a versão mais 'você' de você".
"As caricaturas exageram sua identidade única em relação à de todos os outros, "O'Toole disse." De certa forma, isso é exatamente o que o algoritmo deseja fazer:destacar o que o torna diferente de todos os outros. "
Para surpresa dos pesquisadores, o DCNN realmente se destacou em conectar caricaturas às suas identidades correspondentes.
"Dadas essas imagens distorcidas com recursos fora de proporção, a rede entende que essas são as mesmas características que tornam uma identidade distinta e conecta corretamente a caricatura à identidade, "O'Toole disse." Ele vê essa identidade distinta de maneiras que nenhum de nós previu. "
Então, conforme os sistemas de computador começam a se igualar - e, Em ocasião, ultrapassar - o desempenho de reconhecimento facial de humanos, a base do algoritmo para classificar as informações poderia ser semelhante ao que o cérebro humano faz?
Descobrir, é necessária uma melhor compreensão do córtex visual humano. As informações mais detalhadas disponíveis são por meio de imagens obtidas por meio de ressonância magnética funcional, que pode ser usado para criar imagens da atividade do cérebro enquanto um sujeito está realizando uma tarefa mental. Hill descreveu o fMRI como "muito barulhento" para ver os pequenos detalhes.
"A resolução de um fMRI está longe de ser o que você precisa para ver o que está acontecendo com a atividade de neurônios individuais, "Disse Hill." Com essas redes, você tem todos os cálculos. Isso nos permite perguntar:as identidades poderiam ser organizadas dessa forma em nossas mentes? "
O laboratório de O'Toole abordará essa questão a seguir, graças a uma concessão recente de mais de US $ 1,5 milhão ao longo de quatro anos do National Eye Institute dos National Institutes of Health.
"O NIH nos encarregou da questão biológica:quão relevantes são esses resultados para a percepção visual humana?" ela disse. "Temos quatro anos de financiamento para encontrar uma resposta."