• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • O modelo computacional de processamento facial pode revelar como o cérebro produz representações visuais ricamente detalhadas tão rapidamente

    Os cientistas cognitivos do MIT desenvolveram um modelo computacional de reconhecimento facial que realiza uma série de cálculos que revertem as etapas que um programa de computação gráfica usaria para gerar uma representação 2D de um rosto. Os cientistas cognitivos do MIT desenvolveram um modelo computacional de reconhecimento facial que executa uma série de cálculos que revertem as etapas que um programa de computação gráfica usaria para gerar uma representação 2D de uma face. Crédito:MIT

    Quando abrimos nossos olhos, imediatamente vemos o que nos rodeia em grande detalhe. Como o cérebro é capaz de formar essas representações ricamente detalhadas do mundo com tanta rapidez é um dos maiores quebra-cabeças não resolvidos no estudo da visão.

    Cientistas que estudam o cérebro tentaram replicar esse fenômeno usando modelos de visão de computador, Mas por enquanto, os modelos principais realizam apenas tarefas muito mais simples, como escolher um objeto ou um rosto contra um fundo desordenado. Agora, uma equipe liderada por cientistas cognitivos do MIT produziu um modelo de computador que captura a capacidade do sistema visual humano de gerar rapidamente uma descrição detalhada da cena a partir de uma imagem, e oferece algumas dicas sobre como o cérebro consegue isso.

    "O que estávamos tentando fazer neste trabalho é explicar como a percepção pode ser muito mais rica do que apenas anexar rótulos semânticos em partes de uma imagem, e explorar a questão de como vemos todo o mundo físico, "diz Josh Tenenbaum, professor de ciência cognitiva computacional e membro do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) e do Center for Brains, Minds, e Máquinas (CBMM).

    O novo modelo postula que quando o cérebro recebe dados visuais, ele executa rapidamente uma série de cálculos que revertem as etapas que um programa de computação gráfica usaria para gerar uma representação 2-D de um rosto ou outro objeto. Este tipo de modelo, conhecido como gráfico inverso eficiente (EIG), também se correlaciona bem com gravações elétricas de regiões seletivas de rosto nos cérebros de primatas não humanos, sugerindo que o sistema visual dos primatas pode ser organizado da mesma maneira que o modelo de computador, dizem os pesquisadores.

    Ilker Yildirim, um ex-pós-doutorado do MIT que agora é professor assistente de psicologia na Universidade de Yale, é o autor principal do artigo, que aparece hoje em Avanços da Ciência . Tenenbaum e Winrich Freiwald, professor de neurociências e comportamento na Rockefeller University, são os autores seniores do estudo. Mario Belledonne, um estudante de graduação em Yale, também é um autor.

    Gráficos inversos

    Décadas de pesquisas sobre o sistema visual do cérebro estudaram, Em grande detalhe, como a entrada de luz na retina é transformada em cenas coesas. Esse entendimento ajudou pesquisadores de inteligência artificial a desenvolver modelos de computador que podem replicar aspectos deste sistema, como reconhecer rostos ou outros objetos.

    "A visão é o aspecto funcional do cérebro que melhor entendemos, em humanos e outros animais, "Tenenbaum diz." E a visão computacional é uma das áreas de IA de maior sucesso neste momento. Presumimos que as máquinas agora podem olhar fotos e reconhecer rostos muito bem, e detectar outros tipos de objetos. "

    Contudo, mesmo esses sofisticados sistemas de inteligência artificial não chegam perto do que o sistema visual humano pode fazer, Yildirim diz.

    "Nossos cérebros não detectam apenas que há um objeto ali, ou reconhecer e colocar um rótulo em algo, "diz ele." Vemos todas as formas, a geometria, as superfícies, as texturas. Vemos um mundo muito rico. "

    Mais de um século atrás, o médico, físico, e o filósofo Hermann von Helmholtz teorizou que o cérebro cria essas ricas representações revertendo o processo de formação da imagem. Ele hipotetizou que o sistema visual inclui um gerador de imagem que seria usado, por exemplo, para produzir os rostos que vemos durante os sonhos. Rodar este gerador ao contrário permitiria que o cérebro trabalhasse de trás para frente a partir da imagem e inferisse que tipo de rosto ou outro objeto produziria aquela imagem, dizem os pesquisadores.

    Contudo, a questão permanecia:como o cérebro poderia realizar esse processo, conhecido como gráfico inverso, tão rápido? Os cientistas da computação tentaram criar algoritmos que pudessem realizar essa façanha, mas os melhores sistemas anteriores requerem muitos ciclos de processamento iterativo, levando muito mais tempo do que 100 a 200 milissegundos que o cérebro requer para criar uma representação visual detalhada do que você está vendo. Os neurocientistas acreditam que a percepção no cérebro pode ocorrer tão rapidamente porque é implementada em uma passagem principalmente por feedforward através de várias camadas de processamento neural organizadas hierarquicamente.

    A equipe liderada pelo MIT começou a construir um tipo especial de modelo de rede neural profunda para mostrar como uma hierarquia neural pode inferir rapidamente as características subjacentes de uma cena - neste caso, um rosto específico. Em contraste com as redes neurais profundas padrão usadas na visão computacional, que são treinados a partir de dados rotulados que indicam a classe de um objeto na imagem, a rede dos pesquisadores é treinada a partir de um modelo que reflete as representações internas do cérebro de como podem ser as cenas com rostos.

    Seu modelo, portanto, aprende a inverter as etapas executadas por um programa de computação gráfica para gerar faces. Esses programas gráficos começam com uma representação tridimensional de uma face individual e a convertem em uma imagem bidimensional, visto de um determinado ponto de vista. Essas imagens podem ser colocadas em uma imagem de fundo arbitrária. Os pesquisadores teorizam que o sistema visual do cérebro pode fazer algo semelhante quando você sonha ou evoca uma imagem mental do rosto de alguém.

    Os pesquisadores treinaram sua rede neural profunda para executar essas etapas ao contrário, ou seja, começa com a imagem 2-D e adiciona recursos como textura, curvatura, e iluminação, para criar o que os pesquisadores chamam de representação "2.5D". Essas imagens 2.5D especificam a forma e a cor do rosto de um determinado ponto de vista. Esses são então convertidos em representações 3-D, que não dependem do ponto de vista.

    "O modelo fornece uma descrição em nível de sistema do processamento de rostos no cérebro, permitindo que ele veja uma imagem e, por fim, chegue a um objeto 3-D, que inclui representações de forma e textura, através deste importante estágio intermediário de uma imagem 2.5D, "Diz Yildirim.

    Desempenho do modelo

    Os pesquisadores descobriram que seu modelo é consistente com os dados obtidos através do estudo de certas regiões no cérebro de macacos. Em um estudo publicado em 2010, Freiwald e Doris Tsao, da Caltech, registraram a atividade dos neurônios nessas regiões e analisaram como eles responderam a 25 faces diferentes, visto de sete pontos de vista diferentes. Esse estudo revelou três estágios de processamento facial de nível superior, que a equipe do MIT agora hipotetiza corresponder a três estágios de seu modelo gráfico inverso:aproximadamente, um estágio dependente do ponto de vista 2.5D; um estágio que liga de 2,5 a 3-D; e um 3-D, estágio invariante do ponto de vista da representação facial.

    "O que mostramos é que as propriedades de resposta quantitativa e qualitativa desses três níveis do cérebro parecem se encaixar muito bem com os três níveis superiores da rede que construímos, "Tenenbaum diz.

    Os pesquisadores também compararam o desempenho do modelo ao de humanos em uma tarefa que envolve o reconhecimento de rostos de diferentes pontos de vista. Esta tarefa se torna mais difícil quando os pesquisadores alteram os rostos, removendo a textura do rosto, preservando sua forma, ou distorcendo a forma enquanto preserva a textura relativa. O desempenho do novo modelo era muito mais semelhante ao dos humanos do que os modelos de computador usados ​​em softwares de reconhecimento facial de última geração, evidências adicionais de que este modelo pode estar mais perto de imitar o que acontece no sistema visual humano.

    Os pesquisadores agora planejam continuar testando a abordagem de modelagem em imagens adicionais, incluindo objetos que não são rostos, para investigar se os gráficos inversos também podem explicar como o cérebro percebe outros tipos de cenas. Além disso, eles acreditam que a adaptação dessa abordagem à visão computacional pode levar a sistemas de IA de melhor desempenho.

    "Se pudermos mostrar evidências de que esses modelos podem corresponder a como o cérebro funciona, este trabalho pode levar os pesquisadores de visão computacional a levar mais a sério e investir mais recursos de engenharia nesta abordagem gráfica inversa à percepção, "Tenenbaum diz." O cérebro ainda é o padrão ouro para qualquer tipo de máquina que vê o mundo de forma rica e rápida. "


    © Ciência https://pt.scienceaq.com