Um modelo inventado pelo MIT demonstra uma compreensão de algumas "físicas intuitivas" básicas, registrando "surpresa" quando os objetos em simulações se movem de maneiras inesperadas, como rolar atrás de uma parede e não reaparecer do outro lado. Crédito:Christine Daniloff, MIT
Os humanos têm uma compreensão precoce das leis da realidade física. Bebês, por exemplo, manter expectativas de como os objetos devem se mover e interagir uns com os outros, e ficarão surpresos quando fizerem algo inesperado, como desaparecer em um truque mágico de prestidigitação.
Agora, os pesquisadores do MIT desenvolveram um modelo que demonstra uma compreensão de algumas "físicas intuitivas" básicas sobre como os objetos devem se comportar. O modelo pode ser usado para ajudar a construir uma inteligência artificial mais inteligente e, por sua vez, fornecer informações para ajudar os cientistas a compreender a cognição infantil.
O modelo, chamado ADEPT, observa objetos se movendo em torno de uma cena e faz previsões sobre como os objetos devem se comportar, com base em sua física subjacente. Enquanto rastreia os objetos, o modelo emite um sinal em cada quadro de vídeo que se correlaciona a um nível de "surpresa" - quanto maior o sinal, quanto maior a surpresa. Se um objeto não corresponder dramaticamente às previsões do modelo - por, dizer, desaparecendo ou se teletransportando pela cena - seus níveis de surpresa aumentarão.
Em resposta a vídeos que mostram objetos se movendo de maneiras fisicamente plausíveis e implausíveis, o modelo registrou níveis de surpresa semelhantes aos relatados por humanos que assistiram aos mesmos vídeos.
"Quando os bebês completam 3 meses de idade, eles têm alguma noção de que os objetos não entram e saem da existência, e não podem se mover um através do outro ou se teletransportar, "diz o primeiro autor Kevin A. Smith, um cientista pesquisador do Departamento de Ciências do Cérebro e Cognitivas (BCS) e membro do Center for Brains, Minds, e Máquinas (CBMM). "Queríamos capturar e formalizar esse conhecimento para construir a cognição infantil em agentes de inteligência artificial. Agora estamos nos aproximando da aparência humana na forma como os modelos podem separar cenas básicas implausíveis ou plausíveis."
Juntando-se a Smith no artigo estão os co-autores Lingjie Mei, um graduando no Departamento de Engenharia Elétrica e Ciência da Computação, e o cientista pesquisador da BCS, Shunyu Yao; Jiajun Wu Ph.D. '19; A investigadora do CBMM, Elizabeth Spelke; Joshua B. Tenenbaum, um professor de ciência cognitiva computacional, e pesquisador em CBMM, BCS, e o Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e o investigador do CBMM, Tomer D. Ullman, Ph.D. '15.
Realidades incompatíveis
ADEPT depende de dois módulos:um módulo de "gráficos inversos" que captura representações de objetos a partir de imagens brutas, e um "motor de física" que prevê as representações futuras dos objetos a partir de uma distribuição de possibilidades.
Gráficos inversos basicamente extraem informações de objetos, como forma, pose, e velocidade - a partir de entradas de pixels. Este módulo captura quadros de vídeo como imagens e usa gráficos inversos para extrair essas informações de objetos na cena. Mas não se preocupa com os detalhes. ADEPT requer apenas alguma geometria aproximada de cada forma para funcionar. Em parte, isso ajuda o modelo a generalizar previsões para novos objetos, não apenas aqueles em que é treinado.
"Não importa se um objeto é um retângulo ou círculo, ou se é um caminhão ou um pato. ADEPT apenas vê que há um objeto com alguma posição, movendo-se de uma certa maneira, para fazer previsões, "Smith diz." Da mesma forma, crianças pequenas também parecem não se importar muito com algumas propriedades, como a forma, ao fazer previsões físicas. "
Essas descrições grosseiras de objetos são alimentadas em um motor de física - software que simula o comportamento de sistemas físicos, como corpos rígidos ou fluídicos, e é comumente usado para filmes, jogos de vídeo, e computação gráfica. O motor de física dos pesquisadores "empurra os objetos para frente no tempo, "Diz Ullman. Isso cria uma série de previsões, ou uma "distribuição de crenças, "para saber o que acontecerá com esses objetos no próximo quadro.
Próximo, o modelo observa o próximo quadro real. Mais uma vez, captura as representações do objeto, que ele então alinha a uma das representações de objeto previstas de sua distribuição de crença. Se o objeto obedecesse às leis da física, não haverá muita incompatibilidade entre as duas representações. Por outro lado, se o objeto fez algo implausível - digamos, ele desapareceu de trás de uma parede - haverá uma grande incompatibilidade.
ADEPT então faz uma nova amostragem de sua distribuição de crenças e observa uma probabilidade muito baixa de que o objeto simplesmente tenha desaparecido. Se houver uma probabilidade baixa o suficiente, o modelo registra grande "surpresa" como um pico de sinal. Basicamente, surpresa é inversamente proporcional à probabilidade de ocorrência de um evento. Se a probabilidade for muito baixa, o pico do sinal é muito alto.
"Se um objeto ficar atrás de uma parede, seu mecanismo de física mantém a crença de que o objeto ainda está atrás da parede. Se a parede cair, e não há nada lá, há uma incompatibilidade, "Ullman diz." Então, o modelo diz, 'Há um objeto na minha previsão, mas não vejo nada. A única explicação é que ele desapareceu, então isso é surpreendente. '"
Violação de expectativas
Na psicologia do desenvolvimento, pesquisadores realizam testes de "violação de expectativas", nos quais são mostrados pares de vídeos aos bebês. Um vídeo mostra um evento plausível, com objetos aderindo às suas noções esperadas de como o mundo funciona. O outro vídeo é o mesmo em todos os sentidos, exceto os objetos que se comportam de uma maneira que viola as expectativas de alguma forma. Os pesquisadores costumam usar esses testes para medir por quanto tempo o bebê olha para uma cena depois que uma ação implausível ocorreu. Quanto mais eles olham, pesquisadores levantam a hipótese, mais eles podem ficar surpresos ou interessados no que acabou de acontecer.
Para seus experimentos, os pesquisadores criaram vários cenários com base na pesquisa clássica de desenvolvimento para examinar o conhecimento do objeto central do modelo. Eles empregaram 60 adultos para assistir a 64 vídeos de cenários conhecidos fisicamente plausíveis e fisicamente implausíveis. Objetos, por exemplo, vai se mover para trás de uma parede e, quando a parede cair, eles ainda estarão lá ou irão embora. Os participantes avaliaram sua surpresa em vários momentos em uma escala crescente de 0 a 100. Então, os pesquisadores mostraram os mesmos vídeos para a modelo. Especificamente, os cenários examinaram a capacidade do modelo de capturar noções de permanência (objetos não aparecem ou desaparecem sem motivo), continuidade (objetos se movem ao longo de trajetórias conectadas), e solidez (os objetos não podem se mover uns através dos outros).
ADEPT combinou humanos particularmente bem em vídeos onde os objetos se moviam atrás das paredes e desapareciam quando a parede era removida. Interessantemente, o modelo também combinou níveis de surpresa em vídeos que os humanos não ficaram surpresos, mas talvez devessem ter ficado. Por exemplo, em um vídeo onde um objeto se movendo a uma certa velocidade desaparece atrás de uma parede e imediatamente sai do outro lado, o objeto pode ter acelerado dramaticamente quando foi para trás da parede ou pode ter se teletransportado para o outro lado. Em geral, humanos e ADEPT estavam menos certos sobre se aquele evento era ou não surpreendente. Os pesquisadores também descobriram que redes neurais tradicionais que aprendem física a partir de observações - mas não representam objetos explicitamente - são muito menos precisas na diferenciação de cenas surpreendentes de não surpreendentes, e suas escolhas para cenas surpreendentes nem sempre combinam com os humanos.
Próximo, os pesquisadores planejam se aprofundar em como os bebês observam e aprendem sobre o mundo, com o objetivo de incorporar quaisquer novas descobertas em seu modelo. Estudos, por exemplo, mostram que bebês até uma certa idade não ficam muito surpresos quando os objetos mudam completamente de algumas maneiras, como se um caminhão desaparecesse atrás de uma parede, mas ressurge como um pato.
"Queremos ver o que mais precisa ser construído para entender o mundo mais como crianças, e formalizar o que sabemos sobre psicologia para construir melhores agentes de IA, "Smith diz.
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.