p Os pesquisadores do MIT desenvolveram um "analisador semântico" que aprende por meio da observação para imitar mais de perto o processo de aquisição de linguagem de uma criança, o que poderia estender muito as capacidades da computação. Crédito:Massachusetts Institute of Technology
p As crianças aprendem a linguagem observando seu ambiente, ouvindo as pessoas ao seu redor, e conectando os pontos entre o que eles veem e ouvem. Entre outras coisas, isso ajuda as crianças a estabelecer a ordem das palavras em sua língua, como onde os sujeitos e os verbos se enquadram em uma frase. p Na computação, aprender a linguagem é tarefa dos analisadores sintáticos e semânticos. Esses sistemas são treinados em sentenças anotadas por humanos que descrevem a estrutura e o significado por trás das palavras. Analisadores estão se tornando cada vez mais importantes para pesquisas na web, consulta de banco de dados em linguagem natural, e sistemas de reconhecimento de voz, como Alexa e Siri. Breve, eles também podem ser usados para robótica doméstica.
p Mas reunir os dados de anotação pode ser demorado e difícil para linguagens menos comuns. Adicionalmente, humanos nem sempre concordam com as anotações, e as anotações em si podem não refletir com precisão como as pessoas falam naturalmente.
p Em um artigo apresentado na conferência Métodos Empíricos em Processamento de Linguagem Natural desta semana, Os pesquisadores do MIT descrevem um analisador que aprende por meio da observação para imitar mais de perto o processo de aquisição da linguagem de uma criança, o que poderia estender muito as capacidades do analisador. Para aprender a estrutura da linguagem, o analisador observa os vídeos legendados, sem nenhuma outra informação, e associa as palavras a objetos e ações registrados. Dada uma nova frase, o analisador pode então usar o que aprendeu sobre a estrutura da linguagem para prever com precisão o significado de uma frase, sem o vídeo.
p Esta abordagem "fracamente supervisionada" - o que significa que requer dados de treinamento limitados - imita como as crianças podem observar o mundo ao seu redor e aprender a linguagem, sem ninguém fornecer contexto direto. A abordagem pode expandir os tipos de dados e reduzir o esforço necessário para treinar analisadores, de acordo com os pesquisadores. Algumas frases anotadas diretamente, por exemplo, pode ser combinado com muitos vídeos legendados, que são mais fáceis de encontrar, para melhorar o desempenho.
p No futuro, o analisador pode ser usado para melhorar a interação natural entre humanos e robôs pessoais. Um robô equipado com o analisador, por exemplo, poderia observar constantemente seu ambiente para reforçar sua compreensão dos comandos falados, inclusive quando as frases faladas não são totalmente gramaticais ou claras. "As pessoas falam umas com as outras em frases parciais, pensamentos corridos, e linguagem confusa. Você quer um robô em sua casa que se adapte à sua maneira particular de falar ... e ainda descubra o que eles significam, "diz o co-autor Andrei Barbu, pesquisador do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e do Centro de Cérebros, Minds, and Machines (CBMM) dentro do McGovern Institute do MIT.
p O analisador também pode ajudar os pesquisadores a entender melhor como as crianças aprendem a linguagem. "Uma criança tem acesso a redundantes, informações complementares de diferentes modalidades, incluindo ouvir pais e irmãos falando sobre o mundo, bem como informações táteis e visuais, [que o ajudam] a entender o mundo, "diz o co-autor Boris Katz, um cientista pesquisador principal e chefe do Grupo InfoLab em CSAIL. "É um quebra-cabeça incrível, para processar toda essa entrada sensorial simultânea. Este trabalho faz parte de uma parte maior para entender como esse tipo de aprendizado acontece no mundo. "
p Os co-autores do artigo são:primeira autora Candace Ross, um aluno de pós-graduação no Departamento de Engenharia Elétrica e Ciência da Computação e CSAIL, e pesquisador do CBMM; Yevgeni Berzak Ph.D. '17, um pós-doutorado no Grupo de Psicolinguística Computacional no Departamento de Cérebro e Ciências Cognitivas; e o estudante de pós-graduação do CSAIL Battushig Myanganbayar.
p
Aprendiz visual
p Por seu trabalho, os pesquisadores combinaram um analisador semântico com um componente de visão computacional treinado em objeto, humano, e reconhecimento de atividade em vídeo. Os analisadores semânticos são geralmente treinados em frases anotadas com código que atribui significado a cada palavra e às relações entre as palavras. Alguns foram treinados em imagens estáticas ou simulações de computador.
p O novo analisador é o primeiro a ser treinado com vídeo, Ross diz. Em parte, os vídeos são mais úteis para reduzir a ambiguidade. Se o analisador não tiver certeza sobre, dizer, uma ação ou objeto em uma frase, pode fazer referência ao vídeo para esclarecer as coisas. "Existem componentes temporais - objetos interagindo entre si e com pessoas - e propriedades de alto nível que você não veria em uma imagem estática ou apenas na linguagem, "Ross diz.
p Os pesquisadores compilaram um conjunto de dados de cerca de 400 vídeos retratando pessoas realizando uma série de ações, incluindo pegar um objeto ou colocá-lo no chão, e caminhando em direção a um objeto. Os participantes da plataforma de crowdsourcing Mechanical Turk forneceram 1, 200 legendas para esses vídeos. Eles reservaram 840 exemplos de legendas de vídeo para treinamento e ajuste, e usado 360 para teste. Uma vantagem de usar a análise baseada em visão é "você não precisa de tantos dados - embora se você tivesse [os dados], você pode escalar para grandes conjuntos de dados, "Barbu diz.
p Em treinamento, os pesquisadores deram ao analisador o objetivo de determinar se uma frase descreve com precisão um determinado vídeo. Eles alimentaram o analisador com um vídeo e uma legenda correspondente. O analisador extrai possíveis significados da legenda como expressões lógicas matemáticas. A sentença, "A mulher está pegando uma maçã, " por exemplo, pode ser expresso como:λxy. mulher x, pick_up x y, apple y.
p Essas expressões e o vídeo são inseridos no algoritmo de visão por computador, chamado de "Rastreador de frases, "desenvolvido por Barbu e outros pesquisadores. O algoritmo analisa cada quadro de vídeo para rastrear como objetos e pessoas se transformam ao longo do tempo, para determinar se as ações estão sendo executadas conforme descrito. Desta maneira, it determines if the meaning is possibly true of the video.
p
Connecting the dots
p The expression with the most closely matching representations for objects, humans, and actions becomes the most likely meaning of the caption. The expression, initially, may refer to many different objects and actions in the video, but the set of possible meanings serves as a training signal that helps the parser continuously winnow down possibilities. "By assuming that all of the sentences must follow the same rules, that they all come from the same language, and seeing many captioned videos, you can narrow down the meanings further, " Barbu says.
p Resumidamente, the parser learns through passive observation:To determine if a caption is true of a video, the parser by necessity must identify the highest probability meaning of the caption. "The only way to figure out if the sentence is true of a video [is] to go through this intermediate step of, 'What does the sentence mean?' De outra forma, you have no idea how to connect the two, " Barbu explains. "We don't give the system the meaning for the sentence. We say, 'There's a sentence and a video. The sentence has to be true of the video. Figure out some intermediate representation that makes it true of the video.'"
p The training produces a syntactic and semantic grammar for the words it's learned. Given a new sentence, the parser no longer requires videos, but leverages its grammar and lexicon to determine sentence structure and meaning.
p Em última análise, this process is learning "as if you're a kid, " Barbu says. "You see world around you and hear people speaking to learn meaning. One day, I can give you a sentence and ask what it means and, even without a visual, you know the meaning."
p In future work, the researchers are interested in modeling interactions, not just passive observations. "Children interact with the environment as they're learning. Our idea is to have a model that would also use perception to learn, " Ross says.
p This work was supported, em parte, by the CBMM, the National Science Foundation, a Ford Foundation Graduate Research Fellowship, the Toyota Research Institute, and the MIT-IBM Brain-Inspired Multimedia Comprehension project. p
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.