p Um exemplo do conjunto de dados MovieGraphs, cena do filme Forrest Gump. Crédito:Universidade de Toronto
p Se o seu amigo esta triste, você pode dizer algo para ajudar a animá-los. Se você pedir ao seu colega para fazer café, eles sabem as etapas para concluir esta tarefa. p Mas como robôs com inteligência artificial, ou AIs, aprender a se comportar da mesma maneira que os humanos?
p Pesquisadores da Universidade de Toronto estão apresentando novas abordagens para IAs socialmente inteligentes, na conferência Computer Vision and Pattern Recognition (CVPR), o principal evento anual de visão computacional desta semana em Salt Lake City, Utah.
p
Como treinamos um robô para se comportar?
p Em seu artigo, MovieGraphs:Towards Understanding Human-Centric Situations from Videos, Paul Vicol, um Ph.D. estudante de ciência da computação, Makarand Tapaswi, um pesquisador pós-doutorado, Lluis Castrejón, um mestrado em ciência da computação da U of T que agora é Ph.D. estudante do Instituto de Algoritmos de Aprendizagem da Universidade de Montreal, e Sanja Fidler, um professor assistente no departamento de ciências matemáticas e computacionais da Universidade de T Mississauga e no departamento de graduação tri-campus de ciência da computação, acumulou um conjunto de dados de clipes de vídeo anotados de mais de 50 filmes.
p "O MovieGraphs é um passo em direção à próxima geração de agentes cognitivos que podem raciocinar sobre como as pessoas se sentem e sobre as motivações de seus comportamentos, "diz Vicol." Nosso objetivo é permitir que as máquinas se comportem de forma adequada em situações sociais. Nossos gráficos capturam muitas propriedades de alto nível de situações humanas que não foram exploradas em trabalhos anteriores. "
p Seu conjunto de dados se concentra em filmes no drama, romance, e gêneros de comédia, como Forrest Gump e Titanic, e segue os personagens ao longo do tempo. Eles não incluem filmes de super-heróis como Thor porque eles não são muito representativos da experiência humana.
p “A ideia era usar filmes como proxy para o mundo real, "diz Vicol.
p Cada clipe, ele diz, está associado a um gráfico que captura detalhes ricos sobre o que está acontecendo no clipe:quais personagens estão presentes, seus relacionamentos, interações entre si, juntamente com os motivos pelos quais eles estão interagindo, e suas emoções.
p Vicol explica que o conjunto de dados mostra, por exemplo, não só que duas pessoas estão discutindo, mas o que eles estão discutindo, e as razões pelas quais eles estão discutindo, que vêm tanto de pistas visuais quanto de diálogos. A equipe criou sua própria ferramenta para permitir a anotação, que foi feito por um único anotador para cada filme.
p "Todos os clipes em um filme são anotados consecutivamente, e todo o gráfico associado a cada clipe é criado por uma pessoa, que nos dá uma estrutura coerente em cada gráfico, e entre os gráficos ao longo do tempo, " ele diz.
p Com seu conjunto de dados de mais de 7, 500 clipes, os pesquisadores apresentam três tarefas, explica Vicol. O primeiro é a recuperação de vídeo, com base no fato de que os gráficos são baseados nos vídeos.
p "Então, se você pesquisar usando um gráfico que diz que Forrest Gump está discutindo com outra pessoa, e que as emoções dos personagens são tristes e raivosas, então você pode encontrar o clipe, " ele diz.
p A segunda é a ordem de interação, que se refere a determinar a ordem mais plausível de interações de personagens. Por exemplo, ele explica se um personagem desse um presente a outro personagem, a pessoa que recebia o presente diria "obrigado".
p "Você normalmente não diria 'obrigado, 'e então receba um presente. É uma forma de avaliar se estamos capturando a semântica das interações. "
p Sua tarefa final é a previsão da razão com base no contexto social.
p "Se nos concentrarmos em uma interação, podemos determinar a motivação por trás dessa interação e por que ela ocorreu? Então, isso é basicamente tentar prever quando alguém grita com outra pessoa, a frase real que explicaria o porquê, " ele diz
p Tapaswi diz que o objetivo final é aprender o comportamento.
p "Imagine, por exemplo, em um clipe, a máquina basicamente incorpora Jenny [do filme Forrest Gump]. O que é uma ação apropriada para Jenny? Em uma cena, é para encorajar Forrest a fugir dos valentões. Então, estamos tentando fazer com que as máquinas aprendam o comportamento apropriado. "
p "Adequado no sentido que os filmes permitem, claro."
p Captura de tela:MIT CSAIL / VirtualHome:Simulação de atividades domésticas por meio de programas
p
Como um robô aprende as tarefas domésticas?
p Liderado pelo professor assistente do Instituto de Tecnologia de Massachusetts Antonio Torralba e U of T's Fidler, VirtualHome:Simulação de atividades domésticas por meio de programas, está treinando um agente humano virtual usando linguagem natural e uma casa virtual, para que o robô possa aprender não apenas através da linguagem, mas vendo, explica o aluno de mestrado em ciência da computação da U of T, Jiaman Li, um autor contribuinte com U of T Ph.D. estudante de ciência da computação Wilson Tingwu Wang.
p Li explica que a ação de alto nível pode ser "trabalhar no computador" e a descrição inclui:ligar o computador, sentado na frente dele, digitando no teclado e segurando o mouse para rolar.
p "Então, se contarmos a um humano esta descrição, 'trabalhar no computador, 'o humano pode realizar essas ações assim como as descrições. Mas se apenas contarmos aos robôs esta descrição, como eles fazem isso exatamente? O robô não tem esse bom senso. Precisa de etapas muito claras, ou programas. "
p Porque não existe um conjunto de dados que inclua todo esse conhecimento, ela diz que os pesquisadores construíram um usando uma interface da web para reunir os programas, que fornecem o nome da ação e a descrição.
p "Em seguida, construímos um simulador para termos um humano virtual em uma casa virtual que pode realizar essas tarefas, " ela diz.
p Por sua parte no projeto em andamento, Li está usando o aprendizado profundo - um ramo do aprendizado de máquina que treina computadores para aprender - para gerar automaticamente programas de texto ou vídeo para esses programas.
p Contudo, não é uma tarefa fácil realizar cada ação no simulador, disse Li, como o conjunto de dados resultou em mais de 5, 000 programas.
p "Simular tudo o que se faz em uma casa é extremamente difícil, e damos um passo nesse sentido implementando as ações atômicas mais frequentes, como caminhar, sentar, e pegar, "diz Fidler.
p "Esperamos que nosso simulador seja usado para treinar tarefas complexas de robôs em um ambiente virtual, antes de ir para o mundo real. "
p MovieGraphs foi apoiado em parte pelo Conselho de Pesquisa de Ciências Naturais e Engenharia do Canadá (NSERC) e VirtualHome é apoiado em parte pela Rede NSERC COmputing Hardware for Emerging Intelligent Sensing Applications (COHESA).