p Aude Oliva (direita), um dos principais cientistas pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial e Dan Gutfreund (à esquerda), um investigador principal no MIT – IBM Watson AI Laboratory e um membro da equipe da IBM Research, são os principais investigadores do conjunto de dados Moments in Time, um dos projetos relacionados a algoritmos de IA financiado pelo MIT – IBM Watson AI Laboratory. Crédito:John Mottern / Serviço de fotos de destaque para IBM
p Uma pessoa assistindo a vídeos que mostram coisas se abrindo - uma porta, um livro, cortinas, uma flor desabrochando, um cachorro bocejando - compreende facilmente que o mesmo tipo de ação é descrito em cada clipe. p "Os modelos de computador falham miseravelmente em identificar essas coisas. Como os humanos fazem isso tão facilmente?" pergunta Dan Gutfreund, investigador principal do Laboratório de AI do MIT-IBM Watson e membro da equipe da IBM Research. "Processamos informações conforme elas acontecem no espaço e no tempo. Como podemos ensinar modelos de computador a fazer isso?"
p Essas são as grandes questões por trás de um dos novos projetos em andamento no Laboratório de IA do MIT-IBM Watson, uma colaboração para pesquisas nas fronteiras da inteligência artificial. Lançado no outono passado, o laboratório conecta pesquisadores do MIT e da IBM para trabalhar em algoritmos de IA, a aplicação de IA às indústrias, a física da IA, e maneiras de usar IA para promover a prosperidade compartilhada.
p O conjunto de dados Moments in Time é um dos projetos relacionados a algoritmos de IA financiado pelo laboratório. É um par de Gutfreund com Aude Oliva, um cientista pesquisador principal do Laboratório de Ciência da Computação e Inteligência Artificial do MIT, como os principais investigadores do projeto. Moments in Time é construído em uma coleção de 1 milhão de vídeos anotados de eventos dinâmicos que se desenrolam em três segundos. Gutfreund e Oliva, que também é o diretor executivo do MIT no MIT-IBM Watson AI Lab, estão usando esses clipes para abordar uma das próximas grandes etapas da IA:ensinar as máquinas a reconhecer ações.
p
Aprendendo com cenas dinâmicas
p O objetivo é fornecer algoritmos de aprendizagem profunda com grande cobertura de um ecossistema de momentos visuais e auditivos que podem permitir que os modelos aprendam informações que não são necessariamente ensinadas de forma supervisionada e generalizem para novas situações e tarefas, dizem os pesquisadores.
p "À medida que crescemos, nós olhamos ao redor, vemos pessoas e objetos se movendo, ouvimos sons que pessoas e objetos fazem. Temos muitas experiências visuais e auditivas. Um sistema de IA precisa aprender da mesma maneira e ser alimentado com vídeos e informações dinâmicas, "Oliva diz.
p Para cada categoria de ação no conjunto de dados, como cozinhar, correndo, ou abrindo, há mais de 2, 000 vídeos. Os clipes curtos permitem que os modelos de computador aprendam melhor a diversidade de significados em torno de ações e eventos específicos.
p "Este conjunto de dados pode servir como um novo desafio para desenvolver modelos de IA que se adaptam ao nível de complexidade e raciocínio abstrato que um ser humano processa diariamente, "Oliva acrescenta, descrevendo os fatores envolvidos. Os eventos podem incluir pessoas, objetos, animais, e natureza. Eles podem ser simétricos no tempo - por exemplo, abrir significa fechar na ordem inversa. E eles podem ser transitórios ou sustentados.
p Oliva e Gutfreund, junto com outros pesquisadores do MIT e IBM, reuniu-se semanalmente por mais de um ano para resolver problemas técnicos, por exemplo, como escolher as categorias de ação para anotações, onde encontrar os vídeos, e como reunir uma ampla gama de modo que o sistema de IA aprenda sem preconceitos. A equipe também desenvolveu modelos de aprendizado de máquina, que foram então usados para dimensionar a coleta de dados. “Nos alinhamos muito bem porque temos o mesmo entusiasmo e o mesmo objetivo, "diz Oliva.
p
Aumentando a inteligência humana
p Um dos principais objetivos do laboratório é o desenvolvimento de sistemas de IA que vão além das tarefas especializadas para resolver problemas mais complexos e se beneficiar de um aprendizado robusto e contínuo. “Estamos buscando novos algoritmos que não só aproveitem o big data quando disponível, mas também aprender com dados limitados para aumentar a inteligência humana, "diz Sophie V. Vandebroek, diretor de operações da IBM Research, sobre a colaboração.
p Além de unir os pontos fortes técnicos e científicos exclusivos de cada organização, A IBM também está trazendo aos pesquisadores do MIT um influxo de recursos, sinalizado por seu investimento de $ 240 milhões em esforços de IA nos próximos 10 anos, dedicado ao Laboratório de IA do MIT-IBM Watson. E o alinhamento do interesse MIT-IBM em IA está se mostrando benéfico, de acordo com Oliva.
p "A IBM veio para o MIT com interesse em desenvolver novas idéias para um sistema de inteligência artificial baseado na visão. Propus um projeto onde construiríamos conjuntos de dados para alimentar o modelo sobre o mundo. Isso não tinha sido feito antes neste nível. um empreendimento novo. Agora alcançamos a marca de 1 milhão de vídeos para treinamento de IA visual, e as pessoas podem acessar nosso site, baixe o conjunto de dados e nossos modelos de computador de aprendizagem profunda, que foram ensinados a reconhecer ações. "
p Os resultados qualitativos até agora mostraram que os modelos podem reconhecer bem os momentos em que a ação é bem enquadrada e de perto, mas eles falham quando a categoria é refinada ou há confusão de fundo, entre outras coisas. Oliva diz que pesquisadores do MIT e da IBM enviaram um artigo que descreve o desempenho de modelos de rede neural treinados no conjunto de dados, que foi aprofundado por pontos de vista compartilhados. "Os pesquisadores da IBM nos deram ideias para adicionar categorias de ação para ter mais riqueza em áreas como saúde e esportes. Eles ampliaram nossa visão. Eles nos deram ideias sobre como a IA pode causar um impacto da perspectiva dos negócios e das necessidades do mundo, " ela diz.
p Esta primeira versão do conjunto de dados Moments in Time é um dos maiores conjuntos de dados de vídeo com anotações humanas, capturando eventos curtos visuais e audíveis, todos os quais são marcados com um rótulo de ação ou atividade entre 339 classes diferentes que incluem uma ampla gama de verbos comuns. Os pesquisadores pretendem produzir mais conjuntos de dados com uma variedade de níveis de abstração para servir como trampolins para o desenvolvimento de algoritmos de aprendizagem que podem construir analogias entre as coisas, imaginar e sintetizar novos eventos, e interpretar cenários.
p Em outras palavras, eles estão apenas começando, diz Gutfreund. "Esperamos que o conjunto de dados Moments in Time permita que os modelos compreendam de forma rica as ações e dinâmicas dos vídeos." p
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.