• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Ajudando os computadores a preencher as lacunas entre os quadros de vídeo

    Crédito CC0:domínio público

    Dados apenas alguns quadros de um vídeo, os humanos geralmente podem supor o que está acontecendo e o que acontecerá na tela. Se virmos um quadro inicial de latas empilhadas, uma moldura do meio com um dedo na base da pilha, e um quadro atrasado mostrando as latas tombadas, podemos adivinhar que o dedo derrubou as latas. Computadores, Contudo, luta com este conceito.

    Em um artigo apresentado na Conferência Europeia desta semana sobre Visão Computacional, Os pesquisadores do MIT descrevem um módulo complementar que ajuda os sistemas de inteligência artificial chamados redes neurais convolucionais, ou CNNs, para preencher as lacunas entre os quadros de vídeo para melhorar significativamente o reconhecimento de atividade da rede.

    O módulo de pesquisadores, chamada Rede de Relação Temporal (TRN), aprende como os objetos mudam em um vídeo em momentos diferentes. Ele faz isso analisando alguns quadros principais que representam uma atividade em diferentes estágios do vídeo - como objetos empilhados que são derrubados. Usando o mesmo processo, ele pode então reconhecer o mesmo tipo de atividade em um novo vídeo.

    Em experimentos, o módulo superou os modelos existentes por uma grande margem no reconhecimento de centenas de atividades básicas, como cutucar objetos para fazê-los cair, jogando algo no ar, e fazendo sinal de positivo. Também previu com mais precisão o que acontecerá a seguir em um vídeo - mostrando, por exemplo, duas mãos fazendo um pequeno rasgo em uma folha de papel - dado apenas um pequeno número de fotos iniciais.

    Um dia, o módulo pode ser usado para ajudar os robôs a entender melhor o que está acontecendo ao seu redor.

    “Construímos um sistema de inteligência artificial para reconhecer a transformação de objetos, ao invés da aparência de objetos, "diz Bolei Zhou, um ex-Ph.D. estudante do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) que agora é professor assistente de ciência da computação na Universidade Chinesa de Hong Kong. "O sistema não passa por todos os frames - ele coleta frames-chave e, usando a relação temporal de frames, reconhecer o que está acontecendo. Isso melhora a eficiência do sistema e o faz funcionar em tempo real com precisão. "

    Os co-autores do artigo são o investigador principal do CSAIL, Antonio Torralba, que também é professor do Departamento de Engenharia Elétrica e Ciência da Computação; O cientista pesquisador principal do CSAIL, Aude Oliva; e o assistente de pesquisa do CSAIL, Alex Andonian.

    Pegando quadros-chave

    Dois módulos CNN comuns usados ​​para reconhecimento de atividades atualmente sofrem com as desvantagens de eficiência e precisão. Um modelo é preciso, mas deve analisar cada quadro de vídeo antes de fazer uma previsão, que é computacionalmente caro e lento. O outro tipo, chamada rede de dois fluxos, é menos preciso, mas mais eficiente. Ele usa um fluxo para extrair recursos de um quadro de vídeo, e, em seguida, mescla os resultados com "fluxos ópticos, "um fluxo de informações extraídas sobre o movimento de cada pixel. Fluxos ópticos também são computacionalmente caros para extrair, então o modelo ainda não é tão eficiente.

    "Queríamos algo que funcionasse entre esses dois modelos - obtendo eficiência e precisão, "Zhou diz.

    Os pesquisadores treinaram e testaram seu módulo em três conjuntos de dados crowdsourced de vídeos curtos de várias atividades realizadas. O primeiro conjunto de dados, chamado Algo-Algo, construído pela empresa TwentyBN, tem mais de 200, 000 vídeos em 174 categorias de ação, como cutucar um objeto para que ele caia ou levantá-lo. O segundo conjunto de dados, Jester, contém quase 150, 000 vídeos com 27 gestos de mão diferentes, como mostrar o polegar para cima ou deslizar para a esquerda. O terceiro, Charades, construído por pesquisadores da Carnegie Mellon University, tem quase 10, 000 vídeos de 157 atividades categorizadas, como carregar uma bicicleta ou jogar basquete.

    Quando dado um arquivo de vídeo, o módulo dos pesquisadores processa simultaneamente quadros ordenados - em grupos de dois, três, e quatro - com algum intervalo de tempo. Em seguida, ele atribui rapidamente a probabilidade de que a transformação do objeto nesses quadros corresponda a uma classe de atividade específica. Por exemplo, se ele processa dois quadros, onde o último quadro mostra um objeto na parte inferior da tela e o anterior mostra o objeto na parte superior, vai atribuir uma alta probabilidade à classe de atividade, "movendo o objeto para baixo." Se um terceiro quadro mostrar o objeto no meio da tela, essa probabilidade aumenta ainda mais, e assim por diante. A partir disso, ele aprende recursos de transformação de objeto em quadros que mais representam uma determinada classe de atividade.

    Atividades de reconhecimento e previsão

    Em teste, uma CNN equipada com o novo módulo reconheceu com precisão muitas atividades usando dois quadros, mas a precisão aumentou amostrando mais quadros. Para Jester, o módulo alcançou precisão máxima de 95 por cento no reconhecimento de atividades, batendo vários modelos existentes.

    Ele até acertou em classificações ambíguas:Algo-Algo, por exemplo, incluiu ações como "fingir abrir um livro" versus "abrir um livro". Para discernir entre os dois, o módulo apenas amostrou mais alguns quadros-chave, que revelou, por exemplo, uma mão perto de um livro em um quadro inicial, então no livro, em seguida, afastou-se do livro em um quadro posterior.

    Alguns outros modelos de reconhecimento de atividade também processam quadros-chave, mas não consideram relacionamentos temporais em quadros, o que reduz sua precisão. Os pesquisadores relatam que seu módulo TRN quase dobra em precisão em relação aos modelos de quadro-chave em certos testes.

    O módulo também superou os modelos de previsão de uma atividade, dados quadros limitados. Depois de processar os primeiros 25 por cento dos quadros, o módulo alcançou precisão vários pontos percentuais acima do modelo de linha de base. Com 50 por cento dos frames, alcançou uma precisão de 10 a 40 por cento maior. Os exemplos incluem determinar que um papel seria rasgado um pouco, com base em como as duas mãos estão posicionadas no papel nos quadros iniciais, e prevendo que uma mão levantada, mostrado voltado para a frente, iria deslizar para baixo.

    "Isso é importante para aplicações de robótica, "Zhou diz." Você quer [um robô] antecipar e prever o que vai acontecer no início, quando você faz uma ação específica. "

    Próximo, os pesquisadores buscam aprimorar a sofisticação do módulo. O primeiro passo é implementar o reconhecimento de objetos junto com o reconhecimento de atividades. Então, eles esperam adicionar "física intuitiva, "o que significa ajudá-lo a entender as propriedades físicas dos objetos do mundo real." Como sabemos muito da física nesses vídeos, podemos treinar o módulo para aprender essas leis da física e usá-las no reconhecimento de novos vídeos, "Zhou diz." Também abrimos o código-fonte de todos os códigos e modelos. A compreensão da atividade é uma área empolgante da inteligência artificial no momento. "


    © Ciência https://pt.scienceaq.com