Uma abordagem de aprendizagem de imitação para treinar robôs sem a necessidade de demonstrações humanas reais

Figura que explica como funciona a abordagem de aprendizagem proposta pelos pesquisadores. Crédito:Bonardi, James e Davison.

A maioria dos humanos pode aprender como completar uma determinada tarefa observando outra pessoa realizá-la apenas uma vez. Robôs programados para aprender imitando humanos, Contudo, normalmente precisam ser treinados em uma série de demonstrações humanas antes que possam reproduzir efetivamente o comportamento desejado.

Os pesquisadores foram recentemente capazes de ensinar robôs a executar novas tarefas, fazendo-os observar uma única demonstração humana, usando abordagens de meta-aprendizagem. Contudo, essas técnicas de aprendizado normalmente requerem dados do mundo real que podem ser caros e difíceis de coletar.

Para superar este desafio, uma equipe de pesquisadores do Imperial College London desenvolveu uma nova abordagem que permite o aprendizado de imitação em robôs sem a necessidade de demonstrações humanas do mundo real. A abordagem deles, apresentado em um artigo pré-publicado no arXiv, usa algoritmos conhecidos como redes de controle incorporadas a tarefas (TecNets), que permitem que agentes artificiais aprendam a realizar tarefas em uma ou em várias demonstrações, bem como dados de treinamento gerados artificialmente.

"Mostramos que, com redes de controle incorporadas a tarefas, podemos inferir políticas de controle incorporando demonstrações humanas que podem condicionar uma política de controle e alcançar o aprendizado de imitação de uma só vez, "os pesquisadores escrevem em seu artigo.

A abordagem apresentada pelos pesquisadores não requer nenhuma interação com humanos reais durante o treinamento do robô. O método usa TechNets para inferir políticas de controle, incorporar demonstrações humanas que podem condicionar uma determinada política de controle e, em última análise, permitir o aprendizado de imitação de uma única vez.

Para eliminar a necessidade de demonstrações humanas do mundo real durante o treinamento, os pesquisadores usaram um conjunto de dados de vídeos simulando demonstrações humanas, que eles geraram usando PyRep, um kit de ferramentas lançado recentemente para pesquisa de aprendizagem de robôs. Usando PyRep, os pesquisadores modelaram um braço 3-D semelhante ao humano e o dividiram em formas a fim de reproduzir movimentos semelhantes aos observados em humanos.

Em seguida, eles criaram um conjunto de dados composto por vídeos em que esse braço simulado realizava uma série de tarefas e o usava para treinar um sistema robótico. Em última análise, o robô foi capaz de aprender como completar uma tarefa apenas analisando esses vídeos de simulação e uma única demonstração humana no mundo real.

"Importante, não usamos um braço humano real para fornecer demonstrações durante o treinamento, mas, em vez disso, aproveite a randomização de domínio em um aplicativo que nunca foi visto antes:transferência sim-para-real em humanos, "explicam os pesquisadores em seu artigo.

A equipe avaliou a nova abordagem de aprendizagem única em simulações e no mundo real, usá-lo para treinar um robô para completar tarefas que envolviam colocar e empurrar objetos. Notavelmente, seu método de aprendizagem alcançou resultados comparáveis aos alcançados usando uma abordagem baseada em aprendizagem de imitação mais convencional, mesmo que implique treinar um robô em vídeos gerados artificialmente, em vez de demonstrações humanas reais.

Os pesquisadores escrevem, "Conseguimos alcançar um desempenho semelhante a um método alternativo de última geração que se baseia em milhares de demonstrações de treinamento coletadas no mundo real, embora também permaneça robusto para mudanças de domínio visual, como origens substancialmente diferentes. "

A abordagem desenvolvida por esta equipe de pesquisadores pode permitir o aprendizado de imitação de uma única vez para vários robôs, sem a necessidade de coletar grandes quantidades de demonstrações humanas do mundo real. Isso pode economizar muito esforço, recursos e tempo para aqueles que tentam treinar robôs usando o aprendizado de imitação. Os pesquisadores agora planejam investigar outras ações nas quais os robôs poderiam ser treinados usando sua abordagem.

"Esperamos investigar melhor a variedade de ações humanas que podem ser transferidas da simulação para a realidade, "os pesquisadores escreveram em seu artigo." Por exemplo, nesse trabalho, mostramos que um braço humano pode ser transferido, mas o mesmo método funcionaria a partir de demonstrações incluindo todo o torso de um humano? "

Defensor da integridade algorítmica:as implicações da interação humana com a tecnologia

Um algoritmo de inteligência artificial pode aprender as leis da mecânica quântica

Eletrônicos

O algoritmo torna o processo de comparação de varreduras 3-D até 1, 000 vezes mais rápido

Sistema de código aberto garantindo atualizações de software graduados para proteger os principais serviços em nuvem

Os sistemas de direção eletrônica nem sempre funcionam, testes mostram

Ciência

Os cientistas detectam cometas fora do nosso sistema solar

Um teclado de material feito de grafeno

Cabelo para o resgate enquanto a poluição do petróleo destrói os litorais