• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Ensinar sub-rotinas de navegação de agentes de IA, alimentando-os com vídeos

    Dada uma imagem de entrada conforme mostrado no topo, os pesquisadores propõem um novo método para aprender sub-rotinas, políticas de curto prazo que exibem um comportamento coerente (como ir para a esquerda em uma sala), e recursos, quais sub-rotinas podem ser chamadas onde. Crédito:Kumar, Gupta e Malik.

    Pesquisadores da UC Berkeley e do Facebook AI Research propuseram recentemente uma nova abordagem que pode aprimorar as habilidades de navegação dos modelos de aprendizado de máquina. Seu método, apresentado em um artigo pré-publicado no arXiv, permite que os modelos adquiram sub-rotinas de navegação visuo-motora por meio do processamento de uma série de vídeos.

    "Toda manhã, quando você decide pegar uma xícara de café na cozinha, você pensa em ir pelo corredor, virar à esquerda no corredor e entrar na sala à direita, "os pesquisadores escreveram em seu artigo." Em vez de decidir os torques musculares exatos, você planeja neste nível superior de abstração ao compor essas sub-rotinas visuo-motoras reutilizáveis ​​de nível inferior para atingir seu objetivo. "

    Essas "sub-rotinas visuo-motoras" ou "abstrações hierárquicas" que os humanos criam em suas mentes, em última análise, os ajudam a se mover efetivamente dentro do ambiente circundante. A reprodução de um mecanismo semelhante em agentes computacionais poderia, portanto, aprimorar significativamente suas habilidades de navegação e planejamento.

    As abordagens para os modelos de treinamento nessas abstrações hierárquicas até agora caíram em duas categorias principais:métodos de design à mão (ou seja, planejamento clássico) e técnicas de aprendizagem por reforço. Ambos os tipos de abordagem, Contudo, têm limitações significativas. As estratégias clássicas de planejamento são frequentemente abaixo do ideal, enquanto os métodos de aprendizagem por reforço podem ser instáveis, além de caro para desenvolver e treinar.

    Em seu estudo, os pesquisadores da UC Berkeley e do Facebook introduziram um paradigma alternativo que permite aos modelos adquirir abstrações hierárquicas por meio da análise de dados passivos de observação em primeira pessoa (ou seja, vídeos). Esses vídeos são marcados com ações do agente, o que pode ajudar um robô a navegar em seu ambiente.

    "Usamos um modelo inverso treinado em pequenas quantidades de dados de interação para pseudo-rotular os vídeos passivos de primeira pessoa com ações do agente, "Os pesquisadores explicaram em seu artigo." Sub-rotinas visuo-motoras são adquiridas a partir desses vídeos pseudo-rotulados, aprendendo uma política condicionada de intenção latente que prevê as pseudo-ações inferidas das observações de imagem correspondentes. "

    Os pesquisadores avaliaram sua abordagem e demonstraram que ela pode aprimorar significativamente as capacidades de navegação de um agente. Em seus testes, seu método permitiu com sucesso a aquisição de uma variedade de sub-rotinas visuo-motoras de vídeos passivos de primeira pessoa.

    "Demonstramos a utilidade de nossas sub-rotinas visuo-motoras adquiridas, usando-as como estão para exploração e como subpolíticas em uma estrutura RL hierárquica para atingir objetivos pontuais e objetivos semânticos, "escreveram os pesquisadores." Também demonstramos o comportamento de nossas sub-rotinas no mundo real, implantando-os em uma plataforma robótica real. "

    A abordagem proposta pelos pesquisadores obteve desempenho notável em todas as métricas avaliadas pelos pesquisadores. Além disso, descobriu-se que supera as técnicas de aprendizado de última geração que foram treinadas em amostras de interação substancialmente maiores, gerando trajetórias que cobriram o ambiente de forma mais completa.

    Além disso, enquanto a nova abordagem adquiriu abstrações hierárquicas de um total de 45, 000 interações com o meio ambiente, as técnicas de última geração com que foram comparadas alcançaram resultados menos satisfatórios após até 10 milhões de interações. O método dos pesquisadores também superou as linhas de base feitas à mão que foram projetadas especificamente para navegar no ambiente evitando obstáculos.

    "O aprendizado bem-sucedido de vídeos em primeira pessoa permitiu ao agente executar trajetórias coerentes, embora tenha executado apenas ações aleatórias, "escreveram os pesquisadores." Ele também aprendeu com sucesso o viés para ações avançadas na navegação e a noção de evitar obstáculos, levando a uma distância máxima elevada e uma taxa de colisão baixa. "

    O estudo realizado por esta equipe de pesquisadores apresenta uma alternativa viável e altamente eficaz aos métodos atuais de treinamento de agentes de IA em sub-rotinas de navegação. No futuro, sua abordagem pode informar o desenvolvimento de robôs com planejamento mais avançado e habilidades de navegação.

    © 2019 Science X Network




    © Ciência https://pt.scienceaq.com