• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Concentre-se em um algoritmo de aprendizado de reforço que pode aprender com o fracasso

    Crédito:OpenAI

    As notícias recentes do pessoal da OpenAI são sobre um trio bônus. Eles estão lançando novos ambientes de ginásio - um conjunto de ambientes de robótica simulados com base em plataformas de robôs reais - incluindo uma mão Shadow e um robô de pesquisa Fetch, disse Espectro IEEE .

    Além desse kit de ferramentas, eles estão lançando uma versão de código aberto do Hindsight Experience Replay (HER). Como o nome sugere, ajuda os robôs a aprenderem retrospectivamente, para tarefas robóticas baseadas em objetivos.

    Por último mas não menos importante, eles lançaram um conjunto de pedidos de pesquisa robótica. "Se você é um tipo ambicioso, "disse Evan Ackerman em Espectro IEEE , "A OpenAI também postou um conjunto de solicitações de pesquisas relacionadas a HER."

    "Embora HER seja uma maneira promissora de aprender tarefas complexas baseadas em objetivos com recompensas esparsas, como os ambientes de robótica que propomos aqui, ainda há muito espaço para melhorias, "eles blogaram." Semelhante a nossas solicitações de pesquisa 2.0 publicadas recentemente, temos algumas ideias sobre maneiras de melhorar ELA especificamente, e aprendizagem por reforço em geral. "

    OpenAI é uma empresa de pesquisa de IA. Eles publicam em conferências de aprendizado de máquina e seus posts comunicam suas pesquisas.

    Elon Musk é um cofundador. É patrocinado por indivíduos e empresas, e pretendem descobrir e executar "o caminho para a inteligência artificial geral segura".

    Um vídeo OpenAI mostrando o que eles realizaram na parte de ambientes de academia foi publicado em 26 de fevereiro.

    Eles mostram as diferentes tarefas realizadas. Um robô ShadowHand manipula um objeto (mostra uma mão manipulando, incluindo flexão dos dedos, bloco do alfabeto de uma criança, um objeto em forma de ovo, e passando os dedos por uma pequena vara). Eles também estão introduzindo um mecanismo de robô "nudge" que pode deslizar um disco, bem como agarrar uma pequena bola e levantá-la

    Especificamente, estes são os vários feitos em exibição:ShadowHand tem que alcançar com seu polegar e um dedo selecionado até que eles se encontrem na posição desejada acima da palma. O ShadowHand tem que manipular um bloco até atingir a posição e rotação desejada. ShadowHand tem que manipular um ovo até que ele atinja a posição e rotação desejada. O ShadowHand tem que manipular uma caneta até atingir a posição e rotação desejada.

    Contudo, "os ambientes mais recentes simulam um braço robótico Fetch para empurrar as coisas, e uma ShadowHand para segurar e manipular coisas com dedos robóticos, "disse Katyanna Quach em O registro .

    A oferta OpenAI HER é especialmente interessante; o treinamento e o reforço são repensados. HER permite que um agente aprenda com as falhas. Como Ackerman escreveu, ELA "reformula os fracassos como sucessos, a fim de ajudar os robôs a aprenderem mais como os humanos".

    Jackie Snow em MIT Technology Review observou que "Ele faz isso observando como cada tentativa de uma tarefa pode ser aplicada a outras."

    Neve adicionada, "ELA não dá recompensas aos robôs por fazerem uma etapa da tarefa certa - ele só as distribui se a coisa toda for feita corretamente."

    Reformulando as falhas como sucessos? Ackerman ofereceu esta explicação:"Para entender como ela funciona, imagine que você está pronto para rebater em um jogo de beisebol. Seu objetivo é fazer um home run. No primeiro arremesso, você acerta uma bola que dá falta. ... você também aprendeu exatamente como rebater uma bola de falta ... Com o replay da experiência retrospectiva, você decide aprender com o que acabou de fazer de qualquer maneira, essencialmente dizendo, 'Você sabe, se eu quisesse acertar uma bola suja, isso teria sido perfeito! '"

    Quão boa é a implementação de HER? "Nossos resultados mostram que HER pode aprender políticas bem-sucedidas na maioria dos novos problemas de robótica com recompensas esparsas."

    Crianças que jogam com os olhos vendados costumam dizer ao jogador:"Você está esquentando, mais quente. "Palavras-chave para valorizar suas pesquisas são recompensas esparsas e densas.

    "A maioria dos algoritmos de aprendizagem por reforço usa recompensas densas, 'explicou Ackerman, "onde o robô obtém cookies de tamanhos diferentes, dependendo de quão perto está de concluir uma tarefa ... As recompensas esparsas significam que o robô obtém apenas um cookie apenas se tiver sucesso e é isso:mais fácil de medir, mais fácil de programar, e mais fácil de implementar. "

    © 2018 Tech Xplore




    © Ciência https://pt.scienceaq.com