• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Ensinando robôs o que os humanos querem

    Um exemplo de como o braço do robô usa perguntas de pesquisa para determinar as preferências da pessoa que o usa. Nesse caso, a pessoa prefere a trajetória # 1 (T1) à trajetória # 2. Crédito:Andy Palan e Gleb Shevchuk

    Disse para otimizar a velocidade enquanto corria em uma pista em um jogo de computador, um carro empurra o pedal até o metal ... e começa a girar em um pequeno círculo fechado. Nada nas instruções dizia ao carro para dirigir em linha reta, e então improvisou.

    Este exemplo - engraçado em um jogo de computador, mas não tanto na vida - está entre aqueles que motivaram os pesquisadores da Universidade de Stanford a construir uma maneira melhor de definir metas para sistemas autônomos.

    Dorsa Sadigh, professor assistente de ciência da computação e engenharia elétrica, e seu laboratório combinou duas maneiras diferentes de definir metas para robôs em um único processo, que teve um desempenho melhor do que qualquer uma de suas partes sozinhas em simulações e experimentos do mundo real. Os pesquisadores apresentaram o trabalho no dia 24 de junho no Robótica:Ciência e Sistemas conferência.

    "No futuro, Espero que haja mais sistemas autônomos no mundo e eles vão precisar de algum conceito do que é bom e do que é ruim, "disse Andy Palan, estudante de graduação em ciência da computação e co-autor do artigo. "É crucial, se quisermos implantar esses sistemas autônomos no futuro, que acertamos. "

    O novo sistema da equipe para fornecer instruções aos robôs - conhecido como funções de recompensa - combina demonstrações, em que os humanos mostram ao robô o que fazer, e pesquisas de preferência do usuário, em que as pessoas respondem a perguntas sobre como querem que o robô se comporte.

    "As demonstrações são informativas, mas podem ser barulhentas. Por outro lado, preferências fornecem, no máximo, um pouco de informação, mas são muito mais precisos, "disse Sadigh." Nosso objetivo é obter o melhor dos dois mundos, e combinar dados provenientes de ambas as fontes de forma mais inteligente para aprender melhor sobre a função de recompensa preferida dos humanos. "

    Demonstrações e pesquisas

    Em trabalhos anteriores, Sadigh tinha se concentrado apenas em pesquisas de preferência. Eles pedem que as pessoas comparem cenários, como duas trajetórias para um carro autônomo. Este método é eficiente, mas pode levar até três minutos para gerar a próxima pergunta, que ainda é lento para criar instruções para sistemas complexos como um carro.

    Para acelerar isso, o grupo mais tarde desenvolveu uma maneira de produzir várias perguntas ao mesmo tempo, que poderia ser respondida em rápida sucessão por uma pessoa ou distribuída entre várias pessoas. Essa atualização acelerou o processo de 15 a 50 vezes em comparação com a produção de perguntas uma a uma.

    O novo sistema de combinação começa com uma pessoa demonstrando um comportamento para o robô. Isso pode fornecer aos robôs autônomos muitas informações, mas o robô frequentemente se esforça para determinar quais partes da demonstração são importantes. As pessoas também nem sempre querem que um robô se comporte como o humano que o treinou.

    "Nem sempre podemos dar demonstrações, e mesmo quando podemos, muitas vezes não podemos confiar nas informações que as pessoas dão, "disse Erdem Biyik, um estudante de graduação em engenharia elétrica que liderou o trabalho de desenvolvimento das pesquisas de múltiplas perguntas. "Por exemplo, estudos anteriores mostraram que as pessoas querem que os carros autônomos dirigam de forma menos agressiva do que eles próprios. "

    É aí que entram as pesquisas, dando ao robô uma maneira de perguntar, por exemplo, se o usuário prefere que ele mova seu braço para baixo no chão ou para cima em direção ao teto. Para este estudo, o grupo usou o método mais lento de pergunta única, mas eles planejam integrar pesquisas de múltiplas perguntas em trabalhos posteriores.

    Em testes, a equipe descobriu que combinar demonstrações e pesquisas era mais rápido do que apenas especificar preferências e, quando comparado com as demonstrações sozinhas, cerca de 80 por cento das pessoas preferiram como o robô se comportou quando treinado com o sistema combinado.

    "Este é um passo para entender melhor o que as pessoas querem ou esperam de um robô, "disse Sadigh." Nosso trabalho está tornando mais fácil e mais eficiente para os humanos interagir e ensinar robôs, e estou animado para levar este trabalho adiante, particularmente ao estudar como robôs e humanos podem aprender uns com os outros. "

    Melhor, mais rápido, mais esperto

    Pessoas que usaram o método combinado relataram dificuldade em entender o que o sistema queria dizer com algumas de suas perguntas, que às vezes lhes pedia para escolher entre dois cenários que pareciam iguais ou irrelevantes para a tarefa - um problema comum no aprendizado baseado em preferências. Os pesquisadores esperam resolver essa lacuna com pesquisas mais fáceis e mais rápidas.

    "Olhando para o futuro, não é 100 por cento óbvio para mim qual é a maneira certa de fazer funções de recompensa, mas, realisticamente, você terá algum tipo de combinação que pode lidar com situações complexas com informações humanas, "disse Palan." Ser capaz de projetar funções de recompensa para sistemas autônomos é um grande, problema importante que não tem recebido a devida atenção na academia como merece. "

    A equipe também está interessada em uma variação em seu sistema, o que permitiria às pessoas criar funções de recompensa simultaneamente para diferentes cenários. Por exemplo, uma pessoa pode querer que seu carro dirija de maneira mais conservadora no trânsito lento e de forma mais agressiva quando o trânsito estiver leve.

    Quando as demonstrações falham

    Às vezes, as demonstrações por si só não conseguem transmitir o objetivo de uma tarefa. Por exemplo, em uma demonstração neste estudo, as pessoas ensinaram o braço do robô a se mover até apontar para um ponto específico no solo, e fazer isso evitando um obstáculo e sem se mover acima de uma certa altura.

    Depois que um humano fez o robô funcionar por 30 minutos, o robô tentou realizar a tarefa de forma autônoma. Simplesmente apontava para cima. Estava tão focado em aprender a não bater no obstáculo, ele perdeu completamente o objetivo real da tarefa - apontar para o local - e a preferência por permanecer abaixado.

    Codificação manual e hack de recompensa

    Outra maneira de ensinar um robô é escrever um código que atue como instruções. O desafio é explicar exatamente o que você quer que um robô faça, especialmente se a tarefa for complexa. Um problema comum é conhecido como "hacking de recompensa, "onde o robô descobre uma maneira mais fácil de atingir os objetivos especificados - como o carro girando em círculos para atingir o objetivo de ir mais rápido.

    Biyik experimentou um hack de recompensa quando estava programando um braço de robô para agarrar um cilindro e mantê-lo no ar.

    "Eu disse que a mão deve ser fechada, o objeto deve ter altura maior que X e a mão deve estar na mesma altura, "descreveu Biyik." O robô rolou o objeto cilíndrico até a borda da mesa, bateu para cima e, em seguida, fechou o punho próximo a ele no ar. "


    © Ciência https://pt.scienceaq.com