• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Robôs para usar a nova ferramenta de IA para avaliar todas as possibilidades antes de tomar decisões

    Brendan Englot, do Stevens Institute of Technology, usará uma nova variante de uma ferramenta clássica de inteligência artificial para criar robôs que podem prever e gerenciar os riscos envolvidos na conclusão da tarefa desejada. Crédito:Stevens Institute of Technology

    Assim como os humanos, quando os robôs têm uma decisão a tomar, geralmente há muitas opções e centenas de resultados potenciais. Os robôs foram capazes de simular alguns desses resultados para descobrir qual curso de ação terá maior probabilidade de levar ao sucesso. Mas e se uma das outras opções tivesse a mesma probabilidade de sucesso - e mais segura?

    O Office of Naval Research concedeu a Brendan Englot, um engenheiro mecânico treinado pelo MIT no Stevens Institute of Technology, um prêmio 2020 Young Investigator de $ 508, 693 para alavancar uma nova variante de uma ferramenta clássica de inteligência artificial para permitir que os robôs prevejam os muitos resultados possíveis de suas ações, e a probabilidade de ocorrerem. A estrutura permitirá que os robôs descubram qual opção é a melhor maneira de atingir um objetivo, entendendo quais opções são as mais seguras, mais eficiente - e com menor probabilidade de falhar.

    "Se a maneira mais rápida de um robô completar uma tarefa é caminhando à beira de um penhasco, isso está sacrificando a segurança pela velocidade, "disse Englot, quem estará entre os primeiros a usar a ferramenta, aprendizagem por reforço distributivo, para treinar robôs. "Não queremos que o robô caia da beira daquele penhasco, portanto, estamos fornecendo a eles as ferramentas para prever e gerenciar os riscos envolvidos na conclusão da tarefa desejada. "

    Por anos, o aprendizado por reforço tem sido usado para treinar robôs para navegar autonomamente na água, terra e ar. Mas essa ferramenta de IA tem limitações, porque toma decisões com base em um único resultado esperado para cada ação disponível, quando, na verdade, muitas vezes há muitos outros resultados possíveis que podem ocorrer. Englot está usando aprendizado por reforço distributivo, um algoritmo de IA que um robô pode usar para avaliar todos os resultados possíveis, preveja a probabilidade de cada ação ser bem-sucedida e escolha a opção mais conveniente com probabilidade de sucesso enquanto mantém um robô seguro.

    Antes de colocar seu algoritmo para uso em um robô real, A primeira missão de Englot é aperfeiçoar o algoritmo. Englot e sua equipe criam uma série de situações de tomada de decisão para testar seu algoritmo. E muitas vezes recorrem a um dos campos de jogo favoritos do campo:os jogos do Atari.

    Por exemplo, quando você joga Pacman, você é o algoritmo que está decidindo como o Pacman se comporta. Seu objetivo é obter todos os pontos do labirinto e, se puder, pegue algumas frutas. Mas existem fantasmas flutuando que podem matá-lo. Todo segundo, você é forçado a tomar uma decisão. Você vai direto, esquerda ou direita? Qual caminho fornece mais pontos - e pontos - ao mesmo tempo que o mantém longe dos fantasmas?

    Algoritmo AI de Englot, usando aprendizado de reforço distributivo, tomará o lugar de um jogador humano, simulando todos os movimentos possíveis para navegar com segurança em sua paisagem.

    Então, como você recompensa um robô? Englot e sua equipe vão atribuir pontos a diferentes resultados, ou seja, se cair de um penhasco, o robô obtém -100 pontos. Se demorar mais, mas uma opção mais segura, ele pode receber -1 ponto para cada etapa ao longo do desvio. Mas se atingir a meta com sucesso, pode chegar a +50.

    "Um dos nossos objetivos secundários é ver como os sinais de recompensa podem ser projetados para impactar positivamente como um robô toma decisões e pode ser treinado, "disse Englot." Esperamos que as técnicas desenvolvidas neste projeto possam ser usadas para IA ainda mais complexa, como treinar robôs subaquáticos para navegar com segurança em meio a marés variadas, correntes, e outros fatores ambientais complexos. "


    © Ciência https://pt.scienceaq.com