Um pequeno robô Clearpath Husky não tripulado, que foi usado por pesquisadores de ARL para desenvolver uma nova técnica para ensinar rapidamente a robôs novos comportamentos de travessia com supervisão humana mínima. Crédito:Exército dos EUA
Pesquisadores do Laboratório de Pesquisa do Exército dos EUA e do Instituto de Robótica da Carnegie Mellon University desenvolveram uma nova técnica para ensinar rapidamente aos robôs novos comportamentos de travessia com supervisão humana mínima.
A técnica permite que as plataformas de robôs móveis naveguem de forma autônoma em ambientes enquanto realizam ações que um ser humano esperaria do robô em uma determinada situação.
Os experimentos do estudo foram recentemente publicados e apresentados na Conferência Internacional sobre Robótica e Automação do Instituto de Engenheiros Elétricos e Eletrônicos, realizada em Brisbane, Austrália.
Os pesquisadores da ARL, drs. Maggie Wigness e John Rogers se envolveram em discussões cara a cara com centenas de participantes da conferência durante sua apresentação interativa de duas horas e meia.
De acordo com Wigness, um dos objetivos da equipe de pesquisa em pesquisa de sistemas autônomos é fornecer companheiros de equipe de robôs autônomos confiáveis para o soldado.
"Se um robô atua como um companheiro de equipe, tarefas podem ser realizadas mais rapidamente e mais consciência situacional pode ser obtida, "Wigness disse." Além disso, companheiros de equipe de robôs podem ser usados como um investigador inicial para cenários potencialmente perigosos, assim mantendo os soldados mais longe do perigo. "
Para alcançar isto, Wigness disse que o robô deve ser capaz de usar sua inteligência aprendida para perceber, raciocinar e tomar decisões.
"Esta pesquisa se concentra em como a inteligência do robô pode ser aprendida a partir de alguns exemplos de demonstrações humanas, "Wigness disse." O processo de aprendizagem é rápido e requer um mínimo de demonstração humana, tornando-o uma técnica de aprendizado ideal para o aprendizado em tempo real no campo quando os requisitos da missão mudam. "
Os pesquisadores de ARL e CMU focaram sua investigação inicial em aprender os comportamentos de travessia do robô com relação à percepção visual do robô do terreno e dos objetos no ambiente.
Mais especificamente, o robô foi ensinado a navegar a partir de vários pontos do ambiente enquanto ficava perto da beira de uma estrada, e também como atravessar secretamente usando edifícios como cobertura.
De acordo com os pesquisadores, dadas diferentes tarefas de missão, o comportamento transversal aprendido mais apropriado pode ser ativado durante a operação do robô.
Isso é feito aproveitando o controle otimizado inverso, também comumente referido como aprendizado por reforço inverso, que é uma classe de aprendizado de máquina que busca recuperar uma função de recompensa dada uma política ótima conhecida.
Os pesquisadores da ARL, drs. Maggie Wigness e John Rogers posam com um pequeno robô não tripulado Clearpath Husky em seu laboratório no Adelphi Laboratory Center, em Maryland. Crédito:Exército dos EUA
Nesse caso, um ser humano demonstra a política ideal conduzindo um robô ao longo de uma trajetória que melhor representa o comportamento a ser aprendido.
Esses exemplares de trajetória são então relacionados aos recursos visuais do terreno / objeto, como grama, estradas e edifícios, para aprender uma função de recompensa com relação a esses recursos do ambiente.
Embora existam pesquisas semelhantes no campo da robótica, o que ARL está fazendo é especialmente exclusivo.
"Os desafios e cenários operacionais em que nos concentramos aqui na ARL são extremamente únicos em comparação com outras pesquisas que estão sendo realizadas, "Wigness disse." Procuramos criar sistemas robóticos inteligentes que operem de forma confiável em ambientes de combate, o que significa que a cena é altamente desestruturada, possivelmente barulhento, e precisamos fazer isso dado um conhecimento a priori relativamente pequeno do estado atual do meio ambiente. O fato de nossa definição do problema ser tão diferente de tantos outros pesquisadores permite que ARL tenha um grande impacto na pesquisa de sistemas autônomos. Nossas técnicas, pela própria definição do problema, deve ser robusto ao ruído e ter a capacidade de aprender com quantidades relativamente pequenas de dados. "
De acordo com Wigness, esta pesquisa preliminar ajudou os pesquisadores a demonstrar a viabilidade de aprender rapidamente uma codificação de comportamentos transversais.
"À medida que levamos esta pesquisa para o próximo nível, começaremos a nos concentrar em comportamentos mais complexos, o que pode exigir o aprendizado de mais do que apenas recursos de percepção visual, "Wigness disse." Nossa estrutura de aprendizagem é flexível o suficiente para usar informações a priori que podem estar disponíveis sobre um ambiente. Isso pode incluir informações sobre áreas que provavelmente são visíveis por adversários ou áreas conhecidas por terem comunicação confiável. Esta informação adicional pode ser relevante para certos cenários de missão, e aprender com relação a esses recursos aumentaria a inteligência do robô móvel. "
Os pesquisadores também estão explorando como esse tipo de aprendizagem comportamental se transfere entre diferentes plataformas móveis.
Sua avaliação até o momento foi realizada com um pequeno robô não tripulado Clearpath Husky, que tem um campo de visão que é relativamente baixo para o solo.
"Transferir esta tecnologia para plataformas maiores irá apresentar novos pontos de vista de percepção e diferentes capacidades de manobra de plataforma, " Wigness said. "Learning to encode behaviors that can be easily transferred between different platforms would be extremely valuable given a team of heterogeneous robots. Nesse caso, the behavior can be learned on one platform instead of each platform individually."
This research is funded through the Army's Robotics Collaborative Technology Alliance, or RCTA, which brings together government, industrial and academic institutions to address research and development required to enable the deployment of future military unmanned ground vehicle systems ranging in size from man-portables to ground combat vehicles.
"ARL is positioned to actively collaborate with other members of the RCTA, leveraging the efforts of top researchers in academia to work on Army problems, " Rogers said. "This particular research effort was the synthesis of several components of the RCTA with our internal research; it would not have been possible if we didn't work together so closely."
Em última análise, this research is crucial for the future battlefield, where Soldiers will be able to rely on robots with more confidence to assist them in executing missions.
"The capability for the Next Generation Combat Vehicle to autonomously maneuver at optempo in the battlefield of the future will enable powerful new tactics while removing risk to the Soldier, " Rogers said. "If the NGCV encounters unforeseen conditions which require teleoperation, our approach could be used to learn to autonomously handle these types of conditions in the future."