Um planejador robótico que responde a comandos de linguagem natural

Figura que mostra como o modelo desenvolvido pelos pesquisadores interpreta e segue o comando ‘pegue a bola laranja abaixo do triângulo preto’. Crédito:Kuo, Katz e Barbu.

Em anos que virão, robôs podem ajudar usuários humanos de várias maneiras, tanto quando estão dentro de casa quanto em outros ambientes. Para ser mais intuitivo, os robôs devem ser capazes de seguir comandos e instruções de linguagem natural, pois isso permite que os usuários se comuniquem com eles da mesma forma que fariam com outros humanos.

Com isso em mente, pesquisadores do Centro de Cérebros do MIT, Minds &Machines desenvolveu recentemente um planejador robótico baseado em amostragem que pode ser treinado para entender sequências de comandos de linguagem natural. O sistema que desenvolveram, apresentado em um artigo pré-publicado no arXiv, combina uma rede neural profunda com um planejador baseado em amostragem.

"É muito importante garantir que os futuros robôs em nossas casas nos entendam, por motivos de segurança e porque o idioma é a interface mais conveniente para pedir o que você deseja, "Andrei Barbu, um dos pesquisadores que conduziu o estudo, disse TechXplore. “Nosso trabalho combina três linhas de pesquisa:planejamento robótico, redes profundas, e nosso próprio trabalho sobre como as máquinas podem entender a linguagem. O objetivo geral é dar a um robô apenas alguns exemplos do que uma frase significa e fazê-lo seguir novos comandos e novas frases que nunca ouviu antes. "

O objetivo de longo alcance da pesquisa realizada por Barbu e seus colegas é compreender melhor a comunicação da linguagem corporal. Na verdade, embora as funções e mecanismos por trás da comunicação falada sejam agora bem compreendidos, a maior parte da comunicação que ocorre entre animais e humanos é não verbal.

Compreender melhor a linguagem corporal pode levar ao desenvolvimento de estratégias mais eficazes para a comunicação robô-humano. Entre outras coisas, os pesquisadores do MIT têm explorado a possibilidade de traduzir frases em movimentos robóticos, e vice versa. Seu estudo recente é um primeiro passo nessa direção.

Crédito:Kuo, Katz e Barbu.

"Os planejadores robóticos são incríveis em explorar o que o robô pode fazer e, em seguida, fazer com que o robô execute uma ação, "Yen-Ling Kuo, outro pesquisador que realizou o estudo, disse TechXplore. "Nosso trabalho exige uma sentença, divide em pedaços, essas peças são traduzidas em pequenas redes, que são recombinados novamente. "

Assim como a linguagem é composta de palavras que podem ser combinadas em frases seguindo regras gramaticais, as redes desenvolvidas por Barbu, Kuo e seu colega Boris Katz são formados por redes menores treinadas para entender conceitos únicos. Quando combinados, essas redes podem descobrir e representar o significado de frases inteiras.

O novo planejador robótico desenvolvido pelos pesquisadores tem dois componentes principais. O primeiro é uma rede neural profunda hierárquica recorrente, que controla como o planejador explora o ambiente circundante, enquanto também prevê quando um caminho planejado tem probabilidade de atingir um determinado objetivo e estima a eficácia de cada um dos movimentos possíveis do robô individualmente. O segundo é um planejador baseado em amostragem frequentemente usado em estudos de robótica, chamado de árvore aleatória de exploração rápida (RRT).

"A principal vantagem do nosso planejador é que ele requer poucos dados de treinamento, "Barbu explicou." Se você quiser ensinar um robô, você não vai dar milhares de exemplos em casa, mas um punhado é bastante razoável. Treinar um robô deve envolver ações semelhantes às que você executaria se estivesse treinando um cachorro. "

Embora estudos anteriores também explorassem maneiras de guiar robôs por meio de comandos verbais, as técnicas apresentadas neles muitas vezes se aplicam apenas a ambientes discretos, em que os robôs podem realizar apenas uma quantidade limitada de ações. O planejador desenvolvido pelos pesquisadores, por outro lado, pode oferecer suporte a uma variedade de interações com o ambiente circundante, mesmo que envolvam objetos que o robô nunca encontrou antes.

Crédito:Andrei Barbu

"Quando nossa rede está confusa, a parte do planejador assume, descobre o que fazer e, em seguida, a rede pode assumir o controle da próxima vez que estiver confiante sobre o que fazer, "Kuo explicou." O fato de nosso modelo ser construído com partes também lhe confere outra propriedade desejável:a interpretabilidade. "

Quando eles são incapazes de completar uma determinada tarefa, muitos modelos de aprendizado de máquina existentes não são capazes de fornecer informações sobre o que deu errado e os problemas que encontraram. Isso torna mais difícil para os desenvolvedores identificar as deficiências de um modelo e fazer mudanças direcionadas em sua arquitetura. O componente de aprendizado profundo do planejador robótico criado por Barbu, Kuo e Katz, por outro lado, mostra seu raciocínio passo a passo, esclarecer o que cada palavra que ele processa transmite sobre o mundo e como combinou os resultados de suas análises. Isso permite que os pesquisadores identifiquem problemas que o impediram de concluir com êxito uma determinada ação no passado e fazer alterações na arquitetura que poderiam garantir seu sucesso em tentativas futuras.

"Estamos muito entusiasmados com a noção de que os robôs podem aprender rapidamente a linguagem e aprender novas palavras com muito pouca ajuda de humanos, "Barbu disse." Normalmente, o aprendizado profundo é considerado um grande consumidor de dados; este trabalho reforça a ideia de que quando você constrói os princípios corretos (composicionalidade) e faz com que os agentes executem ações significativas, eles não precisam de tantos dados. "

Os pesquisadores avaliaram o desempenho de seu planejador em uma série de experimentos, ao mesmo tempo em que compara seu desempenho com o dos modelos RRT existentes. Nestes testes, o planejador adquiriu com sucesso o significado das palavras e usou o que aprendeu para representar sequências de frases que nunca encontrou antes, superando todos os modelos com os quais foi comparado.

No futuro, o modelo desenvolvido por esta equipe de pesquisadores poderia informar o desenvolvimento de robôs que possam processar e seguir comandos de linguagem natural de forma mais eficaz. No momento, seu planejador permite que os robôs processem e executem instruções simples, como 'pegue o prato na mesa', mas ainda é incapaz de capturar o significado de outros mais complexos, como 'pegue a boneca sempre que ela cair no chão e limpe-a'. Barbu, Kuo e Katz estão, portanto, tentando expandir a gama de frases que o robô pode entender.

"Nosso objetivo futuro de longo prazo é explorar a ideia de planejamento inverso, "Kuo disse." Isso significa que se pudermos transformar a linguagem em ações robóticas, também poderíamos observar as ações e perguntar ao robô 'o que alguém estava pensando quando fez isso?' Esperamos que isso sirva como uma chave para desbloquear a linguagem corporal em robôs. "

Google restringe visitas para reduzir o risco de coronavírus

Um esquema para implantação de ponto de acesso híbrido (H-AP) em cidades inteligentes

Eletrônicos