Crédito:Berscheid, Meissner &Kröger.
Quando os seres humanos estendem a mão para agarrar um determinado objeto, eles geralmente precisam tirar a desordem do caminho para isolá-la e garantir que haja espaço suficiente para recolhê-la. Mesmo que os humanos nem sempre estejam totalmente cientes de que estão fazendo isso, esta estratégia, conhecido como "manipulação de pre-agarrar, "permite que eles agarrem objetos com mais eficiência.
Nos últimos anos, vários pesquisadores tentaram reproduzir estratégias de manipulação humana em robôs, ainda assim, poucos estudos se concentraram na manipulação de pre-agarrar. Com isso em mente, uma equipe de pesquisadores do Karlsruhe Institute of Technology (KIT) desenvolveu recentemente um algoritmo que pode ser usado para treinar robôs em estratégias de manipulação de preensão e preensão. Esta nova abordagem foi apresentada em um artigo pré-publicado no arXiv.
"Embora agarrar seja uma tarefa bem compreendida na robótica, a manipulação pré-agarrada direcionada ainda é muito desafiadora, "Lars Berscheid, um dos pesquisadores que realizou o estudo, disse TechXplore. "Isso torna muito difícil para os robôs agarrarem objetos fora da desordem ou em espaços apertados no momento. No entanto, com as recentes inovações na aprendizagem de máquinas e robôs, robôs podem aprender a resolver várias tarefas interagindo com seu ambiente. Neste estudo, queríamos aplicar uma abordagem que apresentamos em nosso trabalho anterior não apenas para agarrar, mas para a manipulação pré-agarrada também. "
Crédito:Berscheid, Meissner &Kröger.
Quando um robô está aprendendo a completar uma determinada tarefa, ele essencialmente precisa descobrir como resolver um problema maximizando suas recompensas. Em seu estudo, os pesquisadores se concentraram em uma tarefa que envolvia agarrar objetos de uma caixa preenchida aleatoriamente.
O robô foi treinado em como agarrar objetos por aproximadamente 80 horas, usando a entrada de uma câmera e feedback de sua pinça. Quando segurou com sucesso um objeto em sua garra robótica, alcançou uma recompensa. O algoritmo desenvolvido por Berscheid e seus colegas leva o treinamento do robô um passo adiante, permitindo que ele também se torne útil para estratégias de manipulação de pre-agarrar, como deslocar ou empurrar.
"A ideia principal do nosso trabalho era estender as ações de agarrar, introduzindo movimentos adicionais de deslocamento ou empurrão, "Berscheid explicou." O robô pode então decidir que ação aplicar em diferentes situações. Na realidade, treinar robôs é muito complicado:primeiro, leva muito tempo, então o treinamento em si precisa ser automatizado e auto-supervisionado, e, segundo, muitas coisas inesperadas podem acontecer se o robô explorar seu ambiente. Semelhante a outras técnicas de aprendizado de máquina, a aprendizagem do robô é sempre limitada por seu consumo de dados. Em outras palavras, nosso trabalho está conectado a duas questões de pesquisa muito desafiadoras:como um robô pode aprender o mais rápido possível - e quais tarefas um robô pode aprender usando os insights descobertos? "
Crédito:Berscheid, Meissner &Kröger.
Como Berscheid continua a explicar, um robô pode aprender com mais eficiência se receber feedback direto após cada ação que executa, pois isso supera a questão das recompensas esparsas. Em outras palavras, quanto mais feedback for fornecido a um robô (ou seja, mais recompensas ele receberá por ações bem-sucedidas), quanto mais rápido e eficaz, ele aprende como concluir uma determinada tarefa.
"Parece fácil, mas às vezes é difícil de implementar:por exemplo, como você define a qualidade de uma manipulação pré-agarrada? ", disse Berscheid.
A abordagem proposta pelos pesquisadores é baseada em um estudo anterior que investigou o uso de diferenças nas probabilidades de apreensão antes e depois de uma determinada ação, concentrando-se em uma pequena área em torno de onde a ação é realizada. Em seu novo estudo, Berscheid e seus colegas também tentaram descobrir ações que um robô deve tentar aprender o mais rápido possível.
"Este é o conhecido problema da exploração na aprendizagem de robôs, "Berscheid explicou." Nós definimos uma estratégia de exploração que maximiza a auto-informação ou minimiza a incerteza das ações e pode ser calculada com muita eficiência. "
O algoritmo apresentado pelos pesquisadores permite que um robô aprenda a postura ideal para ações de pre-agarrar, como prender ou deslocar, bem como como realizar essas ações para aumentar a probabilidade de agarrar com sucesso. Sua abordagem torna uma ação particular (ou seja, mudança) dependente da outra (ou seja, agarrar), o que acaba eliminando a necessidade de recompensas esparsas e permite um aprendizado mais eficiente.
Os pesquisadores aplicaram seu algoritmo a um braço robótico Franka e então avaliaram seu desempenho em uma tarefa que envolve pegar objetos de uma lixeira até que esteja completamente vazia. Eles treinaram o sistema usando 25, 000 pegadas diferentes e 2, 500 ações de turno. Suas descobertas foram muito promissoras, com o braço robótico agarrando e arquivando com sucesso os objetos com os quais estava familiarizado e outros que nunca havia encontrado antes.
"Considero dois resultados do nosso trabalho particularmente empolgantes, "Berscheid disse." Primeiro, achamos que este trabalho realmente mostra a capacidade de aprendizagem do robô. Em vez de programar como fazer algo, dizemos ao robô o que fazer - e ele precisa descobrir como fazer sozinho. A respeito disso, fomos capazes de aplicar e generalizar os métodos que desenvolvemos para agarrar em direção à manipulação pré-agarrada. Em segundo lugar, e de relevância mais prática, isso pode ser muito útil na automação de muitas tarefas industriais, particularmente para coleta de lixo, onde o robô deve ser capaz de esvaziar a lixeira completamente por conta própria. "
No futuro, a abordagem desenvolvida por Berscheid e seus colegas poderia ser aplicada a outras plataformas robóticas, melhorando suas habilidades de pre-agarre e de manipulação de preensão. Os pesquisadores agora planejam realizar mais estudos explorando outras questões de pesquisa.
Por exemplo, até agora, sua abordagem só permite que o braço robótico Frank agarre objetos com a mão direita, usando o que é conhecido como 'agarre planar'. Os pesquisadores gostariam de estender seu algoritmo para também permitir preensão lateral, introduzindo mais parâmetros e usando dados de treinamento adicionais. De acordo com Berscheid, o principal desafio ao tentar conseguir isso será garantir que o robô adquira pegadas laterais, enquanto mantém constante o número de tentativas de agarrar que realiza durante a fase de treinamento.
"Além disso, agarrar objetos costuma fazer parte de uma tarefa de alto nível, por exemplo. queremos colocar o objeto em uma posição específica, "Berscheid disse." Como podemos localizar um objeto desconhecido com precisão? Eu acho que a resposta a esta pergunta é muito importante para lidar com aplicações industriais e novas em robótica de serviço. Em nosso projeto, queremos manter o foco no aprendizado de robôs do mundo real, preencher a lacuna entre exemplos de brinquedos em pesquisa e aplicações complexas do mundo real. "
© 2019 Science X Network