A chave para compilar o novo conjunto de dados Omnipush foi construir objetos modulares (retratados) que permitiram ao sistema robótico capturar uma vasta diversidade de comportamento de empurrar. As peças centrais contêm marcadores em seus centros e pontos para que um sistema de detecção de movimento possa detectar sua posição dentro de um milímetro. Crédito:Massachusetts Institute of Technology
Os pesquisadores do MIT compilaram um conjunto de dados que captura o comportamento detalhado de um sistema robótico empurrando fisicamente centenas de objetos diferentes. Usando o conjunto de dados - o maior e mais diverso de seu tipo - os pesquisadores podem treinar robôs para "aprender" a dinâmica de empurrar que é fundamental para muitas tarefas complexas de manipulação de objetos, incluindo reorientar e inspecionar objetos, e cenas organizadas.
Para capturar os dados, os pesquisadores projetaram um sistema automatizado que consiste em um braço robótico industrial com controle preciso, um sistema de rastreamento de movimento 3-D, profundidade e câmeras tradicionais, e software que junta tudo. O braço empurra objetos modulares que podem ser ajustados para o peso, forma, e distribuição em massa. Para cada empurrão, o sistema captura como essas características afetam o impulso do robô.
O conjunto de dados, chamado "Omnipush, "contém 250 empurrões diferentes de 250 objetos, totalizando cerca de 62, 500 impulsos exclusivos. Já está sendo usado por pesquisadores para, por exemplo, construir modelos que ajudem os robôs a prever onde os objetos pousarão quando forem empurrados.
"Precisamos de muitos dados ricos para garantir que nossos robôs possam aprender, "diz Maria Bauza, um estudante de graduação no Departamento de Engenharia Mecânica (MechE) e o primeiro autor de um artigo descrevendo Omnipush que está sendo apresentado na próxima Conferência Internacional sobre Robôs e Sistemas Inteligentes. "Aqui, estamos coletando dados de um sistema robótico real, [e] os objetos são variados o suficiente para capturar a riqueza dos fenômenos de empurrar. Isso é importante para ajudar os robôs a entender como funciona o push, e traduzir essa informação para outros objetos semelhantes no mundo real. "
Juntando-se a Bauza no papel estão:Ferran Alet e Yen-Chen Lin, alunos de pós-graduação do Laboratório de Ciência da Computação e Inteligência Artificial e do Departamento de Engenharia Elétrica e Ciência da Computação (EECS); Tomas Lozano-Perez, o Professor de Excelência em Ensino da Escola de Engenharia; Leslie P. Kaelbling, o Professor Panasonic de Ciência da Computação e Engenharia; Phillip Isola, professor assistente em EECS; e Alberto Rodriguez, um professor associado em MechE.
Diversificando dados
Por que se concentrar no comportamento de empurrar? Modelagem de dinâmica de empuxo que envolve atrito entre objetos e superfícies, Rodriguez explica, é fundamental em tarefas robóticas de nível superior. Considere o robô visual e tecnicamente impressionante que pode jogar Jenga, que Rodriguez recentemente co-projetou. "O robô está realizando uma tarefa complexa, mas o núcleo da mecânica que conduz essa tarefa ainda é empurrar um objeto afetado por, por exemplo, o atrito entre os blocos, "Rodriguez diz.
Omnipush baseia-se em um conjunto de dados semelhante construído no Laboratório de Manipulação e Mecanismos (MCube) por Rodriguez, Bauza, e outros pesquisadores que capturaram o envio de dados em apenas 10 objetos. Depois de tornar o conjunto de dados público em 2016, eles coletaram feedback de pesquisadores. Uma reclamação era a falta de diversidade de objetos:os robôs treinados no conjunto de dados lutavam para generalizar as informações para novos objetos. Também não havia vídeo, o que é importante para a visão computacional, previsão de vídeo, e outras tarefas.
Para seu novo conjunto de dados, os pesquisadores alavancam um braço robótico industrial com controle preciso da velocidade e posição de um empurrador, basicamente uma barra de aço vertical. Conforme o braço empurra os objetos, um sistema de rastreamento de movimento "Vicon" - que tem sido usado em filmes, realidade virtual, e para pesquisa - segue os objetos. Há também uma câmera RGB-D, que adiciona informações de profundidade ao vídeo capturado.
A chave era construir objetos modulares. As peças centrais uniformes, feito de alumínio, parecem estrelas de quatro pontas e pesam cerca de 100 gramas. Cada peça central contém marcadores em seu centro e pontos, para que o sistema Vicon possa detectar sua posição dentro de um milímetro.
Peças menores em quatro formas - côncavas, triangular, retangular, e circular - pode ser acoplado magneticamente a qualquer lado da peça central. Cada peça pesa entre 31 a 94 gramas, mas pesos extras, variando de 60 a 150 gramas, pode ser colocado em pequenos orifícios nas peças. Todas as peças dos objetos semelhantes a quebra-cabeças se alinham horizontal e verticalmente, o que ajuda a emular a fricção que um único objeto com a mesma forma e distribuição de massa teria. Todas as combinações de lados diferentes, pesos, e as distribuições em massa somam 250 objetos únicos.
Para cada empurrão, o braço se move automaticamente para uma posição aleatória a vários centímetros do objeto. Então, ele seleciona uma direção aleatória e empurra o objeto por um segundo. Começando de onde parou, ele então escolhe outra direção aleatória e repete o processo 250 vezes. Cada push registra a pose do objeto e o vídeo RGB-D, que pode ser usado para vários fins de previsão de vídeo. A coleta de dados levou 12 horas por dia, por duas semanas, totalizando mais de 150 horas. A intervenção humana só foi necessária ao reconfigurar manualmente os objetos.
Os objetos não imitam especificamente nenhum item da vida real. Em vez de, eles são projetados para capturar a diversidade de "cinemática" e "assimetrias de massa" esperadas de objetos do mundo real, que modelam a física do movimento de objetos do mundo real. Os robôs podem então extrapolar, dizer, o modelo físico de um objeto Omnipush com distribuição de massa desigual para qualquer objeto do mundo real com distribuições de peso semelhantes.
"Imagine empurrar uma mesa com quatro pernas, onde a maior parte do peso está sobre uma das pernas. Quando você empurra a mesa, você vê que ele gira na perna pesada e tem que se reajustar. Compreendendo essa distribuição em massa, e seu efeito no resultado de um push, é algo que os robôs podem aprender com este conjunto de objetos, "Rodriguez diz.
Impulsionando novas pesquisas
Em um experimento, os pesquisadores usaram Omnipush para treinar um modelo para prever a pose final de objetos empurrados, dada apenas a pose inicial e a descrição do push. Eles treinaram o modelo em 150 objetos Omnipush, e o testei em uma porção de objetos estendidos. Os resultados mostraram que o modelo treinado pelo Omnipush foi duas vezes mais preciso do que os modelos treinados em alguns conjuntos de dados semelhantes. Em seu jornal, os pesquisadores também registraram benchmarks de precisão que outros pesquisadores podem usar para comparação.
Como o Omnipush captura o vídeo dos empurrões, uma aplicação potencial é a previsão de vídeo. Um colaborador, por exemplo, agora está usando o conjunto de dados para treinar um robô a essencialmente "imaginar" empurrando objetos entre dois pontos. Depois de treinar no Omnipush, o robô recebe como entrada dois quadros de vídeo, mostrando um objeto em sua posição inicial e posição final. Usando a posição inicial, o robô prevê todos os quadros de vídeo futuros que garantem que o objeto alcance sua posição final. Então, ele empurra o objeto de uma forma que corresponda a cada quadro de vídeo previsto, até chegar ao quadro com a posição final.
"O robô está perguntando, "Se eu fizer esta ação, onde estará o objeto neste quadro? "Então, ele seleciona a ação que maximiza a probabilidade de obter o objeto na posição desejada, "Bauza diz." Ele decide como mover objetos imaginando primeiro como os pixels na imagem mudarão após um empurrão. "
"Omnipush inclui medições precisas do movimento do objeto, bem como dados visuais, para uma importante classe de interações entre robôs e objetos no mundo, "diz Matthew T. Mason, professor de ciência da computação e robótica na Carnegie Melon University. "Os pesquisadores de robótica podem usar esses dados para desenvolver e testar novas abordagens de aprendizagem de robôs ... que irão alimentar avanços contínuos na manipulação robótica."
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.