Crédito CC0:domínio público
No livro da autora canadense Margaret Atwood O assassino cego , ela diz que "o toque vem antes da vista, antes do discurso. É o primeiro idioma e o último, e sempre diz a verdade. "
Embora nosso sentido do tato nos dê um canal para sentir o mundo físico, nossos olhos nos ajudam a compreender imediatamente a imagem completa desses sinais táteis.
Os robôs que foram programados para ver ou sentir não podem usar esses sinais de forma tão intercambiável. Para melhor preencher essa lacuna sensorial, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) criaram uma inteligência artificial preditiva (IA) que pode aprender a ver pelo toque, e aprenda a sentir vendo.
O sistema da equipe pode criar sinais táteis realistas a partir de entradas visuais, e prever qual objeto e qual parte está sendo tocado diretamente a partir dessas entradas táteis. Eles usaram um braço robótico KUKA com um sensor tátil especial chamado GelSight, projetado por outro grupo do MIT.
Usando uma câmera web simples, a equipe registrou quase 200 objetos, como ferramentas, produtos para o lar, tecidos, e mais, sendo tocado por mais de 12, 000 vezes. Quebrando aqueles 12, 000 clipes de vídeo em frames estáticos, a equipe compilou "VisGel, "um conjunto de dados de mais de 3 milhões de imagens emparelhadas visuais / táteis.
"Olhando para a cena, nosso modelo pode imaginar a sensação de tocar uma superfície plana ou uma borda afiada, "diz Yunzhu Li, CSAIL Ph.D. aluno e autor principal em um novo artigo sobre o sistema. "Tocando cegamente, nosso modelo pode prever a interação com o ambiente puramente a partir de sensações táteis. A união desses dois sentidos pode capacitar o robô e reduzir os dados de que podemos precisar para tarefas que envolvem manipulação e apreensão de objetos. "
Trabalho recente para equipar robôs com sentidos físicos mais parecidos com os humanos, como o projeto de 2016 do MIT usando aprendizado profundo para indicar sons visualmente, ou um modelo que prevê as respostas dos objetos às forças físicas, ambos usam grandes conjuntos de dados que não estão disponíveis para a compreensão das interações entre visão e toque.
A técnica da equipe contorna isso usando o conjunto de dados VisGel, e algo chamado redes adversárias gerativas (GANs).
Yunzhu Li é um estudante de doutorado no Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL). Crédito:Massachusetts Institute of Technology
Os GANs usam imagens visuais ou táteis para gerar imagens na outra modalidade. Eles funcionam usando um "gerador" e um "discriminador" que competem entre si, onde o gerador visa criar imagens reais para enganar o discriminador. Cada vez que o discriminador "pega" o gerador, tem que expor o raciocínio interno da decisão, o que permite que o gerador se aprimore repetidamente.
Visão para tocar
Os humanos podem inferir como um objeto se sente apenas por vê-lo. Para melhor dar às máquinas esse poder, o sistema primeiro tinha que localizar a posição do toque, e então deduzir informações sobre a forma e a sensação da região.
As imagens de referência - sem nenhuma interação robô-objeto - ajudaram o sistema a codificar detalhes sobre os objetos e o ambiente. Então, quando o braço do robô estava operando, o modelo poderia simplesmente comparar o quadro atual com sua imagem de referência, e identificar facilmente a localização e escala do toque.
Isso pode parecer algo como alimentar o sistema com a imagem de um mouse de computador, e então "ver" a área onde o modelo prevê que o objeto deve ser tocado para a coleta - o que poderia ajudar muito as máquinas a planejar ações mais seguras e eficientes.
Toque para ver
Para toque para visão, o objetivo era que o modelo produzisse uma imagem visual baseada em dados táteis. O modelo analisou uma imagem tátil, e então descobri a forma e o material da posição de contato. Em seguida, olhou de volta para a imagem de referência para "alucinar" a interação.
Por exemplo, se durante o teste o modelo foi alimentado com dados táteis em um sapato, poderia produzir uma imagem de onde o sapato tinha maior probabilidade de ser tocado.
Este tipo de habilidade pode ser útil para realizar tarefas em casos onde não há dados visuais, como quando uma luz está apagada, ou se uma pessoa está cegamente alcançando uma caixa ou área desconhecida.
Olhando para a frente
O conjunto de dados atual tem apenas exemplos de interações em um ambiente controlado. A equipe espera melhorar isso coletando dados em áreas mais não estruturadas, ou usando uma nova luva tátil projetada pelo MIT, para aumentar melhor o tamanho e a diversidade do conjunto de dados.
Ainda existem detalhes que podem ser difíceis de inferir a partir de modos de alternância, como dizer a cor de um objeto apenas tocando-o, ou dizer o quão macio é um sofá sem realmente pressioná-lo. Os pesquisadores dizem que isso poderia ser melhorado com a criação de modelos mais robustos para a incerteza, para expandir a distribuição de resultados possíveis.
No futuro, este tipo de modelo pode ajudar com uma relação mais harmoniosa entre visão e robótica, especialmente para reconhecimento de objetos, agarrando, melhor compreensão da cena, e ajudando na integração perfeita entre humano e robô em um ambiente auxiliar ou de manufatura.
"Este é o primeiro método que pode traduzir de forma convincente entre sinais visuais e de toque, "diz Andrew Owens, um pós-doutorado na Universidade da Califórnia em Berkeley. "Métodos como este têm potencial para ser muito úteis para a robótica, onde você precisa responder a perguntas como 'este objeto é duro ou macio? ", ou 'se eu levantar esta caneca pela alça, quão boa será a minha aderência? "Este é um problema muito desafiador, uma vez que os sinais são tão diferentes, e este modelo demonstrou grande capacidade. "
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.