Jenga! #RoboFail. Crédito:Fazeli et al., Sci. Robô. 4, eaav3123 (2019)
No porão do Edifício 3 do MIT, um robô está contemplando cuidadosamente seu próximo movimento. Ele gentilmente cutuca uma torre de blocos, procurando o melhor bloco para extrair sem derrubar a torre, em uma solitária, Movendo devagar, ainda jogo surpreendentemente ágil de Jenga.
O robô, desenvolvido por engenheiros do MIT, é equipado com uma pinça de pinos macios, uma algema de pulso com sensor de força, e uma câmera externa, todos os quais ele usa para ver e sentir a torre e seus blocos individuais.
Enquanto o robô empurra cuidadosamente contra um bloco, um computador recebe feedback visual e tátil de sua câmera e braçadeira, e compara essas medidas aos movimentos que o robô fez anteriormente. Também considera os resultados dessas mudanças - especificamente, seja um bloco, em uma certa configuração e empurrado com uma certa quantidade de força, foi extraído com sucesso ou não. Em tempo real, o robô então "aprende" se deve continuar empurrando ou se mover para um novo bloco, para evitar que a torre caia.
Detalhes do robô que joga Jenga são publicados no jornal Ciência Robótica . Alberto Rodriguez, Walter Henry Gale, Professor Assistente de Desenvolvimento de Carreira no Departamento de Engenharia Mecânica do MIT, diz que o robô demonstra algo que tem sido difícil de alcançar em sistemas anteriores:a capacidade de aprender rapidamente a melhor maneira de realizar uma tarefa, não apenas de pistas visuais, como é comumente estudado hoje, mas também do tátil, interações físicas.
"Ao contrário de tarefas ou jogos mais puramente cognitivos, como xadrez ou Go, jogar o jogo de Jenga também requer o domínio de habilidades físicas, como sondagem, empurrando, puxar, colocação, e peças de alinhamento. Requer percepção e manipulação interativas, onde você tem que ir e tocar na torre para aprender como e quando mover blocos, "Rodriguez diz." Isso é muito difícil de simular, então o robô tem que aprender no mundo real, interagindo com a verdadeira torre Jenga. O principal desafio é aprender com um número relativamente pequeno de experimentos, explorando o bom senso sobre objetos e física. "
Ele diz que o sistema de aprendizagem tátil que os pesquisadores desenvolveram pode ser usado em aplicações além do Jenga, especialmente em tarefas que requerem interação física cuidadosa, incluindo a separação de objetos recicláveis do lixo do aterro e a montagem de produtos de consumo.
"Em uma linha de montagem de celulares, em quase todas as etapas, a sensação de um encaixe rápido, ou um parafuso roscado, vem da força e do toque, e não da visão, "Rodriguez diz." Modelos de aprendizagem para essas ações são os principais bens imobiliários para esse tipo de tecnologia. "
O autor principal do artigo é Nima Fazeli, estudante de graduação do MIT. A equipe também inclui Miquel Oller, Jiajun Wu, Zheng Wu, e Joshua Tenenbaum, professor de cérebro e ciências cognitivas no MIT.
Empurre e Puxe
No jogo de Jenga - suaíli para "construir" - 54 blocos retangulares são empilhados em 18 camadas de três blocos cada, com os blocos em cada camada orientados perpendicularmente aos blocos abaixo. O objetivo do jogo é extrair cuidadosamente um bloco e colocá-lo no topo da torre, construindo assim um novo nível, sem derrubar toda a estrutura.
Para programar um robô para jogar Jenga, esquemas de aprendizado de máquina tradicionais podem exigir a captura de tudo o que poderia acontecer entre um bloco, o robô, e a torre - uma tarefa computacional cara que requer dados de milhares, senão dezenas de milhares de tentativas de extração de blocos.
Em vez de, Rodriguez e seus colegas procuraram uma maneira mais eficiente de dados para um robô aprender a jogar Jenga, inspirado pela cognição humana e pela maneira como nós mesmos podemos abordar o jogo.
A equipe personalizou um braço robótico ABB IRB 120 padrão da indústria, em seguida, monte uma torre Jenga ao alcance do robô, e começou um período de treinamento no qual o robô primeiro escolheu um bloco aleatório e um local no bloco contra o qual empurrar. Em seguida, ele exerceu uma pequena força na tentativa de empurrar o bloco para fora da torre.
Para cada tentativa de bloqueio, um computador registrou as medidas visuais e de força associadas, e rotulado se cada tentativa foi um sucesso.
Em vez de realizar dezenas de milhares de tais tentativas (o que envolveria reconstruir a torre quase tantas vezes), o robô treinou em cerca de 300, com tentativas de medições e resultados semelhantes agrupados em grupos que representam certos comportamentos de bloco. Por exemplo, um cluster de pode representar tentativas em um bloco que era difícil de mover, versus um que era mais fácil de mover, ou que derrubou a torre quando mudou. Para cada cluster de dados, o robô desenvolveu um modelo simples para prever o comportamento de um bloco de acordo com suas medidas visuais e táteis atuais.
Fazeli diz que essa técnica de agrupamento aumenta drasticamente a eficiência com a qual o robô pode aprender a jogar, e é inspirado na maneira natural como os humanos agrupam comportamentos semelhantes:"O robô constrói agrupamentos e, em seguida, aprende modelos para cada um desses agrupamentos, em vez de aprender um modelo que captura absolutamente tudo o que poderia acontecer. "
Empilhando
Os pesquisadores testaram sua abordagem com outros algoritmos de aprendizado de máquina de última geração, em uma simulação computacional do jogo usando o simulador MuJoCo. As lições aprendidas no simulador informaram aos pesquisadores como o robô aprenderia no mundo real.
Robô que joga Jenga. Crédito:Fazeli et al., Sci. Robô. 4, eaav3123 (2019)
"Fornecemos a esses algoritmos as mesmas informações que nosso sistema obtém, para ver como eles aprendem a jogar Jenga em um nível semelhante, "Oller diz." Comparado com a nossa abordagem, esses algoritmos precisam explorar ordens de magnitude em mais torres para aprender o jogo. "
Curioso para saber como sua abordagem de aprendizado de máquina se compara a jogadores humanos reais, a equipe realizou alguns testes informais com vários voluntários.
"Vimos quantos blocos um humano foi capaz de extrair antes que a torre caísse, e a diferença não era tanto, "Oller diz.
Mas ainda há um caminho a percorrer se os pesquisadores quiserem colocar seu robô de forma competitiva contra um jogador humano. Além das interações físicas, Jenga requer estratégia, como extrair apenas o bloco certo que tornará difícil para um oponente puxar o próximo bloco sem derrubar a torre.
Por enquanto, a equipe está menos interessada em desenvolver um campeão de Jenga robótico, e mais focado em aplicar as novas habilidades do robô a outros domínios de aplicação.
"Existem muitas tarefas que fazemos com as nossas mãos onde a sensação de fazer 'da maneira certa' vem na linguagem das forças e sinais táteis, "Rodriguez diz." Para tarefas como essas, uma abordagem semelhante à nossa poderia descobrir isso. "
Esta pesquisa foi apoiada, em parte, pela National Science Foundation por meio da National Robotics Initiative.