Usando um algoritmo desenvolvido por pesquisadores da Brown University, um robô foi capaz de copiar um esboço da Mona Lisa usando traços de caneta humanos. Crédito:Atsunobu Kotani / Brown University
Um algoritmo desenvolvido pelos cientistas da computação da Brown University permite que os robôs coloquem a caneta no papel, escrever palavras usando padrões de traço semelhantes à caligrafia humana. É um passo, os pesquisadores dizem, para robôs que são capazes de se comunicar mais fluentemente com colegas de trabalho e colaboradores humanos.
"Só de olhar para a imagem de uma palavra ou esboço, o robô pode reproduzir cada golpe como uma ação contínua, "disse Atsunobu Kotani, um estudante de graduação na Brown que liderou o desenvolvimento do algoritmo. "Isso torna difícil para as pessoas distinguirem se foi escrito pelo robô ou realmente escrito por um humano."
O algoritmo faz uso de redes de aprendizagem profunda que analisam imagens de palavras ou desenhos escritos à mão e podem deduzir a provável série de traços de caneta que os criaram. O robô pode então reproduzir as palavras ou esboços usando os traços de caneta que aprendeu. Em um artigo a ser apresentado na Conferência Internacional sobre Robótica e Automação deste mês, os pesquisadores demonstraram um robô capaz de escrever "olá" em 10 idiomas que empregam diferentes conjuntos de caracteres. O robô também foi capaz de reproduzir esboços ásperos, incluindo um da Mona Lisa.
Stefanie Tellex, professor assistente de ciência da computação na Brown and Kotani's conselheiro, afirma que o que torna este trabalho único é a capacidade do robô de aprender a ordem dos traços do zero.
"Muito do trabalho existente nesta área requer que o robô tenha informações sobre a ordem do curso com antecedência, "Tellex disse." Se você queria que o robô escrevesse algo, alguém teria que programar as ordens de curso a cada vez. Com o que Atsu fez, você pode desenhar o que quiser e o robô pode reproduzi-lo. Nem sempre faz a ordem perfeita do traço, mas fica bem perto. "
Outro aspecto notável do trabalho, Tellex diz, é como o algoritmo foi capaz de generalizar sua capacidade de reproduzir traços. Kotani treinou seu algoritmo de aprendizado profundo usando um conjunto de caracteres japoneses, e mostrou que podia reproduzir os personagens e os traços que os criaram com cerca de 93% de precisão. Mas, para surpresa dos pesquisadores, o algoritmo acabou sendo capaz de reproduzir tipos de caracteres muito diferentes que nunca tinha visto antes - impressão em inglês e cursiva, por exemplo.
"Teríamos ficado felizes se ela tivesse aprendido apenas os caracteres japoneses, "Tellex disse." Mas assim que começou a trabalhar no inglês, ficamos maravilhados. Então decidimos ver até onde poderíamos ir. "
Tellex e Kotani pediram a todos que trabalham no laboratório Humans to Robots da Tellex que escrevessem "olá" em suas línguas nativas, que incluía grego, Hindi, Urdu, Chinês e iídiche, entre outros. O robô foi capaz de reproduzi-los todos com uma precisão de curso razoável.
Usando um algoritmo desenvolvido por pesquisadores da Brown University, um robô foi capaz de escrever "olá" usando padrões de traços semelhantes aos humanos em 10 idiomas diferentes, cada um empregando conjuntos de caracteres diferentes. O robô também foi capaz de copiar um esboço da Mona Lisa. Crédito:Humans to Robots Lab / Brown University
"Eu sinto que há algo realmente lindo no robô escrevendo em tantas línguas diferentes, "Tellex disse." Eu achei isso muito legal. "
Mas a obra-prima do sistema pode ser sua cópia do esboço da Mona Lisa de Kotani. Ele desenhou seu esboço em um quadro branco no laboratório da Tellex, e então permitiu que o robô o copiasse - com bastante fidelidade - no mesmo quadro logo abaixo do original de Kotani.
"Foi de manhã cedo que nosso robô finalmente desenhou a Mona Lisa no quadro branco, "Kotani disse." Quando voltei para o laboratório, todos estavam em volta do quadro branco olhando para a Mona Lisa e me perguntando se [o robô] desenhou isso. Eles não podiam acreditar. "
Foi um grande momento para Kotani porque “foi o momento em que nosso robô definiu o que está além da mera impressão”. Uma impressora jato de tinta pode recriar uma imagem, mas faz isso com uma cabeça de impressão que vai construindo a imagem linha por linha. Mas este era o robô criando uma imagem com traços semelhantes aos humanos, que para Kotani é "algo muito mais humano e expressivo".
Chave para fazer o sistema funcionar, Kotani diz, é que o algoritmo usa dois modelos distintos da imagem que está tentando reproduzir. Usando um modelo global que considera a imagem como um todo, o algoritmo identifica um ponto de partida provável para fazer a primeira pincelada. Uma vez que o derrame tenha começado, o algoritmo aumenta o zoom, olhando para a imagem pixel por pixel para determinar onde esse traço deve ir e quanto tempo deve ter. Quando chega ao final do curso, o algoritmo novamente chama o modelo global para determinar onde o próximo curso deve começar, em seguida, ele está de volta ao modelo ampliado. Este processo é repetido até que a imagem seja concluída.
Tanto Kotani quanto Tellex afirmam que o trabalho é um passo em direção a uma melhor comunicação entre pessoas e robôs. Em última análise, eles imaginam robôs que podem deixar notas post-it, tomar ditado ou esboçar diagramas para seus colegas de trabalho e colaboradores humanos.
"Eu quero que um robô seja capaz de fazer tudo que uma pessoa pode fazer, "Tellex disse." Estou particularmente interessado em um robô que pode usar a linguagem. Escrever é uma forma de as pessoas usarem a linguagem, então pensamos que deveríamos tentar isso. "