Os robôs podem aprender muito com a natureza se quiserem ver o mundo

‘Ver’ através dos olhos do robô. Crédito:Shutterstock / TrifonenkoIvan

A visão é uma das incríveis criações da natureza que está conosco há centenas de milhões de anos. É um sentido fundamental para os humanos, mas um que muitas vezes tomamos como certo:isto é, até começarmos a perdê-lo ou tentarmos recriá-lo para um robô.

Muitos laboratórios de pesquisa (incluindo o nosso) modelam aspectos dos sistemas de visão encontrados em animais e insetos há décadas. Baseamo-nos fortemente em estudos como os feitos em formigas, em abelhas e até em roedores.

Para modelar um sistema biológico e torná-lo útil para robôs, você normalmente precisa entender tanto comportamental e neural base desse sistema de visão.

O componente comportamental é o que você observa o animal fazendo e como esse comportamento muda quando você mexe com o que ele pode ver, por exemplo, tentando diferentes configurações de pontos de referência. Os componentes neurais são os circuitos no cérebro do animal subjacentes ao aprendizado visual para tarefas, como navegação.

Reconhecendo rostos

O reconhecimento é um processo visual fundamental para todos os animais e robôs. É a capacidade de reconhecer pessoas familiares, animais, objetos e pontos de referência do mundo.

Por causa de sua importância, o reconhecimento facial vem parcialmente "embutido" em sistemas naturais, como um bebê. Somos capazes de reconhecer rostos bem cedo.

Nesse sentido, alguns sistemas artificiais de reconhecimento de rosto são baseados em como os sistemas biológicos funcionam. Por exemplo, pesquisadores criaram conjuntos de redes neurais que imitam diferentes níveis da hierarquia de processamento visual em primatas para criar um sistema capaz de reconhecimento facial.

Reconhecer visualmente um lugar é simples ... até que a aparência desse lugar mude drasticamente. Crédito:Michael Milford

Reconhecendo lugares

O reconhecimento visual do lugar é um processo importante para qualquer coisa que navegue pelo mundo.

O reconhecimento de lugar é o processo pelo qual um robô ou animal olha para o mundo ao seu redor e é capaz de reconciliar o que está vendo com alguma memória passada de um lugar, ou no caso de humanos, uma descrição ou expectativa desse lugar.

Antes do advento da navegação GPS, podemos ter recebido instruções como "dirija até ver a igreja à esquerda e vire na próxima à direita". Sabemos a aparência de uma igreja típica e, portanto, podemos reconhecer uma quando a vemos.

Esse reconhecimento de lugar pode parecer uma tarefa fácil, até encontrar desafios como mudança de aparência - por exemplo, a mudança na aparência causada por ciclos diurnos e noturnos ou por condições climáticas adversas.

Outro desafio em reconhecer visualmente um lugar é mudança de ponto de vista :mudanças em como um lugar aparece se você vê-lo de uma perspectiva diferente.

Quando visto de pontos de vista opostos, o mesmo lugar parece muito diferente. Crédito:neyro2008 / Alexander Zelnitskiy / Maxim Popov / 123rf.com / 1 ano, 1, 000km:Conjunto de dados Oxford RobotCar

Um exemplo extremo disso é encontrado ao refazer uma rota ao longo de uma estrada pela primeira vez - você está encontrando tudo no ambiente do ponto de vista oposto.

A criação de um sistema robótico que possa reconhecer este lugar, apesar desses desafios, requer que o sistema de visão tenha uma compreensão mais profunda do que está no ambiente ao seu redor.

Capacidade de detecção

O hardware de detecção visual avançou rapidamente na última década, em parte impulsionado pela proliferação de câmeras altamente capazes em smartphones. As câmeras modernas agora estão combinando ou superando até mesmo os sistemas de visão natural mais capazes, pelo menos em certos aspectos.

Por exemplo, uma câmera de consumidor agora pode ver tão bem quanto um olho humano ajustado no escuro.

Novas câmeras de smartphone também podem gravar vídeo em 1, 000 quadros por segundo, permitindo o potencial para sistemas de visão robótica que operam em uma frequência mais alta do que um sistema de visão humana.

Teste de baixa luminosidade do Sony A7s.

Detecção de visão robótica especializada, como o Sensor de Visão Dinâmica (DVS), são ainda mais rápidos, mas relatam apenas o mudança no brilho de um pixel, em vez de sua cor absoluta. Você pode ver a diferença aqui em uma caminhada pelo Hyde Park em Londres:

Nem todas as câmeras de robôs precisam ser como as câmeras convencionais:os roboticistas usam câmeras especializadas com base em como animais, como formigas, veem o mundo.

Resolução necessária?

Uma das questões fundamentais em todas as pesquisas baseadas na visão para robôs e animais é qual resolução visual (ou acuidade visual) é necessária para "fazer o trabalho".

Para muitos insetos e animais, como roedores, uma resolução visual relativamente baixa é tudo o que eles têm acesso - equivalente a uma câmera com alguns milhares de pixels em muitos casos (em comparação com um smartphone moderno que tem resoluções de câmera que variam de 8 a 40 megapixels).

The required resolution varies greatly depending on the task—for some navigation tasks, only a few pixels are required for both animals such as ants and bees and robots.

Mapping a walk through Hyde Park using an event camera. The top left panel shows the pixel intensity change “events”, the bottom left a normal colour camera for reference, and the right panel shows the resultant mapping of the person’s trajectory through the park, as if viewed from above.

But for more complex tasks—such as self-driving cars—much higher camera resolutions are likely to be required.

If cars are ever to reliably recognise and predict what a human pedestrian is doing, or intending to do, they will likely require high resolution visual sensing systems that can pick up subtle facial expressions and body movement.

A tension between bio-inspiration and pragmatism

For roboticists looking to nature for inspiration, there is a constant tension between mimicking biology and capitalising on the constant advances in camera technology.

Skyline-based localisation for aggressively manoeuvring robots using UV sensors and spherical harmonics.

While biological vision systems were clearly superior to cameras in the past, constant rapid advancement in technology has resulted in cameras with superior sensing capabilities to natural systems in many instances. It's only sensible that these practical capabilities should be exploited in the pursuit of creating high performance and safe robots and autonomous vehicles.

But biology will still play a key role in inspiring roboticists. The natural kingdom is superb at making highly capable vision systems that consume minimal space, computational and power resources, all key challenges for most robotic systems.