Uma descrição semanticamente rica de uma cena de café da manhã. Crédito:Bálint-Benczédi et al.
Ao longo da última década ou assim, avanços no aprendizado de máquina permitiram o desenvolvimento de sistemas cada vez mais autônomos, incluindo veículos autônomos, assistentes virtuais e robôs móveis. Entre outras coisas, pesquisadores que desenvolvem sistemas autônomos precisam identificar maneiras de integrar componentes projetados para lidar com subtarefas diferentes, mas complementares.
Por exemplo, um robô que conclui tarefas manuais na casa de um usuário humano deve ser capaz de sentir objetos em seu ambiente enquanto também recupera informações sobre esses objetos que podem então ser usadas para planejar seus movimentos e ações. Este processo, também conhecido como o paradigma "percepção-cognição-ação", é de importância crucial, já que, em última análise, permite que o robô crie estratégias úteis e conclua tarefas com eficiência.
Até aqui, a maioria dos métodos para implementar esse paradigma de percepção-cognição-ação em robôs trata essas três tarefas como módulos quase totalmente independentes que atuam como caixas pretas uns para os outros. Uma equipe de pesquisadores da Universidade de Bremen e da Universidade de Munique, na Alemanha, Contudo, acredita que ligar o sistema de "percepção" de um robô com sua cognição (ou seja, sua capacidade de "raciocinar" ou recuperar informações sobre objetos no ambiente circundante) pode melhorar significativamente seu desempenho geral.
Com isso em mente, os pesquisadores desenvolveram recentemente um sistema de percepção cognitiva que pode melhorar o desempenho de robôs móveis em tarefas de manipulação diárias. Este sistema, apelidado de ROBOSHERLOCK, atinge a percepção por meio de análise de conteúdo (CA), uma estratégia que envolve o uso de métodos estatísticos para analisar grandes quantidades de dados.
Os dados analisados por ROBOSHERLOCK são "não estruturados, "já que sua estrutura não reflete a semântica associada a ela, como faria em um banco de dados ou planilha. O sistema, portanto, usa uma estratégia conhecida como gerenciamento de informações não estruturadas (UIM), o que essencialmente significa que ele pode processar grandes quantidades de dados não estruturados (por exemplo, documentos de texto, arquivos de áudio, imagens, etc.) usando um conjunto de algoritmos de extração de informações. Cada um desses algoritmos extrai diferentes tipos de conhecimento, dependendo de sua "experiência, "e são posteriormente avaliados e combinados para chegar a uma única decisão consistente.
"Em ROBOSHERLOCK, a percepção e a interpretação de cenas realistas são formuladas como um problema de gerenciamento de informações não estruturadas (UIM), "os pesquisadores escreveram em seu artigo." A aplicação do princípio UIM apóia a implementação de sistemas de percepção que podem responder a perguntas relevantes para tarefas sobre objetos em uma cena, impulsionar o desempenho de reconhecimento de objeto combinando os pontos fortes de algoritmos de percepção múltipla, suporta raciocínio baseado em conhecimento sobre objetos e permite a geração automática e baseada em conhecimento de pipelines de processamento. "
Os pesquisadores avaliaram sua estrutura em uma série de testes, aplicando-o a diferentes sistemas para percepção de cena do mundo real. Eles descobriram que "raciocinar" sobre (ou seja, processamento) o conhecimento de fundo recuperado por seus algoritmos permite que ROBOSHERLOCK responda a uma ampla variedade de perguntas, ir além é diretamente perceptível no ambiente circundante.
Os componentes do ROBOSHERLOCK apresentados pelos pesquisadores em seu estudo recente podem ser vistos como suas funcionalidades principais. Subseqüentemente, os pesquisadores também desenvolveram várias extensões que aumentam as capacidades cognitivas do sistema. Por exemplo, eles criaram uma extensão que permite ao sistema detectar humanos e objetos simultaneamente, raciocínio sobre as ações que os humanos estão realizando e as intenções por trás dessas ações.
"Mais recentemente, investigamos como a estrutura ROBOSHERLOCK pode permitir que os agentes 'sonhem' e, usando motores de jogos de última geração, gerem variações de uma tarefa e aprendam novos modelos de percepção, "os pesquisadores escreveram em seu artigo." Todas essas extensões olham para a percepção do robô da perspectiva de um robô executando tarefas, o que não teria sido possível sem a estrutura central apresentada aqui. "
© 2019 Science X Network