Avançando a percepção humana em veículos autônomos

Em contraste com a segmentação panóptica (meio), a segmentação panóptica amodal (inferior) prevê instâncias inteiras de objetos, incluindo suas regiões ocluídas, por exemplo. carros e pessoas, da imagem de entrada (topo). Crédito:Berkeley DeepDrive; Abhinav Valada; Abhinav Valada

Como robôs móveis podem perceber e entender o ambiente corretamente, mesmo que partes do ambiente estejam obstruídas por outros objetos? Esta é uma questão-chave que deve ser resolvida para que os veículos autônomos naveguem com segurança em grandes cidades lotadas. Embora os humanos possam imaginar estruturas físicas completas de objetos, mesmo quando estão parcialmente ocluídos, os algoritmos de inteligência artificial (IA) existentes que permitem que robôs e veículos autônomos percebam seu ambiente não têm essa capacidade.
Robôs com IA já podem se orientar e navegar por conta própria depois de aprenderem como é o ambiente. No entanto, perceber toda a estrutura dos objetos quando estão parcialmente ocultos, como pessoas em aglomerações ou veículos em engarrafamentos, tem sido um grande desafio. Um grande passo para resolver este problema foi agora dado pelos pesquisadores de robótica de Freiburg Prof. Dr. Abhinav Valada e Ph.D. estudante Rohit Mohan do Robot Learning Lab da Universidade de Freiburg, que eles apresentaram em duas publicações conjuntas.

Os dois cientistas de Freiburg desenvolveram a tarefa de segmentação panóptica amodal e demonstraram sua viabilidade usando novas abordagens de IA. Até agora, os veículos autônomos usavam a segmentação panóptica para entender seus arredores.

Isso significa que eles podem até agora apenas prever quais pixels de uma imagem pertencem a quais regiões "visíveis" de um objeto, como uma pessoa ou um carro, e identificar instâncias desses objetos. O que falta até agora é a capacidade de prever toda a forma dos objetos, mesmo quando estão parcialmente obstruídos por outros objetos próximos a eles. A nova tarefa de percepção com segmentação panóptica amodal torna possível essa compreensão holística do ambiente.

"Amodal" refere-se ao caso em que qualquer oclusão parcial de objetos deve ser abstraída e em vez de vê-los como fragmentos, deve haver um entendimento geral de vê-los como um todo. Assim, essa capacidade aprimorada de reconhecimento visual levará a um enorme progresso na melhoria da segurança dos veículos autônomos.

Potencial para revolucionar a compreensão da cena visual urbana

Em um novo artigo publicado na IEEE/CVF Computer Vision and Pattern Recognition Conference (disponível online como uma pré-impressão), os pesquisadores adicionaram a nova tarefa aos conjuntos de dados de referência estabelecidos e os disponibilizaram publicamente. Eles agora estão pedindo aos cientistas que participem do benchmarking com seus próprios algoritmos de IA.

O objetivo desta tarefa é a segmentação semântica pixel-wise das regiões visíveis de classes amorfas de fundo, como estradas, vegetação, céu, e a segmentação de instâncias das regiões de objetos visíveis e ocluídos de classes contáveis, como carros, caminhões e pedestres.

O benchmark e os conjuntos de dados estão disponíveis publicamente no site, incluindo dois novos algoritmos de aprendizado propostos. “Estamos confiantes de que novos algoritmos de IA para essa tarefa permitirão que os robôs emulem a experiência visual que os humanos têm ao perceber estruturas físicas completas de objetos”, explica Valada.

"A segmentação panóptica amodal ajudará significativamente nas tarefas de condução automatizadas a jusante, onde a oclusão é um grande desafio, como estimativa de profundidade, fluxo óptico, rastreamento de objetos, estimativa de pose, previsão de movimento etc. - a condução de carros pode ser revolucionada. Por exemplo, se toda a estrutura de usuários da via é percebida a todo momento, independentemente de oclusões parciais, o risco de acidentes pode ser significativamente minimizado."

Além disso, ao inferir a ordem de profundidade relativa dos objetos em uma cena, os veículos automatizados podem tomar decisões complexas, como em qual direção se mover em direção ao objeto para obter uma visão mais clara. Para tornar essas visões uma realidade, a tarefa e seus benefícios foram apresentados aos principais profissionais da indústria automotiva na AutoSens, que foi realizada no Autoworld Museum em Bruxelas.

O outro artigo aparece em IEEE Robotics and Automation Letters . + Explorar mais