FIGURA 1:Um sistema de visão estéreo totalmente baseado em eventos composto por um par de Sensores de Visão Dinâmicos (esquerda) que envia sua saída para um cluster de processadores TrueNorth (direita). Crédito:IBM
O grupo Brain-Inspired Computing da IBM Research-Almaden apresentará na Conferência IEEE 2018 sobre Visão Computacional e Reconhecimento de Padrões (CVPR 2018) nosso artigo mais recente intitulado "A Low Power, Alta taxa de transferência, Sistema estéreo totalmente baseado em eventos. "O artigo descreve um sistema de visão estéreo de ponta a ponta que usa computação de rede neural exclusivamente de spiking e pode ser executado em hardware neuromórfico com entrada de spiking de streaming ao vivo. Inspirado no sistema de visão humana, ele usa um cluster de chips IBM TrueNorth e um par de sensores retina digitais (também conhecidos como Sensores de Visão Dinâmica, DVS) para extrair a profundidade de objetos que se movem rapidamente em uma cena. Nosso sistema captura cenas em 3-D com baixo consumo de energia, baixa latência e alta capacidade, que tem o potencial de promover o design de sistemas inteligentes.
O que é visão estéreo?
Visão estéreo é a percepção de profundidade e estrutura 3-D. Quando você olha para um objeto, por exemplo, seus olhos produzem duas imagens díspares porque suas posições são ligeiramente diferentes. As disparidades entre as duas imagens são processadas no cérebro para gerar informações sobre a localização e distância do objeto. Nosso sistema replica essa capacidade para computadores. As posições relativas de um objeto nas imagens dos dois sensores são comparadas, e a localização do objeto no espaço 3-D é calculada por meio da triangulação desses dados.
Os sistemas de visão estéreo são usados em sistemas inteligentes para automação industrial (completando tarefas como coleta de lixo, Localização de objetos 3-D, volume e medição de peças automotivas), direção autônoma, navegação robótica móvel, vigilância, realidade aumentada, e outros propósitos.
Tecnologia neuromórfica
Nosso sistema de visão estéreo é único porque é totalmente implementado em hardware digital baseado em eventos (processadores neurossinápticos TrueNorth), usando um modelo de computação não von-Neumann totalmente baseado em gráfico, sem frames, matrizes, ou quaisquer outras estruturas de dados comuns. Esta é a primeira vez que um pipeline estéreo em tempo real de ponta a ponta é implementado totalmente em hardware baseado em eventos conectado a um sensor de visão. Nosso trabalho demonstra como um conjunto diversificado de sub-rotinas comuns necessárias para estéreo vison (retificação, correspondência estéreo espaço-temporal multi-escala, o vencedor leva tudo, e regularização de disparidade) podem ser implementados de forma eficiente em uma rede neural de spiking. Esta arquitetura usa muito menos energia do que os sistemas convencionais, que poderiam beneficiar o projeto de sistemas móveis autônomos.
Além disso, em vez de câmeras de vídeo convencionais, que capturam uma cena como uma série de quadros, usamos um par de câmeras DVS, que respondem apenas às mudanças na cena. Isso resulta em menos dados, menor consumo de energia, alta velocidade, baixa latência, e boa faixa dinâmica, todos os quais também são essenciais para o projeto de sistemas de tempo real.
Tanto os processadores quanto os sensores imitam a atividade neural humana, representando dados como eventos assíncronos, muito parecido com picos de neurônios no cérebro. Nosso sistema se baseia no trabalho influente de Misha Mahowald no projeto de sistemas neuromórficos. O grupo Brain-Inspired Computing projetou anteriormente um sistema de reconhecimento de gestos baseado em eventos usando tecnologia semelhante.
Nosso sistema estéreo de ponta a ponta conecta um par de câmeras de eventos DVS (modelos iniLabs DAVIS240C) via USB a um laptop, que distribui a computação via ethernet para um cluster de nove processadores TrueNorth. Cada processador TrueNorth é responsável pelos cálculos de disparidade estéreo em um subconjunto da entrada. Em outras palavras, esta é uma abordagem de escalabilidade horizontal para a computação de estéreo, uma vez que o sistema permite, em princípio, a adição de muitos mais processadores TrueNorth para processar entradas maiores.
FIGURA 2:Saída de uma câmera convencional baseada em quadros (esquerda) versus Sensores de Visão Dinâmica (direita) para um ventilador rotativo. Os Sensores de Visão Dinâmica produzem bordas mais nítidas para objetos em movimento rápido. Crédito:IBM Blog Research
As câmeras DAVIS fornecem dois conectores de áudio de 3,5 mm, permitindo que os eventos produzidos pelos dois sensores sejam sincronizados. Isso é fundamental para o design do sistema. As saídas de disparidade dos chips TrueNorth são então enviadas de volta para o laptop, que converte os valores de disparidade em coordenadas 3D reais. Um visualizador baseado em openGL rodando no laptop permite que o usuário visualize a cena reconstruída de qualquer ponto de vista. A versão live-feed do sistema rodando em nove chips TrueNorth é mostrado para calcular 400 mapas de disparidade por segundo com latência de até 11 ms e uma melhoria de ~ 200X em termos de potência por pixel por mapa de disparidade em comparação com o estado mais próximo de -a arte. Além disso, a capacidade de aumentar isso para 2, 000 disparidades por segundo (sujeito a certas compensações) é discutido no artigo.
FIGURA 3:Reconstrução de profundidade para um ventilador rotativo a partir da visão da câmera (superior) e de uma visão oblíqua (inferior). Crédito:IBM