Os pesquisadores da UCLA criaram um sistema de visão de máquina de pixel único que pode codificar a informação espacial de objetos no espectro de luz para classificar opticamente objetos de entrada e reconstruir suas imagens usando um detector de pixel único. Crédito:Ozcan Lab @ UCLA.
Os sistemas de visão de máquina têm muitas aplicações, incluindo carros autônomos, manufatura inteligente, cirurgia robótica e imagem biomédica, entre muitos outros. A maioria desses sistemas de visão de máquina usa câmeras baseadas em lentes, e depois que uma imagem ou vídeo é capturado, normalmente com alguns megapixels por quadro, um processador digital é usado para realizar tarefas de aprendizado de máquina, como classificação de objeto e segmentação de cena. Essa arquitetura de visão de máquina tradicional sofre de várias desvantagens. Primeiro, a grande quantidade de informações digitais torna difícil obter análise de imagem / vídeo em alta velocidade, especialmente usando dispositivos móveis e alimentados por bateria. Além disso, as imagens capturadas geralmente contêm informações redundantes, que sobrecarrega o processador digital com uma alta carga computacional, criando ineficiências em termos de requisitos de energia e memória. Além disso, além dos comprimentos de onda visíveis da luz, fabricar sensores de imagem de alta contagem de pixels, como o que temos em nossas câmeras de telefones celulares, é desafiador e caro, que limita as aplicações de métodos de visão de máquina padrão em comprimentos de onda mais longos, como terahertz parte do espectro.
Os pesquisadores da UCLA relataram um novo, estrutura de visão de máquina de pixel único que fornece uma solução para mitigar as deficiências e ineficiências dos sistemas de visão de máquina tradicionais. Eles alavancaram o aprendizado profundo para projetar redes ópticas criadas por superfícies difrativas sucessivas para realizar cálculos e inferências estatísticas conforme a luz de entrada passa por essas camadas especialmente projetadas e fabricadas em 3D. Ao contrário das câmeras convencionais baseadas em lentes, essas redes ópticas difrativas são projetadas para processar a luz de entrada em comprimentos de onda selecionados com o objetivo de extrair e codificar as características espaciais de um objeto de entrada no espectro da luz difratada, que é coletado por um detector de pixel único. Diferentes tipos de objetos ou classes de dados são atribuídos a diferentes comprimentos de onda de luz. Os objetos de entrada são classificados oticamente automaticamente, simplesmente usando o espectro de saída detectado por um único pixel, contornando a necessidade de uma matriz de sensor de imagem ou um processador digital. Esta inferência totalmente óptica e capacidade de visão de máquina através de um detector de pixel único que é acoplado a uma rede difrativa oferece vantagens transformadoras em termos de taxa de quadros, requisito de memória e eficiência de energia, que são especialmente importantes para aplicativos de computação móvel.
Em um estudo publicado em Avanços da Ciência , Os pesquisadores da UCLA demonstraram experimentalmente o sucesso de sua estrutura em comprimentos de onda de terahertz, classificando as imagens de dígitos escritos à mão usando um detector de pixel único e camadas difrativas impressas em 3D. A classificação óptica dos objetos de entrada (dígitos manuscritos) foi realizada com base no sinal máximo entre os dez comprimentos de onda que foram, um por um, atribuído a diferentes dígitos manuscritos (0 a 9). Apesar de usar um detector de pixel único, uma precisão de classificação óptica de mais de 96% foi alcançada. Um estudo experimental de prova de conceito com camadas difrativas impressas em 3D mostrou uma estreita concordância com as simulações numéricas, demonstrando a eficácia da estrutura de visão de máquina de pixel único para a construção de sistemas de aprendizado de máquina de baixa latência e com eficiência de recursos. Além da classificação de objetos, os pesquisadores também conectaram a mesma rede óptica difrativa de pixel único com um simples, rede neural eletrônica rasa, para reconstruir rapidamente as imagens dos objetos de entrada com base apenas na potência detectada em dez comprimentos de onda distintos, demonstrando a descompressão de imagens para tarefas específicas.
Esta estrutura de classificação de objeto de pixel único e reconstrução de imagem pode abrir caminho para o desenvolvimento de novos sistemas de visão de máquina que utilizam codificação espectral de informações de objeto para realizar uma tarefa de inferência específica de maneira eficiente em termos de recursos, com baixa latência, baixo consumo de energia e baixa contagem de pixels. Esta nova estrutura também pode ser estendida a vários sistemas de medição de domínio espectral, como Tomografia de Coerência Óptica, Espectroscopia de infravermelho e outros, para criar imagens 3D fundamentalmente novas e modalidades de detecção integradas com codificação baseada em rede difrativa de informações espectrais e espaciais.