Crédito CC0:domínio público
Os sensores a laser usados atualmente para detectar objetos 3D nos caminhos de carros autônomos são volumosos, feio, caro, ineficiente em termos de energia - e altamente preciso.
Esses sensores de detecção e alcance de luz (LiDAR) são fixados nos tetos dos carros, onde aumentam a resistência do vento, uma desvantagem particular para carros elétricos. Eles podem adicionar cerca de US $ 10, 000 para o custo de um carro. Mas, apesar de suas desvantagens, a maioria dos especialistas considerou os sensores LiDAR a única maneira plausível de veículos autônomos perceberem os pedestres com segurança, carros e outros perigos na estrada.
Agora, Os pesquisadores da Cornell descobriram que um método mais simples, usando duas câmeras baratas em cada lado do pára-brisa, pode detectar objetos com quase a precisão do LiDAR e por uma fração do custo. Os pesquisadores descobriram que analisar as imagens capturadas a partir de uma visão panorâmica, em vez da visão frontal mais tradicional, mais do que triplicou sua precisão, tornando a câmera estéreo uma alternativa viável e de baixo custo ao LiDAR.
"Um dos problemas essenciais em carros autônomos é identificar objetos ao seu redor - obviamente, isso é crucial para um carro navegar em seu ambiente, "disse Kilian Weinberger, professor associado de ciência da computação e autor sênior do artigo, "Pseudo-LiDAR da estimativa de profundidade visual:Preenchendo a lacuna na detecção de objetos 3D para direção autônoma, ", que será apresentado na Conferência de 2019 sobre Visão Computacional e Reconhecimento de Padrões, 15 a 21 de junho em Long Beach, Califórnia.
"A crença comum é que você não poderia fazer carros autônomos sem LiDARs, "Weinberger disse." Nós mostramos, pelo menos em princípio, que é possível. "
O primeiro autor do artigo é Yan Wang, doutoranda em ciência da computação.
Os sensores LiDAR usam lasers para criar mapas de pontos 3D de seus arredores, medindo a distância dos objetos através da velocidade da luz. Câmeras estéreo, que contam com duas perspectivas para estabelecer profundidade, como os olhos humanos fazem, parecia promissor. Mas sua precisão na detecção de objetos tem sido terrivelmente baixa, e a sabedoria convencional era que eles eram muito imprecisos.
Em seguida, Wang e colaboradores examinaram mais de perto os dados das câmeras estéreo. Para sua surpresa, eles descobriram que suas informações eram quase tão precisas quanto o LiDAR. A lacuna na precisão surgiu, eles encontraram, quando os dados das câmeras estéreo estavam sendo analisados.
Para a maioria dos carros autônomos, os dados capturados por câmeras ou sensores são analisados usando redes neurais convolucionais - um tipo de aprendizado de máquina que identifica imagens aplicando filtros que reconhecem padrões associados a elas. Essas redes neurais convolucionais têm se mostrado muito boas na identificação de objetos em fotografias coloridas padrão, mas eles podem distorcer as informações 3D se forem representadas de frente. Então, quando Wang e seus colegas mudaram a representação de uma perspectiva frontal para uma nuvem de pontos observada de uma visão panorâmica, a precisão mais do que triplicou.
"Quando você tem imagens de câmera, é tão, tão, tão tentador olhar para a vista frontal, porque é isso que a câmera vê, "Weinberger disse." Mas também está o problema, porque se você vê os objetos de frente, a maneira como eles são processados os deforma, e você desfoca objetos no fundo e deforma suas formas. "
Em última análise, Weinberger disse, câmeras estéreo podem ser usadas como a principal forma de identificar objetos em carros de baixo custo, ou como um método de backup em carros de última geração que também são equipados com LiDAR.
"A indústria de automóveis autônomos tem relutado em se afastar do LiDAR, mesmo com os altos custos, dada sua excelente precisão de alcance - que é essencial para a segurança ao redor do carro, "disse Mark Campbell, o Professor John A. Mellowes '60 e S.C. Thomas Sze Diretor da Escola Sibley de Engenharia Mecânica e Aeroespacial e co-autor do artigo. "A melhoria dramática da detecção de alcance e precisão, com a representação panorâmica dos dados da câmera, tem o potencial de revolucionar a indústria. "
Os resultados têm implicações além dos carros autônomos, disse o co-autor Bharath Hariharan, professor assistente de ciência da computação.
"Há uma tendência na prática atual de alimentar os dados como estão para algoritmos de aprendizado de máquina complexos, pressupondo que esses algoritmos sempre podem extrair as informações relevantes, "Hariharan disse." Nossos resultados sugerem que isso não é necessariamente verdade, e que devemos pensar um pouco sobre como os dados são representados. "
Também contribuíram o pesquisador de pós-doutorado de Cornell, Wei-Lun Chao e Divyansh Garg '20.