p da esquerda, Wenjie Luo, pesquisadores da U of T, Professora Associada Raquel Urtasun, e Bin Yang do Uber’s Advanced Technologies Group (ATG) Toronto. Crédito:Ryan Perez
p Um veículo autônomo deve detectar objetos, rastreá-los ao longo do tempo, e prever onde estarão no futuro para planejar uma manobra segura. Essas tarefas são normalmente treinadas de forma independente uma da outra, o que pode resultar em desastres caso uma das tarefas falhe. p Pesquisadores do departamento de ciência da computação da Universidade de Toronto e do Uber's Advanced Technologies Group (ATG) em Toronto desenvolveram um algoritmo que raciocina em conjunto sobre todas essas tarefas - o primeiro a reuni-las. Mais importante, sua solução leva apenas 30 milissegundos por quadro.
p "Tentamos otimizar como um todo para que possamos corrigir os erros entre cada uma das tarefas em si, "diz Wenjie Luo, um Ph.D. estudante de ciência da computação. "Quando feito em conjunto, a incerteza pode ser propagada e a computação compartilhada. "
p Luo e Bin Yang, um Ph.D. estudante de ciência da computação, junto com seu supervisor de graduação, Raquel Urtasun, professor associado de ciência da computação e chefe do Uber ATG Toronto, apresentará seu artigo, Velozes e furiosos:detecção 3D ponta a ponta em tempo real, Rastreamento e previsão de movimento com uma única rede convolucional, na conferência Computer Vision and Pattern Recognition (CVPR) desta semana em Salt Lake City, o principal evento anual de visão computacional.
p Para iniciar, O Uber coletou um conjunto de dados em grande escala de várias cidades norte-americanas usando scanners Li-DAR montados em telhados que emitem feixes de laser para medir distâncias. O conjunto de dados inclui mais de um milhão de quadros, coletado de 6, 500 cenas diferentes.
p Urtasun diz que a saída do LiDAR é uma nuvem de pontos no espaço tridimensional que precisa ser entendida por um sistema de inteligência artificial (IA). Esses dados não são estruturados por natureza, e é, portanto, consideravelmente diferente dos dados estruturados normalmente alimentados em sistemas de IA, como imagens.
p "Se a tarefa é detectar objetos, você pode tentar detectar objetos em todos os lugares, mas há muito espaço livre, então muitos cálculos são feitos para nada. Em vista aérea, os objetos que tentamos reconhecer ficam no chão e, portanto, é muito eficiente raciocinar sobre onde as coisas estão, "diz Urtasun.
p Para lidar com grandes quantidades de dados não estruturados, Ph.D. o aluno Shenlong Wang e os pesquisadores do Uber ATG desenvolveram uma ferramenta especial de IA.
p "Uma imagem é uma grade 2-D. Um modelo 3-D é um monte de malhas 3-D. Mas aqui, o que capturamos [com Li-DAR] é apenas um monte de pontos, e eles estão espalhados naquele espaço, que para a IA tradicional é muito difícil de lidar, "diz Wang (foto à esquerda).
p Urtasun explica que há uma razão pela qual a IA funciona muito bem em imagens. As imagens são objetos retangulares, feito de pequenos pixels, também retangular, portanto, os algoritmos funcionam bem na análise de estruturas semelhantes a grades. Mas os dados LiDAR não têm nenhuma estrutura regular, tornando difícil para os sistemas de IA aprenderem.
p Seus resultados para o processamento direto de pontos dispersos não se limitam à condução autônoma, mas qualquer domínio onde haja dados não estruturados, incluindo química e redes sociais.
p Nove artigos serão apresentados no CVPR do laboratório de Urtasun. Mengye Ren, um Ph.D. estudante de ciência da computação, Andrei Pokrovsky, um engenheiro de software da equipe do Uber ATG, Yang e Urtasun também buscaram computação mais rápida e desenvolveram SBNet:Sparse Blocks Network for Fast Inference.
p “Queremos que a rede seja o mais rápida possível para que possa detectar e tomar decisões em tempo real, com base na situação atual, "diz Ren." Por exemplo, os humanos olham para certas regiões que consideramos importantes perceber, então aplicamos isso à direção autônoma. "
p Para aumentar a velocidade de todo o cálculo, disse Ren, eles desenvolveram uma computação esparsa com base nas regiões que são importantes. Como resultado, seu algoritmo provou ser até 10 vezes mais rápido quando comparado aos métodos existentes.
p “O carro vê tudo, mas concentra a maior parte de sua computação no que é importante, economizando computação, "diz Urtasun.
p "Então, quando há muitos carros [na estrada], o cálculo não se torna muito esparso, para que não percamos nenhum veículo. Mas quando é esparso, vai mudar de forma adaptativa o cálculo, "diz Ren.
p Os pesquisadores lançaram o código SBNet, pois é amplamente útil para melhorar o processamento de pequenos dispositivos, incluindo smartphones.
p Urtasun diz que o impacto geral da pesquisa de seu grupo aumentou significativamente quando eles viram seus algoritmos implementados na frota autônoma do Uber, em vez de residir apenas em trabalhos acadêmicos.
p "Estamos tentando resolver a direção autônoma, "diz Urtasun, "que é um dos problemas fundamentais deste século."