Um sistema de simulação inventado no MIT para treinar carros sem motorista cria um mundo fotorrealístico com infinitas possibilidades de direção, ajudando os carros a aprender a navegar em uma série de cenários de pior caso antes de cruzar por ruas reais. Crédito:Massachusetts Institute of Technology
Um sistema de simulação inventado no MIT para treinar carros sem motorista cria um mundo fotorrealístico com infinitas possibilidades de direção, ajudando os carros a aprender a navegar em uma série de cenários de pior caso antes de cruzar por ruas reais.
Sistemas de controle, ou "controladores, "para veículos autônomos dependem em grande parte de conjuntos de dados do mundo real de trajetórias de direção de motoristas humanos. A partir desses dados, eles aprendem como emular controles de direção seguros em uma variedade de situações. Mas os dados do mundo real de "casos extremos perigosos, "como quase bater ou ser forçado a sair da estrada ou em outras pistas, são - felizmente - raros.
Alguns programas de computador, chamados de "motores de simulação, "têm como objetivo imitar essas situações ao renderizar estradas virtuais detalhadas para ajudar a treinar os controladores para se recuperarem. Mas o controle aprendido com a simulação nunca foi mostrado para ser transferido para a realidade em um veículo em escala real.
Os pesquisadores do MIT lidam com o problema com seu simulador fotorrealístico, denominado Virtual Image Synthesis and Transformation for Autonomy (VISTA). Ele usa apenas um pequeno conjunto de dados, capturado por humanos dirigindo em uma estrada, para sintetizar um número praticamente infinito de novos pontos de vista de trajetórias que o veículo poderia tomar no mundo real. O controlador é recompensado pela distância que percorre sem bater, portanto, ele deve aprender por si mesmo como chegar a um destino com segurança. Ao fazer isso, o veículo aprende a navegar com segurança em qualquer situação que encontrar, incluindo recuperar o controle após desviar entre as pistas ou se recuperar de quase acidentes.
Em testes, um controlador treinado dentro do simulador VISTA com segurança foi capaz de ser implantado com segurança em um carro sem motorista em escala real e navegar por ruas nunca antes vistas. Ao posicionar o carro em orientações off-road que imitam várias situações de quase acidente, o controlador também foi capaz de recuperar o carro de volta a uma trajetória de direção segura em poucos segundos. Um artigo descrevendo o sistema foi publicado em IEEE Robótica e Cartas de Automação e será apresentado na próxima conferência ICRA em maio.
"É difícil coletar dados nesses casos extremos que os humanos não experimentam na estrada, "diz o primeiro autor Alexander Amini, um Ph.D. Aluno do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL). "Em nossa simulação, Contudo, sistemas de controle podem experimentar essas situações, aprender por si mesmos a se recuperar deles, e permanecer robusto quando implantado em veículos no mundo real. "
O trabalho foi feito em colaboração com o Toyota Research Institute. Igor Gilitschenski se juntou a Amini no jornal, um pós-doutorado em CSAIL; Jacob Phillips, Julia Moseyko, e Rohan Banerjee, todos os graduandos do CSAIL e do Departamento de Engenharia Elétrica e Ciência da Computação; Sertac Karaman, professor associado de aeronáutica e astronáutica; e Daniela Rus, diretor do CSAIL e o professor Andrew e Erna Viterbi de Engenharia Elétrica e Ciência da Computação.
Simulação baseada em dados
Historicamente, construir motores de simulação para treinar e testar veículos autônomos tem sido em grande parte uma tarefa manual. Empresas e universidades costumam empregar equipes de artistas e engenheiros para esboçar ambientes virtuais, com marcações de estradas precisas, pistas, e até folhas detalhadas nas árvores. Alguns motores também podem incorporar a física da interação de um carro com seu ambiente, baseado em modelos matemáticos complexos.
Mas, uma vez que existem tantas coisas diferentes a serem consideradas em ambientes complexos do mundo real, é praticamente impossível incorporar tudo no simulador. Por essa razão, geralmente há uma incompatibilidade entre o que os controladores aprendem na simulação e como eles operam no mundo real.
Em vez de, os pesquisadores do MIT criaram o que eles chamam de mecanismo de simulação "orientado por dados" que sintetiza, de dados reais, novas trajetórias consistentes com a aparência da estrada, bem como a distância e o movimento de todos os objetos na cena.
Eles primeiro coletam dados de vídeo de um humano dirigindo por algumas estradas e os colocam no motor. Para cada quadro, o mecanismo projeta cada pixel em um tipo de nuvem de pontos 3-D. Então, eles colocam um veículo virtual dentro desse mundo. Quando o veículo dá um comando de direção, o motor sintetiza uma nova trajetória através da nuvem de pontos, com base na curva de direção e na orientação e velocidade do veículo.
Então, o motor usa essa nova trajetória para renderizar uma cena fotorrealística. Para fazer isso, ele usa uma rede neural convolucional - comumente usada para tarefas de processamento de imagem - para estimar um mapa de profundidade, que contém informações relacionadas à distância dos objetos do ponto de vista do controlador. Em seguida, combina o mapa de profundidade com uma técnica que estima a orientação da câmera em uma cena 3-D. Tudo isso ajuda a identificar a localização do veículo e a distância relativa de tudo dentro do simulador virtual.
Com base nessas informações, ele reorienta os pixels originais para recriar uma representação 3D do mundo do novo ponto de vista do veículo. Ele também rastreia o movimento dos pixels para capturar o movimento dos carros e pessoas, e outros objetos em movimento, na cena. "Isso equivale a fornecer ao veículo um número infinito de trajetórias possíveis, "Rus diz." Porque quando coletamos dados físicos, obtemos dados da trajetória específica que o carro seguirá. Mas podemos modificar essa trajetória para cobrir todas as formas e ambientes possíveis de dirigir. Isso é realmente poderoso. "
Aprendizagem por reforço do zero
Tradicionalmente, pesquisadores têm treinado veículos autônomos seguindo regras de direção definidas por humanos ou tentando imitar motoristas humanos. Mas os pesquisadores fazem seu controlador aprender inteiramente do zero em uma estrutura "ponta a ponta", o que significa que leva como entrada apenas dados brutos do sensor - como observações visuais da estrada - e, a partir desses dados, prevê comandos de direção nas saídas.
"Basicamente, dizemos:'Aqui está um ambiente. Tu podes fazer o que quiseres. Só não bata em veículos, e fique dentro das pistas, '"Amini diz.
Isso requer "aprendizado por reforço" (RL), uma técnica de aprendizado de máquina de tentativa e erro que fornece sinais de feedback sempre que o carro comete um erro. No motor de simulação dos pesquisadores, o controlador começa sem saber nada sobre como dirigir, o que é um marcador de pista, ou até mesmo outros veículos parecem, então ele começa a executar ângulos de direção aleatórios. Ele recebe um sinal de feedback apenas quando falha. Nesse ponto, ele é teletransportado para um novo local simulado e tem que executar um conjunto melhor de ângulos de direção para evitar bater novamente. Mais de 10 a 15 horas de treinamento, ele usa esses sinais de feedback esparsos para aprender a viajar distâncias cada vez maiores sem bater.
Depois de dirigir com sucesso 10, 000 quilômetros em simulação, os autores aplicam esse controlador aprendido em seu veículo autônomo em grande escala no mundo real. Os pesquisadores dizem que esta é a primeira vez que um controlador treinado usando o aprendizado de reforço de ponta a ponta na simulação foi implantado com sucesso em um carro autônomo em escala real. "Isso foi surpreendente para nós. O controlador nunca esteve em um carro de verdade antes, mas também nunca viu as estradas antes e não tem conhecimento prévio sobre como os humanos dirigem, "Amini diz.
Forçar o controlador a percorrer todos os tipos de cenários de direção permitiu que ele recuperasse o controle de posições desorientadoras - como estar meio fora da estrada ou em outra faixa - e voltasse para a faixa correta em alguns segundos. "E outros controladores de última geração falharam tragicamente nisso, porque eles nunca viram dados como este no treinamento, "Amini diz.
Próximo, os pesquisadores esperam simular todos os tipos de condições da estrada a partir de uma única trajetória de direção, como noite e dia, e tempo ensolarado e chuvoso. Eles também esperam simular interações mais complexas com outros veículos na estrada. "E se outros carros começarem a se mover e pular na frente do veículo?" Rus diz. "Esses são complexos, interações do mundo real que queremos começar a testar. "