A técnica desenvolvida pelo MIT combina objetos de forma rápida e suave com aqueles escondidos em densas nuvens de pontos (esquerda), versus técnicas existentes (direita) que produzem incorretos, fósforos desconexos. Crédito:Cortesia dos pesquisadores
Uma nova técnica desenvolvida pelo MIT permite que os robôs identifiquem rapidamente objetos ocultos em uma nuvem tridimensional de dados, uma reminiscência de como algumas pessoas podem entender uma imagem de "Olho Mágico" densamente padronizada se a observarem da maneira certa.
Os robôs normalmente "veem" seu ambiente por meio de sensores que coletam e traduzem uma cena visual em uma matriz de pontos. Pense no mundo de, Nós vamos, "O Matrix, "exceto que os 1s e 0s vistos pelo personagem fictício Neo são substituídos por pontos - muitos pontos - cujos padrões e densidades delineiam os objetos em uma cena particular.
Técnicas convencionais que tentam separar objetos de tais nuvens de pontos, ou nuvens de pontos, pode fazer isso com velocidade ou precisão, mas não ambos.
Com sua nova técnica, os pesquisadores dizem que um robô pode escolher com precisão um objeto, como um pequeno animal, que de outra forma é obscurecido por uma nuvem densa de pontos, segundos após o recebimento dos dados visuais. A equipe diz que a técnica pode ser usada para melhorar uma série de situações em que a percepção da máquina deve ser rápida e precisa, incluindo carros sem motorista e assistentes robóticos na fábrica e em casa.
"O que é surpreendente sobre este trabalho é, se eu te pedir para encontrar um coelho nesta nuvem de milhares de pontos, não tem como você fazer isso, "diz Luca Carlone, professor assistente de aeronáutica e astronáutica e membro do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT. "Mas nosso algoritmo é capaz de ver o objeto em meio a toda essa desordem. Portanto, estamos chegando a um nível de desempenho sobre-humano na localização de objetos."
Carlone e o estudante de graduação Heng Yang apresentarão detalhes da técnica no final deste mês na conferência Robotics:Science and Systems na Alemanha.
"Falhar sem saber"
Os robôs atualmente tentam identificar objetos em uma nuvem de pontos comparando um objeto de modelo - uma representação de ponto 3-D de um objeto, como um coelho - com uma representação de nuvem de pontos do mundo real que pode conter esse objeto. A imagem do modelo inclui "recursos, "ou coleções de pontos que indicam curvaturas ou ângulos característicos desse objeto, como a orelha ou cauda do coelho. Os algoritmos existentes primeiro extraem recursos semelhantes da nuvem de pontos da vida real, em seguida, tente combinar esses recursos e os recursos do modelo, e, por fim, gire e alinhe os recursos ao modelo para determinar se a nuvem de pontos contém o objeto em questão.
Mas os dados da nuvem de pontos que fluem para o sensor de um robô invariavelmente incluem erros, na forma de pontos que estão na posição errada ou espaçados incorretamente, o que pode confundir significativamente o processo de extração e correspondência de recursos. Como consequência, robôs podem fazer um grande número de associações erradas, ou o que os pesquisadores chamam de "outliers" entre nuvens de pontos, e, por fim, identificar objetos incorretamente ou perdê-los totalmente.
Carlone diz que algoritmos de última geração são capazes de separar as associações ruins das boas, uma vez que os recursos foram combinados, mas eles fazem isso em "tempo exponencial, "o que significa que mesmo um cluster de computadores de processamento pesado, filtrando dados de nuvem de pontos densos com algoritmos existentes, não seria capaz de resolver o problema em um tempo razoável. Essas técnicas, embora preciso, são impraticáveis para análises maiores, conjuntos de dados da vida real contendo densas nuvens de pontos.
Outros algoritmos que podem identificar rapidamente recursos e associações o fazem rapidamente, criando um grande número de outliers ou erros de detecção no processo, sem estar ciente desses erros.
"Isso é terrível se isso está funcionando em um carro que dirige sozinho, ou qualquer aplicação crítica para a segurança, "Carlone diz." Falhar sem saber que está falhando é a pior coisa que um algoritmo pode fazer. "
Os robôs atualmente tentam identificar objetos em uma nuvem de pontos comparando um objeto de modelo - uma representação de ponto 3-D de um objeto, como um coelho - com uma representação de nuvem de pontos do mundo real que pode conter esse objeto. Crédito:Christine Daniloff, MIT
Uma visão relaxada
Yang e Carlone, em vez disso, desenvolveram uma técnica que elimina outliers em "tempo polinomial, "o que significa que pode fazer isso rapidamente, mesmo para nuvens de pontos cada vez mais densas. A técnica pode, portanto, identificar de forma rápida e precisa objetos escondidos em cenas desordenadas.
Os pesquisadores primeiro usaram técnicas convencionais para extrair recursos de um objeto de modelo de uma nuvem de pontos. Em seguida, desenvolveram um processo de três etapas para combinar o tamanho, posição, e orientação do objeto em uma nuvem de pontos com o objeto de modelo, ao mesmo tempo em que identifica boas e más associações de recursos.
A equipe desenvolveu um algoritmo de "esquema de votação adaptável" para eliminar outliers e combinar o tamanho e a posição de um objeto. Para o tamanho, o algoritmo faz associações entre o modelo e os recursos de nuvem de pontos, em seguida, compara a distância relativa entre os recursos em um modelo e os recursos correspondentes na nuvem de pontos. Se, dizer, a distância entre dois recursos na nuvem de pontos é cinco vezes maior que os pontos correspondentes no modelo, o algoritmo atribui um "voto" à hipótese de que o objeto é cinco vezes maior do que o objeto modelo.
O algoritmo faz isso para cada associação de recursos. Então, o algoritmo seleciona as associações que se enquadram na hipótese de tamanho com mais votos, e identifica aquelas como as associações corretas, enquanto poda os outros. Desta maneira, a técnica revela simultaneamente as associações corretas e o tamanho relativo do objeto representado por essas associações. O mesmo processo é usado para determinar a posição do objeto.
Os pesquisadores desenvolveram um algoritmo separado para rotação, que encontra a orientação do objeto de modelo no espaço tridimensional.
Fazer isso é uma tarefa computacional incrivelmente complicada. Imagine segurar uma caneca e tentar incliná-la para que, para corresponder a uma imagem borrada de algo que pode ser a mesma caneca. Existem vários ângulos em que você poderia inclinar essa caneca, e cada um desses ângulos tem uma certa probabilidade de coincidir com a imagem borrada.
As técnicas existentes lidam com este problema, considerando cada inclinação ou rotação possível do objeto como um "custo" - quanto menor o custo, o mais provável é que essa rotação crie uma correspondência precisa entre os recursos. Cada rotação e custo associado é representado em um mapa topográfico de tipos, composta de várias colinas e vales, com elevações mais baixas associadas a custos mais baixos.
Mas Carlone diz que isso pode facilmente confundir um algoritmo, especialmente se houver vários vales e nenhum ponto mais baixo discernível representando o verdadeiro, correspondência exata entre uma rotação específica de um objeto e o objeto em uma nuvem de pontos. Em vez de, a equipe desenvolveu um algoritmo de "relaxamento convexo" que simplifica o mapa topográfico, com um único vale representando a rotação ideal. Desta maneira, o algoritmo é capaz de identificar rapidamente a rotação que define a orientação do objeto na nuvem de pontos.
Com sua abordagem, a equipe foi capaz de identificar com rapidez e precisão três objetos diferentes - um coelho, um dragão, e um Buda - escondido em nuvens de pontos de densidade crescente. Eles também foram capazes de identificar objetos em cenas da vida real, incluindo uma sala de estar, em que o algoritmo foi rapidamente capaz de localizar uma caixa de cereal e um boné de beisebol.
Carlone diz que, como a abordagem é capaz de funcionar em "tempo polinomial, "pode ser facilmente ampliado para analisar nuvens de pontos ainda mais densas, semelhante à complexidade dos dados do sensor para carros sem motorista, por exemplo.
"Navegação, manufatura colaborativa, robôs domésticos, busca e resgate, e carros autônomos é onde esperamos causar um impacto, "Carlone diz.
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.