Visualização das distribuições de rotação. As linhas representam a probabilidade de rotações superiores a um limite. O comprimento de cada linha é proporcional à probabilidade desse ponto de vista. Como pode ser visto, PoseRBPF naturalmente representa incertezas devido a vários tipos de simetrias, incluindo simetria rotacional da tigela, simetria de espelho do tijolo de espuma, e simetrias rotacionais discretas dos objetos T-LESS à direita. Crédito:Deng et al.
Pesquisadores da NVIDIA, Universidade de Washington, Universidade de Stanford, e a Universidade de Illinois Urbana-Champaign desenvolveram recentemente um filtro de partículas Rao-Blackwellized para rastreamento de pose 6-D, chamado PoseRBPF. A abordagem pode estimar efetivamente a translação 3-D de um objeto e sua distribuição completa ao longo da rotação 3-D. O artigo que descreve este filtro, pré-publicado no arXiv, será apresentado na próxima Robotics Science and Systems Conference em Freiburg, Alemanha.
Rastrear poses 6-D de objetos em vídeos pode melhorar o desempenho dos robôs em uma variedade de tarefas, incluindo tarefas de manipulação e navegação. A maioria das técnicas existentes para estimativa de pose de objeto tenta prever uma estimativa única para a pose 6-D (ou seja, translação xyz e orientação 3-D) de um objeto em cada quadro de câmera.
Esses métodos apresentam várias limitações e problemas. Por exemplo, eles são incapazes de dizer a pose de objetos parcialmente ou completamente obstruídos. Além disso, existem situações em que, devido a simetrias, não há uma única resposta correta para a pose de um objeto, o que complica ainda mais a tarefa.
"Acontece que muitos objetos em nossos ambientes cotidianos são simétricos, como pratos de jantar, tigelas, garrafas, ou cubos, "Arsalan Mousavian, um dos pesquisadores que realizou o estudo, disse TechXplore. "Esses objetos não têm uma orientação 3D exclusiva, pois parecem idênticos de muitos ângulos de visão diferentes. Para contornar esses problemas, propusemos um método para rastrear a distribuição completa da pose de um objeto (em oposição à estimativa de pose única) ao longo do tempo. Esta distribuição captura com precisão a incerteza na pose do objeto, e o rastreamento ao longo do tempo ajuda a desambiguar a pose do objeto. Por exemplo, se um objeto é visível em algum ponto e fica obstruído, o método pode recuperar a pose rastreando-a a partir de quadros anteriores. "
PoseRBPF, a abordagem desenvolvida por Mousavian e seus colegas, pode rastrear a distribuição completa na pose 6-D (ou seja, tradução 3-D, Orientação 3-D) de um determinado objeto, em relação a uma câmera específica. As distribuições de probabilidade no espaço 6-D são altamente complexas, portanto, se não forem medidos corretamente, é impossível atualizá-los em tempo real. Para garantir a precisão das distribuições rastreadas, os pesquisadores desacoplaram suas estimativas de translação de objetos 3-D e orientação de objetos 3-D usando uma técnica chamada filtragem de partículas Rao-Blackwellized.
"Na filtragem de partículas Rao-Blackwellized, as traduções de objetos são representadas por amostras, ou partículas, e a orientação é discretizada em pequenos pedaços de cerca de 200, 000 orientações possíveis, "Mousavian explicou." Usamos uma técnica de aprendizado profundo para pré-computar embeddings que representam como o objeto pode ser em todas essas orientações e sob condições de iluminação arbitrárias. Aproveitando as vantagens do processamento de GPU NVIDIA altamente paralelizado, nossa abordagem pode então comparar a imagem da câmera atual com esses embeddings pré-computados para todas as orientações possíveis e atualizar a distribuição em tempo real. "
Em cada etapa de tempo, a abordagem concebida pelos pesquisadores atualiza o conjunto de partículas por amostragem do conjunto de partículas anterior, seguindo um modelo que prevê como o objeto e a câmera podem se mover de uma etapa para outra. Este processo permite que PoseRBPF acumule informações ao longo do tempo, o que, por sua vez, leva a estimativas de pose mais robustas e precisas.
Visualização das distribuições de rotação. Crédito:Deng et al.
Ilustração do cálculo da probabilidade de rotação condicional por correspondência do livro de código. Esquerda) Cada partícula corta a imagem com base em sua hipótese de tradução. O RoI para cada partícula é redimensionado e o código correspondente é calculado usando o codificador. Direita) A distribuição de rotação P (R | Z, T) é calculado a partir da distância entre o código para cada hipótese e aqueles no livro de código. Crédito:Deng et al.
Para cada partícula, a distribuição de orientação é estimada condicionada à estimativa de translação, enquanto a estimativa de tradução é avaliada com os RoIs correspondentes. Crédito:Deng et al.
Visão geral da estrutura PoseRBPF para rastreamento de pose de objeto 6D. Crédito:Deng et al.
Visualização das distribuições de rotação. As linhas representam a probabilidade de rotações superiores a um limite. O comprimento de cada linha é proporcional à probabilidade desse ponto de vista. Como pode ser visto, PoseRBPF naturalmente representa incertezas devido a vários tipos de simetrias, incluindo simetria rotacional da tigela, simetria de espelho do tijolo de espuma, e simetrias rotacionais discretas dos objetos T-LESS à direita. Crédito:Deng et al.
Ao condicionar a estimativa de orientação à translação, o sistema de rastreamento proposto por Mousavian e seus colegas pode efetivamente representar distribuições de incerteza complexas sobre o espaço de poses de objetos 6-D. Sua estrutura também fornece informações de incerteza sobre a pose de um determinado objeto, que pode ser particularmente útil em tarefas de manipulação de robôs. Além disso, o sistema foi treinado usando dados sintéticos e não anotados, assim, pode economizar aos pesquisadores o tempo e os recursos gastos na anotação de dados.
"Nosso método combina a estrutura clássica de estimativa Bayesiana de filtragem de partículas com aprendizado profundo, "Mousavian disse." Dessa forma, reúne técnicas de estimativa bem estabelecidas desenvolvidas nas últimas décadas e o poder das abordagens recentes de aprendizado profundo. Como resultado, PoseRBPF pode avaliar de forma robusta as poses de objetos arbitrários, incluindo os simétricos. "
Os pesquisadores avaliaram sua abordagem em dois conjuntos de dados de estimativa de pose 6-D:o conjunto de dados de vídeo YCB e o conjunto de dados T-LESS. PoseRBPF alcançou resultados de última geração, superando outras técnicas de estimativa de pose. No futuro, o filtro de partículas desenvolvido por Mousavian e seus colegas pode melhorar o desempenho dos robôs em uma variedade de configurações, por exemplo, melhorando suas capacidades de manipulação de objetos.
"Seguindo em frente, vamos investigar como usar as estimativas de incerteza fornecidas por PoseRBPF no contexto da manipulação de objetos, "Disse Mousavian." Outro caminho para trabalhos futuros é mover ativamente a câmera para reduzir a incerteza na pose de um objeto, como olhar para um objeto de um ponto de vista diferente para resolver a ambiguidade. "
© 2019 Science X Network