• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Rastreamento de múltiplas faces para ajudar a IA a seguir a ação

    Figura 1. Três componentes algorítmicos principais de nosso método para rastreamento de múltiplas faces em uma sequência de vídeo. Crédito:IBM

    Na recente Conferência de 2018 sobre Visão Computacional e Reconhecimento de Padrões, Eu apresentei um novo algoritmo para rastreamento multi-face, um componente essencial para a compreensão do vídeo. Para entender as sequências visuais envolvendo pessoas, Os sistemas de IA devem ser capazes de rastrear vários indivíduos nas cenas, apesar de mudar os ângulos da câmera, iluminação, e aparências. O novo algoritmo permite que os sistemas de IA realizem essa tarefa.

    O trabalho anterior nesta área concentrou-se principalmente no rastreamento de uma única pessoa ou de várias pessoas em uma cena. A próxima etapa é rastrear várias pessoas ao longo de um vídeo inteiro que consiste em muitas tomadas diferentes. Esta tarefa é desafiadora porque as pessoas podem sair e entrar novamente no vídeo repetidamente. Suas aparências podem mudar drasticamente graças ao guarda-roupa, Penteado, e maquiagem. Suas poses mudam, e seus rostos podem ser parcialmente ocluídos pelo ângulo de visão, iluminação, ou outros objetos na cena. O ângulo da câmera e o zoom também mudam, e características como baixa qualidade de imagem, iluminação ruim, e o desfoque de movimento pode aumentar a dificuldade da tarefa. As tecnologias de reconhecimento de rosto existentes podem funcionar em casos mais restritos, onde as imagens são de boa qualidade e mostram o rosto completo de uma pessoa, mas falham em vídeo irrestrito, onde os rostos das pessoas podem estar no perfil, ocluído, recortado, ou embaçado.

    Um método para rastreamento de múltiplas faces

    Colaborando com o Professor Ying Hung, do Departamento de Estatística e Bioestatística da Rutgers University, desenvolvemos um método para localizar diferentes indivíduos em uma sequência de vídeo e reconhecê-los se saírem e, em seguida, reentrar no vídeo, mesmo que pareçam muito diferentes. Para fazer isso, primeiro criamos tracklets para as pessoas presentes no vídeo. Os tracklets são baseados na co-ocorrência de várias partes do corpo (rosto, cabeça e ombros, tronco, e corpo inteiro) para que as pessoas possam ser rastreadas mesmo quando não estiverem totalmente à vista da câmera (por exemplo, seus rostos estão virados ou obstruídos por outros objetos). Formulamos o problema de rastreamento de várias pessoas como uma estrutura de gráfico G =(ν, ε) com dois tipos de arestas:εs e εt. Arestas espaciais εs denotam as conexões de diferentes partes do corpo de um candidato dentro de um quadro e são usadas para gerar o estado hipotético de um candidato. As arestas temporais εt denotam as conexões das mesmas partes do corpo sobre molduras adjacentes e são utilizadas para estimar o estado de cada pessoa em diferentes molduras. Geramos tracklets de rosto usando caixas delimitadoras de rosto dos tracklets de cada pessoa e extraímos características faciais para agrupamento.

    A segunda parte do método conecta tracklets que pertencem à mesma pessoa. A Figura 1 (b) mostra a visualização 2-D tSNE do recurso VGG-face extraído em um videoclipe. Isso mostra que, em comparação com todos os recursos (b1), característica de imagens grandes (b) são mais discriminativas. Construímos conexões inequívocas entre tracklets, analisando a resolução da imagem facial dos objetos e as distâncias relativas de recursos profundos extraídos. Esta etapa gera um resultado inicial de armazenamento em cluster. Estudos empíricos mostram que os modelos baseados em CNN são sensíveis ao borrão da imagem e ao ruído porque as redes geralmente são treinadas em imagens de alta qualidade. Geramos resultados robustos de agrupamento final usando um modelo de Processo Gaussiano (GP) para compensar as limitações profundas de recursos e capturar a riqueza dos dados. Diferente das abordagens baseadas na CNN, Os modelos de GP fornecem uma abordagem paramétrica flexível para capturar a não linearidade e a correlação espaço-temporal do sistema subjacente. Portanto, é uma ferramenta atraente a ser combinada com a abordagem baseada em CNN para reduzir ainda mais a dimensão sem perder complexas e importar informações espaço-temporais. Aplicamos o modelo GP para detectar outliers, remova as conexões entre outliers e outros tracklets, e, em seguida, reatribua os outliers a clusters refinados formados depois que os outliers são desconectados, gerando clusters de alta qualidade.

    Rastreamento de múltiplas faces em videoclipes

    Para avaliar o desempenho de nossa abordagem, nós o comparamos com métodos de última geração na análise de conjuntos de dados desafiadores de vídeos sem restrições. Em uma série de experimentos, usamos videoclipes, que apresentam alta qualidade de imagem, mas significativa, mudanças rápidas na cena, configuração da câmera, movimento da câmera, inventar, e acessórios (como óculos). Nosso algoritmo superou outros métodos em relação à precisão e ao rastreamento de agrupamento. A pureza do clustering foi substancialmente melhor com nosso algoritmo em comparação com os outros métodos (0,86 para nosso algoritmo contra 0,56 para o concorrente mais próximo usando um dos videoclipes). Além disso, nosso método determinava automaticamente o número de pessoas, ou clusters, para ser rastreado sem a necessidade de análise manual de vídeo.

    O desempenho de rastreamento de nosso algoritmo também foi superior aos métodos de última geração para a maioria das métricas, incluindo recall e precisão. Nosso método aumentou visivelmente a maioria das instâncias rastreadas (MT) e reduziu as instâncias de comutação de identidade (IDS) e fragmentos de rastreamento (Frag). O vídeo abaixo mostra exemplos de resultados de rastreamento em vários videoclipes. Nosso algoritmo rastreia vários indivíduos de forma confiável em diferentes tomadas em todos os vídeos sem restrições, embora alguns indivíduos tenham uma aparência facial muito semelhante, vários cantores principais aparecem em um fundo desordenado cheio de público, ou alguns rostos estão fortemente ocluídos. Esta estrutura para rastreamento de várias faces em vídeo sem restrições é uma etapa importante para melhorar a compreensão do vídeo. O algoritmo e seu desempenho são descritos em mais detalhes em nosso artigo CVPR, "Um método sem precedentes para rastreamento de múltiplas faces em vídeos irrestritos."

    Esta história foi republicada por cortesia da IBM Research. Leia a história original aqui.




    © Ciência https://pt.scienceaq.com