Em um processo de reconstrução facial em 3D desenvolvido na Carnegie Mellon University, vídeo de smartphone de uma pessoa, deixou, é analisado para produzir um modelo imperfeito do rosto, meio. O aprendizado profundo é então combinado com técnicas convencionais de visão computacional para completar a reconstrução, direito. Crédito:Carnegie Mellon University
Normalmente, são necessários equipamentos caros e experiência para criar uma reconstrução precisa em 3-D do rosto de alguém que seja realista e não pareça assustador. Agora, Pesquisadores da Carnegie Mellon University realizaram a façanha usando vídeo gravado em um smartphone comum.
Usar um smartphone para gravar um vídeo contínuo da frente e dos lados do rosto gera uma nuvem densa de dados. Um processo de duas etapas desenvolvido pelo Instituto de Robótica do CMU usa esses dados, com alguma ajuda de algoritmos de aprendizado profundo, para construir uma reconstrução digital do rosto. Os experimentos da equipe mostram que seu método pode atingir uma precisão submilimétrica, superando outros processos baseados em câmera.
Uma face digital pode ser usada para construir um avatar para jogos ou para realidade virtual ou aumentada, e também pode ser usado em animação, identificação biométrica e até procedimentos médicos. Uma renderização 3D precisa do rosto também pode ser útil na construção de máscaras cirúrgicas ou respiradores personalizados.
"Construir uma reconstrução 3-D do rosto tem sido um problema aberto na visão computacional e nos gráficos porque as pessoas são muito sensíveis à aparência das características faciais, "disse Simon Lucey, professor associado de pesquisa no Instituto de Robótica. "Mesmo pequenas anomalias nas reconstruções podem fazer o resultado final parecer irreal."
Scanners a laser, luz estruturada e configurações de estúdio multicâmera podem produzir digitalizações altamente precisas do rosto, mas esses sensores especializados são proibitivamente caros para a maioria das aplicações. Método recém-desenvolvido da CMU, Contudo, requer apenas um smartphone.
O método, que Lucey desenvolveu com os alunos de mestrado Shubham Agrawal e Anuj Pahuja, foi apresentado no início de março na IEEE Winter Conference on Applications of Computer Vision (WACV) em Snowmass, Colorado. Ele começa com a gravação de 15-20 segundos de vídeo. Nesse caso, os pesquisadores usaram um iPhone X em câmera lenta.
"A alta taxa de quadros da câmera lenta é uma das coisas principais do nosso método porque gera uma nuvem de pontos densa, "Lucey disse.
Os pesquisadores então empregam uma técnica comumente usada chamada localização e mapeamento simultâneo visual (SLAM). Visual SLAM triangula pontos em uma superfície para calcular sua forma, enquanto, ao mesmo tempo, usa essas informações para determinar a posição da câmera. Isso cria uma geometria inicial da face, mas os dados ausentes deixam lacunas no modelo.
Na segunda etapa deste processo, os pesquisadores trabalham para preencher essas lacunas, primeiro usando algoritmos de aprendizado profundo. O aprendizado profundo é usado de forma limitada, no entanto:identifica o perfil da pessoa e pontos de referência, como orelhas, olhos e nariz. As técnicas clássicas de visão computacional são então usadas para preencher as lacunas.
"O aprendizado profundo é uma ferramenta poderosa que usamos todos os dias, "Lucey disse." Mas o aprendizado profundo tende a memorizar soluções, "que vai contra os esforços para incluir detalhes distintivos do rosto." Se você usar esses algoritmos apenas para encontrar os pontos de referência, você pode usar métodos clássicos para preencher as lacunas com muito mais facilidade. "
O método não é necessariamente rápido; demorou 30-40 minutos de tempo de processamento. Mas todo o processo pode ser realizado em um smartphone.
Além de reconstruções faciais, os métodos da equipe CMU também podem ser empregados para capturar a geometria de quase qualquer objeto, Lucey disse. As reconstruções digitais desses objetos podem então ser incorporadas às animações ou talvez transmitidas pela Internet para sites onde os objetos podem ser duplicados com impressoras 3-D.