Grandes mudanças de um quadro para o outro podem sinalizar problemas. Crédito:Jesse Milan / Flickr, CC BY
Antigamente, apenas as produtoras de Hollywood com bolsos fundos e equipes de artistas e técnicos qualificados podiam fazer vídeos falsos, fabricações realistas que parecem mostrar pessoas fazendo e dizendo coisas que nunca realmente fizeram ou disseram. Não mais - o software disponível gratuitamente online permite que qualquer pessoa com um computador e algum tempo livre crie vídeos falsos convincentes.
Quer seja usado para vingança pessoal, para assediar celebridades ou influenciar a opinião pública, deepfakes tornam falso o antigo axioma de que "ver para crer".
Minha equipe de pesquisa e eu no Instituto de Ciências da Informação da Universidade do Sul da Califórnia estamos desenvolvendo maneiras de diferenciar entre falsificações de aparência realista e vídeos genuínos que mostram eventos reais conforme acontecem. Nossa pesquisa recente encontrou uma maneira nova e aparentemente mais precisa de detectar vídeos deepfake.
Encontrando as falhas
De um modo geral, vários algoritmos deepfake funcionam usando técnicas de aprendizado de máquina para analisar imagens do alvo, identificar os principais elementos das expressões faciais, como o nariz, cantos da boca, localizações dos olhos e assim por diante. Eles usam essa informação para sintetizar novas imagens do rosto daquela pessoa e juntá-las para criar um vídeo do alvo que parece realista, mas é falso.
A maioria dos métodos atuais de detecção de deepfakes envolve olhar para cada quadro de um vídeo separadamente, manualmente ou usando um algoritmo de detecção, para detectar pequenas falhas deixadas pelo processo de fabricação de imagens. Se houver evidências suficientes de adulteração em quadros suficientes, o vídeo é considerado falso.
Contudo, criadores deepfake começaram a usar grandes quantidades de compressão de imagem e vídeo para desfocar seus resultados, escondendo quaisquer artefatos que possam revelar sua falsidade.
Olhando para as sequências, não quadros únicos
Nosso método busca contornar esse engano adotando uma abordagem diferente. Extraímos todos os frames de um vídeo e identificamos as áreas que mostram o rosto do alvo. Então nós, na verdade, empilhar todas as imagens de rosto umas sobre as outras, certificando-se do nariz, olhos e boca estão todos alinhados entre cada quadro. Isso elimina os efeitos dos movimentos da cabeça ou mudanças do ângulo da câmera no vídeo.
Um algoritmo identifica os elementos faciais em um quadro de um vídeo. Crédito:Wael Abd-Almageed, CC BY-ND
Então, em vez de olhar para cada imagem de rosto individualmente, procuramos inconsistências em como diferentes partes do rosto se movem de um quadro para outro ao longo do tempo. É como montar um flip-book infantil e observar saltos estranhos na sequência. Descobrimos que este método é mais preciso, em parte porque podemos identificar mais evidências de falsidade do que quando examinamos cada quadro isoladamente.
Especificamente, detectamos deepfakes 96% das vezes, mesmo quando as imagens e vídeos são significativamente compactados. Até agora, descobrimos esse nível de precisão apenas no único banco de dados em grande escala disponível para pesquisadores acadêmicos para avaliar suas técnicas de detecção de deepfake, que é denominado FaceForensics ++. Esse conjunto de dados contém vídeos de três dos algoritmos de geração de deepfake mais proeminentes, Face2Face, FaceSwap e DeepFake, embora os falsos estejam sempre aprimorando seus métodos.
Detecção de falsificação é uma corrida armamentista, em que falsificadores e buscadores da verdade continuarão avançando em suas respectivas tecnologias. Portanto, a tarefa de limitar seus efeitos na sociedade como um todo não pode recair apenas sobre os pesquisadores. Estudiosos e experimentadores devem continuar trabalhando, claro, Mas isso não é tudo. Acredito que as plataformas de redes sociais também devem trabalhar para desenvolver software e políticas que diminuam a disseminação de desinformação de todos os tipos - seja manipulando o rosto de uma pessoa ou mostrando todo o corpo se movendo de maneiras que eles nunca poderiam.
Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.