Na verdade, é muito difícil encontrar fotos de pessoas com os olhos fechados. Crédito:Bulin / Shutterstock.com
Uma nova forma de desinformação está prestes a se espalhar pelas comunidades online à medida que as campanhas eleitorais de meio de mandato de 2018 esquentam. Chamados de "deepfakes" em homenagem ao pseudônimo de conta online que popularizou a técnica - que pode ter escolhido seu nome porque o processo usa um método técnico chamado "deep learning" - esses vídeos falsos parecem muito realistas.
Até aqui, pessoas têm usado vídeos falsos em pornografia e sátira para fazer parecer que pessoas famosas estão fazendo coisas que normalmente não fariam. Mas é quase certo que deepfakes aparecerão durante a temporada da campanha, pretendendo representar candidatos dizendo coisas ou indo a lugares que o verdadeiro candidato não faria.
Como essas técnicas são tão novas, as pessoas estão tendo problemas para diferenciar os vídeos reais dos deepfake. Meu trabalho, com meu colega Ming-Ching Chang e nosso Ph.D. estudante Yuezun Li, encontrou uma maneira confiável de diferenciar vídeos reais de vídeos deepfake. Não é uma solução permanente, porque a tecnologia vai melhorar. Mas é um começo, e oferece esperança de que os computadores serão capazes de ajudar as pessoas a distinguir a verdade da ficção.
O que é um 'deepfake, ' qualquer forma?
Fazer um vídeo deepfake é muito parecido com traduzir entre idiomas. Serviços como o Google Translate usam aprendizado de máquina - análise por computador de dezenas de milhares de textos em vários idiomas - para detectar padrões de uso de palavras que eles usam para criar a tradução.
Os algoritmos Deepfake funcionam da mesma maneira:eles usam um tipo de sistema de aprendizado de máquina chamado rede neural profunda para examinar os movimentos faciais de uma pessoa. Em seguida, eles sintetizam imagens do rosto de outra pessoa fazendo movimentos análogos. Fazer isso cria efetivamente um vídeo da pessoa alvo parecendo fazer ou dizer as coisas que a pessoa de origem fez.
Antes que eles possam funcionar corretamente, redes neurais profundas precisam de muitas informações de origem, como fotos das pessoas que são a origem ou o alvo da falsificação de identidade. Quanto mais imagens forem usadas para treinar um algoritmo deepfake, mais realista será a representação digital.
Detectando piscando
Ainda existem falhas neste novo tipo de algoritmo. Um deles tem a ver com como os rostos simulados piscam - ou não. Humanos adultos saudáveis piscam em algum lugar a cada 2 e 10 segundos, e um único piscar leva entre um décimo e quatro décimos de segundo. Isso seria normal ver em um vídeo de uma pessoa falando. Mas não é o que acontece em muitos vídeos falsos.
Quando um algoritmo deepfake é treinado em imagens do rosto de uma pessoa, depende das fotos disponíveis na internet que podem ser usadas como dados de treinamento. Mesmo para pessoas que são fotografadas com frequência, poucas imagens estão disponíveis online mostrando seus olhos fechados. Não apenas fotos como essa são raras - porque os olhos das pessoas estão abertos na maior parte do tempo - mas os fotógrafos geralmente não publicam imagens onde os olhos das pessoas principais estão fechados.
Sem treinar imagens de pessoas piscando, algoritmos deepfake são menos propensos a criar faces que piscam normalmente. Quando calculamos a taxa geral de intermitência, e compara isso com o intervalo natural, descobrimos que os personagens em vídeos deepfake piscam com muito menos frequência em comparação com pessoas reais. Nossa pesquisa usa aprendizado de máquina para examinar a abertura e o fechamento dos olhos em vídeos.
Isso nos dá inspiração para detectar vídeos deepfake. Subseqüentemente, desenvolvemos um método para detectar quando a pessoa pisca no vídeo. Para ser mais específico, verifica cada quadro de um vídeo em questão, detecta os rostos nele e, em seguida, localiza os olhos automaticamente. Em seguida, utiliza outra rede neural profunda para determinar se o olho detectado está aberto ou fechado, usando a aparência dos olhos, características geométricas e movimento.
Sabemos que nosso trabalho está aproveitando uma falha no tipo de dados disponíveis para treinar algoritmos deepfake. Para evitar ser vítima de uma falha semelhante, treinamos nosso sistema em uma grande biblioteca de imagens de olhos abertos e fechados. Este método parece funcionar bem, e como resultado, alcançamos uma taxa de detecção de mais de 95%.
Esta não é a palavra final sobre a detecção de deepfakes, claro. A tecnologia está melhorando rapidamente, e a competição entre gerar e detectar vídeos falsos é análoga a um jogo de xadrez. Em particular, piscar pode ser adicionado a vídeos deepfake incluindo imagens de rostos com os olhos fechados ou usando sequências de vídeo para treinamento. As pessoas que querem confundir o público ficarão melhores em fazer vídeos falsos - e nós e outros na comunidade de tecnologia precisaremos continuar a encontrar maneiras de detectá-los.
Este artigo foi publicado originalmente em The Conversation. Leia o artigo original.