Uma equipe de pesquisadores na Índia desenvolveu um sistema para traduzir palavras em um idioma diferente e fazer parecer que os lábios de um falante estão se movendo em sincronia com esse idioma.
Tradução automática face a face, conforme descrito neste artigo de outubro de 2019, é um avanço em relação à tradução text-to-text ou speech-to-speech, porque não apenas traduz a fala, mas também fornece uma imagem facial sincronizada com os lábios.
Para entender como isso funciona, confira o vídeo de demonstração abaixo, criado pelos pesquisadores. Na marca de 6:38, você verá um videoclipe da falecida Princesa Diana em uma entrevista de 1995 com o jornalista Martin Bashir, explicando, "Eu gostaria de ser a rainha do coração das pessoas, no coração das pessoas, mas eu não me vejo sendo uma rainha deste país. "
Um momento depois, você a verá proferindo a mesma citação em hindi - com os lábios se movendo, como se ela realmente falasse aquela língua.
"Comunicar-se de forma eficaz através das barreiras do idioma sempre foi uma grande aspiração para os humanos em todo o mundo, "Prajwal K.R., um estudante de graduação em ciência da computação no Instituto Internacional de Tecnologia da Informação em Hyderabad, Índia, explica por e-mail. Ele é o principal autor do artigo, junto com seu colega Rudrabha Mukhopadhyay.
"Hoje, a internet está cheia de vídeos de rostos falantes:YouTube (300 horas carregadas por dia), palestras online, vídeo conferência, filmes, Programas de TV e assim por diante, "Prajwal, que atende pelo seu nome de batismo, escreve. "Os sistemas de tradução atuais só podem gerar uma saída de fala traduzida ou legendas textuais para esse conteúdo de vídeo. Eles não lidam com o componente visual. Como resultado, o discurso traduzido quando sobreposto ao vídeo, os movimentos labiais ficariam fora de sincronia com o áudio.
"Assim, construímos os sistemas de tradução de fala para fala e propomos um pipeline que pode fazer um vídeo de uma pessoa falando em um idioma de origem e produzir um vídeo do mesmo falante falando em um idioma de destino, de forma que o estilo de voz e os movimentos labiais correspondam o discurso da língua alvo, "Prajwal diz." Ao fazer isso, o sistema de tradução se torna holístico, e conforme mostrado por nossas avaliações humanas neste artigo, melhora significativamente a experiência do usuário na criação e consumo de conteúdo audiovisual traduzido. "
A tradução face a face requer uma série de façanhas complexas. "Dado o vídeo de uma pessoa falando, temos dois fluxos de informações principais para traduzir:as informações visuais e de fala, "ele explica. Eles fazem isso em várias etapas principais." O sistema primeiro transcreve as frases na fala usando o reconhecimento automático de fala (ASR). Esta é a mesma tecnologia usada em assistentes de voz (Google Assistente, por exemplo) em dispositivos móveis. "Em seguida, as frases transcritas são traduzidas para o idioma desejado usando modelos de tradução automática neural, e então a tradução é convertida em palavras faladas com um sintetizador de texto para voz - a mesma tecnologia que os assistentes digitais usam.
Finalmente, uma tecnologia chamada LipGAN corrige os movimentos labiais no vídeo original para coincidir com a fala traduzida.
Como a fala vai da entrada inicial à saída sincronizada. Prajwal Renukanand"Assim, obtemos um vídeo totalmente traduzido com sincronização labial também, "Prajwal explica.
"LipGAN é a nova contribuição chave do nosso artigo. É isso que traz a modalidade visual para a imagem. É mais importante porque corrige a sincronização labial no vídeo final, o que melhora significativamente a experiência do usuário. "
Um artigo, publicado em 24 de janeiro, 2020 em New Scientist, descreveu o avanço como um "deepfake, "um termo para vídeos em que os rostos foram trocados ou alterados digitalmente com a ajuda da inteligência artificial, muitas vezes para criar uma impressão enganosa, como esta história da BBC explicou. Mas Prajwal afirma que é uma representação incorreta da tradução face a face, que não pretende enganar, mas sim para tornar a fala traduzida mais fácil de seguir.
"Nosso trabalho tem como objetivo principal ampliar o escopo dos sistemas de tradução existentes para lidar com o conteúdo de vídeo, "ele explica." Este é um software criado com a motivação de melhorar a experiência do usuário e quebrar as barreiras do idioma no conteúdo de vídeo. Ele abre uma ampla gama de aplicativos e melhora a acessibilidade de milhões de vídeos online. "
O maior desafio em fazer um trabalho de tradução face a face era o módulo de geração face a face. "Os métodos atuais para criar vídeos sincronizados com os lábios não eram capazes de gerar rostos com as poses desejadas, tornando difícil colar o rosto gerado no vídeo de destino, "Prajwal diz." Nós incorporamos uma "pose anterior" como uma entrada para nosso modelo LipGAN, e como resultado, podemos gerar um rosto sincronizado com os lábios na pose desejada, que pode ser perfeitamente mesclado com o vídeo alvo. "
Os pesquisadores imaginam que a tradução face a face será utilizada na tradução de filmes e videochamadas entre duas pessoas que falam um idioma diferente. "Fazer personagens digitais em filmes de animação cantar / falar também é demonstrado em nosso vídeo, "Notas de Prajwal.
Além disso, ele prevê que o sistema será usado para ajudar estudantes em todo o mundo a entender vídeos de aulas online em outros idiomas. "Milhões de estudantes de línguas estrangeiras em todo o mundo não conseguem entender o excelente conteúdo educacional disponível online, porque eles estão em inglês, " ele explica.
"Avançar, em um país como a Índia, com 22 línguas oficiais, nosso sistema pode, no futuro, traduzir conteúdo de notícias de TV em diferentes idiomas locais com sincronização labial precisa dos âncoras de notícias. A lista de aplicativos, portanto, se aplica a qualquer tipo de conteúdo de vídeo de rostos falantes, que precisa ser mais acessível em todos os idiomas. "
Embora Prajwal e seus colegas pretendam que sua descoberta seja usada de maneiras positivas, a capacidade de colocar palavras estrangeiras na boca de quem fala diz respeito a um proeminente especialista em segurança cibernética dos EUA, que teme que vídeos alterados se tornem cada vez mais difíceis de detectar.
"Se você olhar o vídeo, você pode dizer se olhar de perto, a boca ficou um pouco embaçada, "diz Anne Toomey McKenna, um distinto acadêmico de leis e políticas cibernéticas na Dickinson Law da Penn State University, e um professor do Instituto de Ciências Computacionais e de Dados da universidade, em uma entrevista por e-mail. "Isso continuará a ser minimizado à medida que os algoritmos continuam a melhorar. Isso se tornará cada vez menos perceptível ao olho humano."
McKenna por exemplo, imagina como um vídeo alterado da comentarista da MSNBC Rachel Maddow pode ser usado para influenciar eleições em outros países, por "retransmitir informações imprecisas e o oposto do que ela disse."
Prajwal também está preocupado com o possível uso indevido de vídeos alterados, mas acha que podem ser desenvolvidas precauções para se proteger contra tais cenários, e que o potencial positivo para aumentar a compreensão internacional supera os riscos da tradução automática face a face. (Do lado benéfico, esta postagem do blog visa traduzir o discurso de Greta Thunberg na cúpula do clima da ONU em setembro de 2019 para uma variedade de idiomas usados na Índia.)
"Cada peça poderosa de tecnologia pode ser usada para uma grande quantidade de bens, e também tem efeitos nocivos, "Prajwal observa." Nosso trabalho é, na verdade, um sistema de tradução que pode lidar com conteúdo de vídeo. O conteúdo traduzido por um algoritmo definitivamente 'não é real, 'mas este conteúdo traduzido é essencial para pessoas que não entendem um determinado idioma. Avançar, no estágio atual, esse conteúdo traduzido automaticamente é facilmente reconhecível por algoritmos e visualizadores. Simultaneamente, pesquisas ativas estão sendo conduzidas para reconhecer tal conteúdo alterado. Acreditamos que o esforço coletivo de uso responsável, regulamentos estritos, e os avanços da pesquisa na detecção do uso indevido podem garantir um futuro positivo para essa tecnologia. "
Isso é cinematográficoDe acordo com a Language Insight, um estudo realizado por pesquisadores britânicos determinou que a preferência dos cinéfilos por filmes estrangeiros dublados em vez de legendados afeta o tipo de filme para o qual eles gravitam. Quem gosta de sucessos de bilheteria é mais provável que veja uma versão dublada de um filme, enquanto aqueles que preferem legendas têm maior probabilidade de serem fãs de importações de arte.