Desenvolver uma ferramenta de tradução automática para ajudar os requerentes de asilo na fronteira

Crédito:Domínio Público CC0

Imagine fugir da perseguição em casa, sobreviver a uma jornada difícil, chegar a um novo país para pedir asilo, apenas para ser rejeitado na fronteira porque ninguém fala sua língua. Esta é a realidade para centenas de migrantes que chegam aos Estados Unidos de áreas remotas da América Central que não falam línguas comuns, como espanhol ou português.
A falta de tradutores para requerentes de asilo indígenas que falam línguas tradicionais significa que muitos devem esperar meses ou até anos no México para solicitar asilo, criando um longo atraso em um sistema de imigração já sobrecarregado.

"O sistema de imigração dos EUA está configurado para lidar com inglês e espanhol", disse Katy Felkner, Ph.D. estudante de ciência da computação na Escola de Engenharia USC Viterbi, "mas há várias centenas de pessoas por ano que são falantes de línguas minoritárias, em particular, falando línguas indígenas do México e da América Central, que não podem acessar nenhum dos recursos e assistência jurídica que existe para os migrantes de língua espanhola."

Em outros casos, as pessoas não conseguem explicar as ameaças às suas vidas em suas cidades de origem, o que poderia ser a base do asilo. Quando os migrantes não podem entender ou ser entendidos, não há como estabelecer a ameaça à sua segurança durante uma "entrevista de medo credível" realizada pelo Departamento de Segurança Interna dos EUA.

As estatísticas são impressionantes:imigrantes em busca de asilo sem advogado prevaleceram em apenas 13% de seus casos, enquanto aqueles com advogado prevaleceram em 74% de seus casos, de acordo com um estudo da Fordham Law Review.

Felkner, que conduz sua pesquisa no USC Information Sciences Institute (ISI) sob a orientação de Jonathan May, professor associado de pesquisa, está trabalhando no desenvolvimento de uma solução:um sistema de tradução automática para idiomas indígenas mexicanos e centro-americanos que pode ser usado por organizações que prestam serviços jurídicos ajuda aos refugiados e requerentes de asilo.

"As pessoas estão sendo diretamente impactadas porque não há intérpretes disponíveis para seus idiomas nas organizações de assistência jurídica", disse Felkner. “Esta é uma maneira concreta e imediata de usarmos o processamento de linguagem natural para o bem social”.

"As pessoas estão sendo diretamente impactadas porque não há intérpretes disponíveis para seus idiomas nas organizações de assistência jurídica". Katy Felkner.

Dar aos requerentes de asilo uma oportunidade justa

Felkner está atualmente trabalhando em um sistema para uma língua guatemalteca, que é uma das 25 línguas mais faladas no tribunal de imigração nos últimos anos, segundo o The New York Times.

"Estamos tentando fornecer um sistema de tradução aproximado para permitir que organizações sem fins lucrativos e ONGs que não têm recursos para contratar intérpretes forneçam algum nível de assistência jurídica e dê aos requerentes de asilo uma chance justa de passar por essa entrevista de medo credível", disse Felkner.

O interesse de Felkner por idiomas começou durante sua graduação na Universidade de Oklahoma, onde ela obteve uma dupla graduação em ciência da computação e letras, com foco em latim. Durante seu primeiro ano de faculdade, ela trabalhou em um projeto chamado Digital Latin Library, escrevendo código Python para criar versões digitais de textos antigos.

"Foi isso que me fez pensar sobre a tecnologia da linguagem", disse Felkner. "Ensinei a mim mesmo algumas noções básicas de processamento de linguagem natural e acabei me concentrando na tradução automática porque acho que é uma das áreas com impacto humano mais imediato e também um dos problemas mais difíceis nessa área."

Enquanto Felkner e May estão atualmente focados no desenvolvimento de um tradutor de texto para texto, o objetivo final, daqui a alguns anos, é um sistema multilíngue de tradução de fala para fala:o advogado falaria inglês ou espanhol e o sistema traduziria automaticamente na língua indígena do requerente de asilo e vice-versa.

Empurrando o limite inferior

Os sistemas de tradução são treinados usando dados paralelos:em outras palavras, eles aprendem vendo pares de tradução, ou o mesmo texto em ambos os idiomas, no nível da frase. Mas há muito poucos dados paralelos em línguas indígenas, incluindo K'iche', apesar de ser falado por cerca de um milhão de pessoas.

Isso porque os dados paralelos só existem quando há uma razão convincente para traduzir para ou fora desse idioma. Essencialmente, disse Felkner, se for comercialmente viável – a Disney dublagem de filmes do inglês para o espanhol, por exemplo – ou decorrente de uma motivação religiosa.

Em muitos casos, devido à influência dos missionários em toda a América Latina, a única fonte de dados paralela – o mesmo texto em ambas as línguas – é a Bíblia, que não dá muito trabalho aos pesquisadores.

"Imagine que você é um falante de inglês tentando aprender espanhol, mas o único espanhol que você pode ver é o Novo Testamento", disse Felkner. "Seria muito difícil."

Essa é uma má notícia para os modelos de aprendizado profundo famintos por dados usados por sistemas de tradução de idiomas que adotam uma abordagem de quantidade em vez de qualidade.

“Os modelos precisam ver uma palavra, frase, construção gramatical várias vezes para ver onde é provável que ocorra e a que corresponde no outro idioma”, disse Felkner. "Mas não temos isso para K'iche' e outras línguas indígenas de recursos extremamente baixos."

Os números falam por si. Do inglês ao K'iche', Felkner tem aproximadamente 15.000 sentenças de dados paralelos e 8.000 sentenças de espanhol para K'iche'. Por outro lado, o modelo de espanhol para inglês que ela treinou para algum trabalho de linha de base tinha 13 milhões de frases de dados de treinamento.

"Estamos tentando trabalhar essencialmente sem dados", disse Felkner. "E esse é o caso de praticamente todas as linguagens de poucos recursos, ainda mais nas Américas."

Uma tática existente no trabalho com poucos recursos usa como ponto de partida idiomas de recursos mais altos e intimamente relacionados:por exemplo, para traduzir do inglês para o romeno, você começaria a treinar o modelo em espanhol.

Mas como as línguas indígenas das Américas se desenvolveram separadamente da Europa e da Ásia, a maioria tem poucos recursos, e a maioria deles são recursos extremamente baixos, um termo que Felkner cunhou para descrever um idioma com menos de cerca de 30.000 sentenças de dados paralelos.

"Estamos realmente tentando forçar o limite inferior de quão poucos dados você pode ter para treinar com sucesso um sistema de tradução automática", disse Felkner.

Criando algo do nada

Mas Felkner, com sua formação em linguística, não se intimidou. Nos últimos dois anos, ela trabalhou na criação de dados de linguagem para os modelos usando alguns truques do comércio de processamento de linguagem natural.

Uma tática envolve ensinar o modelo a completar a tarefa abstrata de tradução e então configurá-lo para funcionar no idioma específico em questão. "É o mesmo princípio de aprender a dirigir um ônibus aprendendo a dirigir um carro primeiro", disse Felkner.

Para fazer isso, Felkner pegou um modelo de inglês para espanhol e depois o ajustou para K'iche' para espanhol. Acontece que essa abordagem, chamada de aprendizado de transferência, mostrou-se promissora mesmo em um caso de recursos extremamente baixos. "Isso foi muito emocionante", disse Felkner. "A abordagem do aprendizado por transferência e o pré-treinamento de um idioma não relacionado nunca foram realmente testados neste ambiente de recursos extremamente baixos, e descobri que funcionou."

Ela também aproveitou outro recurso:usar livros de gramática publicados por linguistas de campo em meados dos anos 70 para gerar dados sintéticos plausíveis que podem ser usados para ajudar os modelos a aprender. Felkner está usando os livros de gramática para escrever regras que a ajudarão a construir frases sintaticamente corretas dos dicionários. O termo técnico para isso é bootstrapping ou aumento de dados — ou coloquialmente, "finja até conseguir".

"Nós usamos isso como dados de pré-treinamento, essencialmente para ensinar aos modelos o básico da gramática", disse Felkner. “Então, podemos salvar nossos dados reais, como os dados paralelos da Bíblia, para o período de ajuste fino em que aprenderá o que é semanticamente significativo ou o que realmente faz sentido”.

Finalmente, ela está testando uma técnica que envolve analisar substantivos nos lados inglês e kiche da Bíblia, substituindo-os por outros substantivos e, em seguida, usando um conjunto de regras para flexionar corretamente as frases para gramática.

Por exemplo, se os dados de treinamento tiverem a frase:'o menino chutou a bola', os pesquisadores poderiam usar essa abordagem para gerar frases como 'a menina chutou a bola', 'o médico chutou a bola', 'o professor chutou a bola', ball', que podem se tornar dados de treinamento.

"A ideia é usar esses exemplos gerados sinteticamente para construir essencialmente uma versão aproximada do sistema, para que possamos tirar muito proveito da pequena quantidade de dados reais que temos e ajustá-los exatamente onde desejamos. quero que seja", disse Felkner.

Impacto humanitário imediato

Trabalhar em tradução de idiomas com recursos extremamente baixos não é fácil e às vezes pode ser frustrante, admite Felkner. Mas o desafio e o potencial de mudar vidas a levam ao sucesso.

No próximo ano, ela planeja realizar uma viagem de campo para observar como as organizações de assistência jurídica estão trabalhando na fronteira e onde seu sistema pode se encaixar em seu fluxo de trabalho. Ela também está trabalhando em um site de demonstração para o sistema, que espera revelar em 2023 e, uma vez desenvolvido, espera que o sistema possa um dia ser aplicado a outras línguas indígenas.

“A escalada em linguagens de alto recurso pode fazer com que seu Alexa, Google Home ou Siri o entendam melhor, mas não é transformador da mesma maneira”, disse Felkner. "Estou fazendo este trabalho porque tem um impacto humanitário imediato. Como JFK disse uma vez, escolhemos ir à lua não porque é fácil, mas porque é difícil. Muitas vezes acho que as coisas que valem a pena fazer são difíceis ." + Explorar mais