Um aluno pinta uma raposa durante uma aula de língua indígena quíchua com foco em nomes de animais em uma escola primária pública em Licapa, Peru, quarta-feira, 1º de setembro de 2021. Cerca de 10 milhões de pessoas falam quíchua, mas tentam traduzir automaticamente e-mails e mensagens de texto na família de línguas indígenas mais faladas nas Américas era quase impossível antes que o Google o introduzisse em seu serviço de tradução digital quarta-feira, 11 de maio de 2022. línguas, acrescentando mais 24 nesta semana, incluindo quíchua e outras línguas indígenas sul-americanas, como guarani e aimará. Crédito:AP Photo/Martin Mejia, Arquivo
Cerca de 10 milhões de pessoas falam quíchua, mas tentar traduzir automaticamente e-mails e mensagens de texto para a família de línguas indígenas mais faladas nas Américas foi praticamente impossível.
Isso mudou na quarta-feira, quando o Google adicionou o quíchua e uma variedade de outros idiomas ao seu serviço de tradução digital.
A gigante da internet diz que a nova tecnologia de inteligência artificial está permitindo expandir amplamente o repertório de idiomas do mundo do Google Tradutor. Ele adicionou 24 deles esta semana, incluindo o quíchua e outras línguas indígenas sul-americanas, como o guarani e o aimará. Também está adicionando vários idiomas africanos e do sul da Ásia amplamente falados que estão faltando em produtos de tecnologia populares.
"Analisamos línguas com populações muito grandes e carentes", disse o cientista de pesquisa do Google, Isaac Caswell, a repórteres.
As novidades da vitrine anual de tecnologia de E/S da empresa da Califórnia podem ser comemoradas em muitos cantos do mundo. Mas provavelmente também atrairá críticas daqueles frustrados por produtos de tecnologia anteriores que não conseguiram entender as nuances de seu idioma ou cultura.
O quíchua era a língua franca do Império Inca, que se estendia desde o que hoje é o sul da Colômbia até o centro do Chile. Seu status começou a declinar após a conquista espanhola do Peru há mais de 400 anos.
Adicioná-lo aos idiomas reconhecidos pelo Google é uma grande vitória para ativistas da língua quíchua como Luis Illaccanqui, um peruano que criou o site Qichwa 2.0, que inclui dicionários e recursos para aprender o idioma.
"Isso ajudará a colocar o quíchua e o espanhol no mesmo status", disse Illaccanqui, que não esteve envolvido no projeto do Google.
Illaccanqui, cujo sobrenome em quíchua significa "você é o raio", disse que o tradutor também ajudará a manter a língua viva com uma nova geração de jovens e adolescentes, "que falam quíchua e espanhol ao mesmo tempo e são fascinados por redes sociais."
A professora Carmen Cazorla escreve na língua indígena quíchua durante uma aula sobre plantas medicinais em uma escola pública primária em Licapa, Peru, quarta-feira, 1º de setembro de 2021. Cerca de 10 milhões de pessoas falam quíchua, mas tentam traduzir automaticamente e-mails e mensagens de texto para a família de línguas indígenas mais falada nas Américas era quase impossível antes que o Google a introduzisse em seu serviço de tradução digital quarta-feira, 11 de maio de 2022. A gigante da internet diz que a nova tecnologia de inteligência artificial está permitindo expandir amplamente o repertório de idiomas do mundo do Google Tradutor , acrescentando mais 24 nesta semana, incluindo quíchua e outras línguas indígenas sul-americanas, como guarani e aimará. Crédito:AP Photo/Martin Mejia
Caswell chamou a notícia de "um grande avanço tecnológico" porque, até recentemente, não era possível adicionar idiomas se os pesquisadores não conseguissem encontrar um grande acervo de texto online - como livros digitais, jornais ou postagens de mídia social - para seus Sistemas de IA para aprender.
Os gigantes da tecnologia dos EUA não têm um grande histórico de fazer sua tecnologia de linguagem funcionar bem fora dos mercados mais ricos, um problema que também dificulta a detecção de informações erradas perigosas em suas plataformas. Até esta semana, o Google Tradutor era oferecido em idiomas europeus como frísio, maltês, islandês e corso – cada um com menos de 1 milhão de falantes – mas não em idiomas da África Oriental como oromo e tigrinya, que têm milhões de falantes.
Os novos idiomas serão lançados esta semana. Eles ainda não serão entendidos pelo assistente de voz do Google, o que os limita a traduções de texto para texto por enquanto. O Google disse que está trabalhando para adicionar reconhecimento de fala e outros recursos, como traduzir um sinal apontando uma câmera para ele.
Isso será importante para línguas amplamente faladas como o quíchua, especialmente no campo da saúde, porque muitos médicos e enfermeiros peruanos que falam apenas espanhol trabalham em áreas rurais e “não conseguem entender os pacientes que falam principalmente quíchua”, disse Illaccanqui.
"A próxima fronteira, ou desafio, é trabalhar na fala", disse Arturo Oncevay, pesquisador peruano de tradução automática da Universidade de Edimburgo, que co-fundou uma coalizão de pesquisa para melhorar a tecnologia da língua indígena nas Américas. "As línguas nativas das Américas são tradicionalmente orais."
Em seu anúncio, o Google alertou que a qualidade das traduções nos idiomas recém-adicionados "ainda está muito atrás" de outros idiomas suportados, como inglês, espanhol e alemão, e observou que os modelos "cometerão erros e exibirão seus próprios preconceitos. " Mas a empresa só adicionou idiomas se seus sistemas de IA atingirem um certo limite de proficiência, disse Caswell.
“Se houver um número significativo de casos em que está muito errado, não o incluiríamos”, disse ele. "Mesmo que 90% das traduções sejam perfeitas, mas 10% sejam sem sentido, isso é um pouco demais para nós."
O Google disse que seus produtos agora suportam 133 idiomas. Os 24 mais recentes são o maior lote único a ser adicionado desde que o Google incorporou 16 novos idiomas em 2010. O que possibilitou a expansão é o que o Google chama de modelo de tradução automática "zero-shot" ou "zero-resource" - um modelo que aprende a traduzir para outro idioma sem nunca ver um exemplo disso.
A empresa-mãe do Facebook e do Instagram, Meta, introduziu um conceito semelhante chamado Universal Speech Translator no ano passado.
Livros escritos na língua indígena quíchua estão atrás de um aluno durante uma aula sobre plantas medicinais, em uma escola pública primária em Licapa, Peru, quarta-feira, 1º de setembro de 2021. Cerca de 10 milhões de pessoas falam quíchua, mas tentam traduzir automaticamente e-mails e mensagens de texto para a família de línguas indígenas mais faladas nas Américas era quase impossível antes que o Google o introduzisse em seu serviço de tradução digital na quarta-feira, 11 de maio de 2022. A gigante da internet diz que a nova tecnologia de inteligência artificial está permitindo expandir amplamente o repertório de as línguas do mundo, acrescentando mais 24 nesta semana, incluindo quíchua e outras línguas indígenas sul-americanas, como guarani e aimará. Crédito:AP Photo/Martin Mejia
O modelo do Google funciona treinando um "único modelo de IA neural gigantesco" em cerca de 100 linguagens ricas em dados e, em seguida, aplicando o que aprendeu a centenas de outras linguagens que não conhece, disse Caswell. "Imagine se você é um grande poliglota e começa a ler romances em outro idioma, pode começar a juntar o que isso pode significar com base em seu conhecimento de linguagem em geral", disse ele.
Ele disse que o novo grupo varia de línguas menores, como o Mizo, falado no nordeste da Índia por cerca de 800.000 pessoas, a idiomas mais falados, como o lingala, falado por cerca de 45 milhões de pessoas em toda a África Central.
Foi há mais de 15 anos – em 2006 – que a Microsoft obteve alguma atenção positiva na América do Sul com um recurso de software que traduz os menus e comandos familiares da Microsoft para o quíchua. Mas isso foi antes da atual onda de avanços da IA na tradução em tempo real.
O estudioso de idiomas da Universidade de Harvard Américo Mendoza-Mori, que fala quíchua, disse que chamar a atenção do Google traz alguma visibilidade necessária para o idioma em lugares como o Peru, onde ainda faltam falantes de quíchua em muitos serviços públicos. A sobrevivência de muitas dessas linguagens "vai depender de seu uso em contextos digitais", disse ele.
Outro estudioso de idiomas, Roberto Zariquiey, disse estar cético de que o Google possa fazer uma ferramenta eficaz de revitalização linguística para quíchua, aimará ou guarani sem a participação mais próxima de grupos comunitários da região.
"As línguas estão profundamente ligadas a vidas, culturas, grupos étnicos e organizações políticas", disse Zariquiey, linguista da Pontifícia Universidade Católica do Peru. "Isso deve ser levado em consideração."
—-
Os novos idiomas adicionados são:Assamese, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guarani, Ilocano, Konkani, Krio, Lingala, Luganda, Maithili, Meiteilon (Manipuri), Mizo, Oromo, Quechua, Sânscrito, Sepedi, Sorani Curdo, Tigrinya, Tsonga e Twi.