Inglês na computação:imagens para o resgate

Visão geral das tarefas no IGLUE, que incluem inferência de linguagem natural fundamentada, resposta visual a perguntas, raciocínio fundamentado e recuperação multimodal. Cada tarefa está associada a um exemplo de entrada e saída (traduções em inglês na parte inferior). Crédito:Anais da Trigésima Nona Conferência Internacional sobre Aprendizado de Máquina (2022). DOI:10.48550/arXiv.2201.11732

Tantas línguas; e, no entanto, o inglês tem domínio quase total quando se trata da tecnologia de IA Machine Learning (ML). Se, por exemplo, os pesquisadores estiverem treinando um computador para entender o conteúdo de um texto aleatório, as amostras de treinamento normalmente estarão em inglês.
"Isso introduz um viés cultural não intencional significativo. Mesmo após treinamento extensivo, a máquina nunca terá sido exposta à domesticação de touros na Índia, à culinária chinesa em panela quente ou a outros fenômenos familiares a milhões de pessoas, mas que simplesmente mentem. fora do horizonte nativo de língua inglesa", diz Ph.D. pesquisador Emanuele Bugliarello, Departamento de Ciência da Computação (DIKU), Universidade de Copenhague.

Em um esforço verdadeiramente intercultural, Bugliarello e colegas de vários países criaram uma nova ferramenta que incentiva uma abordagem mais diversificada. IGLUE (Image-Grounded Language Understanding Evaluation), como eles nomearam a ferramenta, é um benchmark que permite pontuar a eficiência de uma solução de ML em 20 idiomas (em vez de apenas em inglês).

Seu artigo científico apresentando o IGLUE foi aceito para publicação nos próximos Proceedings of The Thirty-ninth International Conference on Machine Learning , uma das principais conferências da área.

Os voluntários forneceram imagens específicas da cultura

Como um novo benchmark pode fazer a diferença?

"Quando as equipes de pesquisa de ML criam novas soluções, elas sempre são altamente competitivas. Se outro grupo conseguiu resolver uma determinada tarefa de ML com 98% de precisão, você tentará obter 99% e assim por diante. É isso que impulsiona o campo. Mas a desvantagem é que se você não tiver um benchmark adequado para um determinado recurso, ele não será priorizado. Esse tem sido o caso do ML multimodal, e o IGLUE é nossa tentativa de mudar o cenário", diz Bugliarello.

Basear o treinamento em imagens é padrão no ML. No entanto, as imagens geralmente são "rotuladas", o que significa que pedaços de texto acompanharão cada imagem, auxiliando no processo de aprendizado da máquina. Embora os rótulos sejam normalmente em inglês, o IGLUE abrange 20 idiomas tipologicamente diversos, abrangendo 11 famílias de idiomas, 9 scripts e 3 macro-áreas geográficas.

Uma parte das imagens no IGLUE são específicas da cultura. Estas imagens foram obtidas através de uma campanha de correio. Os pesquisadores pediram a voluntários em países geograficamente diversos para fornecer imagens e textos em sua língua natural e, de preferência, sobre coisas que eram importantes naquele país.

Oprimido por reações positivas

A atual falta de ML multimodal tem implicações práticas, explica Bugliarello:

"Digamos que você tem uma alergia alimentar e tem um aplicativo que pode dizer se os ingredientes problemáticos estão presentes em uma refeição. Ao se encontrar em um restaurante na China, você percebe que o cardápio é todo em chinês, mas tem fotos. seu aplicativo é bom, ele pode traduzir a imagem em uma receita, mas apenas se a máquina foi exposta a amostras chinesas durante o treinamento."

Em outras palavras, não falantes de inglês obtêm uma versão mais pobre das soluções baseadas em ML:

"O desempenho de muitas das principais soluções de ML cairá instantaneamente, à medida que forem expostas a dados de países que não falam inglês. E notavelmente, as soluções de ML perdem conceitos e ideias que não são formados na Europa ou na América do Norte. Isso é algo que a comunidade de pesquisa de ML precisa abordar", diz Bugliarello.

Felizmente, muitos colegas viram a luz, observa Bugliarello:

"Tudo isso começou há alguns anos, quando escrevemos um artigo para a conferência EMNLP (Empirical Methods in Natural Language Processing). Queríamos apenas apontar para um problema, mas logo ficamos sobrecarregados de interesse e, para nossa surpresa, nossa contribuição foi selecionado como Melhor Artigo Longo. As pessoas viram claramente o problema e fomos encorajados a fazer mais."

Pode ajudar deficientes visuais

Às vezes, o sucesso atual quase parece um fardo, admite Bugliarello:

"Como uma universidade pública, temos recursos limitados. Não podemos perseguir todos os aspectos dessa enorme tarefa. Ainda assim, podemos ver que outros grupos estão se juntando. Também podemos sentir o interesse das grandes corporações de tecnologia. Elas estão fortemente engajadas em ML e estão começando a perceber como o preconceito do inglês pode ser um problema. Obviamente, eles não estão felizes em ver o desempenho de suas soluções caindo significativamente quando aplicadas fora dos contextos da língua inglesa."

Apesar dos desenvolvimentos positivos, Bugliarello não se deixa levar. Questionado sobre o quão perto estamos de alcançar o Machine Learning não tendencioso, ele responde:

"Ah, estamos muito longe."

Ainda assim, não se trata apenas de igualdade cultural:

"A metodologia por trás do IGLUE pode encontrar várias aplicações. Por exemplo, esperamos melhorar as soluções para deficientes visuais. Existem ferramentas que ajudam deficientes visuais a acompanhar o enredo de um filme ou outro tipo de comunicação visual. Atualmente, essas ferramentas estão longe de ser perfeitas , e eu gostaria muito de poder melhorá-los. Mas isso é um pouco mais para o futuro," diz Bugliarello + Explorar mais