Tradutores sexistas online recebem um pouco de treinamento sobre sensibilidade de gênero

Crédito:Aleutie / Shutterstock

As ferramentas de tradução online nos ajudaram a aprender novos idiomas, comunicar-se além das fronteiras lingüísticas, e visualizar sites estrangeiros em nossa língua nativa. Mas a inteligência artificial (IA) por trás deles está longe de ser perfeita, frequentemente replicando em vez de rejeitar os preconceitos que existem dentro de uma língua ou sociedade.

Essas ferramentas são especialmente vulneráveis a estereótipos de gênero, porque alguns idiomas (como o inglês) não tendem a substantivos de gênero, enquanto outros (como o alemão) o fazem. Ao traduzir do inglês para o alemão, as ferramentas de tradução precisam decidir a qual gênero atribuir palavras em inglês como "mais limpo". Incrivelmente, as ferramentas estão de acordo com o estereótipo, optando pela palavra feminina em alemão.

Os preconceitos são humanos:eles fazem parte de quem somos. Mas quando não é contestado, preconceitos podem surgir na forma de atitudes negativas concretas em relação aos outros. Agora, nossa equipe encontrou uma maneira de retreinar a IA por trás das ferramentas de tradução, usando treinamento direcionado para ajudá-lo a evitar estereótipos de gênero. Nosso método poderia ser usado em outros campos da IA para ajudar a rejeitar a tecnologia, ao invés de replicar, preconceitos dentro da sociedade.

Algoritmos tendenciosos

Para a consternação de seus criadores, Os algoritmos de IA frequentemente desenvolvem traços racistas ou sexistas. O Google Tradutor foi acusado de estereótipos com base no gênero, como suas traduções, pressupondo que todos os médicos são homens e todas as enfermeiras são mulheres. Enquanto isso, o gerador de linguagem de IA GPT-3 - que escreveu um artigo inteiro para o Guardian em 2020 - mostrou recentemente que também era chocantemente bom na produção de conteúdo prejudicial e desinformação.

O húngaro é uma língua de gênero neutro, não tem pronomes de gênero, então o Google Translate escolhe automaticamente o gênero para você. É assim que o sexismo cotidiano é consistentemente codificado em 2021. Foda-se, Google. pic.twitter.com/EPqkEw5yEQ
- Dora Vargha (@DoraVargha) 20 de março, 2021

Essas falhas de IA não são necessariamente culpa de seus criadores. Acadêmicos e ativistas recentemente chamaram a atenção para o preconceito de gênero no Oxford English Dictionary, onde sinônimos sexistas de "mulher" - como "vadia" ou "empregada" - mostram como até mesmo uma versão constantemente revisada, O catálogo de palavras editado academicamente pode conter preconceitos que reforçam estereótipos e perpetuam o sexismo cotidiano.

A IA aprende o preconceito porque não é construída no vácuo:ela aprende a pensar e agir lendo, analisar e categorizar os dados existentes - como os contidos no Oxford English Dictionary. No caso da tradução AI, expomos seu algoritmo a bilhões de palavras de dados textuais e pedimos que ele reconheça e aprenda com os padrões que detecta. Chamamos esse processo de aprendizado de máquina, e ao longo do caminho os padrões de preconceito são aprendidos, bem como os de gramática e sintaxe.

Idealmente, os dados textuais que mostramos AI não conterão viés. Mas há uma tendência contínua no campo para a construção de sistemas maiores treinados em conjuntos de dados cada vez maiores. Estamos falando de centenas de bilhões de palavras. Eles são obtidos na Internet usando ferramentas de extração de texto indiscriminadas, como Rastreamento Comum e WebText2, que saqueiam pela web, devorando cada palavra que encontram.

O tamanho dos dados resultantes torna impossível para qualquer ser humano realmente saber o que há neles. Mas sabemos que parte dele vem de plataformas como o Reddit, que virou manchete por apresentar conteúdo ofensivo, informações falsas ou conspiratórias nas postagens dos usuários.

Novas traduções

Em nossa pesquisa, queríamos procurar uma maneira de contrariar o preconceito nos conjuntos de dados textuais extraídos da Internet. Nossos experimentos usaram uma parte selecionada aleatoriamente de um corpus inglês-alemão existente (uma seleção de texto) que originalmente continha 17,2 milhões de pares de frases - metade em inglês, metade em alemão.

Como destacamos, Alemão tem formas de gênero para substantivos (doctor pode ser "der Arzt" para masculino, "die Ärztin" para feminino), onde em inglês não atribuímos o gênero a essas formas de substantivos (com algumas exceções, eles próprios contenciosos, como "ator" e "atriz").

Nossa análise desses dados revelou desequilíbrios específicos de gênero. Por exemplo, descobrimos que a forma masculina do engenheiro alemão (der Ingenieur) era 75 vezes mais comum do que sua contraparte feminina (die Ingenieurin). Uma ferramenta de tradução treinada nesses dados inevitavelmente replicará esse viés, traduzindo "engenheiro" para o homem "der Ingenieur". Então, o que pode ser feito para evitar ou atenuar isso?

Superando o preconceito

Uma resposta aparentemente direta é "equilibrar" o corpus antes de pedir aos computadores que aprendam com ele. Possivelmente, por exemplo, adicionar mais engenheiras ao corpus impediria um sistema de tradução de presumir que todos os engenheiros são homens.

Infelizmente, existem dificuldades com esta abordagem. As ferramentas de tradução são treinadas por dias em bilhões de palavras. É possível retreiná-los alterando o gênero das palavras, mas é ineficiente, caro e complicado. Ajustar o gênero em idiomas como o alemão é especialmente desafiador porque, a fim de fazer sentido gramatical, várias palavras em uma frase podem precisar ser alteradas para refletir a troca de gênero.

Em vez desse laborioso reequilíbrio de gênero, decidimos retreinar os sistemas de tradução existentes com aulas direcionadas. Quando detectamos um viés nas ferramentas existentes, decidimos retreiná-los em novos, conjuntos de dados menores - um pouco como uma tarde de treinamento de sensibilidade de gênero no trabalho.

Essa abordagem consome uma fração do tempo e dos recursos necessários para treinar modelos a partir do zero. Conseguimos usar apenas algumas centenas de exemplos de tradução selecionados - em vez de milhões - para ajustar o comportamento da IA de tradução de maneiras específicas. Ao testar profissões de gênero na tradução - como tínhamos feito com "engenheiros" - as melhorias de precisão após a adaptação foram cerca de nove vezes maiores do que a abordagem de retreinamento "equilibrada".

Em nossa pesquisa, queríamos mostrar que lidar com vieses ocultos em enormes conjuntos de dados não significa ajustar laboriosamente milhões de exemplos de treinamento, uma tarefa que corre o risco de ser rejeitada como impossível. Em vez de, o viés dos dados pode ser direcionado e desaprendido - uma lição que outros pesquisadores de IA podem aplicar ao seu próprio trabalho.

Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.