A IA poderia ser uma força para o bem - mas no momento rumamos para um futuro mais sombrio

Crédito CC0:domínio público

A Inteligência Artificial (IA) já está reconfigurando o mundo de maneiras conspícuas. Os dados impulsionam nosso ecossistema digital global, e as tecnologias de IA revelam padrões nos dados. Smartphones, casas inteligentes, e cidades inteligentes influenciam como vivemos e interagimos, e os sistemas de IA estão cada vez mais envolvidos nas decisões de recrutamento, diagnósticos médicos, e veredictos judiciais. Se este cenário é utópico ou distópico depende da sua perspectiva.

Os riscos potenciais da IA são enumerados repetidamente. Robôs assassinos e desemprego em massa são preocupações comuns, enquanto algumas pessoas até temem a extinção humana. Previsões mais otimistas afirmam que a IA adicionará US $ 15 trilhões à economia mundial até 2030, e eventualmente nos leva a algum tipo de nirvana social.

Certamente precisamos considerar o impacto que essas tecnologias estão tendo em nossas sociedades. Uma preocupação importante é que os sistemas de IA reforçam os preconceitos sociais existentes - com um efeito prejudicial. Vários exemplos notórios desse fenômeno têm recebido atenção generalizada:sistemas de tradução automática de última geração que produzem resultados sexistas, e sistemas de reconhecimento de imagem que classificam os negros como gorilas.

Esses problemas surgem porque tais sistemas usam modelos matemáticos (como redes neurais) para identificar padrões em grandes conjuntos de dados de treinamento. Se esses dados estiverem distorcidos de várias maneiras, então, seus preconceitos inerentes serão inevitavelmente aprendidos e reproduzidos pelos sistemas treinados. Tecnologias autônomas tendenciosas são problemáticas, pois podem marginalizar grupos como as mulheres, minorias étnicas, ou os idosos, agravando assim os desequilíbrios sociais existentes.

Se os sistemas de IA forem treinados em dados de prisões policiais, por exemplo, então, qualquer tendência consciente ou inconsciente manifestada nos padrões existentes de prisões seria replicada por um sistema de IA de "policiamento preditivo" treinado nesses dados. Reconhecendo as sérias implicações disso, várias organizações autorizadas recentemente aconselharam que todos os sistemas de IA devem ser treinados em dados imparciais. As diretrizes éticas publicadas no início de 2019 pela Comissão Europeia ofereceram a seguinte recomendação:

Quando os dados são coletados, pode conter preconceitos socialmente construídos, imprecisões, erros e enganos. Isso precisa ser tratado antes do treinamento com qualquer conjunto de dados.

Lidando com dados tendenciosos

Tudo isso parece bastante sensato. Mas infelizmente, às vezes é simplesmente impossível garantir que certos conjuntos de dados sejam imparciais antes do treinamento. Um exemplo concreto deve esclarecer isso.

Todos os sistemas de tradução automática de última geração (como o Google Translate) são treinados em pares de frases. Um sistema inglês-francês usa dados que associam frases em inglês ("ela é alta") com frases em francês equivalentes (" elle est grande "). Pode haver 500 m de tais emparelhamentos em um determinado conjunto de dados de treinamento, e, portanto, um bilhão de sentenças separadas no total. Todos os preconceitos relacionados ao gênero precisariam ser removidos de um conjunto de dados desse tipo se quiséssemos evitar que o sistema resultante produzisse resultados sexistas, como o seguinte:

Entrada :As mulheres iniciaram a reunião. Eles trabalharam com eficiência.
Saída : Les femmes ont commencé la réunion. Ils ont travaillé eficácia.

A tradução francesa foi gerada usando o Google Translate em 11 de outubro de 2019, e está incorreto:" Ils "é o pronome sujeito plural masculino em francês, e aparece aqui apesar do contexto indicar claramente que as mulheres estão sendo encaminhadas. Este é um exemplo clássico do padrão masculino sendo preferido pelo sistema automatizado devido a vieses nos dados de treinamento.

Em geral, 70% dos pronomes de gênero em conjuntos de dados de tradução são masculinos, enquanto 30% são femininos. Isso ocorre porque os textos usados para tais fins tendem a se referir mais aos homens do que às mulheres. Para evitar que os sistemas de tradução repliquem esses preconceitos existentes, pares de frases específicas teriam que ser removidos dos dados, de forma que os pronomes masculino e feminino ocorreram 50% / 50% tanto no lado inglês quanto no francês. Isso impediria o sistema de atribuir probabilidades mais altas aos pronomes masculinos.

Substantivos e adjetivos também precisariam ser equilibrados 50% / 50%, claro, uma vez que estes podem indicar gênero em ambas as línguas ("ator", "atriz"; "neuf", "neuve") - e assim por diante. Mas essa redução drástica de amostragem necessariamente reduziria consideravelmente os dados de treinamento disponíveis, diminuindo assim a qualidade das traduções produzidas.

E mesmo que o subconjunto de dados resultante fosse totalmente equilibrado por gênero, ele ainda seria distorcido em todos os tipos de outras maneiras (como etnia ou idade). Em verdade, seria difícil remover todos esses preconceitos completamente . Se uma pessoa dedicasse apenas cinco segundos para ler cada uma das frases de um bilhão nos dados de treinamento, levaria 159 anos para verificar todos eles - e isso assumindo a disposição de trabalhar dia e noite, sem pausas para o almoço.

Uma alternativa?

Portanto, não é realista exigir que todos os conjuntos de dados de treinamento sejam imparciais antes que os sistemas de IA sejam construídos. Esses requisitos de alto nível geralmente assumem que "IA" denota um conjunto homogêneo de modelos matemáticos e abordagens algorítmicas.

Na realidade, diferentes tarefas de IA requerem tipos muito diferentes de sistemas. E minimizar a extensão total dessa diversidade disfarça os problemas reais colocados por (digamos) dados de treinamento profundamente distorcidos. Isso é lamentável, uma vez que significa que outras soluções para o problema de enviesamento de dados são negligenciadas.

Por exemplo, os preconceitos em um sistema de tradução automática treinado podem ser substancialmente reduzidos se o sistema for adaptado após ter sido treinado no maior, inevitavelmente tendencioso, conjunto de dados. Isso pode ser feito usando um dispositivo muito menor, menos inclinado, conjunto de dados. A maioria dos dados pode ser fortemente enviesada, Portanto, mas o sistema treinado nele não precisa ser. Infelizmente, essas técnicas raramente são discutidas por aqueles encarregados de desenvolver diretrizes e estruturas legislativas para pesquisas em IA.

Se os sistemas de IA simplesmente reforçam os desequilíbrios sociais existentes, então eles mais obstruem do que facilitam mudanças sociais positivas. Se as tecnologias de IA que usamos cada vez mais diariamente fossem muito menos tendenciosas do que nós, então, eles poderiam nos ajudar a reconhecer e confrontar nossos próprios preconceitos ocultos.

Certamente é para isso que devemos trabalhar. E, portanto, os desenvolvedores de IA precisam pensar com muito mais cuidado sobre as consequências sociais dos sistemas que constroem, enquanto aqueles que escrevem sobre IA precisam entender em mais detalhes como os sistemas de IA são realmente projetados e construídos. Porque se realmente estamos nos aproximando de um idílio tecnológico ou apocalipse, o primeiro seria preferível.

Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.