Estereótipos de características baseados em linguagem do FISE aplicados a embeddings estáticos. Cada painel representa as características específicas associadas a cada quadrante interseccional no contraste de (A) gênero por raça, (B) gênero por classe ou (C) raça por classe. Crédito:Charlesworth e outros A mineração de enormes conjuntos de dados de inglês revela estereótipos sobre género, raça e classe predominantes nas sociedades de língua inglesa. Tessa Charlesworth e colegas desenvolveram um procedimento gradual, Extração de Estereótipo Interseccional Flexível (FISE), que aplicaram a bilhões de palavras de texto em inglês da Internet.
Este procedimento permitiu-lhes explorar traços associados a identidades interseccionais, quantificando com que frequência rótulos de ocupação ou adjetivos de traços foram implantados perto de frases que se referiam a múltiplas identidades, como "Mulheres Negras", "Homens Ricos", "Mulheres Pobres" ou " Homem-branco."
Na análise deles, publicada no PNAS Nexus , os autores mostram primeiro que o método é uma forma válida de extrair estereótipos:ocupações que eram, na realidade, dominadas por determinadas identidades (por exemplo, arquiteto, engenheiro, gestor são dominadas por homens brancos) também estão, na linguagem, fortemente associadas a esse mesmo grupo interseccional a uma taxa significativamente acima do acaso – cerca de 70%.
A seguir, os autores analisaram os traços de personalidade. O procedimento FISE descobriu que 59% das características estudadas estavam associadas a “Homens Brancos”, mas apenas 5% das características estavam associadas a “Mulheres Negras”.
Segundo os autores, os desequilíbrios nas frequências dos traços indicam um viés androcêntrico (centrado no homem) e etnocêntrico (centrado no branco) generalizado em inglês. A valência (positividade/negatividade) dos traços associados também estava desequilibrada. Cerca de 78% das características associadas a “Ricos Brancos” foram positivas, enquanto apenas 21% das características associadas a “Negros Pobres” foram positivas.
Padrões como esses têm consequências posteriores na IA, na tradução por computador e na geração de texto, de acordo com os autores. Além de compreender como o preconceito interseccional molda tais resultados, os autores observam que o FISE pode ser usado para pesquisar uma série de identidades interseccionais entre línguas e até mesmo ao longo da história.