Crédito CC0:domínio público
Sistemas de inteligência artificial e algoritmos de aprendizado de máquina têm sido questionados recentemente porque podem detectar e reforçar preconceitos existentes em nossa sociedade, dependendo de quais dados eles estão programados.
Mas um grupo interdisciplinar de estudiosos de Stanford virou esse problema de cabeça para baixo em um novo Proceedings of the National Academy of Sciences artigo publicado em 3 de abril.
Os pesquisadores usaram embeddings de palavras - uma técnica algorítmica que pode mapear relacionamentos e associações entre palavras - para medir as mudanças de gênero e estereótipos étnicos ao longo do século passado nos Estados Unidos. Eles analisaram grandes bancos de dados de livros americanos, jornais e outros textos e analisou como essas mudanças linguísticas se correlacionavam com os dados demográficos reais do Censo dos EUA e as principais mudanças sociais, como o movimento das mulheres na década de 1960 e o aumento da imigração asiática, de acordo com a pesquisa.
"Embeddings de palavras podem ser usados como um microscópio para estudar mudanças históricas em estereótipos em nossa sociedade, "disse James Zou, professor assistente de ciência de dados biomédicos. "Nossa pesquisa anterior mostrou que os embeddings capturam efetivamente os estereótipos existentes e que esses preconceitos podem ser sistematicamente removidos. Mas nós pensamos que, em vez de remover esses estereótipos, também podemos usar embeddings como lentes históricas para dados quantitativos, análises linguísticas e sociológicas de preconceitos. "
Zou é co-autor do artigo com a professora de história Londa Schiebinger, o professor de linguística e ciência da computação Dan Jurafsky e o estudante de graduação em engenharia elétrica Nikhil Garg, quem foi o autor principal.
“Este tipo de pesquisa abre todos os tipos de portas para nós, "Schiebinger disse." Ele fornece um novo nível de evidência que permite aos estudiosos das humanidades irem atrás de questões sobre a evolução dos estereótipos e preconceitos em uma escala que nunca foi feita antes. "
A geometria das palavras
A incorporação de palavras é um algoritmo usado, ou treinado, em uma coleção de texto. O algoritmo então atribui um vetor geométrico a cada palavra, representando cada palavra como um ponto no espaço. A técnica usa a localização neste espaço para capturar associações entre palavras no texto de origem.
"Embeddings são uma ferramenta linguística poderosa para medir aspectos sutis do significado das palavras, como preconceito, "Jurafsky disse.
Considere a palavra "honrado". Usando a ferramenta de incorporação, pesquisas anteriores descobriram que o adjetivo tem uma relação mais próxima com a palavra "homem" do que com a palavra "mulher".
Em sua nova pesquisa, a equipe de Stanford usou embeddings para identificar ocupações e adjetivos específicos que eram tendenciosos para mulheres e grupos étnicos específicos por década, de 1900 até o presente. Os pesquisadores treinaram esses embeddings em bancos de dados de jornais e também usaram embeddings previamente treinados por Will Hamilton, estudante de graduação em ciência da computação de Stanford, em outros grandes conjuntos de dados de texto, como o corpus de livros americanos do Google Books, que contém mais de 130 bilhões de palavras publicadas durante os séculos 20 e 21.
Os pesquisadores compararam os vieses encontrados por essas incorporações às mudanças demográficas nos dados do Censo dos EUA entre 1900 e o presente.
Mudanças nos estereótipos
Os resultados da pesquisa mostraram mudanças quantificáveis nas representações de gênero e preconceitos em relação aos asiáticos e outros grupos étnicos durante o século XX.
Uma das principais conclusões a emergir foi como os preconceitos em relação às mulheres mudaram para melhor - de certa forma - com o tempo.
Por exemplo, adjetivos como "inteligente, "" lógico "e" atencioso "estavam mais associados aos homens na primeira metade do século 20. Mas, desde 1960, as mesmas palavras têm sido cada vez mais associadas às mulheres a cada década seguinte, correlacionando com o movimento das mulheres na década de 1960, embora ainda haja uma lacuna.
A pesquisa também mostrou uma mudança dramática nos estereótipos em relação aos asiáticos e asiático-americanos.
Por exemplo, na década de 1910, palavras como "bárbaro, "" monstruoso "e" cruel "eram os adjetivos mais associados aos sobrenomes asiáticos. Na década de 1990, esses adjetivos foram substituídos por palavras como "inibido, "" passivo "e" sensível ". Essa mudança linguística se correlaciona com um aumento acentuado na imigração asiática para os Estados Unidos nas décadas de 1960 e 1980 e uma mudança nos estereótipos culturais, disseram os pesquisadores.
"A severidade da mudança nos estereótipos se destacou para mim, "Garg disse." Quando você estuda história, você aprende sobre campanhas de propaganda e essas visões desatualizadas de grupos estrangeiros. Mas o quanto a literatura produzida na época refletia esses estereótipos era difícil de avaliar. "
Geral, os pesquisadores demonstraram que as mudanças na palavra embeddings acompanha de perto as mudanças demográficas medidas pelo Censo dos EUA.
Colaboração frutífera
A nova pesquisa ilumina o valor do trabalho em equipe interdisciplinar entre as humanidades e as ciências, pesquisadores disseram.
Schiebinger disse que estendeu a mão para Zou, que ingressou em Stanford em 2016, depois de ler o trabalho anterior dele sobre algoritmos de aprendizado de máquina de desviesamento.
"Isso levou a uma colaboração muito interessante e frutífera, "Schiebinger disse, acrescentando que os membros do grupo estão trabalhando juntos em pesquisas adicionais.
"Isso ressalta a importância de humanistas e cientistas da computação trabalharem juntos. Esses novos métodos de aprendizado de máquina na pesquisa de humanidades têm um poder que está apenas sendo compreendido, " ela disse.