• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Eliminar o preconceito anti-queer na previsão de texto

    Crédito:Pixabay/CC0 Public Domain

    A previsão de texto moderna está longe de ser perfeita – por exemplo, quando uma consulta de pesquisa sugere algo completamente diferente da sua intenção. Mas o problema não termina na imprecisão. A previsão de texto também pode ser extremamente exclusiva ou tendenciosa quando se trata de prever resultados relacionados a comunidades marginalizadas.
    Uma equipe de pesquisadores do USC Viterbi School of Engineering Information Sciences Institute e da USC Annenberg School for Communication and Journalism, liderada por Katy Felkner, uma USC Viterbi Ph.D. em ciência da computação e receptor da bolsa de pesquisa de pós-graduação da National Science Foundation, desenvolveu um sistema para quantificar e corrigir o viés anti-queer na inteligência artificial por trás da previsão de texto.

    O projeto, apresentado por Felkner no workshop Queer in AI no capítulo norte-americano da conferência da Association for Computational Linguistics (NAACL) em julho, analisa tanto a detecção quanto a redução do viés anti-queer em um grande modelo de linguagem, que é usado em tudo, desde barras de pesquisa até sistemas de tradução de idiomas.

    O modelo de linguagem grande, ou LLM, é o "cérebro" por trás da previsão de texto que aparece quando digitamos algo em uma barra de pesquisa - uma inteligência artificial que "completa" frases prevendo a sequência de palavras mais provável que segue um determinado prompt .

    No entanto, os LLMs devem primeiro ser "treinados" recebendo milhões de exemplos de conteúdo pré-escrito para que possam aprender como as frases normalmente se parecem. Como uma criança enérgica, o LLM repete o que ouve, e o que ouve pode ser heteronormativo ou mesmo abertamente discriminatório.

    "A maioria dos LLMs são treinados em enormes quantidades de dados rastreados da Internet", disse Felkner. "Eles vão pegar todo tipo de preconceito social que você possa imaginar que existe na web."

    Poucas palavras, grande efeito

    O projeto descobriu que um popular LLM chamado BERT mostrou um viés homofóbico significativo. Esse viés é medido por meio do benchmark de Felkner, que compara a probabilidade de o LLM prever sentenças heteronormativas versus sentenças que incluem um relacionamento queer.

    "Uma saída heteronormativa é algo como 'James de mãos dadas com Mary', versus 'James de mãos dadas com Tom'", disse Felkner. "Ambas são frases válidas, mas a questão é que, em uma ampla variedade de contextos, o modelo prefere a saída heteronormativa".

    Embora a diferença seja apenas algumas palavras, o efeito está longe de ser pequeno.

    Saídas previstas que falam sobre pessoas queer de maneiras estereotipadas podem reforçar os preconceitos dos usuários, e a falta de 'experiência' do modelo com vozes queer pode resultar em olhar para a linguagem queer como obscena.

    "Um problema persistente para as pessoas queer é que muitas vezes, as palavras que usamos para nos descrever, ou insultos que foram reclamados, ainda são considerados obscenos ou excessivamente sexuais", disse Felkner, que também é o representante de pós-graduação da Queers no capítulo de Engenharia, Ciência e Tecnologia (QuEST) do Out in STEM na USC.

    “Se uma modelo rotineiramente sinaliza essas palavras, e essas postagens são retiradas das plataformas ou fóruns em que estão, você está silenciando a comunidade queer”.

    Entrada da comunidade

    Para resolver esse problema, Felkner deu uma afinação ao BERT, alimentando-o com Tweets e artigos de notícias contendo palavras-chave LGBT+. Esse conteúdo usado para "treinar" o BERT veio de dois bancos de dados separados de criação do próprio Felkner, chamados QueerTwitter e QueerNews.

    Embora o processamento de linguagem exija quantidades extremamente grandes de dados – o banco de dados QueerTwitter continha mais de 2,3 milhões de Tweets – ela teve o cuidado de destacar hashtags que estavam sendo usadas principalmente por pessoas queer e trans, como #TransRightsareHumanRights.

    À medida que o modelo foi exposto a diferentes perspectivas e comunidades, tornou-se mais familiarizado com a linguagem e questões queer. Como resultado, era mais provável representá-los em suas previsões.

    Depois de ser treinado com os dados novos e mais inclusivos, o modelo mostrou significativamente menos viés. Os tweets do QueerTwitter se mostraram os mais eficazes dos dois bancos de dados, reduzindo a prevalência de resultados heteronormativos para quase metade de todas as previsões.

    "Acho que os resultados do QueerTwitter sendo mais eficazes do que o QueerNews fala da importância do envolvimento direto da comunidade, e que as vozes queer e trans - e os dados de suas comunidades - serão os mais valiosos no design de uma tecnologia que não os prejudicará ", disse Felkner. “Ficamos entusiasmados com essa descoberta porque é uma prova empírica da intuição que as pessoas já têm:que essas comunidades devem ter uma contribuição sobre como a tecnologia é projetada”.

    No futuro, o projeto procurará abordar o preconceito que afeta partes específicas da comunidade LGBT+, usando conjuntos de dados mais refinados e direcionados e prompts mais personalizados para o modelo trabalhar – como combater estereótipos prejudiciais em torno de lésbicas. Long term, Felkner hopes the project can be used to train other LLMs, help researchers test the fairness of their natural language processing, or even uncover completely new biases.

    "We're dealing with how to fight against the tide of biased data to get an understanding of what 'unfair' looks like and how to test for and correct it, which is a problem both in general and for subcultures that we don't even know about," said Jonathan May, USC Viterbi research associate professor of computer science, Felkner's advisor and study co-author. "There's a lot of great ways to extend the work that Katy is doing." + Explorar mais

    Queer young people in Australia face disproportionate challenges




    © Ciência https://pt.scienceaq.com