Avaliando a toxicidade dos comentários do Reddit

Crédito:Domínio Público CC0

Nova pesquisa, publicada em PeerJ Computer Science , que analisa mais de 87 milhões de postagens e 2,205 bilhões de comentários no Reddit de mais de 1,2 milhão de usuários únicos, examina as mudanças no comportamento online de usuários que publicam em várias comunidades no Reddit medindo a "toxicidade".
A análise de toxicidade do comportamento do usuário mostrou que 16,11% dos usuários publicam postagens tóxicas e 13,28% dos usuários publicam comentários tóxicos. 30,68% dos usuários que publicam postagens e 81,67% dos usuários que publicam comentários exibem mudanças em sua toxicidade em diferentes comunidades – ou subreddits – indicando que os usuários adaptam seu comportamento às normas das comunidades.

O estudo sugere que uma maneira de limitar a propagação da toxicidade é limitando as comunidades nas quais os usuários podem participar. Os pesquisadores encontraram uma correlação positiva entre o aumento do número de comunidades e o aumento da toxicidade, mas não podem garantir que essa seja a única razão por trás do aumento do teor tóxico.

Vários tipos de conteúdo podem ser compartilhados e publicados em plataformas de mídia social, permitindo que os usuários se comuniquem entre si de várias maneiras. Infelizmente, o crescimento das plataformas de mídia social levou a uma explosão de conteúdo malicioso, como assédio, palavrões e cyberbullying. Vários motivos podem motivar os usuários de plataformas de mídia social a divulgar conteúdo nocivo. Foi demonstrado que a publicação de conteúdo tóxico (ou seja, comportamento malicioso) se espalha – o comportamento malicioso de usuários não maliciosos pode influenciar usuários não maliciosos e fazer com que eles se comportem mal, impactando negativamente as comunidades online.

"Um desafio ao estudar a toxicidade online é a multiplicidade de formas que ela assume, incluindo discurso de ódio, assédio e cyberbullying. O conteúdo tóxico geralmente contém insultos, ameaças e linguagem ofensiva, que, por sua vez, contaminam as plataformas online. Várias plataformas online foram implementadas mecanismos de prevenção, mas esses esforços não são escaláveis o suficiente para reduzir o rápido crescimento de conteúdo tóxico em plataformas online. Esses desafios exigem o desenvolvimento de soluções automáticas ou semiautomáticas eficazes para detectar a toxicidade de um grande fluxo de conteúdo em plataformas online", dizem os autores, Ph.D. (ABD) Hind Almerekhi, Dr. Haewoon Kwak e Professor Bernard J. Jansen.

"Monitorar a alteração na toxicidade dos usuários pode ser um método de detecção precoce de toxicidade em comunidades online. A metodologia proposta pode identificar quando os usuários exibem uma alteração calculando o percentual de toxicidade em postagens e comentários. Essa alteração, combinada com o nível de toxicidade do nosso sistema detecta nas postagens dos usuários, pode ser usado de forma eficiente para interromper a disseminação de toxicidade."

A equipe de pesquisa, com a ajuda de crowdsourcing, construiu um conjunto de dados rotulado de 10.083 comentários do Reddit e, em seguida, usou o conjunto de dados para treinar e ajustar um modelo de rede neural de representações de codificador bidirecional de transformadores (BERT). O modelo previu os níveis de toxicidade de 87.376.912 postagens de 577.835 usuários e 2.205.581.786 comentários de 890.913 usuários no Reddit ao longo de 16 anos, de 2005 a 2020.

Este estudo utilizou os níveis de toxicidade do conteúdo do usuário para identificar alterações de toxicidade pelo usuário dentro da mesma comunidade, em várias comunidades e ao longo do tempo. Para o desempenho de detecção de toxicidade, o modelo BERT ajustado alcançou uma precisão de classificação de 91,27% e uma pontuação de Área sob a curva característica operacional do receptor (AUC) de 0,963 e superou vários modelos de aprendizado de máquina e rede neural de linha de base. + Explorar mais