• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Os detectores de incitação ao ódio online podem ser facilmente enganados por humanos, programas de estudo

    Como o Google Perspective avalia um comentário considerado tóxico após alguns erros de digitação e um pouco de amor. Crédito:Aalto University

    Textos e comentários odiosos são um problema cada vez maior em ambientes online, ainda assim, resolver o problema galopante depende de ser capaz de identificar o conteúdo tóxico. Um novo estudo do grupo de pesquisa de Sistemas Seguros da Universidade Aalto descobriu pontos fracos em muitos detectores de aprendizado de máquina usados ​​atualmente para reconhecer e manter o discurso de ódio sob controle.

    Muitas mídias sociais populares e plataformas online usam detectores de discurso de ódio que uma equipe de pesquisadores liderada pelo professor N. Asokan agora mostrou ser frágil e fácil de enganar. Gramática incorreta e ortografia inadequada - intencionais ou não - podem tornar os comentários tóxicos das redes sociais mais difíceis de serem detectados pelos detectores de IA.

    A equipe testou sete detectores de discurso de ódio de última geração. Todos eles falharam.

    As técnicas modernas de processamento de linguagem natural (PNL) podem classificar o texto com base em caracteres individuais, palavras ou frases. Quando confrontados com dados textuais que diferem daqueles usados ​​em seu treinamento, eles começam a se atrapalhar.

    "Inserimos erros de digitação, alterou os limites das palavras ou adicionou palavras neutras ao discurso de ódio original. Remover espaços entre as palavras foi o ataque mais poderoso, e uma combinação desses métodos foi eficaz mesmo contra a Perspectiva do sistema de classificação de comentários do Google, "diz Tommi Gröndahl, estudante de doutorado na Aalto University.

    A Perspectiva do Google classifica a 'toxicidade' dos comentários usando métodos de análise de texto. Em 2017, pesquisadores da Universidade de Washington mostraram que o Google Perspective pode ser enganado pela introdução de erros de digitação simples. Gröndahl e seus colegas descobriram que o Perspective desde então se tornou resistente a erros de digitação simples, mas ainda pode ser enganado por outras modificações, como remover espaços ou adicionar palavras inócuas como 'amor'.

    Veja como a classificação de toxicidade do Google Perspective reage a erros de digitação e um pouco de amor em uma frase que de outra forma seria odiosa. Crédito:Aalto University

    Uma frase como "Eu te odeio" escapou pela peneira e se tornou não odiosa quando modificada para "Eu te odeio, ama".

    Os pesquisadores observam que, em diferentes contextos, o mesmo enunciado pode ser considerado odioso ou meramente ofensivo. O discurso do ódio é subjetivo e específico do contexto, o que torna as técnicas de análise de texto insuficientes como soluções autônomas.

    Os pesquisadores recomendam que mais atenção seja dada à qualidade dos conjuntos de dados usados ​​para treinar modelos de aprendizado de máquina - em vez de refinar o design do modelo. Os resultados indicam que a detecção baseada em caracteres pode ser uma maneira viável de melhorar os aplicativos atuais.

    O estudo foi realizado em colaboração com pesquisadores da Universidade de Pádua, na Itália. Os resultados serão apresentados no workshop ACM AISec em outubro.

    O estudo faz parte de um projeto em andamento denominado "Detecção de fraude por meio de análise de texto em sistemas seguros" na Aalto University.


    © Ciência https://pt.scienceaq.com