Limpando as mídias sociais com aprendizado de máquina

Crédito:Domínio Público CC0

O spam de conteúdo adulto ou pornográfico é um problema crescente nas mídias sociais. Nova pesquisa no International Journal of Business Intelligence and Data Mining discute como esse conteúdo pode ser rapidamente detectado e removido em tempo hábil.
Deepali Dhaka, Surbhi Kakar e Monica Mehrotra, da Jamia Millia Islamia (Universidade Central) em Jamia Nagar, Nova Délhi, Índia, explicam como a experiência geral do usuário e dos jovens que usam a mídia social pode ser melhorada se o conteúdo de spam obsceno puder ser filtrado de forma eficaz e rápida. As ferramentas de aprendizado de máquina geralmente são o caminho a seguir na detecção de tipos específicos de conteúdo e a equipe demonstrou que uma dessas ferramentas, o XGboost, pode detectar conteúdo de spam adulto com mais de 90% de precisão. Esse foi o algoritmo de classificação mais eficaz dos seis testados e adaptados pela equipe para detectar spam pornográfico no Twitter.

Assim, menos de dez em cada cem atualizações sinalizadas como spam adulto seriam falsos positivos. A abordagem da equipe precisava analisar apenas um pequeno número de recursos, sistema de valores, entropia de palavras, diversidade lexical e incorporação de palavras, para poder extrair atualizações de spam adulto do fluxo geral de atualizações em um dos mais conhecidos plataformas de mídia social, Twitter.

Inerente à detecção positiva é que, em geral, os usuários cotidianos da plataforma discutem uma ampla variedade de tópicos em diferentes contextos e escrevem e compartilham o que pode ser chamado de maneira orgânica. Em contraste, spammers e spammers pornográficos, neste caso, tendem a ter uma abordagem fixa ou mesmo totalmente automatizada para suas atualizações, diversidade limitada de assunto, como seria de esperar, e um léxico muito limitado. Essas e outras características das mensagens de spam as tornam reconhecíveis pelo algoritmo. + Explorar mais