Um modelo para prever o tamanho e a forma dos tópicos de comentários online

Exemplo de um processo de ramificação de Hawkes. O nó vermelho (extrema esquerda) representa uma postagem na mídia social. Os nós verdes e azuis representam eventos de "imigração" e "descendência", respectivamente. Crédito:Krohn &Weninger, adaptado com permissão do trabalho de Medvedev et al.

Em plataformas de mídia social, como Reddit e Twitter, as pessoas podem expressar suas opiniões e participar de discussões sobre uma variedade de tópicos. Isso geralmente é feito em threads de comentários, que permitem aos usuários comentar em postagens existentes.

Um tópico de comentários é essencialmente uma conversa entre diferentes usuários online na forma de comentários. Na ciência da computação, tópicos de comentários são frequentemente considerados como "árvores, "com nós que representam a postagem original e comentários subsequentes, e arestas direcionadas que representam relacionamentos "responder a".

Dois pesquisadores da Universidade de Notre Dame desenvolveram recentemente um modelo para prever o tamanho e a forma dos tópicos de comentários online ao vê-los como árvores. Eles chamaram este modelo, apresentado em um artigo pré-publicado no arXiv, o modelo de previsão de thread de comentários (CTPM).

"Nosso principal objetivo de pesquisa é prever o tamanho e a forma de um tópico de comentários em sites de mídia social, "Tim Weninger, um dos pesquisadores que realizou o estudo, disse TechXplore. "Esses sites permitem que os usuários postem notícias, imagens ou outro conteúdo. Então, outros usuários gostam, compartilhar ou comentar na postagem. Estamos interessados principalmente em tópicos de comentários, onde um usuário pode comentar na própria postagem ou responder a comentários como no Reddit e no Twitter (mas não no Facebook ou YouTube). "

O estudo realizado por Weninger e sua colega Rachel Krohn foi financiado por um programa da Agência de Projetos de Pesquisa Avançada de Defesa dos EUA (DARPA), que se concentra especificamente na simulação social. Uma das perguntas feitas por este programa é se simular a atividade de mídia social é possível.

Estudos anteriores sugerem que as primeiras horas de vida de um post são de vital importância para prever sua popularidade futura. Na verdade, as postagens que recebem muita atenção no início e são comentadas imediatamente pelos usuários geralmente geram mais discussões online no futuro. Por outro lado, postagens que inicialmente não recebem muita atenção tendem a também atrair menos atenção no futuro.

A maioria das técnicas existentes projetadas para prever o tamanho e a forma dos encadeamentos de comentários funcionam observando os primeiros comentários que são adicionados a uma postagem e, em seguida, criando um modelo preditivo. Contudo, como a maioria dos tópicos de comentários são relativamente pequenos, esperar que novos dados sejam gerados pode prejudicar o objetivo geral da tarefa de previsão.

O programa DARPA que financia o estudo, portanto, instruiu especificamente os pesquisadores a investigar se eles poderiam prever a popularidade de um post, incluindo o número de comentários que suscitaria no futuro, com base apenas em seu título. Com este objetivo em mente, a equipe desenvolveu um modelo que analisa as palavras no título de uma postagem do Reddit, junto com o usuário de postagem e o subreddit ao qual foi enviado. Essas variáveis são usadas para criar um "processo Hawkes, "um modelo estatístico usado para representar pontos matemáticos no espaço.

"Usamos um processo Hawkes para simular como as pessoas veem a postagem, leia um comentário, e então decida responder a cada comentário, "Weninger disse." O modelo não é perfeito e não simula o conteúdo dos comentários (ou seja, não adivinhamos o que o comentário realmente diz, apenas se há um comentário ou não), Contudo, em média, fazemos um bom trabalho ao prever quais comentários serão populares e quais não serão apenas com base no título, autor e subreddit de uma postagem. "

Weninger e seus colegas avaliaram o modelo CTPM em milhares de discussões reais de usuários retiradas do Reddit, comparar sua eficácia em prever o tamanho e a forma dos tópicos de comentários com a de outras técnicas. Notavelmente, seu modelo superou significativamente todos os modelos e linhas de base existentes com os quais foi comparado.

"Para mim, a contribuição mais significativa deste trabalho é a capacidade do nosso modelo de prever o tamanho e a forma das conversas online, ", Disse Weninger." Isso é importante para as agências de defesa e aplicação da lei dos EUA porque ser capaz de prever o futuro no ciberespaço permite que essas agências preparem defesas eficazes contra ataques cibernéticos e outros eventos que frequentemente passam do mundo cibernético para o mundo físico. "

No futuro, o modelo proposto por Weninger e seus colegas poderia ser usado para prever a popularidade de postagens no Twitter ou Reddit com base apenas em seu título. A equipe agora planeja continuar investigando como os humanos consomem e organizam informações online, incluindo suas interações com as postagens de outras pessoas (por exemplo, curtidas, compartilhamentos, retuítes, etc.).

"Os gostos, compartilhamentos, votos positivos, e os retuítes fornecidos pelos usuários são a coisa mais importante para as empresas de mídia social, pois indicam qual conteúdo promover e qual conteúdo pode ser spam ou de baixa qualidade, "Weninger disse." Nós estudamos esses processos e como eles podem ser corrompidos por indivíduos ou grupos com más intenções. Nosso trabalho futuro nesta área examinará as manipulações de conteúdo social (por exemplo, alterações de imagem, photoshops, deepfakes, etc.), pois podemos aprender muito sobre as pessoas e sua cultura observando como alteram as imagens nas redes sociais. "

Novo, site gratuito ajuda adolescentes, adultos com necessidades especiais fazem novos amigos

Resolvendo o problema dos três corpos mais rápido usando uma rede neural profunda

Eletrônicos