Nesta visualização de dados, cada nó representa um grupo de páginas da Wikipedia sobre um assunto relacionado aos eventos mundiais de 2015. As pétalas são formadas pelo agrupamento de nós de um determinado tópico. Crédito:Kirell Benzi
Os pesquisadores da EPFL estudaram a dinâmica das estruturas de rede usando um dos sites mais visitados do mundo:a Wikipedia. Além de uma melhor compreensão das redes online, seu trabalho traz percepções emocionantes sobre o comportamento social humano e a memória coletiva.
Você já visitou uma página da Wikipedia para responder a uma pergunta, apenas para se encontrar clicando de página em página, até acabar em um tópico totalmente diferente daquele com o qual você começou? Se então, não só você não está sozinho, mas as chances são de que outras pessoas tenham seguido a mesma rota indireta de, dizer, "Game of Thrones" para "Dubrovnik" para "atração turística" para "a maior bola de barbante do mundo".
Pesquisadores do Laboratório de Processamento de Sinais (LTS2) liderados pelo Professor Pierre Vandergheynst na Escola de Engenharia da EPFL (STI) e na Escola de Ciências da Computação e Comunicação (IC) queriam descobrir como esse processo funciona.
Mais especificamente, eles se propuseram a estudar a dinâmica da estrutura de rede usando processamento de sinal e teoria de rede, desenvolver um algoritmo para detectar automaticamente atividades incomuns em constante mudança, sistemas complexos como a Wikipedia.
"O cérebro da humanidade"
A capacidade de detectar e estudar eventos anômalos em redes online, por exemplo, um aumento repentino no número de visitas a uma página específica da Wikipedia em um determinado período de tempo - poderia nos dizer muito sobre a interação humana, comportamento coletivo, memória e troca de informações, dizem os pesquisadores.
Esta visualização de dados mostra páginas da Wikipedia sobre atores GoT, personagens e episódios. Crédito:LTS2 / EPFL
"Nossa ideia era imaginar a Wikipedia como o cérebro da humanidade, onde as visitas à página são comparáveis a picos na atividade cerebral, "diz Volodymyr Miz, um pesquisador e Ph.D. aluno no LTS2. Miz é o autor principal de um artigo sobre o novo algoritmo, que foi apresentado recentemente na The Web Conference 2019 em San Francisco, Califórnia, NÓS..
Co-autor Kirell Benzi, um ex-pesquisador LTS2 e palestrante de visualização de dados EPFL agora trabalhando como um artista de dados, acrescentou que o que tornava a Wikipedia tão atraente como fonte de dados era sua acessibilidade e tamanho.
"A Wikipedia tem cerca de 5 bilhões de visitas por ano apenas para o inglês. Com essa técnica, podemos identificar grupos de páginas que pertencem umas às outras, " ele disse.
Da memória coletiva às notícias falsas
O algoritmo dos pesquisadores é único porque pode não apenas identificar tais eventos anômalos, mas também fornecem insights sobre exatamente onde, Como as, e por que eles aconteceram.
"A principal diferença é que fornecemos mais contexto devido à estrutura da rede. Por exemplo, se olharmos as páginas da Wikipedia sobre os ataques terroristas de 2015 em Paris, podemos ver que a página sobre o ataque está diretamente conectada à página sobre a revista Charlie Hebdo, e também a um grupo de páginas que representam organizações terroristas, "Miz explica.
Flutuações nas visitas às páginas da Wikipedia para dois personagens GoT ao longo do tempo. Crédito:LTS2 / EPFL
Benzi e Miz chamam esse tipo de busca de informações de "memória coletiva, "pois pode revelar como os eventos atuais desencadeiam memórias do passado.
"A pesquisa da Wikipedia trata de tentar explorar novas descobertas sobre a própria natureza humana. A Wikipedia é um conjunto de dados muito interessante porque reflete mais ou menos o que nós, como humanidade, decidimos lembrar. Coletivamente, temos a mesma linha de pensamento e navegamos nos mesmos tópicos, "Benzi diz.
Então, quais tópicos as pessoas mais se preocupam, de acordo com esta pesquisa? Resumindo:outras pessoas.
"Cerca de 80% das visitas são para entretenimento ou celebridades. Em pesquisas anteriores, descobrimos que 40% de todos os links clicados são sobre pessoas e seus relacionamentos, "Benzi diz, acrescentando que menos de 1% das visitas são para tópicos relacionados à ciência.
O LTS2 está atualmente colaborando com os desenvolvedores do navegador off-line gratuito Kiwix, que visa trazer versões compactadas da Wikipedia para aqueles que não têm acesso gratuito à internet.
"Nosso método pode ser muito útil para Kiwix para ajudar a identificar e compactar apenas partes relevantes da Wikipedia, com base no idioma e na cultura, por exemplo, "Miz diz.
Outras aplicações do algoritmo podem incluir o estudo da disseminação de notícias falsas no Twitter, monitorando picos de retuítes, ou compreensão dos links entre a dinâmica da rede de e-mail e eventos do mundo real. Contudo, esses tópicos são mais desafiadores de estudar do que a Wikipedia devido a quantidades menores de dados disponíveis gratuitamente.
Esta visualização de dados mostra páginas da Wikipedia sobre atores GoT, personagens e episódios. Crédito:LTS2 / EPFL
Estudo de caso:Game of Thrones
Miz, Benzi e seus colegas usaram seu método para detectar atividades anômalas nas páginas da Wikipedia relacionadas à temporada final do programa de sucesso da HBO Game of Thrones como um exemplo. O conjunto de dados aberto resultante permitiu que eles criassem visualizações de dados de páginas relacionadas a diferentes aspectos do programa, incluindo atores, personagens, temporadas, episódios, e outros tópicos.
Os pesquisadores também foram capazes de usar o método para determinar a popularidade dos personagens com base no número de visitas às páginas da Wikipedia ao longo do tempo, e atualmente estamos tentando ver quais outras páginas foram ativadas pela morte de um determinado personagem no programa. Este trabalho se baseia em um esforço semelhante em 2016 para analisar o universo de Star Wars.
Benzi observa que a pesquisa é um excelente exemplo de humanidades digitais, em que métodos de ciência de dados e tecnologias digitais são aplicados à sociologia, literatura, história e outros campos das humanidades.
"As humanidades digitais são um campo realmente interessante, mas só funciona quando você tem uma combinação de diferentes conjuntos de habilidades da ciência de dados, Engenharia, psicologia, sociologia, arte e assim por diante. Então, uma das vantagens é poder colaborar entre laboratórios, "Benzi diz.