Crédito CC0:domínio público
A mídia social estragou o filme do Fim dos Vingadores para você? Ou talvez um dos livros de Game of Thrones? Uma equipe de pesquisadores da Universidade da Califórnia em San Diego está trabalhando para garantir que isso não aconteça novamente. Eles desenvolveram um sistema baseado em IA que pode sinalizar spoilers em resenhas online de livros e programas de TV.
"Spoilers estão por toda parte na internet, e são muito comuns nas redes sociais. Como usuários da Internet, nós entendemos a dor dos spoilers, e como eles podem arruinar a experiência de alguém, "disse Ndapa Nakashole, professor de ciência da computação na UC San Diego e um dos autores seniores do artigo.
Alguns sites permitem que as pessoas sinalizem manualmente suas postagens com tags que funcionam como sinais de alerta de 'spoiler à frente'. Mas isso nem sempre acontece. Portanto, os pesquisadores queriam desenvolver uma ferramenta de inteligência artificial acionada por redes neurais para detectar automaticamente spoilers. Eles chamaram a ferramenta de SpoilerNet.
Em um nível teórico, os pesquisadores querem entender melhor como as pessoas escrevem spoilers e que tipo de padrões linguísticos e de conhecimento comum marcam uma frase como spoiler.
Os pesquisadores apresentarão suas descobertas no encontro anual de 2019 da Association for Computational Linguistics em Florença, Itália, 28 de julho a 2 de agosto. A ferramenta desenvolvida pelos pesquisadores pode ser usada para construir uma extensão do navegador para proteger as pessoas de spoilers.
Para treinar e testar o SpoilerNet, a equipe da UC San Diego procurou grandes conjuntos de dados de frases contendo spoilers. Alerta de spoiler! Eles não encontraram nenhum. Então, eles criaram o seu próprio coletando mais de 1,3 milhão de resenhas de livros anotadas com spoiler por revisores de livros. As tags abrangem frases que incluem spoilers e as escondem atrás de um link "view spoiler" no texto. As resenhas foram coletadas do Goodreads, um site de rede social que permite que as pessoas acompanhem o que lêem, e compartilhe pensamentos e comentários com outros leitores.
"Para nosso conhecimento, este é o primeiro conjunto de dados com anotações de spoiler nesta escala e com uma granularidade tão refinada, "disse Mengting Wan, um Ph.D. estudante de ciência da computação na UC San Diego e o primeiro autor do artigo.
Os pesquisadores descobriram que as frases de spoiler tendem a se agrupar na última parte das avaliações. Mas eles também descobriram que diferentes usuários tinham padrões diferentes para spoilers de tag, e as redes neurais precisavam ser cuidadosamente calibradas para levar isso em consideração.
Além disso, a mesma palavra pode ter significados semânticos diferentes em contextos diferentes. Por exemplo, 'verde' é apenas uma cor em uma crítica de livro, mas pode ser o nome de um personagem importante e um sinal de spoiler em outro livro. Identificar e compreender essas diferenças é um desafio, Disse Wan.
Os pesquisadores treinaram o SpoilerNet em 80 por cento das avaliações no Goodreads, passando o texto por várias camadas de redes neurais. O sistema pode detectar spoilers com 89 a 92 por cento de precisão.
Eles também executaram o SpoilerNet em um conjunto de dados de mais de 16, 000 resenhas de uma única frase de cerca de 880 programas de TV. A precisão da ferramenta para detectar spoilers foi de 74 a 80 por cento.
A maioria dos erros veio do sistema se distrair com palavras que geralmente são carregadas e reveladoras - por exemplo, assassinato ou morte.
Esperando ansiosamente, o conjunto de dados Goodreads pode ser usado como uma ferramenta poderosa para treinar algoritmos para detectar spoilers em diferentes tipos de conteúdo - digamos, tweets contendo spoilers.