p Winterfell. Crédito:mauRÍCIO santos (Unsplash, domínio público)
p Pesquisadores da Vrije Universiteit Amsterdam e do Cluster de Humanidades da Royal Academy Holandesa avaliaram quatro ferramentas de última geração para reconhecer nomes em textos, para avaliar e melhorar seu desempenho na ficção popular. Eles encontram soluções para aumentar a capacidade das ferramentas de reconhecer nomes em um romance com uma precisão de 7% a 90%. p As ferramentas de processamento de linguagem natural (PNL) são comumente usadas em muitos aplicativos do dia-a-dia, como Siri e Google, mas a eficácia dessas tecnologias não é totalmente compreendida. Pesquisadores da Vrije Universiteit Amsterdam e do Cluster de Humanidades da Royal Academy Holandesa realizaram uma avaliação completa de quatro ferramentas diferentes de reconhecimento de nomes em 40 romances populares, incluindo A Game of Thrones. Suas análises, publicado em
PeerJ Ciência da Computação , destacar tipos de nomes e textos que são particularmente desafiadores para essas ferramentas identificarem, bem como soluções para mitigar isso. Além disso, eles extraíram as redes sociais dos romances para explorar as diferenças na estrutura da história. Esses insights podem ajudar a tornar essas tecnologias mais robustas contra diferenças de gênero, e pode ajudar, por exemplo, a tornar essa tecnologia mais útil para jornalistas que desejam analisar grandes conjuntos de dados, como os Panama Papers.
p Muitas ferramentas de PNL são baseadas em aprendizado de máquina; isso é, um programa de computador é treinado para identificar padrões em texto com base em exemplos alimentados anteriormente. Para reconhecer nomes no texto, é, por exemplo, alimentado com muitos artigos de jornal nos quais humanos marcaram meticulosamente os nomes. O programa é então encarregado de 'aprender' a aparência de um nome com base no contexto (como, sendo precedido por Mr) ou a forma da palavra (como os nomes geralmente começam com uma letra maiúscula em inglês). Agora, o problema ao aplicar tal sistema treinado em jornais para romances, é que os autores de romances têm muito mais liberdade em suas narrativas do que os jornalistas que precisam se ater aos fatos. Os autores de ficção podem inventar seus próprios nomes, como Tywin ou R'hllor, ou use nomes de caracteres descritivos diretamente do dicionário, como Verme Cinzento. Esses nomes não se comportam como nomes 'normais', portanto, os sistemas de PNL têm dificuldade em reconhecê-los em um texto.
p Visualização de rede mostrando que Dany / Daenerys não está perto de outros personagens principais em 'A Game of Thrones'. Crédito:N. M. Dekker, CC BY-SA 4.0
p Os experimentos realizados por Niels Dekker (Trifork B.V.), Tobias Kuhn (Vrije Universiteit Amsterdam) e Marieke van Erp (KNAW Humanities Cluster) também destacam a flexibilidade da linguagem e como os nomes são contextualizados nas histórias. É possível, por exemplo, referir-se a Daenerys Targaryen como Daenerys e ela, mas ela também é conhecida como Dany, Daenerys Stormborn, Mãe de dragões, Khaleesi, o Unburnt e Mhysa. A rede social criada para A Game of Thrones, ilustra, por exemplo, que Dany é usada por seus amigos, e seu nome completo Daenerys apenas por seus inimigos (em sua ausência).
p A pesquisa descrita nesta publicação mostra que mais atenção deve ser dada ao desempenho das ferramentas da PNL e que ainda há trabalho a ser feito antes que o "texto" possa ser totalmente compreendido pelos computadores.