• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • SentiArt:uma ferramenta de análise de sentimento para criar perfis de personagens de textos da literatura mundial

    Pseudo-grande 5 pontuações para sete figuras principais nos livros de Harry Potter. Essas pontuações são percentis com base em uma amostra de 100 figuras que aparecem na série de livros. Crédito:Arthur M. Jacobs.

    Arthur Jacobs, professor e pesquisador da Freie Universität Berlin, desenvolveu recentemente o SentiArt, uma nova técnica de aprendizado de máquina para realizar análises de sentimento de textos literários, bem como figuras fictícias e não fictícias. Em seu jornal, definido para ser publicado por Fronteiras em robótica e IA , ele aplicou essa ferramenta a passagens e personagens dos livros de Harry Potter.

    Jacobs tem formação em neurolinguística, um ramo da linguística que explora os mecanismos neurais associados à aquisição da linguagem, compreensão e expressão. Em seu trabalho anterior, ele sempre investigou como as ferramentas de aprendizado de máquina podem ser usadas para analisar e entender melhor a linguagem humana. Ele está particularmente interessado no que chama de poética computacional, uma área de estudo que se concentra no uso de ferramentas computacionais para entender o conteúdo literário.

    "Em 2011, Escrevi um livro com o poeta austríaco Raoul Schrott chamado 'Cérebro e Poesia , 'onde especulamos que ajudaria a desenvolver ferramentas de análise de sentimento para textos literários e poesia, não apenas para críticas de filmes ou tweets de Trump, que parece ser o padrão ouro na análise de sentimento clássica, "Jacobs disse ao TechXplore." Também queríamos desenvolver uma ferramenta que pudesse prever dados neuronais e comportamentais humanos, não apenas autorrelatos coletados por meio do Amazon Turk. "

    Em seu novo estudo, Jacobs tentou colocar em prática algumas das ideias introduzidas em seu trabalho anterior, desenvolvendo uma ferramenta para analisar o sentimento em textos literários. A técnica que ele propôs, chamado SentiArt, usa modelos de espaço vetorial e guiada pela teoria, listas de rótulos empiricamente validadas para calcular a valência de palavras individuais em um texto. Modelos de espaço vetorial são representações de documentos de texto como vetores de identificadores, que costumam ser usados ​​para filtrar, recuperar ou organizar informações.

    "SentiArt é uma ferramenta muito simplista que pode ser usada por não especialistas para simplesmente comparar as palavras em seu texto de teste (ou seja, o texto que eles querem fazer uma análise de sentimento) com uma planilha do Excel que eles podem baixar de minha página inicial gratuitamente, "Jacobs explicou." Em princípio, a ferramenta deve funcionar em qualquer idioma para o qual você possa baixar os chamados modelos de espaço vetorial do Facebook, na página fastText. Embora meu estudo se concentre em inglês e alemão, você também pode usá-lo na Malásia, Farsi ou um dialeto chinês, e uma infinidade de outras línguas, as fastText tem modelos de espaço vetorial para mais de 290 idiomas. "

    Jacobs destaca que o SentiArt é bastante fácil de usar, acrescentando que ele foi capaz de ensinar a 30 alunos de literatura alemã como usá-lo durante uma aula de uma hora. Em seu trabalho recente, ele testou a precisão da ferramenta usando dados coletados durante um estudo neurocognitivo e então a usou para calcular perfis emocionais e de personalidade para alguns dos principais personagens de Harry Potter, incluindo Voldemort, Snape, Hermione, Hagrid, Atormentar, Dumboldore e Dobby.

    Interessantemente, ele calculou as figuras emocionais e perfis de personalidade desses personagens com base na teoria da personalidade dos "cinco grandes", um construto estabelecido na pesquisa em psicologia. A teoria dos 'cinco grandes' é geralmente usada para medir aproximadamente os traços de personalidade das pessoas com base em cinco dimensões principais, ou seja, abertura, conscienciosidade, extroversão, agradabilidade e estabilidade emocional.

    Jacobs realizou uma série de análises comparando a ferramenta que ele desenvolveu com outros classificadores de aprendizado de máquina para análise de sentimento, como Vader e Hu-Liu. SentiArt teve um desempenho notável em prever o potencial emocional de passagens de texto dos livros de Harry Potter, ao mesmo tempo que faz previsões plausíveis sobre o perfil emocional e de personalidade de personagens de ficção. Finalmente, a ferramenta atingiu uma precisão de validação cruzada promissora ao classificar 100 figuras fictícias em 'boas' ou 'más'.

    "O artigo é sobre algumas aplicações limitadas e em dois idiomas (alemão / inglês), então, antes que eu possa especular sobre o potencial do aplicativo, sendo um cientista experimental, Eu gostaria de ter muitos mais estudos de validação cruzada usando dados humanos, "Jacobs explicou." É assim que sou treinado, embora geralmente no processamento de linguagem natural (PNL) ou na comunidade de aprendizado de máquina, essas não sejam as principais prioridades. Mas como neurolinguistas, sempre tentaríamos testar as previsões de um algoritmo com dados humanos antes de especular sobre para que ele é realmente útil. "

    Embora Jacobs enfatize a necessidade de mais estudos para verificar a eficácia e generalização do SentiArt, a ferramenta que ele desenvolveu poderia eventualmente ter inúmeras aplicações interessantes. Por exemplo, pode ser aplicado em campos como linguística computacional, psicologia da personalidade, humanidades digitais e talvez até mesmo em ambientes clínicos. Pode, em princípio, também pode ser aplicado a personagens não fictícios que aparecem na Wikipedia ou Wikinews, por exemplo. Winston Churchill, Marilyn Monroe ou Angela Merkel.

    "O modelo se ajusta a um primeiro conjunto de dados empíricos, as classificações de Harry Potter, é definitivamente encorajador, "Jacobs acrescentou." Além disso, duas das ferramentas de análise de sentimento mais populares com as quais comparei não se saem melhor neste contexto, então eu acho que essa é uma conquista que merece publicação. Acho que mostrar o perfil emocional do personagem de Voldemort ou Harry Potter foi um bom truque, mas é claro, a ferramenta também pode ser aplicada a personagens não ficcionais. "

    Jacobs agora está planejando realizar mais estudos de validação cruzada, testando as previsões de seu modelo com dados humanos. Ele espera que as equipes de outras universidades façam o mesmo, usando dados coletados via Amazon Turk ou dados de neuroimagem, como no "estudo de Harry Potter realizado em seu laboratório. Além disso, ele gostaria de explorar maneiras de melhorar o desempenho das ferramentas de análise de sentimento em tarefas que usam regressores de aprendizado de máquina em vez de classificadores.

    "As abordagens de aprendizado de máquina geralmente são divididas em dois tipos diferentes, "Jacobs explicou." As primeiras são abordagens de classificação, que classificam os dados em categorias, como positivo ou negativo. É aqui que meu algoritmo se sai muito bem. O teste difícil não é classificação, é regressão, which entails fitting an algorithm's predictions to continuous human data, such as ratings on a scale from one to 10. Few people in sentiment analysis use regressors, especially for literary texts, because accuracy tends to drop, por exemplo, from over 90 percent to about 30 percent to 50 percent. I would like to see more work testing this, and once more empirical data has been published, I will try to improve parts of the algorithm in agreement with this new data."

    In addition to his research endeavors, Jacobs will soon start teaching natural language programming (NLP) and machine learning as part of a new data science course at Freie Universität Berlin. His hope is to train new generations of data scientists to value the collection of empirical human data related to reading literature and poetry just as much as publishing code or predicting particular things.

    © 2019 Science X Network




    © Ciência https://pt.scienceaq.com