• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  science >> Ciência >  >> Física
    Textos como redes:quantas palavras são suficientes para identificar um autor?

    O autor de um texto não assinado pode ser identificado analisando a relação entre apenas algumas palavras do texto, conforme mostrado por físicos-estatísticos do Instituto de Física Nuclear da Academia Polonesa de Ciências em Cracóvia. (Fonte:IFJ PAN) Crédito:IFJ PAN

    As pessoas são mais originais do que pensam - isso é sugerido por um método de estilometria de análise de texto literário proposto por cientistas do Instituto de Física Nuclear da Academia Polonesa de Ciências. A individualidade do autor pode ser vista nas conexões entre no máximo uma dúzia de palavras em um texto em inglês. Acontece que nas línguas eslavas, a identificação de autoria requer ainda menos palavras, e é mais certo.

    Os pesquisadores buscaram uma solução para o problema de verificar a autoria de textos históricos conhecidos apenas por fragmentos, a identificação de plágio, e problemas semelhantes. Em muitos casos, os métodos estilométricos tradicionais falham ou não levam a conclusões suficientemente confiáveis. No Ciências da Informação , cientistas do Instituto de Física Nuclear da Academia Polonesa de Ciências (IFJ PAN) em Cracóvia agora apresentam sua própria ferramenta estatística para análise estilométrica. Construído com o uso de gráficos, analisa a estrutura dos textos de uma maneira qualitativamente nova.

    "As conclusões da nossa pesquisa são, por um lado, encorajando. Eles indicam que a individualidade de qualquer pessoa se manifesta claramente na maneira como usam um número surpreendentemente pequeno de palavras. Mas também há um lado negro. Já que as pessoas são tão originais, será mais fácil identificar os indivíduos por suas declarações, "diz o professor Stanislaw Drozdz, da Universidade de Tecnologia de Cracóvia.

    Estilometria, a ciência que lida com as características estatísticas do estilo dos textos, baseia-se na observação de que cada pessoa usa a mesma língua de maneiras ligeiramente diferentes. Alguns têm um vocabulário mais amplo, outros mais estreitos, alguns preferem certas frases e cometem erros, outros evitam a repetição e são puristas linguísticos. E no texto escrito, eles também diferem na forma como usam a pontuação. Na abordagem estilométrica típica, as características básicas de um texto são geralmente examinadas, incluindo a frequência de ocorrência de palavras individuais, enquanto a pontuação é ignorada. As análises são realizadas para o texto estudado e para textos escritos por autores potencialmente conhecidos. Entende-se por criador a pessoa cujas obras apresentam parâmetros com valores mais próximos dos obtidos para o material a ser identificado.

    "Sugerimos que os traços característicos do estilo podem ser representados em uma representação de rede do texto, usando gráficos, "explica Tomasz Stanisz, Ph.D. aluno do PAN IFJ e primeiro autor da publicação. "O gráfico é uma coleção de pontos ou vértices no gráfico, conectado por linhas, ou seja, as bordas do gráfico. No caso mais simples - na chamada rede não ponderada - os vértices correspondem a palavras individuais e são conectados por arestas se e somente se duas palavras dadas ocorreram adjacentes uma à outra pelo menos uma vez no texto. Por exemplo, para a frase 'Jane está com fome, 'o gráfico teria três vértices, um para cada palavra, mas haveria apenas duas arestas, um entre 'Jane' e 'é, 'o outro entre' é 'e' com fome '. "

    Ao construir suas ferramentas estilométricas, os pesquisadores testaram diferentes tipos de gráficos. Os melhores resultados foram obtidos para gráficos ponderados, isso é, aqueles em que cada aresta carrega informações sobre o número de ocorrências de sua conexão correspondente entre as palavras. Dois parâmetros se mostraram os mais úteis em tais redes:o grau do nó e o coeficiente de agrupamento. A primeira descreve o número de arestas provenientes de um determinado nó e está diretamente relacionada ao número de ocorrências de uma determinada palavra no texto. Por sua vez, o coeficiente de agrupamento descreve a probabilidade de que duas palavras conectadas por uma aresta com uma determinada palavra também estejam conectadas com uma aresta entre si.

    Usando ferramentas estatísticas preparadas desta forma, os físicos baseados em Cracóvia analisaram 96 livros:seis romances de oito autores ingleses conhecidos (Austen, Conrad, Defoe, Dickens, Doyle, Eliot, Orwell e Twain) e oito autores poloneses (Korczak, Kraszewski, Lam, Orzeszkowa, Prus, Reymont, Sienkiewicz e Zeromski). Os autores incluíram dois vencedores do Prêmio Nobel de Literatura (Wladyslaw Reymont e Henryk Sienkiewicz). Todos os textos foram obtidos de recursos da Internet:Project Gutenberg, Wikisource e Wolne Lektury. O grupo do IFJ PAN verificou então a confiabilidade com a qual a autoria de 12 obras selecionadas aleatoriamente em um idioma poderia ser determinada, tratar o resto do conjunto de obras como material comparativo.

    “No caso de textos em inglês, identificamos os autores corretamente em quase 90 por cento dos casos. Além disso, para alcançar o sucesso, foi necessário traçar as conexões entre apenas 10 a 12 palavras do texto examinado. Ao contrário da intuição ingênua, um novo aumento no número de palavras estudadas não aumentou significativamente a eficácia do método, "diz Stanisz.

    Em polonês, a determinação da autoria acabou sendo ainda mais simples:era necessário analisar apenas cinco a seis palavras. Notavelmente, apesar do fato de que o conjunto de palavras significativas era a metade do que em inglês, a probabilidade de identificação correta aumentou em até 95 por cento. Essa alta precisão de diagnóstico, Contudo, só foi alcançado quando os sinais de pontuação também foram tratados como palavras separadas. Em ambos os idiomas, omitir pontuação resultou em uma redução significativa no número de suposições corretas. O papel observado da pontuação é mais uma confirmação das conclusões de uma publicação de 2017 do grupo do Prof. Drozdz, no qual foi mostrado que a pontuação desempenha um papel na linguagem tão importante quanto as próprias palavras.

    "Em comparação com o inglês, O polonês parece dar maiores possibilidades de revelar o estilo do autor. Achamos que as outras línguas eslavas são caracterizadas por características semelhantes. Inglês é uma linguagem posicional, o que significa que a ordem das palavras em uma frase é importante. Este tipo de linguagem deixa menos espaço para um estilo individual de expressão do que as línguas eslavas, em que inflexão, ou variação, determina o papel de uma palavra ou frase em uma frase. Isso permite maior liberdade para organizar a ordem das palavras em uma frase, enquanto seu significado permanece inalterado, "diz o Prof. Drozdz.

    © Ciência https://pt.scienceaq.com