Uma equipe de pesquisadores da National Research Nuclear University MEPhI, o National Research Centre Kurchatov Institute e a Voronezh State University desenvolveram um novo algoritmo de aprendizagem que permite a uma rede neural identificar o gênero de um escritor pelo texto escrito em um computador com até 80 por cento de precisão.
Este é um novo desenvolvimento no campo da linguística computacional. A pesquisa foi financiada por uma bolsa da Fundação Russa de Ciência. Os resultados foram publicados no Procedia Computer Science Diário.
Muitos estudos científicos mostram que o estilo de escrita pode refletir certas características de um escritor - gênero, traços de personalidade fisiológica, e nível de educação. Os padrões de fala são uma valiosa ferramenta de psicodiagnóstico, e são frequentemente usados por profissionais de recursos humanos e serviços de segurança.
Ao analisar a fala de uma pessoa, pesquisadores podem diagnosticar certas doenças, como demência e depressão, e a inclinação da pessoa para o comportamento suicida. A demanda por identificar certas características da personalidade de um escritor está aumentando contra o pano de fundo do desenvolvimento das comunicações pela Internet - as empresas querem saber quais dados demográficos gostam de seus produtos e serviços.
Usando os valores numéricos para vários parâmetros em um texto, pesquisadores nesta área (linguistas, psicólogos, Especialistas em TI) criaram modelos matemáticos para identificar certos traços da personalidade do escritor. Usando redes neurais, os pesquisadores analisaram a eficácia de vários algoritmos de aprendizado de máquina para análise de texto.
Durante a pesquisa, os cientistas compararam a precisão da identificação de gênero por texto com base em dois tipos de modelagem baseada em dados:primeiro, algoritmos de aprendizado de máquina (como uma máquina de vetor de suporte e aumento de gradiente), e, segundo, uma rede neural de aprendizagem profunda (como redes neurais convolucionais e redes neurais recorrentes de memória de curto prazo longa).
"Usando esses modelos avançados de rede neural, alcançamos ótimos resultados na identificação do gênero do escritor com base no texto, sob condições em que o autor não esteja tentando esconder seu gênero, "disse Alexander Sboyev, professora assistente do MEPhI. "Nosso próximo passo é ensinar a rede neural a identificar o gênero de um escritor que está deliberadamente tentando escondê-lo."
Assim, nos seguintes textos, publicado originalmente em sites de namoro, a rede neural identificou facilmente o gênero do escritor 10 em cada 10 vezes, apesar do fato de os autores serem livres para assinar seus textos com um nome típico do sexo oposto.
Este texto foi escrito por uma mulher:"Eu sou um lindo, homem de 30 anos em boa forma. Tenho um emprego bem remunerado em uma grande empresa de petróleo e gás. Eu moro em meu próprio apartamento em Moscou, e também possui uma casa pequena, mas agradável, em uma vila italiana. Eu gosto de esportes, principalmente futebol. Eu amo sair nos finais de semana, Eu não suporto caseiros. Minha garota perfeita seria modesta e bonita, e teria um corpo atraente, com base nos padrões atuais. Ela compartilharia meus interesses e não ficaria com ciúmes ou tentaria me deixar com ciúme. No futuro, Não pretendo ser o único provedor de uma família, pois acredito que quando se trata de famílias, homens e mulheres devem ganhar o dinheiro. Eu também gostaria de ter orçamentos separados. Eu não vou tolerar trapaça. "
Este texto foi escrito por um homem:"Olá! Estou muito zangado, muito! Por que você continua nos tratando assim ?! Nós somos pessoas, também, todos nós somos iguais! Você é sexista? Não vou tolerar mais isso! Vou quebrar seu carro em pedaços; Vou pintar tudo com spray. Você apenas espera, seu monstro. É chato ser você. "
Esta pesquisa indicou que a abordagem baseada no uso de redes neurais convolucionais e métodos de aprendizagem profunda para identificar o gênero de um escritor, é o mais ideal. A equipe de pesquisadores está atualmente trabalhando na identificação da idade de um escritor.