Crédito CC0:domínio público
A mineração de dados e a extração de conhecimento de fontes distintas são big data, grande negócio. Mas, como o software de pesquisa lida com entidades mencionadas onde apenas parte de seu nome é usado ou um nome é hifenizado quando normalmente não é? Pesquisa publicada no International Journal of Intelligent Information and Database Systems revela detalhes de uma nova abordagem para melhorar o reconhecimento de entidades nomeadas e desambiguação em manchetes de notícias.
Jayendra Barua e Rajdeep Niyogi, do Departamento de Ciência da Computação e Engenharia, no Instituto Indiano de Tecnologia, em Roorkee, Uttarakhand, Índia, Explique que sua abordagem para tal análise das manchetes de notícias atuais baseia-se em um algoritmo treinado que foi ensinado a remover os hifens e nomes incompletos completos para remover a ambigüidade.
A avaliação da equipe de sua nova abordagem mostra que ela funciona com aproximadamente 10% a mais de precisão do que os sistemas convencionais e, portanto, pode melhorar a recuperação automatizada de notícias associadas a empresas específicas, organizações, eventos, figuras públicas, e outras entidades de interesse para aqueles que estão explorando as notícias. O sistema funciona bem com feeds de notícias, como o tipo RSS de feed de notícias gerado por sites atualizados regularmente. As manchetes dessas fontes costumam ser mais longas do que as manchetes dos jornais convencionais, mas, no entanto, são sucintas, geralmente tendo dez ou menos palavras. Cada palavra pode ser importante em um contexto de mineração de dados e, portanto, a desambiguação é crítica.