Em um recente Avaliações Químicas artigo, Pesquisadores espanhóis publicaram a primeira revisão exaustiva das metodologias de ponta subjacentes aos motores de busca química, reconhecimento de entidades nomeadas e sistemas de mineração de texto.
O campo de rápido crescimento das aplicações de big data na pesquisa biomédica, junto com o uso de tecnologias de aprendizado de máquina e inteligência artificial para mineração de dados de texto, resultou em ferramentas promissoras. Os autores escrevem, "Esta revisão é organizada para servir como um guia prático para pesquisadores que entram neste campo, mas também para ajudá-los a imaginar os próximos passos neste campo emergente da ciência de dados."
"Por meio do lançamento de conjuntos de dados Gold Standard e da organização de vários eventos de benchmark de desafio da comunidade, a Unidade de Mineração de Texto Biológico tem desempenhado um papel crítico no desenvolvimento e avaliação dos atuais sistemas de mineração de texto químico, conforme destacado neste artigo, "explica Martin Krallinger, chefe da unidade e co-primeiro autor da revisão.
Uma grande quantidade de dados não estruturados
Uma fração considerável de dados biomedicamente relevantes está disponível apenas na forma de dados não estruturados. Este tipo de dados inclui literatura científica em rápido crescimento, patentes de química medicinal, registros eletrônicos de saúde e documentos de ensaios clínicos. Na verdade, todo ano, mais de 20, 000 novos compostos são publicados em revistas de química médica e biológica.
Ser capaz de transformar dados de pesquisa biomédica não estruturados em bancos de dados estruturados que podem ser processados com mais eficiência por máquinas ou consultados por humanos é fundamental para uma variedade de aplicações heterogêneas. Isso inclui a identificação de novos alvos de drogas e sondas químicas para validar / descartar esses novos alvos em potencial, reorientação de medicamentos aprovados, a identificação de eventos adversos a medicamentos ou a recuperação da biologia de sistemas associada a doenças químicas ou redes de genes químicos.
Como estratégia terapêutica para tratar necessidades médicas, os compostos químicos constituem um tipo de entidade chave de relevância crítica para a pesquisa biomédica. “A construção de grandes bases de conhecimento químico, integrando informações químicas com dados biológicos e clínicos, é crucial para identificar e validar novos alvos terapêuticos para necessidades médicas não atendidas, bem como para acelerar o processo de descoberta de medicamentos, "diz Julen Oyarzabal, diretor de Ciências Translacionais do CIMA e co-líder deste relatório.