Os pesquisadores do Purdue criaram um novo sistema, chamado limão, para mineração rápida de dados de interação biomolecular para uso com métodos de aprendizado de máquina para o projeto de medicamentos. Crédito:imagem fornecida
Um dos desafios de usar o aprendizado de máquina para o desenvolvimento de medicamentos é criar um processo para o computador extrair as informações necessárias de um conjunto de pontos de dados. Os cientistas farmacêuticos devem obter dados biológicos e treinar o software para entender como um corpo humano típico irá interagir com as combinações que se juntam para formar um medicamento.
Os pesquisadores de descoberta de drogas da Purdue University criaram uma nova estrutura para mineração de dados para o treinamento de modelos de aprendizado de máquina. O quadro, chamado limão, ajuda os pesquisadores de drogas a explorar melhor o Protein Data Base (PDB) - um recurso abrangente com mais de 140, 000 estruturas biomoleculares e com novas sendo lançadas a cada semana. O trabalho está publicado na edição de 15 de outubro de Bioinformática .
"O PDB é uma ferramenta essencial para a comunidade de descoberta de drogas, "disse Gaurav Chopra, um professor assistente de química analítica e física no Purdue's College of Science que trabalha com outros pesquisadores no Purdue Institute for Drug Discovery e liderou a equipe que criou o Lemon. "O problema é que pode levar muito tempo para classificar todos os dados acumulados. O aprendizado de máquina pode ajudar, mas você ainda precisa de uma estrutura forte a partir da qual o computador possa analisar rapidamente os dados para ajudar na criação de medicamentos seguros e eficazes. "
A plataforma de software Lemon é uma biblioteca C ++ 11 rápida com ligações Python que extrai o PDB em minutos. O carregamento de todos os arquivos mmCIF tradicionais no PDB leva cerca de 290 minutos, mas Lemon faz isso em cerca de seis minutos ao aplicar um fluxo de trabalho simples em uma máquina de 8 núcleos. Lemon permite ao usuário escrever funções personalizadas, incluí-lo como parte de seu pacote de software, e desenvolver funções personalizadas de maneira padrão para gerar conjuntos de dados de benchmarking exclusivos para toda a comunidade científica.
"As estruturas experimentais depositadas no PDB resultaram em vários avanços para comunidades científicas e educacionais de biologia estrutural e computacional que ajudam no desenvolvimento de medicamentos e em outras áreas, "disse Jonathan Ótimo, um Ph.D. estudante de química que trabalhou com Chopra para desenvolver a plataforma. "Criamos o Lemon como um balcão único para explorar rapidamente todo o banco de dados e extrair informações biológicas úteis que são essenciais para o desenvolvimento de medicamentos."
A Lemon ganhou esse nome porque foi originalmente projetada para criar conjuntos de benchmarking para software de design de medicamentos e identificar os limões, interações biomoleculares que não podem ser bem modeladas, no PDB.
O trabalho de desenvolvimento de software é o mais recente projeto envolvendo inovações em saúde de Chopra e sua equipe. Lemon está disponível gratuitamente no GitHub em lemon "target =" _ blank "> github.com/chopralab/lemon. A documentação detalhada está disponível em chopralab.github.io/lemon/latest/index.html.