Seu conjunto de treinamento de aprendizado de máquina é tendencioso? Como desenvolver novos medicamentos com base em conjuntos de dados mesclados
p Os autores combinaram conjuntos de dados proprietários (GSK) e publicados (CCDC) para treinar melhor os modelos de aprendizado de máquina (ML) para a descoberta de medicamentos. Crédito:Alex Moldovan.
p Polimorfos são moléculas que possuem diferentes arranjos de empacotamento molecular, apesar de composições químicas idênticas. Em um artigo recente, pesquisadores da GlaxoSmithKline (GSK) e do Cambridge Crystallographic Data Center (CCDC) combinaram seus conjuntos de dados proprietários (GSK) e publicados (CCDC) para treinar melhor os modelos de aprendizado de máquina (ML) para prever polimorfos estáveis para uso em novos candidatos a medicamentos. p
Quais são as principais diferenças entre os conjuntos de dados CCDC e GSK?
p O CCDC é curador e mantém o Cambridge Structural Database (CSD). No século passado, cientistas de todo o mundo contribuíram com publicações, estruturas cristalinas experimentais para o CSD, que agora tem mais de 1,1 milhão de estruturas. Os autores do artigo usaram um subconjunto de medicamentos do CSD combinado com estruturas da GSK. As estruturas da GSK foram coletadas em diferentes estágios do pipeline farmacêutico e não se limitam aos produtos comercializados. Coautor Dr. Jason Cole, pesquisador sênior da equipe de pesquisa e desenvolvimento do CCDC, explicou por que as estruturas reunidas em diferentes estágios do pipeline de descoberta de drogas são tão importantes.
p "Na descoberta de drogas em estágio inicial, uma estrutura de cristal pode ajudar a racionalizar os efeitos conformacionais, por exemplo, ou caracterizar a química de uma nova entidade química onde outras técnicas levaram à ambigüidade, "Cole disse." Mais tarde no processo, quando uma nova entidade química é estudada como uma molécula candidata, as estruturas cristalinas são críticas, pois informam a seleção da forma e podem mais tarde ajudar a superar os problemas de formulação e formação de comprimidos. "
p Essas informações podem ajudar os pesquisadores a priorizar seus esforços - economizando tempo e, potencialmente, vidas no futuro.
p "Ao compreender uma variedade de estruturas cristalinas, os cientistas também podem avaliar o risco de uma determinada forma ser instável a longo prazo, "Cole disse." Uma caracterização completa da paisagem estrutural leva à confiança em tomar uma forma adiante. "
p Como os modelos de ML na ciência farmacêutica se beneficiam de vários conjuntos de dados?
p Os conjuntos de dados industriais refletem mais do que apenas ciência; eles refletem as escolhas culturais dentro de uma determinada organização.
p "Você só encontrará cocristais se procurar por cocristais, "Cole disse, como um exemplo. "A maioria das empresas prefere formular uma versão gratuita, ou não ligado, medicamento. Pode-se supor que os tipos de estruturas em um conjunto industrial refletem decisões conscientes de busca por formas de determinados tipos, ao passo que menos limites são impostos aos pesquisadores que contribuem para o CSD. "
p Os modelos de ML se beneficiam de dois fatores principais:volume de dados e especificidade de dados. É por isso que combinar o volume e a variedade de dados no CSD com conjuntos de dados proprietários é tão útil.
p "Grandes quantidades de dados levam a previsões mais confiáveis, "Cole disse." Os dados que são mais diretamente relevantes para o problema levam a previsões mais precisas. Nas previsões que usam o software CCDC, selecionamos um subconjunto das entradas mais relevantes que é grande o suficiente para dar confiança. O conjunto GSK é obrigado a ter compostos altamente relevantes para outros compostos em seu portfólio comercial. Portanto, o software de construção de modelos pode usá-los. "
p Pesquisadores industriais que trabalham com dados altamente relevantes podem ter problemas quando não têm o suficiente para gerar modelos confiáveis.
p "Considere que o software CSD normalmente escolhe cerca de duas mil estruturas de 1,1 milhão no CSD, "Cole disse." O conjunto industrial é minúsculo em comparação, mas você pode escolher, dizer, 40 ou 50 estruturas altamente relevantes. Você não teria dados suficientes para construir um bom modelo apenas com isso, mas os compostos adicionados do CSD complementam o conjunto de dados. Em essência, ao incluir os conjuntos GSK e CSD, obtemos o melhor dos dois mundos:todas as estruturas industriais altamente relevantes e um conjunto de estruturas CSD bastante relevantes em conjunto para construir um modelo de alta qualidade. "
p
Por que os polimorfos representam um risco para a indústria farmacêutica?
p Os diferentes arranjos de embalagem significam que um polimorfo pode ser mais adequado para entrega terapêutica, enquanto outra forma do mesmo composto pode não. Os pesquisadores usam bancos de dados de estrutura cristalina para fazer previsões baseadas no conhecimento sobre se uma potencial nova droga é composta por um bem, forma estável que os fabricantes podem fazer, armazenar, e administrar de maneira terapêutica. Os autores da GSK e CCDC concluíram uma análise robusta das estruturas cristalinas de pequenas moléculas contendo resultados de difração de raios-X da GSK e de suas empresas tradicionais nos últimos 40 anos. Eles então combinaram esses resultados com um subconjunto de estruturas de drogas do CSD do CCDC, que contém mais de 1,1 milhão de estruturas cristalinas orgânicas e metal-orgânicas de pequenas moléculas de pesquisadores de todo o mundo.