• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  science >> Ciência >  >> Química
    Automatizando o projeto de moléculas para acelerar o desenvolvimento de medicamentos

    Os pesquisadores do MIT desenvolveram um modelo de aprendizado de máquina que seleciona melhor as moléculas candidatas para a terapêutica, ao mesmo tempo que permite a modificação automática da estrutura molecular para maior potência. A inovação tem potencial para acelerar o desenvolvimento de medicamentos. Crédito:Massachusetts Institute of Technology

    Projetar novas moléculas para produtos farmacêuticos é principalmente um manual, processo demorado que está sujeito a erros. Mas os pesquisadores do MIT agora deram um passo para automatizar totalmente o processo de design, o que poderia acelerar drasticamente as coisas - e produzir melhores resultados.

    A descoberta de medicamentos depende da otimização de leads. Nesse processo, os químicos selecionam uma molécula alvo ("líder") com potencial conhecido para combater uma doença específica, em seguida, ajuste suas propriedades químicas para maior potência e outros fatores.

    Muitas vezes, químicos usam conhecimento especializado e realizam ajustes manuais de moléculas, adição e subtração de grupos funcionais - átomos e ligações responsáveis ​​por reações químicas específicas - um por um. Mesmo que usem sistemas que preveem propriedades químicas ideais, os químicos ainda precisam fazer cada etapa de modificação eles mesmos. Isso pode levar horas para cada iteração e ainda pode não produzir um candidato a medicamento válido.

    Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) e do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) desenvolveram um modelo que seleciona melhor as moléculas candidatas principais com base nas propriedades desejadas. Ele também modifica a estrutura molecular necessária para atingir uma potência mais alta, ao mesmo tempo que garante que a molécula ainda é quimicamente válida.

    O modelo basicamente leva como entrada dados da estrutura molecular e cria diretamente gráficos moleculares - representações detalhadas de uma estrutura molecular, com nós representando átomos e arestas representando ligações. Ele divide esses gráficos em grupos menores de grupos funcionais válidos que usa como "blocos de construção" que o ajudam a reconstruir com mais precisão e modificar melhor as moléculas.

    "A motivação por trás disso foi substituir o processo ineficiente de modificação humana de projetar moléculas por iteração automatizada e garantir a validade das moléculas que geramos, "diz Wengong Jin, um Ph.D. estudante em CSAIL e autor principal de um artigo que descreve o modelo que está sendo apresentado na Conferência Internacional de Aprendizado de Máquina de 2018 em julho.

    Regina Barzilay se juntou a Jin no papel, o Professor Delta Eletrônica em CSAIL e EECS e Tommi S. Jaakkola, o professor Thomas Siebel de Engenharia Elétrica e Ciência da Computação no CSAIL, EECS, e no Institute for Data, Sistemas, e sociedade.

    A pesquisa foi conduzida como parte do Consórcio de Aprendizado de Máquina para Descoberta e Síntese Farmacêutica entre o MIT e oito empresas farmacêuticas, anunciado em maio. O consórcio identificou a otimização de leads como um dos principais desafios na descoberta de medicamentos.

    "Hoje, é realmente um ofício, que requer muitos químicos qualificados para ter sucesso, e é isso que queremos melhorar, "Barzilay diz." O próximo passo é levar essa tecnologia da academia para uso em casos reais de design farmacêutico, e demonstrar que pode ajudar químicos humanos a fazer seu trabalho, o que pode ser desafiador. "

    "Automatizar o processo também apresenta novos desafios de aprendizado de máquina, "Jaakkola diz." Aprender a se relacionar, modificar, e gerar gráficos moleculares impulsiona novas idéias e métodos técnicos. "

    Gerando gráficos moleculares

    Sistemas que tentam automatizar o projeto de moléculas surgiram nos últimos anos, mas seu problema é a validade. Esses sistemas, Jin diz, frequentemente geram moléculas que são inválidas de acordo com as regras químicas, e eles não conseguem produzir moléculas com propriedades ideais. Isso essencialmente torna a automação completa do projeto de moléculas inviável.

    Esses sistemas funcionam em notações lineares de moléculas, chamados de "sistemas simplificados de entrada de linha de entrada molecular, "ou SMILES, onde longas sequências de letras, números, e os símbolos representam átomos ou ligações individuais que podem ser interpretados por software de computador. À medida que o sistema modifica uma molécula líder, ele expande sua representação de string símbolo por símbolo - átomo por átomo, e vínculo por vínculo - até gerar um string final de SMILES com maior potência de uma propriedade desejada. No fim, o sistema pode produzir uma string final SMILES que parece válida na gramática SMILES, mas é realmente inválido.

    Os pesquisadores resolvem esse problema construindo um modelo que é executado diretamente em gráficos moleculares, em vez de strings SMILES, que pode ser modificado com mais eficiência e precisão.

    O modelo é alimentado por um autoencoder variacional personalizado - uma rede neural que "codifica" uma molécula de entrada em um vetor, que é basicamente um espaço de armazenamento para os dados estruturais da molécula, e então "decodifica" esse vetor em um gráfico que corresponde à molécula de entrada.

    Na fase de codificação, o modelo divide cada gráfico molecular em grupos, ou "subgráficos, "cada um dos quais representa um bloco de construção específico. Esses clusters são construídos automaticamente por um conceito comum de aprendizado de máquina, chamada decomposição de árvore, onde um gráfico complexo é mapeado em uma estrutura de árvore de clusters - "que fornece uma estrutura do gráfico original, "Jin diz.

    A estrutura da árvore de cadafalso e a estrutura do gráfico molecular são codificados em seus próprios vetores, onde as moléculas são agrupadas por semelhança. Isso torna a localização e modificação de moléculas uma tarefa mais fácil.

    Na fase de decodificação, o modelo reconstrói o gráfico molecular de uma maneira "grosseira para fina" - aumentando gradualmente a resolução de uma imagem de baixa resolução para criar uma versão mais refinada. Primeiro, ele gera o andaime estruturado em árvore, e então reúne os clusters associados (nós na árvore) em um gráfico molecular coerente. Isso garante que o gráfico molecular reconstruído seja uma replicação exata da estrutura original.

    Para otimização de leads, o modelo pode então modificar as moléculas principais com base em uma propriedade desejada. Ele faz isso com a ajuda de um algoritmo de predição que pontua cada molécula com um valor de potência dessa propriedade. No papel, por exemplo, os pesquisadores procuraram moléculas com uma combinação de duas propriedades - alta solubilidade e acessibilidade sintética.

    Dada uma propriedade desejada, o modelo otimiza uma molécula líder usando o algoritmo de predição para modificar seu vetor - e, Portanto, estrutura - editando os grupos funcionais da molécula para atingir uma pontuação de potência mais alta. Ele repete esta etapa para várias iterações, até encontrar a maior pontuação de potência prevista. Então, o modelo finalmente decodifica uma nova molécula do vetor atualizado, com estrutura modificada, compilando todos os clusters correspondentes.

    Válido e mais potente

    Os pesquisadores treinaram seu modelo em 250, 000 gráficos moleculares do banco de dados ZINC, uma coleção de estruturas moleculares 3-D disponíveis para uso público. Eles testaram o modelo em tarefas para gerar moléculas válidas, encontrar as melhores moléculas de chumbo, e projetar novas moléculas com potências crescentes.

    No primeiro teste, o modelo dos pesquisadores gerou 100 por cento de moléculas quimicamente válidas a partir de uma distribuição de amostra, em comparação com modelos SMILES que geraram 43 por cento de moléculas válidas da mesma distribuição.

    O segundo teste envolveu duas tarefas. Primeiro, o modelo pesquisou toda a coleção de moléculas para encontrar a melhor molécula líder para as propriedades desejadas - solubilidade e acessibilidade sintética. Nessa tarefa, o modelo encontrou uma molécula de chumbo com uma potência 30 por cento maior do que os sistemas tradicionais. A segunda tarefa envolveu a modificação de 800 moléculas para maior potência, mas são estruturalmente semelhantes à molécula principal. Ao fazer isso, o modelo criou novas moléculas, muito parecido com a estrutura do lead, em média, uma melhoria de mais de 80 por cento na potência.

    Em seguida, os pesquisadores pretendem testar o modelo em mais propriedades, além da solubilidade, que são mais relevantes terapeuticamente. Este, Contudo, requer mais dados. “As empresas farmacêuticas estão mais interessadas em propriedades que lutem contra alvos biológicos, mas eles têm menos dados sobre eles. Um desafio é desenvolver um modelo que possa funcionar com uma quantidade limitada de dados de treinamento, "Jin diz.

    Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.




    © Ciência https://pt.scienceaq.com