Crédito CC0:domínio público
Para fabricar medicamentos, os químicos devem encontrar as combinações certas de produtos químicos para fazer as estruturas químicas necessárias. Isso é mais complicado do que parece, como reações químicas típicas empregam vários componentes diferentes, e cada produto químico envolvido em uma reação adiciona outra dimensão aos cálculos.
Em um mundo ideal, os químicos gostariam de prever qual combinação de produtos químicos proporcionaria o maior rendimento do produto e evitar subprodutos indesejados ou outras perdas, mas prever o resultado dessas reações multidimensionais tem se mostrado desafiador.
Um grupo de pesquisadores liderado por Abigail Doyle, o A. Barton Hepburn Professor de Química da Universidade de Princeton, e Dr. Spencer Dreher da Merck Research Laboratories, encontrou uma maneira de prever com precisão os rendimentos da reação, enquanto varia até quatro componentes da reação, usando um aplicativo de inteligência artificial conhecido como aprendizado de máquina. Eles transformaram seu método em um software que disponibilizaram a outros químicos. Eles publicaram sua pesquisa em 15 de fevereiro no jornal Ciência .
"O software que desenvolvemos pode funcionar para qualquer reação, qualquer substrato, "disse Doyle." A ideia era permitir que alguém aplicasse esta ferramenta e esperançosamente desenvolvê-la com outras reações. "
Vastos recursos e tempo são gastos para fazer moléculas sintéticas, muitas vezes de uma maneira amplamente ad hoc, ela disse. Usando este novo software, os químicos podem identificar combinações de alto rendimento de produtos químicos e substratos de maneira mais barata e eficiente.
"Esperamos que seja uma ferramenta valiosa para acelerar a síntese de novos medicamentos, "disse Derek Ahneman, que completou seu doutorado em química no laboratório de Doyle em 2017 e agora trabalha para a IBM.
"Muitos desses algoritmos de aprendizado de máquina já existem há algum tempo, "disse Jesús Estrada, um estudante de graduação no laboratório de Doyle que contribuiu com a pesquisa e o artigo. "Contudo, dentro da comunidade de química orgânica sintética, realmente não aproveitamos as oportunidades empolgantes que o aprendizado de máquina oferece. "
"Como químicos, tradicionalmente nos afastamos da análise multidimensional, "disse Doyle." Nós só olhamos para uma variável de cada vez, ou um único conjunto de condições para uma variedade de substratos. "
Quando Ahneman disse a Doyle que queria usar o aprendizado de máquina para resolver o problema multidimensional, ela o encorajou. "Eu sempre - especialmente para meus alunos mais talentosos - tento dar-lhes rédea solta no último ano de seu Ph.D., "ela disse." Este é o projeto que ele me propôs. "
Doyle e Ahneman se propuseram a modelar o rendimento da reação enquanto modificavam quatro componentes diferentes da reação, um esforço exponencialmente mais difícil do que modificar uma variável de cada vez.
"No início, sabíamos que haveria muitos desafios a superar, "Ahneman disse." Não tínhamos certeza se era mesmo possível.
Historicamente, um obstáculo para o desenvolvimento de modelos multidimensionais tem sido a coleta de dados suficientes sobre os rendimentos de reação para construir um "conjunto de treinamento eficaz, "disse ele. Mas recentemente, A Merck inventou sistemas robóticos que podem executar milhares de reações na ordem de dias.
Outro desafio tem sido calcular descritores quantitativos para cada produto químico, para usar como entradas para o modelo. Esses descritores são normalmente calculados um por um, o que teria sido impraticável para o grande número de combinações químicas que eles queriam usar.
Eles superaram essa limitação escrevendo um código que usava um programa existente, Espartano, para calcular e, em seguida, extrair descritores para cada produto químico usado no modelo.
Depois de terem seus descritores quantitativos, eles tentaram várias abordagens estatísticas. Primeiro, eles usam regressão linear, o padrão da indústria, mas descobriu que falhou em prever com precisão o rendimento da reação. Eles então exploraram vários modelos de aprendizado de máquina comuns e descobriram que um chamado "floresta aleatória" fornecia previsões de produtividade surpreendentemente precisas.
Um modelo de floresta aleatório funciona selecionando aleatoriamente pequenas amostras do conjunto de dados de treinamento e usando essa amostra para construir uma árvore de decisão. Cada árvore de decisão individual, então, prevê o rendimento para uma determinada reação, e, em seguida, é calculada a média do resultado entre as árvores para gerar uma previsão de rendimento geral.
Outro avanço veio quando os pesquisadores descobriram que, com florestas aleatórias, "os rendimentos das reações podem ser previstos com precisão usando os resultados de 'apenas' centenas de reações (em vez de milhares), um número que os químicos sem robôs podem realizar por conta própria, "Ahneman disse.
Eles descobriram ainda que modelos florestais aleatórios podem prever rendimentos para compostos químicos não incluídos no conjunto de treinamento.
“As técnicas utilizadas são de última geração, "disse Chloé-Agathe Azencott, um pesquisador de aprendizado de máquina no Centro de Biologia Computacional da Universidade de Ciências e Letras de Paris, que não participou da pesquisa. "Os gráficos de correlação no papel são bons o suficiente para que possamos imaginar confiar nessas previsões no futuro, o que limitará a necessidade de experimentos de laboratório caros. "
"Esses resultados são empolgantes, porque eles sugerem que este método pode ser usado para prever o rendimento de reações onde o material de partida nunca foi feito, o que ajudaria a minimizar o consumo de produtos químicos cuja fabricação é demorada, "Ahneman disse." No geral, esta metodologia é promissora para (1) prever o rendimento das reações usando materiais de partida ainda não preparados e (2) prever as condições ideais para uma reação com um material e produto de partida conhecidos. "
Depois que Ahneman terminou sua graduação, Estrada continuou a pesquisa. O objetivo era criar software que fosse acessível não apenas a especialistas em computação como Ahneman e Estrada, mas também à comunidade mais ampla de química sintética, said Doyle.
She explained how the software works:"You draw out the structures—the starting materials, catalysts, bases—and the software will figure out shared descriptors between all of them. That's your input. The outcome is the yields of the reactions. The machine learning matches all those descriptors to the yields, with the goal that you can put in any structure and it will tell you the outcome of the reaction.
"The idea is to help people navigate the multi-dimensional space where you can't intuit the outcomes, " said Doyle.