Visão geral do MMACE. A entrada é uma molécula a ser prevista. O espaço químico é expandido e agrupado. Contrafactuais são selecionados a partir de agrupamentos para encontrar uma explicação sucinta da predição da molécula de base. Crédito:Ciência Química (2022). DOI:10.1039/D1SC05259D
Os cientistas confiam cada vez mais em modelos treinados com aprendizado de máquina para fornecer soluções para problemas complexos. Mas como sabemos que as soluções são confiáveis quando os algoritmos complexos que os modelos usam não são facilmente questionados ou capazes de explicar suas decisões para humanos?
Essa confiança é especialmente crucial na descoberta de medicamentos, por exemplo, onde o aprendizado de máquina é usado para classificar milhões de compostos potencialmente tóxicos para determinar quais podem ser candidatos seguros para medicamentos farmacêuticos.
“Houve alguns acidentes de alto perfil na ciência da computação em que um modelo poderia prever as coisas muito bem, mas as previsões não foram baseadas em nada significativo”, diz Andrew White, professor associado de engenharia química da Universidade de Rochester, em entrevista. com o Mundo da Química.
White e seu laboratório desenvolveram um novo método "contrafactual", descrito em
Chemical Science , que pode ser usado com qualquer modelo de aprendizado de máquina baseado em estrutura molecular para entender melhor como o modelo chegou a uma conclusão.
Os contrafactuais podem dizer aos pesquisadores "a menor mudança nos recursos que alterariam a previsão", diz o principal autor Geemi Wellawatte, Ph.D. estudante no laboratório de White. "Em outras palavras, um contrafactual é um exemplo tão próximo do original, mas com um resultado diferente."
Os contrafactuais podem ajudar os pesquisadores a identificar rapidamente por que um modelo fez uma previsão e se ela é válida.
O artigo identifica três exemplos de como o novo método, chamado MMACE (Molecular Model Agonistic Counterfactual Explanations), pode ser usado para explicar o porquê:
- prevê-se que uma molécula permeie a barreira hematoencefálica
- prevê-se que uma pequena molécula seja solúvel
- prevê-se que uma molécula inibe o HIV
O laboratório teve que superar alguns grandes desafios no desenvolvimento do MMACE. Eles precisavam de um método que pudesse ser adaptado para a ampla gama de métodos de aprendizado de máquina usados em química. Além disso, procurar a molécula mais semelhante para qualquer cenário também foi desafiador devido ao grande número de possíveis moléculas candidatas.
A partir da esquerda:estudante de doutorado Geemi Wellawatte, Andrew White, professor associado de engenharia química e Aditi Seshadri '22 em Wegmans Hall. O laboratório de White desenvolveu uma maneira de verificar as previsões de modelos de aprendizado de máquina usados na descoberta de medicamentos usando contrafactuais. Crédito:Universidade de Rochester/J. Adam Fenster
O coautor Aditi Seshadri, no laboratório de White, ajudou a resolver esse problema, sugerindo que o grupo adaptasse o algoritmo STONED (Superfast travessia, otimização, novidade, exploração e descoberta) desenvolvido na Universidade de Toronto. STONED gera eficientemente moléculas semelhantes, o combustível para a geração contrafactual. Seshadri é pesquisador de graduação no laboratório de White e pôde ajudar no projeto por meio de um programa de pesquisa de verão de Rochester chamado "Discover".
White diz que sua equipe continua a melhorar o MMACE, experimentando outros bancos de dados em busca de moléculas mais semelhantes, por exemplo, e refinando a definição de similaridade molecular.
+ Explorar mais Técnica de IA reduzida para propor apenas moléculas candidatas que podem ser produzidas em laboratório