A ferramenta baseada na web é simples, e o modelo é treinado de ponta a ponta, totalmente orientado a dados e sem a ajuda de consultar um banco de dados ou qualquer informação externa adicional. Crédito:IBM
Por mais de 200 anos, a síntese de moléculas orgânicas continua sendo uma das tarefas mais importantes da química orgânica. O trabalho dos químicos tem implicações científicas e comerciais que vão desde a produção de Aspirina até a de Nylon. Ainda, pouco foi feito para mudar drasticamente as práticas antigas e permitir uma nova era de produtividade baseada em ciência e tecnologias pioneiras de inteligência artificial (IA).
O desafio para os químicos orgânicos em áreas como a química, Ciência de materiais, óleo e gás, e ciências da vida é que existem centenas de milhares de reações e, embora seja administrável lembrar algumas dezenas em um campo estreito de especialista, é impossível ser um generalista especialista.
Para resolver isso, nos perguntamos:podemos usar aprendizado profundo e inteligência artificial para prever reações de compostos orgânicos?
Primeiro, já que estudamos engenharia e ciências dos materiais, mas não química orgânica, tivemos que acertar os livros. Não demorou muito para começarmos a ver a química orgânica em todos os lugares - de manhã, meio-dia e noite. Átomos apareceram em vez de letras, moléculas materializadas a partir de palavras e, então, algo incrível aconteceu:uma ideia nasceu.
Percebemos que conjuntos de dados de química orgânica e conjuntos de dados de linguagem têm muito em comum:ambos dependem da gramática, em dependências de longo alcance, e uma pequena partícula ou palavra como "não" pode mudar todo o significado de uma frase, assim como a estereoquímica pode transformar a talidomida em um medicamento ou em um veneno mortal.
Como falantes não nativos de inglês, estamos familiarizados com ferramentas de tradução online, que foram maravilhas na conversão do inglês para o francês, e alemão para inglês, então, por que não tentar usá-los para transformar produtos químicos aleatórios em compostos funcionais?
Na Conferência NIPS 2017, apresentamos nossos resultados:um aplicativo baseado na web que leva a ideia de relacionar a química orgânica a uma linguagem e aplica métodos de tradução automática neural de última geração para ir da concepção de materiais à geração de produtos usando sequência. modelos para a sequência (seq2seq).
Química 101
De volta ao colégio, tivemos que desenhar à mão os hexágonos e pentágonos e todas as várias linhas que representam ligações de moléculas orgânicas. Agora, criamos um sistema que usa exatamente a mesma representação e pode prever como as moléculas irão reagir em um clique.
A ferramenta geral é simples, e o modelo é treinado de ponta a ponta, totalmente orientado a dados e sem a ajuda de consultar um banco de dados ou qualquer informação externa adicional. Com esta abordagem, nós superamos as soluções atuais usando seus próprios conjuntos de treinamento e teste, alcançando uma precisão de 80,3 por cento no topo e estabelecendo uma primeira pontuação de 65,4 por cento em um conjunto de dados de reações de produto único barulhento extraído de patentes dos EUA.
Usando SMILES, esta molécula é traduzida em BrCCOC1OCCCC1. Crédito:IBM
O segredo por trás de nossa ferramenta é o que é chamado de sistema simplificado de entrada de linha de entrada molecular ou SMILES. SMILES representa uma molécula como uma sequência de caráter. Por exemplo, a imagem à direita, torna-se BrCCOC1OCCCC1.
Treinamos nosso modelo usando um conjunto de dados de reação química disponível abertamente, que correspondem a 1 milhão de reações de patentes.
No futuro, pretendemos aprimorar o modelo e melhorar nossa precisão, expandindo nosso conjunto de dados. Atualmente, nossos dados são retirados de informações disponíveis publicamente em patentes dos EUA publicadas online, mas não há razão para que a ferramenta não possa ser treinada com dados vindos de outras fontes, como livros didáticos de química e publicações científicas.
Também planejamos disponibilizar publicamente essa ferramenta gratuitamente na nuvem no início de 2018.
Inscreva-se em www.zurich.ibm.com/foundintranslation para receber um alerta quando a ferramenta da web estiver pronta.