Em BigSMILES, os fragmentos poliméricos são representados por uma lista de unidades repetidas entre colchetes. As estruturas químicas das unidades de repetição são codificadas usando a sintaxe SMILES normal, mas com descritores de ligação adicionais que especificam como diferentes unidades de repetição são conectadas para formar polímeros. Esse design simples de sintaxe permitiria a codificação de macromoléculas em uma ampla gama de produtos químicos. Crédito:Tzyy-Shyang Lin
Tendo um compacto, ainda robusto, O identificador com base estrutural ou o sistema de representação de estruturas moleculares é um fator chave para o compartilhamento e disseminação eficientes dos resultados dentro da comunidade de pesquisa. Esses sistemas também estabelecem as bases essenciais para o aprendizado de máquina e outras pesquisas baseadas em dados. Embora avanços substanciais tenham sido feitos para moléculas pequenas, a comunidade de polímeros tem lutado para criar um sistema de representação eficiente.
Para moléculas pequenas, a premissa básica é que cada espécie química distinta corresponde a uma estrutura química bem definida. Isso não vale para polímeros. Os polímeros são moléculas intrinsecamente estocásticas que geralmente são conjuntos com uma distribuição de estruturas químicas. Essa dificuldade limita a aplicabilidade de todas as representações determinísticas desenvolvidas para moléculas pequenas. Em um artigo publicado em 12 de setembro em ACS Central Science , pesquisadores do MIT, Universidade Duke, e a Northwestern University relatam um novo sistema de representação que é capaz de lidar com a natureza estocástica dos polímeros, chamado BigSMILES.
"BigSMILES aborda um desafio significativo na representação digital de polímeros, "explica Connor Coley Ph.D. 19, co-autor do artigo. "Os polímeros são quase sempre conjuntos de múltiplas estruturas químicas, gerado por meio de processos estocásticos, portanto, não podemos usar as mesmas estratégias para escrever suas estruturas como para pequenas moléculas. "
Os co-autores são Coley; professor associado de engenharia química Bradley D. Olsen no MIT; Warren K. Lewis Professor de Engenharia Química Klavs F. Jensen no MIT; professora assistente de química Julia A. Kalow na Northwestern University; professor associado de química Jeremiah A. Johnson no MIT; William T. Miller, professor de química, Stephen L. Craig, da Duke University; o estudante de graduação Eliot Woods na Northwestern University; o estudante de pós-graduação Zi Wang na Duke University; o estudante de graduação Wencong Wang no MIT; o estudante de graduação Haley K. Beech no MIT; o pesquisador visitante Hidenobu Mochigase do MIT; e a estudante de graduação Tzyy-Shyang Lin no MIT.
Existem várias notações de linha para comunicar a estrutura molecular, com o sistema simplificado de entrada de linha de entrada molecular (SMILES) sendo o mais popular. SMILES é geralmente considerado a variante mais legível por humanos, com de longe o suporte de software mais amplo. Na prática, SMILES fornece um conjunto simples de representações que são adequadas como rótulos para dados químicos e como um identificador compacto de memória para troca de dados entre pesquisadores. Como um sistema baseado em texto, SMILES também é um ajuste natural para muitos algoritmos de aprendizado de máquina baseados em texto. Essas características tornaram o SMILES uma ferramenta perfeita para traduzir o conhecimento de química em uma forma amigável à máquina, e tem sido aplicado com sucesso para predição de propriedades de moléculas pequenas e planejamento de síntese auxiliado por computador.
Polímeros, Contudo, resistiram à descrição por esta e outras linguagens estruturais. Isso ocorre porque a maioria das linguagens estruturais, como SMILES, foram projetadas para descrever moléculas ou fragmentos químicos que são gráficos atomísticos bem definidos. Uma vez que os polímeros são moléculas estocásticas, eles não têm representações SMILES exclusivas. Essa falta de uma convenção de nomenclatura ou identificadora unificada para materiais poliméricos é um dos principais obstáculos que retardam o desenvolvimento do campo da informática de polímeros. Enquanto esforços pioneiros em informática de polímeros, como o Projeto Genoma Polímero, demonstraram a utilidade das extensões SMILES em informática de polímeros, o rápido desenvolvimento de uma nova química e o rápido desenvolvimento de informática de materiais e pesquisas baseadas em dados tornam importante a necessidade de uma convenção de nomenclatura universalmente aplicável para polímeros.
"O aprendizado de máquina apresenta uma enorme oportunidade para acelerar o desenvolvimento e a descoberta de produtos químicos, "diz Lin He, vice-diretor interino da Divisão de Química da National Science Foundation (NSF). "Esta ferramenta expandida para rotular estruturas, projetado especificamente para enfrentar os desafios únicos inerentes aos polímeros, aumenta muito a capacidade de pesquisa de dados estruturais químicos, e nos deixa um passo mais perto de aproveitar a revolução dos dados. "
Os pesquisadores criaram uma nova construção com base estrutural como um acréscimo à representação SMILES de grande sucesso que pode tratar a natureza aleatória dos materiais poliméricos. Uma vez que os polímeros são moléculas de alta massa molar, esta construção é denominada BigSMILES. Em BigSMILES, os fragmentos poliméricos são representados por uma lista de unidades repetidas entre colchetes. As estruturas químicas das unidades de repetição são codificadas usando a sintaxe SMILES normal, mas com descritores de ligação adicionais que especificam como diferentes unidades de repetição são conectadas para formar polímeros. Este design simples de sintaxe permitiria a codificação de macromoléculas em uma ampla gama de químicas diferentes, incluindo homopolímero, copolímeros aleatórios e copolímeros em bloco, e uma variedade de conectividade molecular, variando de polímeros lineares a polímeros em anel e até mesmo polímeros ramificados. Como em SMILES, As representações BigSMILES são compactas, strings de texto autocontidas.
"Padronizar a representação digital de estruturas poliméricas com BigSMILES irá encorajar o compartilhamento e agregação de dados de polímero, melhorando a qualidade do modelo ao longo do tempo e reforçando os benefícios de seu uso, "diz Jason Clark, o líder de materiais em Inovação Aberta para Materiais e Produtos Químicos Renováveis na Braskem, que não se associou à pesquisa. "BigSMILES é uma contribuição significativa para o campo, pois trata da necessidade de um sistema flexível para representar digitalmente estruturas poliméricas complexas."
Clark acrescenta, "Os desafios enfrentados pela indústria de plásticos no contexto da economia circular começam com a fonte de matérias-primas e continuam até o gerenciamento de fim de vida. Enfrentar esses desafios requer o design inovador de materiais à base de polímeros, que tradicionalmente sofre de longos ciclos de desenvolvimento. Os avanços na inteligência artificial e no aprendizado de máquina têm se mostrado promissores para acelerar o ciclo de desenvolvimento de aplicações que utilizam ligas metálicas e pequenas moléculas orgânicas, motivando a indústria de plásticos a buscar uma abordagem paralela. "As representações digitais BigSMILES facilitam a avaliação das relações estrutura-desempenho pela aplicação de métodos de ciência de dados, ele diz, em última análise, acelerando a convergência para as estruturas ou composições poliméricas que ajudarão a viabilizar a economia circular.
"Uma infinidade de estruturas poliméricas complicadas pode ser construída por meio da composição de três novos operadores básicos e símbolos SMILES originais, "diz Olsen, "Campos inteiros da química, Ciência de materiais, e engenharia, incluindo ciência de polímeros, biomateriais, química de materiais, e muito da bioquímica, são baseados em macromoléculas que possuem estruturas estocásticas. Isso pode ser basicamente pensado como uma nova linguagem de como escrever a estrutura de grandes moléculas. "
"Uma das coisas que me entusiasma é como a entrada de dados pode eventualmente ser ligada diretamente aos métodos sintéticos usados para fazer um determinado polímero, "diz Craig, "Por causa disso, há uma oportunidade de realmente capturar e processar mais informações sobre as moléculas do que normalmente está disponível nas caracterizações padrão. Se isso pode ser feito, vai permitir todos os tipos de descobertas. "
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.