A linguagem cristalina capacita a IA a projetar novos materiais com as propriedades desejadas

Figura 1. A analogia entre SMILES e SLICES. Crédito:Hang Xiao

Na última década, modelos generativos de aprendizagem profunda foram aplicados com sucesso ao projeto de novas moléculas de medicamentos, rotas de síntese orgânica e moléculas funcionais adaptadas para dispositivos eletrônicos/optoeletrônicos. Isto é amplamente possibilitado pela disponibilidade da representação SMILES para moléculas – uma representação invertível e invariante adequada para modelos de processamento de linguagem natural, como redes neurais recorrentes, transformadores, etc.

No entanto, projetar sólidos inorgânicos cristalinos com propriedades desejadas continua sendo um desafio formidável. Isto se deve principalmente à falta de uma representação de cristal "equivalente a SMILES" para unir materiais periódicos de estado sólido e arquiteturas de aprendizagem profunda de última geração.

Os métodos anteriores para projeto de cristal inverso dependiam principalmente de grades de voxel 3D ou coordenadas espaciais absolutas para representar estruturas. Mas essas abordagens carecem intrinsecamente de invariância rotacional. Existem também tentativas de utilização de gráficos cristalinos, que são invariantes, mas não invertíveis devido à ausência de periodicidade explícita ou informação de composição. Para enfrentar este desafio, propusemos uma nova representação de cristal chamada SLICES. O estudo foi publicado na revista Nature Communications .

A ideia central por trás do SLICES

A principal motivação por trás do desenvolvimento do SLICES é criar uma representação cristalina que seja invertível e invariante, análoga à representação SMILES amplamente usada para design inverso molecular (Figura 1). Invertibilidade significa que a representação pode ser convertida inequivocamente de volta à estrutura cristalina original. Isto é essencial para que os modelos generativos conduzam o design inverso, onde os modelos criam novas estruturas cristalinas que são decodificadas a partir da representação.

A invariância indica que a representação permanece inalterada sob translações, rotações e permutações da estrutura cristalina. A satisfação de invariâncias permite que a representação se concentre puramente na codificação das informações topológicas e composicionais essenciais de um sistema, em vez de características superficiais que mudam sob transformações. Isso reduz a redundância e melhora a eficiência do aprendizado.

Ao satisfazer a invertibilidade e as invariâncias, o SLICES permite a exploração eficiente do vasto espaço de compostos químicos para materiais cristalinos usando modelos generativos profundos.

Como o SLICES representa os cristais

Conceitualmente, o SLICES codifica a topologia e a composição das estruturas cristalinas em strings, da mesma forma que o SMILES converte gráficos moleculares em notações de linha. Mais especificamente, o SLICES aproveita o conceito matemático de “gráficos de quocientes rotulados” para representar estruturas cristalinas periódicas. Os átomos e ligações dentro de uma célula unitária são mapeados em nós e arestas do gráfico de quociente. Rótulos adicionais são atribuídos às arestas indicando os vetores de deslocamento periódico necessários para conectar átomos equivalentes em células unitárias vizinhas.

Um exemplo é a estrutura cristalina do diamante (Figura 1), que contém dois átomos de carbono ligados entre si na célula unitária primitiva. A string SLICES codifica explicitamente os símbolos atômicos "C" e o rótulo de borda "001" denotando a ligação periódica que se propaga ao longo da direção [001]. Ao analisar a string SLICES, tanto a composição quanto a conectividade da estrutura do diamante podem ser obtidas.

Notavelmente, o SLICES codifica apenas informações de topologia e composição. Atributos como coordenadas atômicas e parâmetros de rede não são explicitamente incorporados. Isso torna o SLICES invariável para translações, rotações e permutações de índice de átomos por design.

Figura 2. Reconstrução da estrutura cristalina do NdSiRu a partir de sua corda SLICES. Crédito:Hang Xiao

Reconstruindo estruturas cristalinas a partir de SLICES

Embora a codificação de cristais em SLICES seja relativamente simples, o desafio reside em garantir a invertibilidade – a capacidade de reconstruir com precisão estruturas cristalinas a partir das cadeias de SLICES. Para alcançar a invertibilidade, desenvolvemos um pipeline de reconstrução (Figura 2) para o SLICES que contém três etapas principais:

Gere uma estrutura inicial usando técnicas de teoria de grafos com base nas informações de topologia e conectividade analisadas a partir da string de entrada SLICES.
Otimize a estrutura inicial para ter uma geometria quimicamente razoável usando um potencial interatômico modificado.
Refine ainda mais a estrutura com um modelo de relaxamento de cristal universal baseado em rede neural gráfica.

O desempenho da reconstrução foi avaliado em um banco de dados contendo mais de 40.000 materiais conhecidos experimentalmente com até 20 átomos por célula unitária. O pipeline de reconstrução do SLICES foi capaz de reconstruir 94,95% das estruturas originais, superando substancialmente os métodos anteriores. Esta invertibilidade do SLICES permite a geração de novas estruturas a partir de representações aprendidas, o que é fundamental para o design inverso de materiais.

Figura 3. Projeto inverso de semicondutores diretos de intervalo estreito para aplicações optoeletrônicas. Crédito:Hang Xiao

Aplicação em design inverso de materiais funcionais

Como demonstração, aplicamos SLICES no projeto inverso de semicondutores diretos de banda estreita para dispositivos optoeletrônicos usando redes neurais recorrentes (RNN). O fluxo de trabalho consiste em (Figura 3):

Treinar um modelo RNN em estruturas cristalinas conhecidas para aprender a sintaxe SLICES subjacente e os recursos de composição/topologia que se correlacionam com as propriedades eletrônicas desejadas.
Usando o RNN treinado para gerar strings SLICES hipotéticas.
Reconstruindo as cordas SLICES em estruturas cristalinas.
Examinar as estruturas usando cálculos ab initio e modelos de IA para identificar candidatos que atendam aos critérios de projeto.

Através deste fluxo de trabalho combinando SLICES, RNN e cálculos de alto rendimento, foram descobertos 14 novos semicondutores com bandgaps diretos na faixa ideal (Figura 4). Isto mostra a promessa do SLICES como um facilitador para a descoberta acelerada de materiais funcionais usando IA generativa.

Figura 4. 14 novos semicondutores diretos de intervalo estreito. Crédito:Hang Xiao

Geração dirigida de novos materiais com energias de formação especificadas

Além disso, empregamos uma arquitetura de rede neural recorrente condicional (cRNN), conforme ilustrado na Figura 5, para gerar strings SLICES correspondentes a cristais com uma energia de formação desejada especificada pelo usuário. A distribuição das energias de formação das estruturas geradas se aproxima do valor alvo especificado em relação à distribuição do conjunto de dados. O cRNN baseado em SLICES supera significativamente os modelos de última geração anteriores. Esta abordagem marca um avanço significativo na capacidade de projetar e descobrir novos materiais de maneira controlada e precisa.

Figura 5. Modelo RNN condicional para geração controlada de cristais com energia de formação desejada. Crédito:Hang Xiao

Como a primeira representação de cristal invertível e invariante baseada em cordas, o SLICES abre muitas oportunidades interessantes no design inverso de sólidos cristalinos, assim como o SMILES fez para as moléculas na última década. Apenas nos últimos anos, testemunhamos enormes avanços em modelos generativos que vão desde imagens, vídeos, fala, até proteínas e moléculas. Prevemos que os materiais sólidos serão a próxima fronteira, graças a esta nova capacidade de exploração química integrada e com eficiência de dados, capacitada por representações como o SLICES.

Esta história faz parte do Science X Dialog, onde pesquisadores podem relatar descobertas de seus artigos de pesquisa publicados. Visite esta página para obter informações sobre o ScienceX Dialog e como participar.

Mais informações: Hang Xiao et al, Uma representação de cristal invertível e invariante para projeto inverso de materiais de estado sólido usando aprendizagem profunda generativa, Nature Communications (2023). DOI:10.1038/s41467-023-42870-7
Informações do diário: Comunicações da Natureza

Hang Xiao é afiliado à Escola de Estudos Interdisciplinares da Universidade de Lingnan; ele obteve seu doutorado pela Universidade de Columbia. Yan Chen é afiliado ao Laboratório de Mecânica Multiescala e Ciências Médicas, SV LAB, Escola Aeroespacial, Universidade Xi'an Jiaotong, onde também obteve seu doutorado.

Estudo apresenta novo caminho para controlar eletroquimicamente a seletividade de íons

Um novo método de bioimagem para acelerar e simplificar a identificação de produtos químicos em tecidos

Química