Pesquisadores do PNNL usaram 500, 000 aglomerados de água de um banco de dados recentemente desenvolvido com mais de 5 milhões de mínimos de aglomerados de água para treinar uma rede neural baseada no poder matemático da teoria dos gráficos - uma coleção de nós e links que representam a estrutura molecular - para decifrar padrões estruturais da agregação de moléculas de água. Crédito:Nathan Johnson | PNNL
Algoritmos de aprendizado de máquina, a base das redes neurais, estão abrindo portas para novas descobertas - ou pelo menos oferecendo pistas tentadoras - um enorme banco de dados por vez. Caso em questão:os pesquisadores do Pacific Northwest National Laboratory (PNNL) investigaram profundamente a modelagem das interações entre as moléculas de água, encontrar informações sobre ligações de hidrogênio e padrões estruturais ao abrir um caminho usando - você adivinhou - aprendizado profundo.
"As redes neurais são uma forma de o computador aprender automaticamente diferentes propriedades de sistemas ou dados, "disse o cientista de dados PNNL, Jenna Pope. "Nesse caso, a rede neural aprende a energia de diferentes redes de aglomerados de água com base em dados anteriores. "
Pesquisadores do PNNL usaram 500, 000 aglomerados de água de um banco de dados recentemente desenvolvido com mais de 5 milhões de mínimos de aglomerados de água para treinar uma rede neural baseada no poder matemático da teoria dos gráficos - uma coleção de nós e links que representam a estrutura molecular - para decifrar padrões estruturais da agregação de moléculas de água. Trabalhando com o molecular, forma gasosa de água, eles prestaram atenção especial à relação entre ligações de hidrogênio e energia em relação à estrutura mais estável.
"Esse é o Santo Graal, "disse Pope." Agora mesmo, é preciso muito esforço para desenvolver um potencial de interação preciso para a água. Mas com redes neurais, o objetivo final é fazer com que as redes aprendam, de um grande conjunto de dados, qual é a energia de uma rede baseada em sua estrutura molecular subjacente. "
Depois de dimensionar 500, 000 aglomerados de água, a rede neural no estudo conduzido pelo PNNL foi treinada nas várias maneiras como as moléculas de água interagem umas com as outras. O conjunto de dados teoricamente poderia incluir todo o banco de dados de 5 milhões de redes de água. Mas, por razões práticas, isso não aconteceu.
"Usar todo o banco de dados para treinar a rede neural levaria muito tempo computacional, "disse Pope. Treinando as redes neurais profundas para examinar essas 500, 000 clusters de água - apenas um décimo de todo o banco de dados - levaram mais de dois dias e meio usando quatro computadores de última geração com desempenho de unidade de processamento gráfico (GPU) considerável, trabalhando ininterruptamente.
Parte de uma imagem maior
As redes neurais existem há décadas. Maior poder de processamento dos chips GPU nos últimos 10 anos, Contudo, avançou drasticamente a capacidade dessas redes, também associado à frase "aprendizado profundo". Mesmo com tal promessa, treinar redes neurais é um desafio computacional caro. E por mais precisos que sejam, as redes neurais são freqüentemente criticadas como caixas pretas que não oferecem nenhuma informação sobre por que estão dando a resposta que dão.
O Exascale Computing Project (ECP) do Departamento de Energia dos EUA (DOE) foi lançado em 2016 para explorar os problemas de supercomputação mais intratáveis, incluindo o refinamento das redes neurais. Em 2018, ECP gerou o ExaLearn Co-Design Center, com foco em tecnologias de aprendizado de máquina. O PNNL está entre os oito laboratórios nacionais que participam do projeto ExaLearn. James Ang, Cientista-chefe do PNNL para computação em Ciências Físicas e Computacionais, lidera a participação do Laboratório.
Banco de dados perto de casa
Um dos principais objetivos do ExaLearn é desenvolver tecnologias de inteligência artificial que possam projetar novas estruturas químicas, aprendendo com conjuntos de dados massivos. Pesquisa liderada por Sutanay Choudhury, um cientista da computação PNNL, aproveitado no enorme banco de dados de clusters de água desenvolvido no campus PNNL-Richland por Sotiris Xantheas, um bolsista do Laboratório PNNL. Xantheas, conhecido na física química por sua pesquisa em interações intermoleculares em aglomerados iônicos aquosos, é co-autor do estudo sobre redes neurais publicado na edição especial "Machine Learning Meets Chemical Physics" da Journal of Chemical Physics .
"Várias propriedades macroscópicas da água foram atribuídas à sua rede fugaz de ligações de hidrogênio, que consiste em uma rede dinâmica de ligações que se quebram e se reformam em uma fração de segundo em temperatura ambiente, "disse Xantheas, cujo trabalho de banco de dados foi apoiado pelo Office of Science do DOE, Programa de Ciências Básicas de Energia, Ciências Químicas, Geociências, e Divisão de Biociências. "Aglomerados de água fornecem um ambiente de teste para sondar essa rede de ligações de hidrogênio fugaz ao compreender a relação estrutura-energia dos diferentes arranjos de ligações de hidrogênio."
Os pesquisadores do PNNL tinham uma estratégia para decifrar essa caixa preta específica. Eles usaram a teoria dos grafos - um ramo da matemática que estuda como as coisas estão conectadas em uma rede - para representar, em forma gráfica, moléculas e suas subestruturas poligonais. Os descritores teóricos gráficos que a equipe desenvolveu forneceram vários insights sobre a composição dos aglomerados de água.
"O que fizemos, "disse o Papa, "é fornecer uma análise adicional após a rede ser treinada. A análise quantifica diferentes propriedades estruturais dessas redes de cluster de água. Então, podemos compará-las com nossa rede neural prevista e, em exames de conjunto de dados subsequentes, melhorar a compreensão da rede. "
A água tem uma rede neural futura
Os resultados do estudo fornecem uma base para a análise dos padrões estruturais dos aglomerados de água em redes mais complexas com ligações de hidrogênio, como água líquida e gelo.
"Se você pudesse treinar uma rede neural, "disse o Papa, "essa rede neural seria capaz de fazer química computacional em sistemas maiores. E então você poderia fazer descobertas semelhantes na química computacional sobre a estrutura química ou ligações de hidrogênio ou a resposta das moléculas às mudanças de temperatura. Esses estão entre os objetivos desta pesquisa."