Superfície Nsp10 / 16 com ligantes. Os pesquisadores desenvolveram um pipeline para conectar supercomputadores ALCF a experimentos APS para permitir a análise em tempo real das proteínas COVID-19, pavimentando o caminho para elucidar a dinâmica estrutural de proteínas importantes do coronavírus. Crédito:Mateusz Wilamowski, Universidade de Chicago, Centro de Genômica Estrutural de Doenças Infecciosas; George Minasov, Northwestern University, Centro de Genômica Estrutural de Doenças Infecciosas
Os pesquisadores da Argonne desenvolveram um pipeline entre os supercomputadores ALCF e os experimentos da Advanced Photon Source para permitir a análise sob demanda da estrutura cristalina das proteínas COVID-19.
Como o coronavírus SARS-CoV-2 e sua doença associada, COVID-19, desenvolvido e espalhado por todo o país e planeta, o Laboratório Nacional de Argonne do Departamento de Energia dos EUA (DOE) juntou-se à luta global começando a trabalhar para entender e tratar melhor a pandemia. Várias dessas linhas de pesquisa foram lançadas no Argonne Leadership Computing Facility, um DOE Office of Science User Facility, aproveitar seus consideráveis recursos científicos; uma dessas linhas analisou a estrutura cristalina de um complexo proteico associado ao coronavírus.
A chave para entender o coronavírus é desvendar sua estrutura. Para este fim, Os pesquisadores da Argonne utilizaram o supercomputador Theta do ALCF para analisar imagens cristalográficas de um complexo de proteínas associado ao SARS-CoV-2. As imagens vêm da Advanced Photon Source (APS) de Argonne, um DOE Office of Science User Facility, seguindo experimentos utilizando uma técnica conhecida como cristalografia síncrotron serial que é projetada para elucidar a química complexa das proteínas virais.
Os experimentos de cristalografia síncrotron serial empregam raios X de alta intensidade para revelar as estruturas de grandes moléculas usando apenas doses fracionárias de radiação em comparação com os requisitos das técnicas cristalográficas tradicionais. Como resultado, a cristalografia síncrotron serial permite aos pesquisadores obter imagens de dezenas de milhares de cristais microscópicos, com comprimentos de exposição muito curtos para cada amostra individual. A alta velocidade da técnica leva à geração de uma vasta gama de dados, cuja complexidade e densidade requerem análises sofisticadas e exigentes do ponto de vista computacional.
Sistemas maciçamente paralelos como Theta são únicos em sua capacidade de atender às demandas que a cristalografia síncrotron serial apresenta para rápida, processamento em tempo real. A habilitação do Theta para uso no processamento em tempo real é um pipeline de dados construído em torno do supercomputador. Este pipeline automatiza a aquisição de dados, análise, curadoria, e visualização, transportar resultados para um repositório do qual os metadados podem ser extraídos para publicação.
O pipeline gera grandes lotes de imagens em alta taxa, com transferências de dados atingindo velocidades de 700 megabytes por segundo graças ao Globus, um serviço de gerenciamento de dados administrado pela Universidade de Chicago.
"A implantação deste pipeline entre o APS e o ALCF para análise sob demanda foi um tremendo sucesso, "disse Ryan Chard, um cientista da computação em Argonne liderando os esforços de processamento de imagens. "Alcançamos uma taxa de processamento de até 95 imagens por segundo." Essa alta velocidade tornou possível fornecer feedback instantâneo aos experimentalistas da APS.
O pipeline começa com o Globus transferindo imagens do APS para o sistema Theta. As imagens são então analisadas e processadas usando FuncX, um sistema de computação função como serviço que organiza o envio de tarefas individuais para os nós de computação disponíveis. Posteriormente, FuncX também é usado para extrair metadados sobre acessos, identificar difrações de cristal, e gerar visualizações que descrevem os locais de amostra e de acerto. Depois disso, os dados brutos, metadados, e as visualizações relacionadas são publicadas em um portal hospedado no ALCF, onde são indexados e pesquisáveis para reutilização.
Dezenove amostras foram analisadas em quase 1, 500 fluxos ao longo de três corridas de dez horas no feixe APS, durante o qual mais de 700, 000 imagens foram processadas no Theta. Os dados resultantes foram publicados no portal de dados e usados para refinar ainda mais o trabalho experimental e as configurações. A orquestração necessária para facilitar a pesquisa nesta escala é habilitada por serviços de automação de dados de pesquisa atualmente em desenvolvimento na plataforma Globus, e sustentado pela transferência confiável de arquivos, e recursos de compartilhamento seguro de dados que já são amplamente usados em linhas de luz APS. Essas capacidades continuarão a melhorar com melhorias futuras planejadas para linhas de luz APS, Supercomputadores ALCF, Globus, e a rede APS-para-ALCF. A próxima atualização APS, que permitirá que os pesquisadores vejam coisas em uma escala que nunca viram antes com raios-X baseados em anéis de armazenamento, aumentará as taxas de dados em ordens de magnitude. Combinar esses recursos do ALCF e do APS Upgrade aumentará muito a descoberta científica.
"A crescente relevância biológica dos experimentos de cristalografia síncrotron em série fez com que os pesquisadores preparassem uma série de outros experimentos nas próximas semanas, "disse Darren Sherrell, um biofísico e cientista de linha de luz da Divisão de Ciência de Raios-X da APS. "Este trabalho abre caminho para elucidar a dinâmica estrutural de proteínas importantes do coronavírus."