Crédito:Greg Stewart / SLAC National Accelerator Laboratory
Quando as atualizações para o laser de raios-X no Laboratório Nacional do Acelerador SLAC do Departamento de Energia estiverem concluídas, a nova máquina poderosa irá capturar até 1 terabyte de dados por segundo; que é uma taxa de dados equivalente a streaming de cerca de mil filmes completos em apenas um único segundo, e analisando cada quadro de cada filme conforme eles passam neste modo de avanço super rápido.
Os especialistas em dados do laboratório estão encontrando maneiras de lidar com essa enorme quantidade de informações à medida que as atualizações do Linac Coherent Light Source (LCLS) entrarem em operação nos próximos anos.
O LCLS acelera os elétrons até quase a velocidade da luz para gerar feixes de raios-X extremamente brilhantes. Esses raios X sondam uma amostra, como uma proteína ou um material quântico, e um detector captura uma série de imagens que revelam o movimento atômico da amostra em tempo real. Ao unir essas imagens, químicos, biólogos, e os cientistas de materiais podem criar filmes moleculares de eventos como a forma como as plantas absorvem a luz solar, ou como nossos medicamentos ajudam a combater doenças.
Conforme o LCLS é atualizado, os cientistas estão passando de 120 pulsos por segundo para até 1 milhão de pulsos por segundo. Isso criará um 10, Feixe de raios-X 000 vezes mais brilhante que permitirá novos estudos de sistemas que não podiam ser estudados antes. Mas também virá com um enorme desafio de dados:o laser de raios X produzirá centenas a milhares de vezes mais dados por determinado período de tempo do que antes.
Para lidar com esses dados, um grupo de cientistas liderado pelo Diretor da Divisão de Sistemas de Dados LCLS, Jana Thayer, está desenvolvendo novas ferramentas computacionais, incluindo algoritmos de computador e maneiras de se conectar a supercomputadores. O grupo de Thayer usa uma combinação de computação, análise de dados e aprendizado de máquina para determinar os padrões em imagens de raios-X e, em seguida, encadear um filme molecular.
Indo no embalo
Na LCLS, os dados fluem continuamente. "Quando os cientistas têm acesso para realizar um experimento, é um dia de 12 horas ou uma noite de 12 horas, e limitado a apenas alguns turnos antes da chegada da próxima equipe, "diz Ryan Coffee, Cientista sênior da equipe do SLAC. Para fazer uso eficiente do valioso tempo experimental, gargalos devem ser totalmente evitados para preservar o fluxo de dados e sua análise.
O streaming e o armazenamento dos dados representam um desafio significativo para os recursos de rede e computação, e ser capaz de monitorar a qualidade dos dados quase em tempo real significa que os dados precisam ser processados imediatamente. Uma etapa vital para tornar isso possível é reduzir a quantidade de dados tanto quanto possível antes de armazená-los para análise posterior.
Para habilitar isso, A equipe de Thayer implementou a redução de dados em tempo real usando vários tipos de compactação para reduzir o tamanho dos dados registrados sem afetar a qualidade do resultado científico. Uma forma de compressão, chamado veto, joga fora dados indesejados, como fotos em que os raios X erraram o alvo. Outro, chamado extração de recurso, salva apenas as informações que são cientificamente importantes, como a localização e o brilho de um ponto em uma imagem de raio-X.
"Se salvássemos todos os dados brutos, como temos feito até agora, isso nos custaria um quarto de bilhão de dólares por ano, "Thayer diz." Nossa missão é descobrir como reduzir os dados antes de escrevê-los. Um dos realmente legais, partes inovadoras do novo sistema de dados que desenvolvemos é o pipeline de redução de dados, que remove informações irrelevantes e reduz os dados que precisam ser transferidos e armazenados. "
O café diz, "Então você economiza muito em energia, mas mais importante, você economiza na taxa de transferência. Se você tiver que enviar os dados brutos pela rede, você vai sobrecarregá-lo completamente tentando enviar imagens a cada microssegundo. "
O grupo também criou um local intermediário para colocar os dados antes de irem para o armazenamento. Thayer explica, "Não podemos gravar diretamente no armazenamento, porque se houver uma falha no sistema, tem que fazer uma pausa e esperar. Ou se houver um problema de rede, então você pode perder dados completamente. Então, temos um buffer pequeno, mas confiável, no qual podemos escrever; então podemos mover os dados para o armazenamento permanente. "
Impulsionando a inovação
Thayer enfatiza que o sistema de dados é construído para fornecer aos pesquisadores os resultados de seus trabalhos tão prontamente quanto o sistema atual, para que eles obtenham informações em tempo real. Também é construído para acomodar a expansão da ciência LCLS pelos próximos 10 anos. O grande desafio é acompanhar o enorme salto na taxa de dados.
"Se você imaginar passar da análise de 120 fotos por segundo para 1 milhão por segundo, requer muito mais rolagem, "Ela diz." Computação não é mágica - ela ainda funciona da mesma maneira - nós apenas aumentamos o número de cérebros trabalhando em cada uma das imagens. "
Apoiado por um prêmio recente do DOE, e trabalhar com colegas de todo o complexo de laboratórios nacionais do DOE, a equipe também está procurando incorporar inteligência artificial e técnicas de aprendizado de máquina para reduzir ainda mais a quantidade de dados a serem processados, e sinalizar recursos interessantes nos dados conforme eles surgem.
Para entender o desafio dos dados LCLS, Coffee faz uma analogia com os carros autônomos:"Eles devem calcular em tempo real:eles não podem analisar um lote de imagens recém-gravadas e então dizer" Prevemos que você deveria ter virado à esquerda na imagem número 10. "A taxa de dados do SLAC é muito mais alto do que qualquer um desses carros experimentará, mas o problema é o mesmo - os pesquisadores precisam conduzir seu experimento para encontrar os destinos mais interessantes! "
As atualizações que impulsionam esse salto enorme na taxa de dados e no desempenho virão em duas fases nos próximos anos, incluindo LCLS-II e uma atualização de alta energia que se segue. O trabalho dos especialistas em dados garantirá que os cientistas possam tirar o máximo proveito de ambos. "Em última análise, terá um efeito dramático no tipo de ciência que podemos fazer, abrindo oportunidades que não são possíveis hoje, "Café diz.