Crédito CC0:domínio público
A tenacidade é natural para um cara que vem da "capital mundial das mulas". Esse traço ficou em Columbia, Tennessee, Elliot Perryman nativo em boa posição como estagiário no Lawrence Berkeley National Laboratory (Berkeley Lab). Último outono, ele começou a trabalhar com o cientista Peter Zwart no Centro de Matemática Avançada para Aplicações de Pesquisa de Energia (CAMERA) por meio do programa de Pesquisa de Graduação do Laboratório de Berkeley.
O CAMERA visa identificar áreas da ciência experimental que podem ser auxiliadas por novos insights matemáticos aplicados. Esses pesquisadores interdisciplinares desenvolvem as ferramentas algorítmicas necessárias e as entregam como softwares de fácil utilização. Zwart colocou Perryman, um curso de ciência da computação e física na Universidade do Tennessee, em um projeto que ele comparou a "andar por um quarto escuro tentando encontrar um gato".
O esquivo felino, neste caso, era um problema matemático que atormentava a comunidade da cristalografia experimental há algum tempo:como modelar a presença de ruído nos dados de uma forma mais realista.
A cristalografia é uma ferramenta indispensável para determinar as estruturas atômicas das moléculas - o que, por sua vez, dá aos pesquisadores insights sobre seu comportamento e função. Quando um feixe de luz focalizado é direcionado a um purificado, amostra cristalina, a luz difrata dos átomos e um detector registra a luz difratada. Conforme a amostra é girada, imagens bidimensionais dos padrões de difração são capturadas em várias orientações. Algoritmos são então aplicados aos dados de difração para reconstruir um mapa tridimensional do arranjo dos átomos na amostra.
Quando você determina, ou resolver, uma estrutura de dados de difração, você precisa relacionar o modelo às suas observações, explicou Zwart, que faz parte da Divisão de Biofísica Molecular e Bioimagem Integrada do Berkeley Lab. As funções de destino usadas para fazer isso são chamadas de funções de máxima verossimilhança. Eles funcionam muito bem se seus dados são bons, ele observa, mas quando a quantidade de ruído nos dados aumenta - o que se torna o caso em resoluções mais altas - os métodos atuais não são capazes de fornecer a melhor resposta possível.
O motivo pelo qual as funções alvo ficam aquém em tais casos é que há uma etapa no cálculo, uma integração, isso não pode ser feito analiticamente, ou seja, com matemática de lápis e papel que fornece uma expressão que você pode transformar em código. As tentativas anteriores de lidar com este problema simplesmente ignoraram a etapa de integração, ou chegar a aproximações que só funcionam em cenários específicos de experimentos ou técnicas. Então Zwart e Perryman voltaram ao básico, tentar várias abordagens diferentes de aprendizado de máquina para derivar numericamente a aproximação mais exata possível da maneira mais eficiente.
Três quartos do estágio de 16 semanas de Perryman, os dois chegaram à conclusão de que a maioria dos caminhos que pareciam promissores no início eram, na verdade, becos sem saída. "Eu tentava coisas e demorava um pouco para descobrir se algo era um sucesso ou um fracasso porque, com um problema totalmente novo, você simplesmente não sabe, "disse Perryman. As coisas finalmente mudaram quando eles perceberam que uma suposição comum que as pessoas têm feito há 30 anos poderia ser melhorada.
Univ. Elliot Perryman (à direita), do Tennessee, trabalhou com o cientista da equipe de biociências Peter Zwart durante seu estágio no outono de 2019 em Berkeley Lab Undergraduate Research (BLUR). Crédito:Thor Swift / Berkeley Lab
A suposição tem a ver com a forma do ruído nos dados. A visão amplamente aceita é que os erros experimentais caem em uma distribuição normal clássica, como a curva do sino gaussiano, onde quase 100 por cento das observações caem dentro de 3,5 desvios padrão. Mas uma curva mais realista tem "caudas" mais grossas devido a eventos raros, mas previsíveis. "Incluir esses modelos de erro um pouco mais realistas nas funções de alvo cristalográfico nos permite modelar a presença do que normalmente pode ser chamado de outliers de uma forma mais realista, "Zwart disse.
Seu método, que publicaram no jornal Acta Crystallographica Seção D:Biologia Estrutural , é amplamente aplicável no campo da cristalografia experimental e permitirá aos pesquisadores fazer melhor uso dos dados de difração marginais ou de baixa qualidade. Esta pesquisa foi apoiada pelo National Institutes of Health e a CAMERA é financiada pelo Office of Science do Departamento de Energia dos EUA.
Um pesquisador de pós-doutorado no laboratório de Zwart está agora trabalhando para transformar a estrutura do conceito matemático em um aplicativo que pode eventualmente ser implementado no pacote de software Phenix. O diretor do MBIB, Paul Adams, lidera o desenvolvimento do Phenix, uma coleção de ferramentas para solução de estrutura automatizada que é amplamente utilizada pela comunidade de cristalografia.
"Elliot gastou muito tempo e energia em abordagens que no final das contas não deram certo, mas foram cruciais para o esforço total porque ele foi capaz de aprender muito sozinho e me educar ao mesmo tempo, "Zwart acrescentou. E a experiência que Perryman ganhou o ajudou a conseguir um estágio de acompanhamento trabalhando com Tess Smidt, um pós-doutorado na Divisão de Pesquisa Computacional, e, finalmente, uma posição de assistente de estudante trabalhando com o pós-doutorado da CAMERA Marcus Noack em tomada de decisão assistida por máquina para ciências experimentais.
O projeto em que Perryman e Noack têm trabalhado visa virar de cabeça para baixo os métodos tradicionais de amostragem automatizada de imagens. Eles propõem o uso de uma abordagem aleatória que é ordens de magnitude mais eficiente e fornecerá uma previsão de como a imagem poderia parecer em algum local, bem como uma indicação da incerteza dessa previsão. Perryman tem trabalhado em uma abordagem de otimização distribuída, denominado HGDL (Hybrid Global Deflated Local), para melhorar uma função de otimização crítica.
Existem muitos problemas computacionais desafiadores nas biociências que podem ser tratados com abordagens que já foram desenvolvidas por matemáticos aplicados, Zwart notou. "Certas ideias demoram mais para se infiltrar em outras áreas, "disse ele." É por isso que trabalhar no CAMERA é tão bom:os matemáticos têm uma visão diferente do mundo, um conjunto diferente de habilidades, e ler jornais diferentes. Mas eles não conhecem os campos experimentais como os biólogos estruturais. É importante reunir essas pessoas para que possamos identificar problemas dentro das biociências e encontrar soluções em matemática e computação. "
"Esse tem sido um dos grandes benefícios deste estágio, "disse Perryman." Comecei na física nuclear, então, eu estava familiarizado com os tipos de problemas nesse campo. Mas depois de trabalhar com Peter, ou trabalhando com Tess na primavera passada, ou Marcus, Eu percebo que existem muitos problemas análogos. Gostar, se voce tem o mesmo problema, Marcus iria enquadrá-lo em termos de algum tipo de coisa geofísica, e Tess diria que é um problema de geometria, mas provavelmente também é um problema de biologia. "
No fim, Perryman não foi detido por nenhum desses desafios teimosos:"Há tantos projetos interessantes, é difícil não ficar animado com eles. "