Uma ilustração artística de uma mistura de processos gaussianos e um feixe de luz ou partícula que o atravessa. A imagem alude ao funcionamento interno do algoritmo dentro do gpCAM, uma ferramenta de software desenvolvida por pesquisadores nas instalações CAMERA do Berkeley Lab para facilitar a descoberta científica autônoma. Crédito:Marcus Noack, Berkeley Lab
Instalações experimentais em todo o mundo estão enfrentando um desafio:seus instrumentos estão se tornando cada vez mais poderosos, levando a um aumento constante no volume e na complexidade dos dados científicos que coletam. Ao mesmo tempo, essas ferramentas exigem novos, algoritmos avançados para aproveitar essas capacidades e permitir que perguntas científicas cada vez mais complexas sejam feitas - e respondidas. Por exemplo, o projeto ALS-U para atualizar a instalação de fonte de luz avançada no Lawrence Berkeley National Laboratory (Berkeley Lab) resultará em uma luz de raio-X suave 100 vezes mais brilhante e terá detectores super rápidos que levarão a um grande aumento nas taxas de coleta de dados.
Para fazer uso completo de instrumentos e instalações modernas, os pesquisadores precisam de novas maneiras de diminuir a quantidade de dados necessários para a descoberta científica e abordar as taxas de aquisição de dados que os humanos não conseguem mais acompanhar. Uma rota promissora encontra-se em um campo emergente conhecido como descoberta autônoma, onde algoritmos aprendem com uma quantidade comparativamente pequena de dados de entrada e decidem por si mesmos sobre as próximas etapas a serem executadas, permitindo que espaços de parâmetros multidimensionais sejam explorados mais rapidamente, eficientemente, e com mínima intervenção humana.
"Mais e mais campos experimentais estão aproveitando esta nova aquisição de dados ideal e autônoma porque, quando se trata disso, trata-se sempre de aproximar alguma função, dados barulhentos, "disse Marcus Noack, um cientista pesquisador do Centro de Matemática Avançada para Aplicações de Pesquisa de Energia (CAMERA) em Berkeley Lab e autor principal em um novo artigo sobre processos gaussianos para aquisição autônoma de dados publicado em 28 de julho em Nature Reviews Physics . O artigo é o culminar de um período plurianual, esforço multinacional liderado pela CAMERA para introduzir técnicas inovadoras de descoberta autônoma em uma ampla comunidade científica.
Processos estocásticos assumem a liderança
Nos últimos anos, métodos de descoberta autônoma tornaram-se mais sofisticados, com processos estocásticos (por exemplo, Regressão de processo gaussiano [GPR]) emergindo como o método de escolha para orientar muitas classes de experimentos. O sucesso do GPR em experimentos de direção deve-se à sua natureza probabilística, o que nos permite tomar decisões com base na incerteza do modelo atual. É isso que está no cerne da gpCAM, uma ferramenta de software desenvolvida pela CAMERA.
"Em contraste com o aprendizado profundo, processos estocásticos podem ser usados para tomar decisões com base em conjuntos de dados relativamente pequenos, e fornecem estimativas de incerteza que podem otimizar o processo de aprendizagem, "Noack disse.
Embora os esforços iniciais de pesquisa da CAMERA tenham se concentrado principalmente em experimentos de linha de luz síncrotron, um número crescente de cientistas em outras disciplinas está vendo agora as vantagens de incorporar técnicas de descoberta autônoma em seus fluxos de trabalho de projeto experimental. Em abril, um workshop sobre descoberta autônoma em ciência e engenharia patrocinado pela CAMERA e presidido por Noack atraiu centenas de cientistas de todo o mundo, refletindo o crescente interesse neste campo emergente.
"Ainda estamos nos primeiros dias com isso, mas muito progresso foi feito no ano passado, "disse Martin Böhm, um cientista de instrumentos no grupo de espectroscopia do Institut Laue-Langevin em Grenoble, França, e co-autor do artigo da Nature Reviews Physics. "Para espectrometria, por exemplo, oferece uma nova maneira de fazer experimentos e permite que os instrumentos façam o trabalho, o que resulta em economia de tempo para os usuários. "Outras áreas de aplicação em potencial incluem física, matemática, química, biologia, Ciência de materiais, estudos ambientais, descoberta de drogas, Ciência da Computação, e engenharia elétrica.
Múltiplos usos emergentes
Por exemplo, John Thomas, um pesquisador de pós-doutorado na Fundição Molecular do Berkeley Lab, está usando microscopia de sonda de varredura foto-acoplada para entender as propriedades dos materiais de sistemas semicondutores de filme fino e tem trabalhado com o gpCAM para aprimorar esses esforços.
"Aplicativos em nanoescala que usam inteligência artificial e algoritmos de aprendizado de máquina, especificamente para digitalização de sistemas de sondagem, tenho interesse no grupo Weber-Bargioni [na Fundição] há algum tempo, "Thomas disse." Ficamos interessados em usar processos gaussianos para a descoberta autônoma no verão de 2020. "
O grupo concluiu recentemente um aplicativo que faz uso de gpCAM em uma interface Python-to-LabVIEW, Onde, com alguma entrada do usuário para inicialização, gpCAM aciona uma sonda atomicamente nítida através de um material bidimensional semicondutor para coleta de dados hiperespectral. As imagens obtidas representam uma convolução de informações eletrônicas e topográficas, e a espectroscopia de ponto extrai a estrutura eletrônica local.
"Condução autônoma de instrumentos de sonda de digitalização, sem a necessidade de operação humana constante, pode otimizar o desempenho da ferramenta para engenheiros e cientistas, continuando os experimentos fora do horário comercial ou fornecendo rotas para tarefas simultâneas dentro de um determinado fluxo de trabalho; isso é, a ferramenta pode ser configurada para uma execução autônoma enquanto o usuário pode fazer uso eficiente do tempo permitido, "Disse Thomas." Como resultado, agora podemos usar processos gaussianos para mapear e identificar regiões defeituosas em heteroestruturas 2D com resolução sub-Ångström. "
Aaron Michelson, um pesquisador graduado no grupo Oleg Gang da Universidade de Columbia, trabalhando na automontagem baseada em origami de DNA, está apenas começando a aplicar o gpCAM à sua pesquisa. Para um projeto, está ajudando ele e seus colegas a investigar a história do recozimento térmico de superredes de origami de DNA em nanoescala; noutro, está sendo usado para extrair grandes conjuntos de dados de experimentos de microscopia de raios-X 2D.
"A nanotecnologia de DNA na busca de material funcional de automontagem muitas vezes sofre de uma capacidade limitada de amostrar o grande espaço de parâmetros para a síntese, "disse ele." Ou isso requer um grande volume de dados a serem coletados ou uma solução mais eficiente para a experimentação. A descoberta autônoma pode ser incorporada diretamente na mineração de grandes conjuntos de dados e no direcionamento de novos experimentos. Isso permite que o pesquisador evite fazer mais amostras sem pensar e nos coloca no assento do motorista para tomar decisões. "
"O trabalho e a liderança de Noack reuniram uma ampla, comunidade interdisciplinar de co-design. Este tipo de construção de comunidade científica está no cerne do que a CAMERA tenta fazer, "disse o diretor da CAMERA, James Sethian, um co-autor no Nature Reviews Physics papel.