Nuvens vêm em todas as formas e tamanhos, e agora um modelo de aprendizado profundo pode ajudar a detectar os detalhes mais sutis nos dados da nuvem. Crédito:Adriel Kloppenburg em Unsplash
Crianças deitadas de costas em um campo gramado podem escanear as nuvens em busca de imagens - talvez um coelho fofo aqui e um dragão de fogo ali. Muitas vezes, os cientistas atmosféricos fazem o oposto - eles procuram imagens de dados para as nuvens como parte de sua pesquisa para entender os sistemas terrestres.
Rotular manualmente imagens de dados pixel por pixel é demorado, então os pesquisadores contam com técnicas de processamento automático, como algoritmos de detecção de nuvem. Mas a saída dos algoritmos não é tão exata quanto os cientistas desejam.
Recentemente, pesquisadores do Laboratório Nacional do Noroeste do Pacífico do Departamento de Energia se uniram para descobrir se o aprendizado profundo - um subconjunto distinto do aprendizado de máquina - pode fazer um trabalho melhor na identificação de nuvens em dados lidar do que os atuais algoritmos baseados na física. A resposta:um claro "sim". O novo modelo está muito mais próximo das respostas a que os cientistas chegam, mas em apenas uma fração do tempo.
Lidar é um instrumento de sensoriamento remoto que emite um laser pulsado e coleta o sinal de retorno espalhado por gotículas de nuvem ou aerossóis. Este sinal de retorno fornece informações sobre a altura e estrutura vertical dos recursos atmosféricos, como nuvens ou camadas de fumaça. Esses dados de lidars baseados em terra são uma parte importante da previsão global.
A cientista da Terra Donna Flynn percebeu que, em alguns casos, o que os algoritmos detectaram como nuvens nas imagens lidar não combinavam bem com o que seu olho de especialista viu. Os algoritmos tendem a superestimar os limites da nuvem.
"O algoritmo atual identifica as nuvens usando pinceladas largas, "diz Flynn, um co-investigador principal do projeto. "Precisamos determinar com mais precisão o topo e a base verdadeiros da nuvem e distinguir várias camadas de nuvem."
Upgrade iniciado
Até recentemente, o poder de computação das redes neurais artificiais limitadas, um tipo de modelo de aprendizado profundo, a um pequeno número de camadas computacionais. Agora, com maior poder de computação disponível por meio de clusters de supercomputação, os pesquisadores podem usar mais cálculos - cada construção do último - em uma série de camadas. Quanto mais camadas uma rede neural artificial tiver, mais poderosa é a rede de aprendizagem profunda.
Descobrir o que são esses cálculos faz parte do treinamento do modelo. Para iniciar, os pesquisadores precisam de imagens de dados lidar devidamente rotuladas, ou dados "verdadeiros", para o treinamento e teste do modelo. Então, Flynn passou muitas horas rotulando as imagens à mão, pixel por pixel:nuvem ou nenhuma nuvem. Seu olho pode distinguir os limites da nuvem e nuvem versus uma camada de aerossol. Ela levou 40 horas - o equivalente a uma semana inteira de trabalho - para rotular cerca de 100 dias de dados lidar coletados no observatório atmosférico Southern Great Plains, parte das instalações do usuário de Medição de Radiação Atmosférica do DOE, em Oklahoma.
Dada a quantidade de tempo e mão de obra intensiva do processo de etiquetagem manual, O cientista computacional do PNNL e co-investigador principal Erol Cromwell usou métodos de aprendizagem que exigiam dados mínimos de verdade do solo.
O modelo aprende por meio de auto-feedback. Ele compara seu próprio desempenho com os resultados rotulados à mão e ajusta seus cálculos de acordo, explica Cromwell. Ele percorre essas etapas, melhorando a cada vez.
Cromwell apresentará as descobertas da equipe na Conferência de Inverno do Instituto de Engenheiros Elétricos e Eletrônicos sobre Aplicações de Visão Computacional em janeiro.
Objetivo alcançado
Com o treinamento, o modelo de aprendizado profundo supera os algoritmos atuais. A precisão do modelo é quase o dobro e muito mais próxima do que um especialista humano encontraria - mas em uma fração do tempo.
Os próximos passos são avaliar o desempenho do modelo em dados lidar coletados em diferentes locais e em diferentes épocas do ano. Os testes iniciais com dados do observatório ARM em Oliktok Point, no Alasca, são promissores.
"Uma vantagem do modelo de aprendizado profundo é a aprendizagem de transferência, "diz Cromwell." Podemos treinar ainda mais o modelo com dados de Oliktok para tornar seu desempenho mais robusto. "
"Reduzir as fontes de incerteza nas previsões do modelo global é especialmente importante para a comunidade científica atmosférica, "diz Flynn." Com sua precisão aprimorada, o aprendizado profundo aumenta nossa confiança. "
Ela acrescenta:"Além disso, isso nos dá mais tempo para ficar do lado de fora olhando as nuvens de verdade! "