Cientistas demonstram ferramenta de aprendizado de máquina para processar dados solares complexos com eficiência
Crédito:Southwest Research Institute
Big data tornou-se um grande desafio para cientistas espaciais que analisam vastos conjuntos de dados de instrumentação espacial cada vez mais poderosa. Para resolver isso, uma equipe do Southwest Research Institute desenvolveu uma ferramenta de aprendizado de máquina para rotular com eficiência conjuntos de dados grandes e complexos para permitir que modelos de aprendizado profundo analisem e identifiquem eventos solares potencialmente perigosos. A nova ferramenta de rotulagem pode ser aplicada ou adaptada para enfrentar outros desafios envolvendo vastos conjuntos de dados.
À medida que os pacotes de instrumentos espaciais coletam dados cada vez mais complexos em volumes cada vez maiores, está se tornando mais desafiador para os cientistas processar e analisar tendências relevantes. O aprendizado de máquina (ML) está se tornando uma ferramenta crítica para processar grandes conjuntos de dados complexos, onde os algoritmos aprendem com os dados existentes para tomar decisões ou previsões que podem fatorar mais informações simultaneamente do que os humanos. No entanto, para tirar proveito das técnicas de ML, os humanos precisam rotular todos os dados primeiro – geralmente um esforço monumental.
"Rotular dados com anotações significativas é uma etapa crucial do ML supervisionado. No entanto, rotular conjuntos de dados é tedioso e demorado", disse o Dr. Subhamoy Chatterjee, pesquisador de pós-doutorado no SwRI especializado em astronomia solar e instrumentação e principal autor de um artigo sobre esses descobertas publicadas na revista
Nature Astronomy . “Novas pesquisas mostram como as redes neurais convolucionais (CNNs), treinadas em vídeos astronômicos grosseiramente rotulados, podem ser aproveitadas para melhorar a qualidade e a amplitude da rotulagem de dados e reduzir a necessidade de intervenção humana”.
As técnicas de aprendizado profundo podem automatizar o processamento e interpretar grandes quantidades de dados complexos extraindo e aprendendo padrões complexos. A equipe do SwRI usou vídeos do campo magnético solar para identificar áreas onde campos magnéticos fortes e complexos surgem na superfície solar, que são os principais precursores de eventos climáticos espaciais.
"Treinamos CNNs usando rótulos brutos, verificando manualmente apenas nossos desacordos com a máquina", disse o coautor Dr. Andrés Muñoz-Jaramillo, físico solar SwRI com experiência em aprendizado de máquina. "Em seguida, treinamos novamente o algoritmo com os dados corrigidos e repetimos esse processo até que todos concordassem. Embora a rotulagem de emergência de fluxo seja normalmente feita manualmente, essa interação iterativa entre o algoritmo humano e de ML reduz a verificação manual em 50%".
Abordagens de rotulagem iterativas, como aprendizado ativo, podem economizar tempo significativamente, reduzindo o custo de preparar o ML de big data. Além disso, mascarando gradualmente os vídeos e procurando o momento em que o algoritmo de ML muda sua classificação, os cientistas do SwRI aproveitaram ainda mais o algoritmo de ML treinado para fornecer um banco de dados ainda mais rico e útil.
"Criamos uma abordagem de aprendizado profundo de ponta a ponta para classificar vídeos de evolução de patches magnéticos sem fornecer explicitamente imagens segmentadas, algoritmos de rastreamento ou outros recursos artesanais", disse o Dr. campos magnéticos na superfície do Sol. "Esse banco de dados será fundamental no desenvolvimento de novas metodologias para prever o surgimento de regiões complexas propícias a eventos climáticos espaciais, aumentando potencialmente o tempo de preparação para o clima espacial".
+ Explorar mais O aprendizado de máquina reduz radicalmente a carga de trabalho de contagem de células para diagnóstico de doenças