Os geocientistas usaram uma técnica comumente usada para reconhecimento de fala para detectar eventos que variam de deslizamentos de rochas alpinas a sinais de alerta vulcânicos que, de outra forma, passariam despercebidos. Crédito:USGS Hawaiian Volcano Observatory
Os cientistas que buscam entender o mecanismo interno da Terra implantaram exércitos de sensores que procuram sinais de escorregões, estrondos, exala e outros distúrbios que emanam das falhas mais profundas do planeta para seus vulcões mais altos. “Medimos o movimento do solo continuamente, normalmente coletando 100 amostras por segundo em centenas a milhares de instrumentos, "disse o geofísico de Stanford Gregory Beroza." É apenas um enorme fluxo de dados. "
No entanto, a capacidade dos cientistas de extrair significado dessas informações não acompanhou o ritmo.
A terra sólida, os oceanos e a atmosfera juntos formam um geossistema no qual físico, processos biológicos e químicos interagem em escalas que variam de milissegundos a bilhões de anos, e do tamanho de um único átomo ao de um planeta inteiro. "Todas essas coisas estão acopladas em algum nível, "explicou Beroza, o professor Wayne Loel na Escola da Terra, Energia e Ciências Ambientais (Stanford Earth). "Não entendemos os sistemas individuais, e não entendemos suas relações uns com os outros. "
Agora, como Beroza e os co-autores delinearam em um artigo publicado em 21 de março na revista Ciência , algoritmos de aprendizado de máquina treinados para explorar a estrutura de fluxos de dados geológicos em constante expansão, construir sobre as observações à medida que avançam e dar sentido a cada vez mais complexo, simulações extensas estão ajudando os cientistas a responder a perguntas persistentes sobre como a Terra funciona.
Da automação à descoberta
"Quando comecei a colaborar com geocientistas há cinco anos, havia interesse e curiosidade em torno do aprendizado de máquina e ciência de dados, "lembrou Karianne Bergen, autora principal do artigo e pesquisadora da Harvard Data Science Initiative, que obteve seu doutorado em engenharia computacional e matemática em Stanford. "Mas a comunidade de pesquisadores usando aprendizado de máquina para aplicações em geociências era relativamente pequena."
Isso está mudando rapidamente. Os aplicativos mais simples de aprendizado de máquina em ciências da Terra automatizam tarefas repetitivas, como categorizar partículas de cinza vulcânica e identificar o pico em um conjunto de movimentos sísmicos que indicam o início de um terremoto. Esse tipo de aprendizado de máquina é semelhante a aplicativos em outras áreas que podem treinar um algoritmo para detectar câncer em imagens médicas com base em um conjunto de exemplos rotulados por um médico. Algoritmos mais avançados que desbloqueiam novas descobertas nas ciências da Terra e além podem começar a reconhecer padrões sem trabalhar a partir de exemplos conhecidos.
"Suponha que desenvolvamos um detector de terremotos com base em terremotos conhecidos. Ele encontrará terremotos que se parecem com terremotos conhecidos, "Beroza explicou." Seria muito mais emocionante encontrar terremotos que não se parecessem com terremotos conhecidos. "Beroza e seus colegas em Stanford conseguiram fazer exatamente isso usando um algoritmo que sinaliza qualquer assinatura repetida nos conjuntos de wiggles captado por sismógrafos - os instrumentos que registram tremores de terremotos - em vez de caçar apenas os padrões criados por terremotos que os cientistas catalogaram anteriormente.
O geofísico Gregory Beroza está entre um número crescente de cientistas que estão treinando algoritmos de aprendizado de máquina para dar sentido às simulações cada vez mais complexas dos geossistemas da Terra. Crédito:Stacy Geiken
Ambos os tipos de algoritmos - aqueles com rotulagem explícita nos dados de treinamento e aqueles sem - podem ser estruturados como redes neurais profundas, que atuam como um sistema de várias camadas em que os resultados de alguma transformação de dados em uma camada servem como entrada para um novo cálculo na próxima camada. Entre outros esforços observados no jornal, esses tipos de redes permitiram aos geocientistas calcular rapidamente a velocidade das ondas sísmicas - um cálculo crítico para estimar os tempos de chegada dos terremotos - e distinguir entre tremores causados pelo movimento natural da Terra em oposição a explosões.
Uma mímica imperfeita
Além de detectar padrões esquecidos, o aprendizado de máquina também pode ajudar a domar conjuntos de dados esmagadores. Modelar como um terremoto afeta a parte viscosa da camada no interior da Terra que se estende por centenas de quilômetros abaixo da crosta mais externa do planeta, por exemplo, requer uma quantidade insuperavelmente grande de capacidade de computação. Mas algoritmos de aprendizado de máquina podem encontrar atalhos, essencialmente imitando soluções para equações mais detalhadas com menos computação.
"Podemos obter uma boa aproximação da realidade, que poderemos aplicar a conjuntos de dados tão grandes ou simulações tão extensas que os computadores mais poderosos disponíveis não seriam capazes de processá-los, "Disse Beroza.
O que mais, quaisquer deficiências na precisão das soluções baseadas em inteligência artificial para essas equações muitas vezes perdem a importância em comparação com a influência das próprias decisões dos cientistas sobre como configurar os cálculos em primeiro lugar. "Nossa maior fonte de erro não vem de nossa incapacidade de resolver as equações, "Beroza disse." Vem de saber como é realmente a estrutura interior da Terra e os parâmetros que devem entrar nessas equações. "
Ciência aberta
Para ter certeza, o aprendizado de máquina está longe de ser uma ferramenta perfeita para responder às perguntas mais espinhosas das ciências da Terra. "Os algoritmos de aprendizado de máquina mais poderosos normalmente requerem grandes conjuntos de dados rotulados, que não estão disponíveis para muitos aplicativos de geociências, "Disse Bergen. Se os cientistas treinarem um algoritmo com dados insuficientes ou indevidamente rotulados, ela avisou, pode fazer com que os modelos reproduzam preconceitos que não necessariamente refletem a realidade.
Este tipo de erro pode ser combatido em parte por meio de maior transparência e criação de conjuntos de dados "benchmark", que os pesquisadores argumentam que pode estimular a competição e permitir comparações de desempenho do algoritmo. De acordo com Bergen, "Adoção de princípios de ciência aberta, incluindo compartilhamento de dados e código, ajudará a acelerar a pesquisa e também permitirá que a comunidade identifique e resolva as limitações ou fraquezas das abordagens propostas. "
A impaciência humana pode ser mais difícil de controlar. "O que me preocupa é que as pessoas vão usar IA ingenuamente, "Beroza disse." Você poderia imaginar alguém treinando um multi-camadas, rede neural profunda para fazer a previsão de terremotos - e, em seguida, não testar o método de uma forma que valide corretamente seu valor preditivo. "