p Pesquisadores do ISI e USC Dornsife criam uma nova plataforma para padronizar dados de paleoclimatologia. Crédito:Cassidy Joyes CC-BY-SA-4.0
p Às vezes, as coisas menos relacionadas podem produzir os resultados mais inovadores. Leva, por exemplo, aikido - uma arte marcial japonesa que pode ser traduzida como o "caminho de unificar energia" - e paleoclimatologia, um campo científico que examina a evolução do clima. p Julien Emile-Geay, professor associado do Departamento de Ciências da Terra da USC Dornsife College of Letters, Artes e Ciências, Tive uma experiência direta disso em 2011, ao se hospedar com um amigo em um acampamento de aikido em San Francisco. Seu amigo estava desenvolvendo bancos de dados semânticos para dados biomédicos e Emile-Geay descobriu que essa abordagem também poderia funcionar para os dados extremamente idiossincráticos coletados por paleoclimatologistas.
p Depois de um encontro fortuito em 2012 com Yolanda Gil, diretor de Tecnologias do Conhecimento do Instituto de Ciências da Informação da USC (ISI) e professor pesquisador do Departamento de Ciência da Computação da USC Viterbi, os pesquisadores criaram uma proposta para integrar a experiência em IA de Gil com a formação em ciências da Terra de Emile-Geay, desenvolver uma nova plataforma que dá aos paleoclimatologistas uma maneira de unificar os conjuntos de dados díspares de dados de paleoclima, estilo de aikido.
p Junto com Emile-Geay, o grupo de paleoclimatologia inclui Deborah Khider, um pós-doutorado no Departamento de Ciências da Terra da USC e cientista de dados ISI, e Nicholas McKay, professor associado da Escola de Ciências da Terra e Sustentabilidade Ambiental da North Arizona University. Do lado da IA, Gil colaborou com Daniel Garijo e Varun Ratnakar, cientista da computação e programador de pesquisa no ISI, respectivamente. As equipes trabalharam para criar uma nova abordagem para padronizar os dados da paleoclimatologia para que os cientistas da Terra possam prever melhor o clima futuro para compreender as causas e os efeitos das mudanças climáticas.
p A pesquisa foi um artigo de destaque na American Geophysicist's Union (AGU)
Paleoceanografia e Paleoclimatologia jornal e foi destaque na conferência do Centenário da AGU, realizada de 9 a 13 de dezembro em San Francisco.
p
The Lone Wranglers
p Paleoclimatologia é o estudo da história do clima, com pesquisadores usando impressões e indicadores para reconstruir climas passados. Esses indicadores são geralmente amostras físicas coletadas de fontes naturais, como núcleos de gelo de geleira, anéis de árvores, cartuchos, depósitos de cavernas, e sedimentos lacustres e oceânicos. Depois de integrar os diversos conjuntos de dados resultantes, pesquisadores podem reconstruir variáveis climáticas, como temperaturas e níveis de precipitação. Ao recriar climas passados, Os cientistas da Terra são capazes de prever climas futuros.
p Exemplo de enquetes na (a) plataforma LinkedEarth e (b) Twitter (@Linked_Earth). Crédito: Paleoceanografia e Paleoclimatologia
p Contudo, ironicamente, um grande problema com a disciplina reside em um de seus pontos fortes:a diversidade de conjuntos de dados. Embora os vários conjuntos de dados ajudem na criação de simulações de modelos complicados para ajudar os pesquisadores a compreender a progressão do clima, as idiossincrasias de cada conjunto de dados podem ser difíceis de integrar.
p Os cientistas da Terra têm suas próprias abordagens, processos, e métodos de coleta e codificação de dados que podem nem sempre ser complementares ou intuitivos, e transformar os dados em um formato utilizável para pesquisa e análise, ou "disputa de dados, "pode ser uma tarefa incômoda. Alguns pesquisadores podem gastar até 80% do seu tempo discutindo dados, como a identificação de valores discrepantes e valores ausentes ou a procura de registros dispersos em vários bancos de dados. A necessidade de padronização em campo era clara. "A vida sem padrões é miserável!" Emile-Geay disse. "Imagine a necessidade de um tipo de plugue diferente para cada item da sua casa - esse é atualmente o estado dos dados paleoclimáticos, forçando pessoas em início de carreira que desejam integrar seus dados a passar meses de suas vidas reinventando a roda toda vez que fazem algo. "Especialmente porque o financiamento está ficando mais escasso, Emile-Geay observou, essa disputa de dados é essencialmente uma perda de tempo. "Estávamos cansados disso e queríamos evitar que as gerações futuras desperdiçassem seus cérebros de Ph.D. dessa forma."
p
Uma abordagem sócio-técnica
p Para resolver essas questões, as equipes de paleoclimatologia e IA desenvolveram uma nova plataforma. Esta nova plataforma faz parte do projeto LinkedEarth da NSF (financiado pela EarthCube), e é baseado em uma abordagem de "crowdsourcing controlado", onde a multidão (ou seja, os especialistas em paleoclimatologia que usam o sistema) podem desenvolver termos, ou propriedades, para codificar seus dados, que são disponibilizados imediatamente para outros usuários. Ao criar novas propriedades, os usuários podem escolher os termos apropriados para definir o conjunto de dados com o qual estão trabalhando.
p O processo é controlado de forma que um seleto grupo de usuários representando uma ampla gama de campos da paleoclimatologia estabelecem um conselho editorial, que analisa solicitações de propriedades novas ou alteradas e determina se as propostas dos usuários devem ser incorporadas ao Padrão de Relatório da Comunidade Paleoclima, ou PaCTS. Todas as decisões tomadas em relação ao PaCTS envolvem a contribuição de pesquisadores da paleoclimatologia, tornando-o transparente, esforço comunitário inclusivo e genuíno.
p O sistema implementa IA para ajudar a desenhar links entre os dados e torná-los mais acessíveis. "As técnicas de IA que usamos são tecnologias semânticas que nos permitem representar o conhecimento científico, "explicou Gil." Nós também construímos o que chamamos de "gráfico de conhecimento do Linked Earth ', que expressa conexões entre conjuntos de dados, pesquisadores, Localizações, publicações, etc. "Ela notou que, Adicionalmente, os usuários podem fazer "consultas sofisticadas das ontologias e do gráfico de conhecimento para acessar facilmente os dados nos quais estão interessados."
p A plataforma é descrita como um sistema sociotécnico. Junto com todos os aspectos técnicos, a abordagem tem fortes aspectos sociais, já que o valor da plataforma depende do compartilhamento de informações. Um incentivo fundamental para os usuários é que eles recebam reconhecimento por tudo o que contribuem para a plataforma, que é rastreado e exibido em suas páginas de perfil. Adicionalmente, eles podem fazer upload de especificações de metadados e conjuntos de dados existentes em vários formatos de padrões, tornando mais fácil contribuir para, Acesso, e unificar os dados.
p Exemplo de uma pergunta de pesquisa para um novo conjunto de dados. O histograma representa o número de votos em cada plataforma (laranja:LinkedEarth, roxo:Twitter, e verde:pesquisa do Google). O gráfico de pizza representa a fração dos votos para essenciais (verde), recomendado (rosa), e desejado (azul). Crédito: Paleoceanografia e Paleoclimatologia
p
Definindo o padrão
p Desenvolver a plataforma não foi um problema. Khider explicou, "Um dos desafios era criar a estrutura para o padrão, "que é composta por três elementos:representação de dados, requisitos de vocabulário e relatórios. "O segundo [desafio] era envolver a comunidade, "ela continuou." Todos nós queremos padrões para o avanço da ciência, mas ninguém realmente quer falar sobre eles. "Outra questão era descobrir por onde e como começar. Como Khider observou, "No fim, decidimos que o padrão deve refletir as necessidades de uma comunidade específica para fazer a ciência mais rigorosa e estimulante. "
p Também havia obstáculos do ponto de vista da IA. “O maior desafio é que o conhecimento científico está sempre evoluindo, para que os cientistas desenvolvam uma melhor compreensão dos dados e seus modelos, eles podem mudar a forma como desejam que os dados sejam descritos e organizados na plataforma do Linked Earth, "Gil disse." [Precisávamos] acomodar a evolução das ontologias e do gráfico de conhecimento sem perder o trabalho que os usuários haviam feito na plataforma usando versões anteriores desse conhecimento. "
p Mas o trabalho duro valeu a pena. Não surpreendentemente, a plataforma recebeu feedback positivo da comunidade paleoclima. Em 2019, o wiki de crowdsourcing controlado tem 692 conjuntos de dados, com 150 usuários registrados e mais de 50 contribuidores. Mais de 14, 000 páginas foram criadas, à medida que as equipes de paleoclimatologia e IA continuam seu trabalho para melhorar a plataforma e envolver mais usuários.
p O reconhecimento da AGU veio após a implantação do projeto. "Os editores em
Paleoceanografia e Paleoclimatologia foram fundamentais para obter visibilidade deste projeto dentro da comunidade, selecionando o manuscrito para a série Grand Challenges, "Khider comentou." Ter editores pressionando por padrões está ajudando com o envolvimento da comunidade para a segunda versão do padrão, pois vêem interesse neste tipo de trabalho. "
p A plataforma também pode ser aplicada a outros campos. "Estamos usando [a plataforma] agora para descrever dados de neurociência em um projeto financiado pelo NIH que temos com a colaboração ENIGMA, "disse Gil." Um aspecto novo deste domínio é que cada conjunto de dados descreve dados para uma coorte de pessoas que fazem parte de um estudo, e contém uma coleção de observações e não apenas uma em particular. "
p Além disso, PaCTS é apenas um terço do processo de padronização, uma vez que considera os requisitos de relatório. Padronizar a representação de dados e a terminologia complementam o processo. O último envolve vocabulário e ortografia associada, Khider observou, como a maioria dos bancos de dados contém conceitos idênticos explicados de maneiras diferentes, o que pode tornar a consulta de um determinado conjunto de dados um desafio. "A próxima etapa mais óbvia é construir uma biblioteca de cadernos exemplares mostrando como esses padrões e códigos ajudam a resolver problemas comuns de pesquisa em paleoclimatologia, e como eles abrem a porta para novas investigações, "Emile-Geay disse." Agora é hora de fazer esses padrões funcionarem para [os cientistas]. "