Os pesquisadores criaram um novo sistema de gerenciamento de dados de código aberto para cientistas, com a esperança de que o sistema torne a colaboração mais fácil. Crédito:Markus Spiske em Unsplash
Os dados costumam estar no cerne da ciência - os pesquisadores rastreiam as velocidades, medir a luz vinda das estrelas, analise os batimentos cardíacos e os níveis de colesterol e examine o cérebro humano em busca de impulsos elétricos.
Mas frequentemente, compartilhar esses dados com outros cientistas - ou com editores de periódicos revisados por pares, ou financiadores - é difícil. O software pode ser proprietário, e proibitivamente caro para comprar. Pode levar anos de treinamento para que uma pessoa seja capaz de gerenciar e entender o software. Ou a empresa que criou o software pode ter falido.
Uma equipe de pesquisa desenvolveu um sistema de gerenciamento de dados de código aberto que os cientistas esperam que resolva todos esses problemas. Os pesquisadores descreveram seu sistema hoje na revista PLOS ONE .
"Queríamos criar um formato de arquivo e um modelo de conjunto de dados que encapsulasse a maioria dos conjuntos de dados em que trabalhamos, em todos os instrumentos em um laboratório, "disse Philip Grandinetti, professor de química da The Ohio State University e autor sênior do artigo. "Existe um problema antigo, difundido entre os cientistas, que você compra um instrumento multimilionário e as empresas que fazem esse instrumento têm seu próprio formato proprietário, e é um pesadelo para compartilhar com qualquer outra pessoa. "
Grandes conjuntos de dados são difíceis de compartilhar, em parte porque o software geralmente é proprietário, mas também em parte porque os arquivos costumam ser tão grandes que são difíceis de compartilhar por e-mail ou por meio de um servidor baseado em nuvem. E mesmo que os arquivos possam ser exportados como um tipo de arquivo que pode ser compartilhado, metadados importantes - as coisas que explicam o que o conjunto de dados realmente é - geralmente são perdidos.
Seu sistema, que Grandinetti e colegas chamaram de "Modelo de dados científicos centrais, "foi projetado para compartilhar conjuntos de dados complexos facilmente, sem arquivos enormes que ocupam muita largura de banda e espaço no disco rígido, e sem perder metadados. Considere um conjunto de dados que inclui a temperatura do ar, pressão do ar, velocidade do vento e fluxo solar - este sistema pode lidar com isso. Ou considere as medidas e a cor de uma luz proveniente de uma estrela em uma galáxia distante - este sistema pode lidar com isso.
"Você precisa de um conjunto de dados incrivelmente flexível em sua capacidade de armazenar todas essas coisas em um formato de arquivo sem perder informações, "Grandinetti disse." Portanto, a ideia é que criamos um modelo que pensamos ser flexível o suficiente para fazer isso. "
A equipe da Ohio State University, em colaboração com o professor Thomas Vosegaard da Universidade de Aarhus, na Dinamarca, e Dr. Dominique Massiot da Universidade de Orléans, na França, software desenvolvido que pode ser executado em um Mac ou PC. Eles fizeram o upload para a web e tornaram o código-fonte aberto (o que significa que qualquer pessoa pode vê-lo, use-o, e baixe-o gratuitamente.) A publicação em PLOS ONE é intencional:a revista também está disponível para qualquer pessoa, grátis.
E, os pesquisadores esperam, o sistema pode ser simples, maneira gratuita de combinar vários tipos de dados em um só lugar.
"Nós estudamos vários conjuntos de dados como cientistas - e como um cientista, Eu gostaria de poder obter os dados de todos esses arquivos e colocá-los juntos de uma forma que eu possa trabalhar, "disse Deepansh Srivastava, pesquisador de pós-doutorado no grupo de Grandinetti.
"Em vez de procurar dados e retirá-los de conjuntos de dados, se pudéssemos simplesmente exportá-lo como este tipo de arquivo - como um tipo de arquivo de dados científicos básicos - seríamos capazes de trabalhar em um sistema comum. "