• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • O arquivo de conjunto de dados gratuito ajuda os pesquisadores a encontrar rapidamente uma agulha em um palheiro

    Ahmed Eldawy. Crédito:UC Riverside

    Digamos que você esteja fazendo pesquisas que exijam milhões de tweets com geo-tags. Ou talvez você seja um jornalista que deseja mapear os assassinatos em Chicago de 2001 até o presente. Você precisa encontrar grandes conjuntos de dados espaço-temporais - mas onde?

    Embora existam centenas de conjuntos de dados disponíveis publicamente, localizá-los pode levar meses de pesquisa. Quando fontes potenciais são encontradas, raramente fornecem informações suficientes para que um pesquisador decida se o conjunto realmente contém o tipo de dados de que precisam, sem baixar o arquivo, muitas vezes enorme, e classificá-lo primeiro.

    Graças a um cientista da computação da Universidade da Califórnia, Riverside, encontrar o conjunto de dados certo agora é tão fácil quanto adicionar um site aos favoritos, e não custa absolutamente nada.

    Ahmed Eldawy, professor assistente de ciência da computação na Faculdade de Engenharia de Marlan e Rosemary Bourns, e seu grupo passou os últimos três anos vasculhando a internet em busca de conjuntos de dados espaço-temporais públicos, estudando seus atributos, e resumir os resultados de cada conjunto em mapas interativos que mostram ao usuário exatamente o que está obtendo.

    "As pessoas que trabalham com ciência de dados precisam de conjuntos de dados, mas podem passar muito tempo encontrando-os, "Eldawy disse." Eu queria construir um arquivo que eles pudessem encontrar facilmente. "

    Chamado de UCR Spatio-temporal Active Repository, ou UCR STAR, o arquivo é disponibilizado como um serviço para a comunidade de pesquisa para fornecer acesso fácil a grandes conjuntos de dados espaço-temporais por meio de uma interface exploratória interativa. Os usuários podem pesquisar e filtrar esses conjuntos de dados como se estivessem comprando para suas pesquisas, exceto que tudo é gratuito.

    "A interface do mapa visualiza os dados, então você pode ver se é um bom ajuste, "Eldawy disse." É como um catálogo para conjuntos de dados. "

    No coração do UCR STAR, o mapa fornece uma interface exploratória interativa para o conjunto de dados. Semelhante ao Google Maps ou outros mapas da web, os usuários podem aumentar e diminuir o zoom e movimentar para obter uma visão geral rápida da distribuição de dados, cobertura, e precisão.

    Detalhes importantes são exibidos quando um conjunto de dados é selecionado, como a página inicial original, um link para a fonte original de download, tamanho em bytes, número de registros, formato de arquivo, e outras informações úteis. O recurso de download de subconjunto permite que os usuários baixem rapidamente os dados em uma determinada região geográfica, o que reduz o tamanho do download. Eles também podem incorporar sua visualização personalizada em uma página da web ou compartilhar o link através da mídia social e marcá-lo para revisitar mais tarde.

    UCR STAR contém 102 conjuntos de dados e 5 bilhões de registros. Os conjuntos de dados foram mapeados usando Da Vinci, uma estrutura de código aberto construída em cima do Apache Spark que Eldawy projetou para trabalhar com dados espaciais. O site do UCR STAR pode ser acessado melhor por meio de um navegador de desktop, mas também tem uma interface limitada para dispositivos móveis.


    © Ciência https://pt.scienceaq.com