p Crédito CC0:domínio público
p Um grande volume de dados digitais foi coletado, armazenados e compartilhados nos últimos anos a partir de fontes como mídia social, sistemas de geolocalização e imagens aéreas de drones e satélites, dando aos pesquisadores muitas novas maneiras de estudar informações e descriptografar nosso mundo. Na Suíça, o Federal Statistical Office (FSO) se interessou pela revolução do big data e pelas possibilidades que ela oferece para gerar estatísticas preditivas para o benefício da sociedade. p Os métodos convencionais, como censos e pesquisas, continuam sendo a referência para a geração de indicadores socioeconômicos no município, níveis cantonal e nacional. Mas esses métodos agora podem ser complementados com métodos secundários, principalmente dados pré-existentes, de fontes como assinaturas de telefones celulares e cartões de crédito. De acordo com a Estratégia de Inovação de Dados 2017 da FSO, "O objetivo da inovação de dados é melhorar a qualidade, escopo e eficiência de custos dos produtos estatísticos e para reduzir a carga de resposta sobre as famílias e empresas. "
p
Dados anônimos
p Contra este pano de fundo, uma equipe de cientistas do Laboratório de Relações Humano-Ambientais em Sistemas Urbanos (HERUS) da EPFL conduziu um estudo inovador sobre novos usos para os dados mantidos por seguradoras. Empresa parceira líder do laboratório, La Mobilière, forneceu dados anônimos de centenas de milhares de segurados. Esses dados incluíram fatores como idade, código postal residencial, carro e casa própria, e situação de emprego.
p "Queríamos ver se poderíamos usar esses dados para prever indicadores socioeconômicos específicos - aqueles que pudessem nos dar uma imagem melhor da qualidade das áreas urbanas da Suíça. Uma grande vantagem dos dados mantidos pelas seguradoras - desde que estejam dispostas para compartilhá-lo - é que eles são baratos de usar, uma vez que eles já existem, e pesquisas anuais podem ser realizadas sem nenhum custo extra, "diz Emanuele Massaro, um dos principais autores do estudo, que foi publicado em
PLOS ONE em 3 de março.
p Usando técnicas de mineração de dados, a equipe de pesquisa extraiu as informações relevantes e as agregou para cobrir as 170 cidades suíças mais populosas. Em tudo, eles obtiveram quase 600, 000 perfis, cada um identificado por um código único. "O conjunto de dados da La Mobilière é muito completo; contém uma ampla gama de informações que nos permitiu fatorar em mais de 30 variáveis, que usamos principalmente para selecionar as variáveis que melhor correspondem a cada indicador socioeconômico, "diz Lorenzo Donadio, um aluno de mestrado em ciências ambientais e engenharia na EPFL e o primeiro autor do estudo.
p
Um modelo de regressão espacial
p Os cientistas desenvolveram um modelo de regressão espacial para prever com precisão doze variáveis em seis categorias:população, transporte, trabalhar, espaço e região, habitação, e a economia. "Claro, nossas previsões não podem substituir os censos oficiais, mas podem servir como indicadores anuais. Também queríamos mostrar que os conjuntos de dados das seguradoras contêm uma grande quantidade de informações socialmente relevantes - além do que eles usam para marketing e pesquisa de mercado - e que as seguradoras devem considerar trabalhar mais de perto com os pesquisadores, "diz Massaro.
p O modelo estatístico da equipe foi desenvolvido exclusivamente para fins de pesquisa e não tem aplicação prática como tal. Pode ser usado para ajudar a orientar os formuladores de políticas, mas os dados regulares do censo ainda são necessários. Os dados da La Mobilière estão faltando algumas informações, como para jovens com menos de 18 anos, mas são, no entanto, representativos de uma grande parte da população. "Nosso modelo pode ser usado por legisladores municipais e escritórios de estatísticas do governo, que poderiam incorporar este tipo de informação em seus esforços de modernização. Os conjuntos de dados das seguradoras são altamente granulares porque contêm informações muito específicas sobre seus clientes, "diz Massaro.