p É difícil subestimar a importância dos dados da pesquisa:eles nos dizem quem somos e - nas mãos dos formuladores de políticas - o que fazer. p Há muito tempo era evidente para Brady West, especialista em metodologia de pesquisa da Universidade de Michigan, Ann Arbor, que os benefícios dos dados da pesquisa coexistiam com a falta de treinamento em como interpretá-los corretamente, especialmente quando se trata de análises secundárias - pesquisadores reanalisando dados de pesquisas que foram coletados por um estudo anterior.
p "Em meu trabalho de consultoria para organizações e empresas, as pessoas chegavam e diziam, 'Nós vamos, aqui está minha estimativa de quantas vezes algo ocorre em uma população, 'como a taxa de uma doença ou as preferências por um partido político. E eles gostariam de saber como interpretar isso. Eu responderia, 'Você considerou a ponderação nos dados da pesquisa que está usando - ou, você considerou o desenho da amostra? ' E eu diria, provavelmente 90 por cento do tempo, eles olhariam para mim e não teriam ideia do que eu estava falando. Eles nunca haviam aprendido sobre os princípios fundamentais de trabalho com dados de pesquisa em suas aulas padrão de introdução às estatísticas. "
p Como um metodologista de pesquisa, West se perguntou se sua experiência era indicativa de um problema sistêmico. Não havia muito na literatura acadêmica para responder à pergunta, então ele e seus colegas, Joseph Sakshaug e Guy Aurelien, amostras de 250 papéis, relatórios e apresentações - todos disponíveis online, todos conduzindo análises secundárias de dados de pesquisa - para ver se esses erros analíticos foram, na verdade, comum.
p "Foi muito chocante, "diz West." Apenas cerca de metade dessas análises alegou ser responsável pela ponderação, o impacto dos designs de amostra nas estimativas de variância foi amplamente mal compreendido e não houve nenhum sinal de melhoria nesses problemas ao longo do tempo. "Mas, possivelmente, o pior de tudo, esses problemas prevaleciam tanto na literatura revisada por pares em sua amostra quanto em relatórios técnicos e apresentações em conferências. "Isso foi o que foi realmente mais chocante para mim, "diz West." O processo de revisão por pares não estava detectando esses erros. "
p Um exemplo alarmante do que pode acontecer quando você calcula uma estimativa, mas ignora a ponderação da pesquisa, pode ser encontrado na Pesquisa Nacional de Graduados (NSCG) de 2010. "Esta é uma grande pesquisa nacional com graduados universitários, e eles literalmente dizem em sua documentação que estão superamostrando indivíduos com diplomas de ciências e engenharia, "diz West." Se você levar em conta a ponderação, que corrige essa sobreamostragem, cerca de 30% das pessoas estão obtendo diplomas de ciências e engenharia; se você esquecer a ponderação, você extrapola a amostra excessiva para toda a população, e de repente 55 por cento das pessoas têm formação em ciências e engenharia. "
p Ironicamente, uma melhor amostragem de populações subestudadas pode estar exacerbando o problema. "Há muito interesse em populações sub-representadas, como os hispânicos, "diz West." Então, muitos levantamentos nacionais superam esses grupos e outros para criar uma amostra grande o suficiente para os pesquisadores estudarem adequadamente. Mas quando Average Joe Researcher pega todos os dados - não apenas os dados da subpopulação em que está interessado, mas todo mundo, brancos, Afro-americanos, e hispânicos - e então tentam analisar todos esses dados coletivamente, é quando a sobreamostragem pode ter um efeito horrível no quadro geral se essa característica do desenho da amostra não for considerada corretamente na estimativa. "
p Existem muitas ferramentas de software fáceis de usar que podem facilmente explicar as complexidades de amostragem e ponderação associadas aos dados de pesquisa, mas o fato de não estarem sendo usados revela o problema subjacente.
p "Esse problema se origina no fato de que as pessoas que publicam esses artigos simplesmente não são informadas sobre nada disso em seu treinamento, "diz West." Nós sabemos sobre a importância da ponderação de pesquisa por quase um século - mas de alguma forma, como lidar com dados de pesquisa ponderados não penetrou nas aulas de estatística que os pesquisadores fazem em nível de graduação ou pós-graduação. Gastamos uma fortuna fazendo pesquisas nacionais - e quem sabe o quanto a interpretação incorreta desses dados está nos custando. "
p Para resolver esse problema, West está ajudando a projetar um MOOC (curso massivo online aberto) na Universidade de Michigan, introduzindo estatísticas com o software Python. A ponderação e as análises de levantamento corretas serão ensinadas no primeiro curso dessa especialização. "Estamos realmente nos concentrando em garantir que, antes de entrar em qualquer análise de dados de pesquisa, você tem um entendimento realmente sólido de como os dados foram coletados e de onde vieram. "