As distribuições gaussianas são simples e fáceis de entender, mas para alguns dados, como precipitação e velocidade do vento, eles podem resultar em caudas fisicamente impossíveis para valores negativos. Crédito:Marek Uliasz / Alamy Foto de stock
O estudo da incompatibilidade entre os dados ambientais espaciais e uma análise estatística comumente usada sugere que estatísticas mais simples são suficientes em muitos casos.
Cientistas ambientais e seus colegas estatísticos enfrentam um dilema comum:os testes estatísticos mais simples caracterizam adequadamente um conjunto de dados? E vale a pena o esforço para derivar e aplicar métodos estatísticos que são possivelmente mais combinados, mas mais difíceis de interpretar? Na maioria dos casos, o caminho de menor resistência vence, mas a escolha de uma base estatística simples pode lançar pequenas dúvidas sobre a validade dos resultados de estudos derivados estatisticamente.
O pesquisador da KAUST, Marc Genton, e seu aluno de doutorado Yuan Yan desenvolveram uma estrutura para testar exatamente o quão imprecisa pode ser uma incompatibilidade entre os dados e a análise estatística, e os resultados são surpreendentes.
"Os pesquisadores tendem a ajustar os dados espaciais com um modelo gaussiano simples - a curva em sino simétrica clássica em torno do valor médio - mesmo que os dados possam ter uma distribuição assimétrica com características que divergem do gaussiano, ", diz Yan." Nós investigamos o efeito da 'não-gaussianidade' dos dados na estimativa e predição estatística sob a suposição gaussiana errada.
As distribuições gaussianas são geralmente intuitivas, com um valor médio e desvios padrão da média que implicam alguma distribuição estreita ou ampla de dados. Eles são amplamente aplicados e compreendidos, tanto da perspectiva do profissional quanto para usuários não técnicos. Mas, em muitas situações, particularmente para dados ambientais, a distribuição de dados é distorcida. Velocidade do vento e precipitação, por exemplo, não pode ser menor que zero, no entanto, uma distribuição gaussiana com um pequeno valor médio, mas uma distribuição estendida para valores mais altos pode ter uma cauda na extremidade inferior que se estende a valores negativos - certamente errado, mas por quanto?
Um dos conceitos mais importantes em análises estatísticas espaciais é o quão fortemente os dados influenciam uns aos outros quando uma certa distância entre eles, que é dado pelo que é conhecido como função de covariância. Genton e Yan começaram a estudar sistematicamente o efeito da aplicação de um modelo gaussiano para estimar a função de covariância para dados não gaussianos.
"Desenvolvemos um esquema de simulação sob medida para gerar dados espaciais não gaussianos com uma determinada estrutura de covariância, "diz Genton." Nós mostramos através de nosso estudo de simulação que quando os dados espaciais são não-gaussianos, o estimador de probabilidade gaussiana dos parâmetros de covariância ainda tem um desempenho melhor do que um estimador de mínimos quadrados alternativo para dados que não são fortemente distorcidos. "
A descoberta sugere que o modelo Gaussiano simples é de fato geralmente adequado para estimativa de parâmetros para dados espaciais em muitos casos, oferecendo algum conforto aos cientistas espaciais sobre sua escolha de abordagem estatística.