p Crédito CC0:domínio público
p Modelagem preditiva de conjuntos de dados muito grandes, tais como medições ambientais, em uma área ampla pode ser um exercício altamente intensivo em termos de computação. Essas demandas computacionais podem ser reduzidas significativamente pela aplicação de várias aproximações, mas a que custo para a precisão? Os pesquisadores da KAUST desenvolveram ferramentas estatísticas que ajudam a remover as conjecturas desse processo de aproximação. p "Em estatísticas espaciais, é extremamente demorado ajustar um modelo de processo padrão a grandes conjuntos de dados usando os métodos baseados em probabilidade mais precisos, "diz Yiping Hong, quem liderou a pesquisa. "Os métodos de aproximação podem reduzir significativamente o tempo de computação e os recursos de computação."
p Em vez de modelar a relação entre cada par de observações explicitamente usando um modelo de processo padrão, métodos de aproximação tentam adotar uma estrutura de modelagem alternativa para descrever as relações nos dados. Essa abordagem é menos precisa, mas mais amigável do ponto de vista computacional. O método de estimativa de baixa classificação (TLR) desenvolvido pela KAUST, por exemplo, aplica uma aproximação em bloco para reduzir o tempo computacional.
p "Assim, é preciso determinar alguns parâmetros de ajuste, como quantos blocos devem ser divididos e a precisão da aproximação do bloco, "diz Hong." Para isso, desenvolvemos três critérios para avaliar a perda de eficiência de previsão, ou a perda de informações, quando o modelo é aproximado. "
p Com a falta de medidas informativas para avaliar o impacto da aproximação, Hong, junto com o cientista computacional Sameh Abdulah e os estatísticos Marc Genton e Ying Sun, desenvolveram seus próprios. As três medidas - a perda média de eficiência, o erro de especificação médio e uma raiz quadrada média do erro de especificação médio - juntos fornecem uma visão sobre o "ajuste" dos parâmetros de aproximação para o conjunto de dados, incluindo a variabilidade de previsão, e não apenas a avaliação ponto a ponto dada pelo critério de predição convencional.
p "Podemos usar nossos critérios para comparar o desempenho de previsão do método TLR com diferentes parâmetros de ajuste, o que nos permite sugerir os melhores parâmetros para usar, "diz Hong.
p A equipe aplicou o método a um conjunto de dados real de medições de umidade do solo de alta resolução na Bacia do Mississippi. Ajustando os parâmetros de ajuste usando as novas medidas, a aproximação TLR forneceu estimativas que estão muito próximas das estimativas exatas de máxima verossimilhança, com um tempo computacional significativamente menor.
p "Nossos critérios, que foram desenvolvidos para escolher o parâmetro de ajuste para TLR, também pode ser usado para ajustar outros métodos de aproximação, "diz Hong." Agora planejamos comparar o desempenho de outros métodos de aproximação desenvolvidos para grandes conjuntos de dados espaciais, que fornecerá orientações valiosas para a análise de dados reais. "