Nas estatísticas, a distribuição gaussiana ou normal é usada para caracterizar sistemas complexos com muitos fatores. Conforme descrito em The History of Statistics, de Stephen Stigler, Abraham De Moivre inventou a distribuição que leva o nome de Karl Fredrick Gauss. A contribuição de Gauss está em sua aplicação da distribuição à abordagem de mínimos quadrados para minimizar o erro no ajuste de dados com uma linha de melhor ajuste. Ele, portanto, tornou a distribuição de erro mais importante na estatística.
Motivação
Qual é a distribuição de uma amostra de dados? E se você não souber a distribuição subjacente dos dados? Existe alguma maneira de testar hipóteses sobre os dados sem conhecer a distribuição subjacente? Graças ao Teorema do Limite Central, a resposta é sim.
Declaração do Teorema
Afirma que uma média amostral de uma população infinita é aproximadamente normal, ou Gaussiana, com média igual à a população subjacente e a variância igual à variância da população dividida pelo tamanho da amostra. A aproximação melhora à medida que o tamanho da amostra se torna grande.
A declaração de aproximação é algumas vezes equivocada como uma conclusão sobre a convergência para uma distribuição normal. Como a distribuição normal aproximada muda à medida que o tamanho da amostra aumenta, tal afirmação é enganosa.
O teorema foi desenvolvido por Pierre Simon Laplace.
Por que é por toda parte
Distribuições normais são onipresentes. A razão vem do Teorema do Limite Central. Muitas vezes, quando um valor é medido, é o efeito soma de muitas variáveis independentes. Portanto, o valor que está sendo medido tem uma qualidade média de amostragem. Por exemplo, uma distribuição de performances de atletas pode ter uma forma de sino, como resultado de diferenças na dieta, treinamento, genética, treinamento e psicologia. Mesmo a altura dos homens tem uma distribuição normal, sendo uma função de muitos fatores biológicos.
Cópulas gaussianas
O que é chamado de uma "função copula" com uma distribuição gaussiana foi noticiado em 2009 por causa de seu uso na avaliação do risco de investir em títulos colateralizados. O uso indevido da função foi fundamental para a crise financeira de 2008-2009. Embora houvesse muitas causas da crise, em retrospectiva, as distribuições gaussianas provavelmente não deveriam ter sido usadas. Uma função com cauda mais grossa teria atribuído maior probabilidade a eventos adversos.
Derivação
O Teorema do Limite Central pode ser comprovado em muitas linhas analisando a função geradora de momento (mgf) de (amostra média - média populacional) /((variância da população /tamanho da amostra) em função do mgf da população subjacente. A parte de aproximação do teorema é introduzida pela expansão da mgf da população subjacente como uma série de poder, mostrando então que a maioria dos termos são insignificantes à medida que o tamanho da amostra se torna grande.
Ela pode ser comprovada em muito menos linhas usando um Taylor. expansão na equação característica da mesma função e tornando o tamanho da amostra grande.
Conveniência Computacional
Alguns modelos estatísticos presumem que os erros sejam Gaussianos. Isso permite distribuições de funções de variáveis normais, como as distribuições qui-quadrado e F, a serem usadas no teste de hipóteses. Especificamente, no teste F, a estatística F é composta por uma razão de distribuições qui-quadrado, que são, elas próprias, funções de um parâmetro de variância normal. A razão entre os dois faz com que a variância se cancele, possibilitando o teste de hipóteses sem o conhecimento das variações além de sua normalidade e constância.