Quando cientistas, economistas ou estatísticos fazem previsões com base na teoria e, em seguida, coletam dados reais, precisam de uma maneira de medir a variação entre os valores previstos e medidos. Eles geralmente contam com o erro quadrado médio (MSE), que é a soma das variações dos pontos de dados individuais ao quadrado e divididas pelo número de pontos de dados menos 2. Quando os dados são exibidos em um gráfico, você determina o MSE por somando as variações nos pontos de dados do eixo vertical. Em um gráfico x-y, esses seriam os valores y.
Por que quadrado as variações?
A multiplicação da variação entre os valores previstos e os observados tem dois efeitos desejáveis. O primeiro é garantir que todos os valores sejam positivos. Se um ou mais valores forem negativos, a soma de todos os valores poderá ser irrealisticamente pequena e uma representação ruim da variação real entre os valores previstos e os observados. A segunda vantagem do quadrado é dar mais peso a diferenças maiores, o que garante que um grande valor para o MSE signifique grandes variações de dados.
Algoritmo de estoque de cálculo de amostra
Suponha que você tenha um algoritmo que prevê os preços de um estoque específico diariamente. Na segunda-feira, ele prevê que o preço das ações seja $ 5,50, na terça-feira $ 6,00, quarta-feira $ 6,00, quinta-feira $ 7,50 e sexta-feira $ 8,00. Considerando segunda-feira como o dia 1, você tem um conjunto de pontos de dados que aparecem assim: (1, 5,50), (2, 6,00), (3, 6,00), (4, 7,50) e (5, 8,00). Os preços reais são os seguintes: Segunda-feira $ 4,75 (1, 4,75); "Tuesday $5.35 (2, 5.35);", 3, [[Quarta-feira $ 6,25 (3, 6,25); Quinta-feira $ 7,25 (4, 7,25); e sexta-feira: $ 8,50 (5, 8,50).
As variações entre os valores y desses pontos são 0,75, 0,65, -0,25, 0,25 e -0,50, respectivamente, onde o sinal negativo indica um valor previsto menor que o observado. Para calcular o MSE, você primeiro quadrada cada valor de variação, o que elimina os sinais de menos e produz 0,5625, 0,4225, 0,0625, 0,0625 e 0,25. A soma desses valores dá 1,36 e a divisão pelo número de medições menos 2, que é 3, produz o MSE, que acaba sendo 0,45.
MSE e RMSE
Valores menores para MSE indicam uma concordância mais estreita entre resultados previstos e observados, e um MSE de 0,0 indica concordância perfeita. É importante lembrar, no entanto, que os valores de variação são ao quadrado. Quando é necessária uma medição de erro nas mesmas unidades que os pontos de dados, os estatísticos recebem o erro quadrático médio da raiz (RMSE). Eles obtêm isso tomando a raiz quadrada do erro quadrático médio. Para o exemplo acima, o RSME seria 0,671 ou cerca de 67 centavos.