Quando um conjunto de dados contém duas variáveis que podem estar relacionadas, como as alturas e os pesos dos indivíduos, a análise de regressão encontra uma função matemática que melhor se aproxima do relacionamento. A soma dos resíduos é uma medida de quão bom é o trabalho que a função faz.
Resíduos
Na análise de regressão, escolhemos uma variável para ser a "variável explicativa", que chamaremos de x e o outro é a "variável de resposta" a qual chamaremos de y. A análise de regressão cria a função y = f (x) que melhor prediz a variável de resposta a partir de sua variável explicativa associada. Se x [i] é uma das variáveis explicativas, e y [i] sua variável de resposta, então o residual é o erro, ou diferença entre o valor real de y [i] e o valor previsto de y [i]. Em outras palavras, residual = y [i] - f (x [i]).
Exemplo
Um conjunto de dados contém as alturas em centímetros e os pesos em quilogramas de 5 pessoas: [ ,null,null,3],(152,54), (165,65), (175,100), (170,80), (140,45)]. Um ajuste quadrático de peso, w, para altura, h, é w = f (h) = 1160 -15.5_h + 0.054_h ^ 2. Os resíduos são (em kg): [2,38, 7,65, 1,25, 5,60, 3,40]. A soma dos resíduos é de 15,5 kg.
Regressão Linear
O tipo mais simples de regressão é a regressão linear, em que a função matemática é uma linha reta da forma y = m * x + b . Nesse caso, a soma dos resíduos é 0 por definição.