A linha de regressão de mínimos quadrados (LSRL) é uma linha que serve como uma função de previsão para um fenômeno que não é bem conhecido. A definição da estatística matemática de uma linha de regressão de mínimos quadrados é a linha que passa pelo ponto (0,0) e tem uma inclinação igual ao coeficiente de correlação dos dados, após os dados terem sido padronizados. Assim, calcular a linha de regressão de mínimos quadrados envolve padronizar os dados e encontrar o coeficiente de correlação.
Encontrar o Coeficiente de Correlação
Organize seus dados de modo que seja fácil trabalhar com eles. Use uma planilha ou matriz para separar seus dados em seus valores-x e valores-y, mantendo-os vinculados (ou seja, certifique-se de que o valor x e o valor y de cada ponto de dados estejam na mesma linha ou coluna). > Encontre os produtos cruzados dos valores x e y. Multiplique o valor x e o valor y para cada ponto juntos. Soma esses valores resultantes. Chame o resultado "sxy".
Some os valores-x e os valores-y separadamente. Chame esses dois valores resultantes "sx" e "sy", respectivamente.
Conte o número de pontos de dados. Chame esse valor de “n”.
Pegue a soma dos quadrados para seus dados. Quadrado todos os seus valores. Multiplique cada valor x e todo valor y por si mesmo. Chame os novos conjuntos de dados “x2” e “y2” para os valores x e y. Some todos os valores x2 e chame o resultado “sx2”. Some todos os valores y2 e chame o resultado “sy2.”
Subtraia sx * sy /n de sxy. Chame o resultado “num.”
Calcule o valor sx2- (sx ^ 2) /n. Chame o resultado “A.”
Calcule o valor sy2- (sy ^ 2) /n. Chame o resultado “B.”
Pegue a raiz quadrada de A vezes B, que pode ser mostrada como (A * B) ^ (1/2). Rotule o resultado “denom.”
Calcule o coeficiente de correlação, “r”. O valor de “r” é igual a “num” dividido por “denom”, que pode ser escrito como num /denom.
Padronize os dados e escreva a LSRL
Encontre as médias dos valores x e dos valores y. Adicione todos os valores x juntos e divida o resultado por “n”. Chame isso de “mx”. Faça o mesmo com os valores y, chamando o resultado “my”.
Encontre os desvios padrão para os valores-x e valores-y. Crie novos conjuntos de dados para x e y, subtraindo a média para cada conjunto de dados de seus dados associados. Por exemplo, cada ponto de dados para x, “xdat” se tornará “xdat - mx”. Esquadre os pontos de dados resultantes. Adicione os resultados para cada grupo (x e y) separadamente, dividindo por “n” para cada grupo. Pegue a raiz quadrada desses dois resultados finais para gerar o desvio padrão para cada grupo. Chame o desvio padrão para os valores de x "sdx" e para os valores de y "sdy".
Padronize os dados. Subtraia a média dos valores x de todos os valores x. Divida os resultados por “sdx”. Os dados restantes são padronizados. Chame esses dados de "x_". Faça o mesmo com os valores y: subtraia “my” de todo valor y, dividindo por “sdy” conforme avança. Chame esses dados de “y_”.
Escreva a linha de regressão. Escreva "y_ ^ = rx_", onde "^" é representativo de "hat" - um valor previsto - e "r" é igual ao coeficiente de correlação encontrado anteriormente.