A regressão linear é um método estatístico para examinar o relacionamento entre uma variável dependente, denotada como y, Por sua natureza, a regressão linear apenas analisa as relações lineares entre dependentes e dependentes. variáveis independentes. Ou seja, assume que existe um relacionamento linear entre eles. "Sometimes this is incorrect.", 3, [[Por exemplo, a relação entre renda e idade é curvada, ou seja, a renda tende a aumentar nas primeiras partes da vida adulta, achatando-se mais tarde na idade adulta e diminuindo depois que as pessoas se aposentam. Você pode saber se isso é um problema observando representações gráficas dos relacionamentos. A regressão linear analisa uma relação entre a média da variável dependente e as variáveis independentes. Por exemplo, se você observar a relação entre o peso ao nascer dos bebês e as características maternas, como a idade, a regressão linear analisará o peso médio dos bebês nascidos de mães de diferentes idades. No entanto, às vezes você precisa observar os extremos da variável dependente, por exemplo, os bebês correm risco quando seus pesos estão baixos, portanto, você deve considerar os extremos neste exemplo. Assim como a média não é uma descrição completa de uma única variável, a regressão linear não é uma descrição completa dos relacionamentos entre as variáveis. Você pode lidar com esse problema usando a regressão quantílica. Discrepantes são dados surpreendentes. Os outliers podem ser univariados (com base em uma variável) ou multivariados. Se você está olhando para a idade e a renda, discrepâncias univariadas seriam coisas como uma pessoa com 118 anos ou alguém que ganhou US $ 12 milhões no ano passado. Um discador multivariado seria um jovem de 18 anos que ganhou US $ 200.000. Nesse caso, nem a idade nem a renda são muito extremas, mas pouquíssimas pessoas de 18 anos ganham tanto dinheiro. Os discrepantes podem ter grandes efeitos na regressão. Você pode lidar com esse problema solicitando estatísticas de influência do seu software estatístico. A regressão linear pressupõe que os dados sejam independentes. Isso significa que as pontuações de um sujeito (como uma pessoa) não têm nada a ver com as de outro. Isso é frequente, mas nem sempre, sensível. Dois casos comuns em que não faz sentido estão agrupados no espaço e no tempo. Um exemplo clássico de agrupamento no espaço são as notas dos testes dos alunos, quando você tem alunos de várias classes, séries, escolas e distritos escolares. Os alunos da mesma classe tendem a ser semelhantes de várias maneiras, ou seja, eles geralmente vêm dos mesmos bairros, têm os mesmos professores etc. Portanto, eles não são independentes. Exemplos de agrupamento no tempo são quaisquer estudos em que você avalie os mesmos assuntos várias vezes. Por exemplo, em um estudo de dieta e peso, você pode medir cada pessoa várias vezes. Esses dados não são independentes porque o que uma pessoa pesa em uma ocasião está relacionado ao que ela pesa em outras ocasiões. Uma maneira de lidar com isso é com modelos multiníveis.
e uma ou mais variáveis independentes, denotadas como x
. A variável dependente deve ser contínua, pois pode assumir qualquer valor ou pelo menos próxima de contínua. As variáveis independentes podem ser de qualquer tipo. Embora a regressão linear não possa mostrar a causa por si só, a variável dependente é geralmente afetada pelas variáveis independentes.
Regressão linear é limitada a relacionamentos lineares
Regressão linear apenas analisa a média da variável dependente
A regressão linear é sensível a discrepantes
Os dados devem ser independentes