Quando você cria modelos em estatística, geralmente os testa, certificando-se de que os modelos correspondam às situações do mundo real. O residual é um número que ajuda a determinar a proximidade do seu modelo teorizado com o fenômeno no mundo real. Resíduos não são muito difíceis de entender: são apenas números que representam a que distância um ponto de dados está do que "deveria ser", de acordo com o modelo previsto.
Definição Matemática
Matematicamente, um resíduo é a diferença entre um ponto de dados observado e o valor esperado - ou estimado - para o que esse ponto de dados deveria ter sido. A fórmula para um resíduo é R \u003d O - E, onde "O" significa o valor observado e "E" significa o valor esperado. Isso significa que valores positivos de R mostram valores acima do esperado, enquanto valores negativos mostram valores abaixo do esperado. Por exemplo, você pode ter um modelo estatístico que diz que quando o peso de um homem é de 140 libras, sua altura deve ser de 6 pés ou 72 polegadas. Quando você sai e coleta dados, pode encontrar alguém que pesa 140 libras, mas mede 5 pés 9 polegadas ou 69 polegadas. O resíduo é então 69 polegadas menos 72 polegadas, fornecendo um valor negativo de 3 polegadas. Em outras palavras, o ponto de dados observado é 3 polegadas abaixo do valor esperado.
Verificando modelos
Os resíduos são especialmente úteis quando você deseja verificar se o seu modelo teorizado funciona no mundo real. Ao criar um modelo e calcular seus valores esperados, você está teorizando. Mas quando você coleta dados, pode achar que os dados não correspondem ao modelo. Uma maneira de encontrar essa incompatibilidade entre o modelo e o mundo real é calcular os resíduos. Por exemplo, se você achar que seus resíduos estão consistentemente distantes dos valores estimados, seu modelo pode não ter uma forte teoria subjacente. Uma maneira fácil de usar resíduos dessa maneira é plotá-los.
Plotando resíduos
Quando você calcula os resíduos, você tem um punhado de números, que são difíceis de serem interpretados pelos humanos. A plotagem dos resíduos geralmente pode mostrar padrões. Esses padrões podem levar você a determinar se o modelo é adequado. Dois aspectos dos resíduos podem ajudá-lo a analisar uma plotagem de resíduos. Primeiro, os resíduos de um bom modelo devem ser espalhados em ambos os lados de zero. Ou seja, um gráfico de resíduos deve ter aproximadamente a mesma quantidade de resíduos negativos que os resíduos positivos. Segundo, os resíduos devem parecer aleatórios. Se você vir um padrão em sua plotagem residual, como eles com um padrão linear ou curvado claro, seu modelo original poderá ter um erro.
Residuais especiais: Discrepantes
Discrepantes ou resíduos de valores extremamente grandes , apareça invulgarmente longe dos outros pontos do seu gráfico de resíduos. Quando você encontrar um resíduo que é um outlier em seu conjunto de dados, deve pensar cuidadosamente sobre ele. Alguns cientistas recomendam a remoção de valores discrepantes porque são "anomalias" ou casos especiais. Outros recomendam uma investigação mais detalhada sobre por que você tem um resíduo tão grande. Por exemplo, você pode criar um modelo de como o estresse afeta as notas escolares e teorizar que mais estresse geralmente significa notas piores. Se seus dados mostrarem que isso é verdade, exceto por uma pessoa com estresse muito baixo e notas muito baixas, você pode se perguntar por quê. Uma pessoa assim pode simplesmente não se importar com nada, incluindo a escola, explicando o grande resíduo. Nesse caso, você pode considerar retirar o resíduo de seu conjunto de dados porque deseja modelar apenas alunos que se preocupam com a escola.