Quando você cria modelos em estatísticas, você normalmente os testa, certificando-se de que os modelos correspondam a situações do mundo real. O residual é um número que ajuda a determinar o quão próximo seu modelo teorizado está do fenômeno no mundo real. Resíduos não são muito difíceis de entender: eles são apenas números que representam a distância que um ponto de dados é do que “deveria ser” de acordo com o modelo previsto.
Definição Matemática
Matematicamente, um residual é a diferença entre um ponto de dados observado e o valor esperado - ou estimado - para o que esse ponto de dados deveria ter sido. A fórmula para um resíduo é R = O - E, onde "O" significa o valor observado e "E" significa o valor esperado. Isso significa que valores positivos de R mostram valores acima do esperado, enquanto valores negativos mostram valores abaixo do esperado. Por exemplo, você pode ter um modelo estatístico que diz que quando o peso de um homem é de 140 libras, sua altura deve ser de 6 pés ou 72 polegadas. Quando você sai e recolhe dados, você pode encontrar alguém que pesa 140 quilos, mas é de 5 pés e 9 polegadas ou 69 polegadas. O residual é então de 69 polegadas menos 72 polegadas, dando-lhe um valor negativo de 3 polegadas. Em outras palavras, o ponto de dados observado é 3 polegadas abaixo do valor esperado.
Checking Models
Residuais são especialmente úteis quando você quer verificar se o seu modelo teórico funciona no mundo real. Quando você cria um modelo e calcula seus valores esperados, você está teorizando. Mas quando você coleta dados, pode descobrir que os dados não correspondem ao modelo. Uma maneira de encontrar essa incompatibilidade entre seu modelo e o mundo real é calcular os resíduos. Por exemplo, se você achar que seus resíduos estão consistentemente longe de seus valores estimados, seu modelo pode não ter uma forte teoria subjacente. Uma maneira fácil de usar resíduos, desta forma, é traçá-los.
Scienced Video Vault Review, criar o suporte (quase) perfeito: Veja como criar o suporte (quase) perfeito: aqui está como a plotagem Resíduos
Quando você calcula os resíduos, você tem um punhado de números, o que é difícil para os humanos interpretarem. Plotar os resíduos pode mostrar padrões. Esses padrões podem levar você a determinar se o modelo é um bom ajuste. Dois aspectos dos resíduos podem ajudá-lo a analisar um gráfico de resíduos. Primeiro, os resíduos de um bom modelo devem ser espalhados nos dois lados do zero. Ou seja, um gráfico de resíduos deve ter aproximadamente a mesma quantidade de resíduos negativos que os residuais positivos. Em segundo lugar, os resíduos devem parecer aleatórios. Se você vir um padrão em sua plotagem residual, como se eles tivessem um padrão claro linear ou curvo, seu modelo original poderia ter um erro.
Resíduos especiais: Outliers
Outliers ou residuais de valores extremamente grandes , aparecem incomumente longe dos outros pontos do seu lote de resíduos. Quando você encontra um resíduo que é um valor discrepante em seu conjunto de dados, deve pensar cuidadosamente sobre isso. Alguns cientistas recomendam a remoção de valores discrepantes porque são “anomalias” ou casos especiais. Outros recomendam investigações adicionais sobre porque você tem um resíduo tão grande. Por exemplo, você pode estar fazendo um modelo de como o estresse afeta as notas da escola e teoriza que mais estresse geralmente significa notas piores. Se os seus dados mostram que isso é verdade, exceto por uma pessoa, que tem muito baixo estresse e notas muito baixas, você pode se perguntar por quê. Tal pessoa pode simplesmente não se importar com nada, incluindo a escola, explicando o grande resíduo. Nesse caso, você pode considerar tirar o resíduo do conjunto de dados porque deseja modelar apenas os alunos que se importam com a escola.