Um gráfico de dispersão é uma importante ferramenta de diagnóstico no arsenal de um estatístico, obtido pela representação gráfica de duas variáveis entre si. Ele permite que o estatístico observe as variáveis e forme uma hipótese de trabalho sobre seu relacionamento. Por esta razão, é geralmente desenhado antes de uma análise de regressão ser realizada. O estatístico subseqüentemente testa a hipótese usando uma análise de regressão e determina o sinal e a magnitude precisa do relacionamento. Além disso, um gráfico de dispersão ajuda a identificar outliers - valores anormalmente distantes da maioria dos dados da amostra. Eliminar outliers ajuda a melhorar o modelo de regressão.
Verifique se há relação negativa entre as duas variáveis no gráfico de dispersão. Se valores baixos da primeira variável corresponderem a valores altos da segunda variável, há uma correlação negativa. Nesse caso, uma linha traçada pelos pontos de dados tem um declive negativo.
Examine o gráfico de dispersão para obter um relacionamento positivo entre as variáveis. Se valores baixos da primeira variável no gráfico de dispersão corresponderem a valores baixos do segundo, e os valores altos do primeiro corresponderem de forma semelhante aos valores altos do segundo, as variáveis terão uma correlação positiva. Nesse caso, uma linha desenhada pelos pontos de dados tem uma inclinação positiva.
Inspecione o gráfico de dispersão para não haver relação entre as variáveis. Se os pontos de dados no gráfico de dispersão forem distribuídos aleatoriamente sem relação aparente entre os dois, eles não têm correlação ou correlação pequena, estatisticamente insignificante. Nesse caso, uma linha traçada pelos pontos de dados é horizontal com inclinação igual a zero.
Ajustar uma linha pelos pontos de dados e examinar sua forma para avaliar a natureza da relação entre as duas variáveis. Uma linha reta é interpretada como uma relação linear, uma forma curva sugere uma relação quadrática e uma linha que fica relativamente plana antes de repentinamente subir ou descer é interpretada como uma relação exponencial.
Examine o gráfico de dispersão para outliers , valores que estão anormalmente longe do cluster de pontos de dados. Outliers distorcem a relação entre as variáveis. Eliminá-los, mas somente se a ausência deles não afetar a análise da relação entre as duas variáveis.