Estatísticos e cientistas freqüentemente têm a necessidade de investigar a relação entre duas variáveis, comumente chamadas de x e y. O propósito de testar quaisquer duas variáveis é geralmente ver se existe algum elo entre elas, conhecido como correlação na ciência. Por exemplo, um cientista pode querer saber se horas de exposição ao sol podem ser ligadas a taxas de câncer de pele. Para descrever matematicamente a força de uma correlação entre duas variáveis, tais pesquisadores usam frequentemente R2.
Regressão Linear
Estatísticos usam a técnica de regressão linear para encontrar a linha reta que melhor se adapta a uma série de pares de dados x e y. Eles fazem isso através de uma série de cálculos que derivam a equação da melhor linha. Esta descrição matemática da linha será uma equação linear e terá a forma geral de y = mx + b, onde x e y são as duas variáveis nos pares de dados, m é a inclinação da linha eb é sua intercepção y.
Coeficiente de Correlação
Os cálculos que encontrarem a melhor linha reta produzirão uma equação linear para ajustar qualquer conjunto de dados, mesmo que esses dados não sejam realmente muito lineares. Para ter uma indicação de quão bem os dados realmente se encaixam em uma linha reta, os estatísticos também calculam um número conhecido como o coeficiente de correlação. Isto é dado o símbolo r ou R e é uma medida de quão estreitamente alinhados os pares de dados são para a melhor linha reta através deles.
Significância de R
R pode ter qualquer valor entre - 1 e 1. Um valor negativo de R significa simplesmente que a linha reta de melhor ajuste inclina-se para baixo, movendo-se da esquerda para a direita, em vez de para cima. Quanto mais próximo R estiver dos dois extremos, melhor o ajuste dos dados aponta para a linha, com -1 ou 1 sendo um ajuste perfeito e um valor R de zero significando que não há ajuste e os pontos são totalmente aleatório. Se os pontos de dados estão bem alinhados com a linha reta, diz-se que há alguma correlação entre eles, daí o nome coeficiente de correlação para R.
R2
Alguns estatísticos preferem trabalhar com o valor de R2, que é simplesmente o coeficiente de correlação ao quadrado, ou multiplicado por si mesmo, e é conhecido como o coeficiente de determinação. R2 é muito semelhante a R e também descreve a correlação entre as duas variáveis, mas também é ligeiramente diferente. Mede a porcentagem de variação na variável y que pode ser atribuída à variação na variável x. Um valor de R2 de 0,9, por exemplo, significa que 90% da variação nos dados de y é devido à variação nos dados de x. Isso não significa necessariamente que x está realmente afetando y, mas que parece estar fazendo isso.