Antes de continuarmos com o exemplo anterior, observemos os diagramas de dispersão da figura 5.
Os diagramas apresentam quatro situações distintas:
A - A recta representa a relação perfeita entre X e Y. A relação entre as duas variáveis é negativa, i.e., quando X aumenta Y diminui.
B - A recta é uma boa aproximação da relação entre X e Y. A relação entre as duas variáveis é positiva, i.e., quando X aumenta Y também aumenta.
C - A recta não é uma boa aproximação pois não há relação entre X e Y.
D - A recta não é uma boa aproximação da relação entre X e Y. A relação entre X e Y não é linear, i.e., não é representada por uma recta. Na figura é sugerida, a tracejado, uma relação quadrática.
Para avaliar se a recta é, ou não, uma boa aproximação da relação entre duas variáveis utiliza-se uma estatística designada coeficiente de correlação de Pearson, ou simplesmente, correlação. Este coeficiente é normalmente representada pela letra r.
A correlação, é então, uma medida da 'qualidade' da aproximação da relação entre duas variáveis por uma recta, ou seja, a correlação mede a 'força' da associação linear entre duas variáveis.
Nota: A fórmula de cálculo do coeficiente de correlação não faz parte do programa deste módulo, mas pode ser consultada aqui.
O coeficiente de correlação varia entre -1 e 1. O valor 0 (zero) significa que não há relação linear, o valor 1 indica uma relação linear perfeita e o valor -1 também indica uma relação linear perfeita mas inversa, ou seja quando uma das variáveis aumenta a outra diminui. Quanto mais próximo estiver de 1 ou -1, mais forte é a associação linear entre as duas variáveis.
Nota: Uma correlação 0, ou próxima de 0, não implica obrigatoriamente, que as duas variáveis não estão relacionadas mas apenas que as duas variáveis não estão relacionadas de uma forma linear. No caso do diagrama D da figura 5 as duas variáveis estão relacionadas mas não linearmente.
Nos diagramas de dispersão apresentados (figura 5) os coeficientes de correlação são respectivamente, A:-1,B: 0.91, C: 0 e D: 0.
No estudo da relação entre o consumo de vegetais e taxa de mortalidade, obtém-se uma correlação de -0.743 e -0.814 para o sexo feminino e masculino respectivamente (figura 6).
(Como obter os coeficientes de correlação de Pearson no SPSS?)
Outra vantagem do uso da correlação como medida de associação linear de duas variáveis é que o quadrado deste coeficiente (r2) é interpretado como a percentagem de variação explicada por uma das variáveis em relação à outra. No caso estudado, pode-se dizer que o consumo de vegetais explica 55% (=0.7432) da variação da taxa de mortalidade feminina e 66% (=0.8142) da masculina.
(Pode praticar a identificação do valor de correlações numa simulação)