Cheat Sheet: Correlação e Regressão Linear
-
Objetivo: medir força e direção da relação linear entre duas variáveis
$X$ e$Y$ (diagrama de dispersão elíptico). -
Coeficiente de Correlação de Pearson (
$r$ ):
-
$n$ : número de pares$(x_i,y_i)$ -
$\bar x = \frac{\sum x_i}{n}$ ,$\bar y = \frac{\sum y_i}{n}$ -
Intervalo de
$r$ :$$ -1 \le r \le 1 $$
-
$r>0$ : correlação direta (positiva) -
$r<0$ : correlação inversa (negativa) -
$r=0$ : sem correlação linear
-
-
Classificação qualitativa:
|
$|r|$ | Grau de Associação | |-----------|---------------------| | 0 | nula | | 0 – 0,3 | fraca | | 0,3 – 0,6 | regular | | 0,6 – 0,9 | forte | | 0,9 – 1,0 | muito forte | | 1,0 | perfeita |
-
Modelo:
$$ \hat y = a + b,x $$
-
$a$ : intercepto (valor previsto de$y$ quando$x=0$ ) -
$b$ : coeficiente angular (inclinação)
-
-
Método dos Mínimos Quadrados:
Minimizar$\displaystyle \sum_{i=1}^n (y_i - \hat y_i)^2$ . -
Fórmulas para os coeficientes:
$$ b = \frac{\displaystyle \sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)} {\displaystyle \sum_{i=1}^n (x_i - \bar x)^2} \quad,\quad a = \bar y - b,\bar x $$
Equivalente em termos de somatórios:
$$ b = \frac{\sum xy - \tfrac{\sum x,\sum y}{n}} {\sum x^2 - \tfrac{(\sum x)^2}{n}} \quad,\quad a = \frac{\sum y}{n} - b,\frac{\sum x}{n} $$
-
Previsão:
Para um $x^$, calcula-se $\hat y^ = a + b,x^*$.
-
Resíduos:
$e_i = y_i - \hat y_i$ . -
Soma dos Quadrados dos Resíduos (Sr):
$$ S_r = \sum_{i=1}^n (y_i - \hat y_i)^2 $$
-
Soma Total dos Quadrados (St):
$$ S_t = \sum_{i=1}^n (y_i - \bar y)^2 $$
-
Coeficiente de Determinação (
$R^2$ ):$$ R^2 = 1 - \frac{S_r}{S_t} \quad(0 \le R^2 \le 1) $$
- Interpretação: fração da variação total de
$Y$ explicada pelo modelo linear. - Ex.:
$R^2 = 0,90$ significa 90% da variação explicada.
- Interpretação: fração da variação total de
-
Erro-padrão da estimativa (
$S_{y/x}$ ):$$ S_{y/x} = \sqrt{\frac{S_r}{n-2}} $$
Indica dispersão dos pontos em torno da reta.
-
Regressão vs. Interpolação:
- Regressão: ajusta uma curva que não passa por todos os pontos; usa mínimos quadrados para tendência (ruído nos dados).
- Interpolação: ajusta uma curva que passa exatamente por cada ponto (dados precisos).
-
Assunções da Regressão Linear Simples:
- Relação linear entre
$X$ e$Y$ . - Resíduos com média zero e variância constante.
- Independência dos erros.
- (Opcional) Normalidade dos resíduos para inferência.
- Relação linear entre
-
Interpretação de Sinal e Magnitude de
$b$ e$r$ :-
$b>0$ e$r>0$ : relação direta. -
$b<0$ e$r<0$ : relação inversa. - Magnitude indica intensidade (classificação de
$r$ ).
-
Dica de “colão”: use esta estrutura em uma única folha, com seções numeradas, fórmulas destacadas em negrito e uma pequena anotação de como aplicar cada fórmula em exercícios (por exemplo, cole os valores de
$\sum x$ ,$\sum y$ ,$\sum xy$ etc. e calcule$a$ ,$b$ ,$r$ ,$R^2$ diretamente).
Bom estudo e boa prova!