Regressão Linear

Ilustração de regressão linear

A regressão linear é uma das técnicas estatísticas mais utilizadas para modelar a relação entre duas variáveis quantitativas. Ela permite prever o valor de uma variável (dependente) a partir do valor de outra (independente), ajustando uma reta aos dados observados.


O que é Regressão Linear?

A regressão linear simples busca encontrar a melhor reta que descreve a relação entre uma variável explicativa (X) e uma variável resposta (Y). A equação geral é:

\[Y = a + bX + \varepsilon\]

Exemplo Prático em Julia

Vamos ajustar uma regressão linear simples usando Julia.

julia
using DataFrames, GLM, Plots

# Dados de exemplo: Horas de estudo (X) e Nota na prova (Y)
dados = DataFrame(HorasEstudo = [5, 7, 8, 10, 12, 15, 18, 20],
                 Nota = [6, 7, 7.5, 8, 8.5, 9, 9.5, 10])

# Ajuste do modelo linear
modelo = lm(@formula(Nota ~ HorasEstudo), dados)

# Resumo do modelo
println(coeftable(modelo))

# Previsão para 14 horas de estudo
pred = predict(modelo, DataFrame(HorasEstudo = [14]))
println("Previsão para 14 horas de estudo: ", pred[1])

# Visualização
scatter(dados.HorasEstudo, dados.Nota, label="Dados", xlabel="Horas de Estudo", ylabel="Nota", title="Regressão Linear")
plot!(dados.HorasEstudo, predict(modelo), label="Reta Ajustada", lw=2, color=:red)
# Saída
────────────────────────────────────────────────────────────────────────
                Coef.  Std. Error      t  Pr(>|t|)  Lower 95%  Upper 95%
────────────────────────────────────────────────────────────────────────
(Intercept)  5.30838    0.272462   19.48    <1e-05   4.64169    5.97507
HorasEstudo  0.242452   0.0211233  11.48    <1e-04   0.190765   0.294139
────────────────────────────────────────────────────────────────────────
Previsão para 14 horas de estudo: 8.702711028958717
  

Visualização da Regressão Linear

Figura: Reta de regressão ajustada aos dados de horas de estudo e nota.

Interpretação dos Resultados


Visualização Gráfica

A regressão linear pode ser visualizada como uma reta que “melhor se ajusta” aos pontos do gráfico de dispersão. O objetivo é minimizar a soma dos quadrados dos resíduos (diferença entre valores observados e previstos).


Quando Usar Regressão Linear?


Dicas e Limitações


Resolução Manual Passo a Passo

Vamos resolver o mesmo exemplo da regressão linear (Horas de Estudo vs Nota) manualmente, mostrando todos os cálculos:

Dados

Horas de Estudo (X) Nota (Y)
56
77
87.5
108
128.5
159
189.5
2010

Total de observações: \(n = 8\)

1. Calcule as médias de X e Y

\[\bar{X} = \frac{5 + 7 + 8 + 10 + 12 + 15 + 18 + 20}{8} = \frac{95}{8} = 11,875\] \[\bar{Y} = \frac{6 + 7 + 7,5 + 8 + 8,5 + 9 + 9,5 + 10}{8} = \frac{65,5}{8} = 8,1875\]

2. Calcule as somas necessárias

Vamos calcular \(\sum X_i\), \(\sum Y_i\), \(\sum X_i^2\), \(\sum Y_i^2\), \(\sum X_i Y_i\):

Xi Yi Xi2 Yi2 XiYi
56253630
77494949
87.56456.2560
1081006480
128.514472.25102
15922581135
189.532490.25171
2010400100200
95401331330827
\[\sum X_i = 95\] \[\sum Y_i = 40\] \[\sum X_i^2 = 1331\] \[\sum Y_i^2 = 330\] \[\sum X_i Y_i = 827\]

3. Calcule a variância de X e a covariância entre X e Y

A fórmula para o coeficiente angular (\(b\)) é:

\[b = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2}\]

Mas podemos usar a forma equivalente:

\[b = \frac{\sum X_i Y_i - n \bar{X} \bar{Y}}{\sum X_i^2 - n \bar{X}^2}\]

Calculando:

\[n \bar{X} \bar{Y} = 8 \times 11,875 \times 8,1875 = 8 \times 97,22265625 = 777,78125\] \[n \bar{X}^2 = 8 \times (11,875)^2 = 8 \times 141,015625 = 1128,125\]

Agora:

\[\sum X_i Y_i - n \bar{X} \bar{Y} = 827 - 777,78125 = 49,21875\] \[\sum X_i^2 - n \bar{X}^2 = 1331 - 1128,125 = 202,875\]

Portanto:

\[b = \frac{49,21875}{202,875} \approx 0,24245\]

4. Calcule o intercepto (\(a\))

\[a = \bar{Y} - b \bar{X} = 8,1875 - 0,24245 \times 11,875 \approx 8,1875 - 2,8805 = 5,3070\]

5. Equação da reta ajustada

\[\boxed{Y = 5,31 + 0,24 X}\]

(Arredondando para duas casas decimais)

6. Previsão para 14 horas de estudo

\[Y = 5,31 + 0,24 \times 14 = 5,31 + 3,36 = 8,67\]

(Usando mais casas decimais, \(Y = 5,30838 + 0,24245 \times 14 = 5,30838 + 3,3943 = 8,7027\))

7. Interpretação


Calculadora de Regressão Linear

XY
Os dados iniciais são os mesmos do exemplo acima. Você pode adicionar, remover ou prever valores.

Referências

  1. Montgomery, D. C., & Peck, E. A. (2012). Introduction to Linear Regression Analysis.
  2. Draper, N. R., & Smith, H. (1998). Applied Regression Analysis.
  3. Triola, M. F. (2017). Introdução à Estatística.