Análisis de Regresión Lineal: Guía Completa

MODELO DE REGRESIÓN LINEAL GENERAL

Sea el modelo econométrico especificado como: Y = β + βX + βX + … + βX + μ, o en forma matricial: Y = Xβ + μ. El análisis de regresión busca determinar la relación existente entre la variable dependiente (Y) y las variables independientes (X).

OBJETIVO

Estimar los parámetros β buscando el valor más probable de Y dados los valores de X.

SUPUESTOS

  • Hipótesis económica: Relación lineal de las variables endógenas con un conjunto de K variables explicativas X. Y = Xβ + μ.
  • Hipótesis sobre las perturbaciones (μ):
    • E(u/X) = 0: El valor esperado de la perturbación no es función de las variables independientes observadas.
    • MVC(u) = E(uu´/X) = σ²u: Homocedasticidad de las perturbaciones.
    • Cov(uu) = 0: Cada perturbación es no correlacionada con las otras.
    • Distribución de la perturbación: Normal: u/X ≈ N(0, σ²)

EL ESTIMADOR MCO (Mínimos Cuadrados Ordinarios)

El sistema de k ecuaciones lineales en los k betas se representa como: (X´X)β = X´Y (sistema de ecuaciones normales). La solución es: β = (X´X)⁻¹ X´Y.

Propiedades del estimador MCO:

  • La media muestral de los residuos es 0.
  • La covarianza muestral entre regresores y los residuos MCO es 0.
  • La covarianza muestral entre los valores estimados por MCO y los residuos MCO también es 0.

PROPIEDADES DEL MCO: INSESGADEZ

Un estimador insesgado es aquel cuya distribución está centrada sobre el verdadero valor del parámetro que se está estimando. Si se pudiera repetir el proceso de muestreo un gran número de veces, un estimador insesgado en promedio daría el verdadero valor del parámetro.

CONTRASTES DE HIPÓTESIS

Para determinar si una variable X es relevante en el modelo, se realiza un contraste de hipótesis sobre el β asociado a la variable X. Si estadísticamente el verdadero β es nulo (=0), la variable X no debería estar en el modelo. Esto se conoce como el contraste o test de significancia individual del β. Para ello se emplea:

  • Prueba Z-normal standard si se conoce σ²u.
  • Prueba t-student si solo se conoce σ²u.

Para evaluar si todas las variables X son relevantes en el modelo, se realiza el contraste o test de significancia conjunta de β. Para ello se emplea:

  • Prueba de F-fisher si tenemos q restricciones sobre varios β´s.
  • Prueba t-student si se tiene solo 1 restricción sobre varios β´s.

El análisis estadístico sugiere primero el planteamiento de las hipótesis: una H₀ (β=0) cuando la variable no contribuye a la explicación y H₁ (β≠0) cuando la variable es importante en la explicación.

P-value o Valor p

Es la probabilidad de observar un valor muestral al menos tan extremo como el valor observado dado que la hipótesis nula es verdadera. Es una manera de expresar la probabilidad de que H₀ no sea verdadera. Es el nivel más bajo de significancia (α) al cual se puede rechazar la H₀.

Si el valor p ≤ α → se rechaza H₀, si el valor P ≥ α → se acepta la H₀.

BONDAD DE AJUSTE

  • SCT (Suma Cuadrática Total): SCT = SCE + SCR.
  • SCE (Suma Cuadrática Explicada): Es una medida de las variaciones del valor estimado alrededor del promedio de la variable dependiente. Son las variaciones de Y explicadas por el modelo.
  • SCR (Suma Cuadrática Residual): Son las variaciones de Y no explicadas por la regresión.

R²: Mide el grado de ajuste lineal de la regresión e indica el % de la variación observada de Y que es explicada por la variación combinada lineal de los regresores (X´s). Está entre 0 y 1. Se selecciona como mejor modelo aquel que tiene mayor valor de R² ajustado. Otros criterios de selección de modelos incluyen Akaike, Bayesiano de Schwarz y Hannan-Quinn.

QUIEBRE ESTRUCTURAL (CHOW)

Un quiebre estructural se presenta debido a fuerzas externas o exógenas como guerras, huelgas, fenómenos naturales, etc. La existencia de un quiebre estructural implica la presencia de más de un proceso generador de datos (PGD) en la muestra con la que se está trabajando.

Test Chow: Sirve para evaluar la estabilidad de los parámetros o la presencia de un quiebre. Asume que los errores son distribuidos normalmente con la misma varianza, y que los errores son distribuidos independientemente.

  • H₀: Hay estabilidad.
  • H₁: Quiebre.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.