Regresión con Constante: Fundamentos, Supuestos y Estimación MCO

Modelo de Regresión con una Constante

Modelo de Regresión de una Constante

Término constante µ; variable dependiente Yt; Ut error aleatorio. Yt = µ + Ut

Supuestos Básicos del Modelo

1º supuesto: La media poblacional de E[Ut] = 0

2º supuesto: Homocedasticidad. V(Ut) = E(Ut – E(Ut))2 = E(Ut)2 = σ2

El incumplimiento de este supuesto se llama heterocedasticidad, e implica que esta varianza no es constante. V(Ut) = E(Ut2) = σ2t

3º supuesto: Normalidad. El error aleatorio Ut tiene una distribución normal.

4º supuesto: Independencia o ausencia de correlación. f(U1, …Un) = f(U1) * .. * f(Un)

El incumplimiento de este supuesto se denomina autocorrelación.

Cov(Ut, Us) = E((Ut – E(Ut)) * (Us – E(Us))) = E(UtUs) = 0

Teorema: Distribución Normal de la Variable Dependiente

La distribución normal de probabilidad de la variable dependiente es: Yt = µ + Ut

Y ~ N(µ, σ2) → Yt ~ iidN (E(Yt), V(Yt)) = iidN(µ, σ2)

E(Yt) = E(µ + Ut) = µ

V(Yt) = E(Yt – E(Yt))2 = E(Ut)2 = σ2

Demostración: Distribución de la Media de Ut

Demostrar que la media de Ut se distribuye como una N de media 0 y varianza (σ2/n)

Ū ~ N(E(Ū), V(Ū)) = N(0, σ2/n)

Demostración:

  1. Normalidad: Por la propiedad reproductiva de la distribución normal de la variable aleatoria Ū, que es una transformación lineal del error aleatorio gaussiano Ut, entonces sigue una distribución normal.
  2. E(Ū) = E(∑Ut / n) = 0
  3. Homocedasticidad: V(Ū) = E(Ū – E(Ū))2 = E(Ū)2 = V(Ū) = σ2/n

Distribución Normal Estándar

Si Yt ~ iidN(µ, σ2), entonces la variable Zt sigue una distribución N estándar.

Zt = (Yt – µ) / σ; Zt ~ iidN(E(Zt), V(Zt)) = iidN(0, 1)

  1. Normalidad.
  2. E(Zt) = E((Yt – µ) / σ) = (µ – µ) / σ = 0
  3. V(Zt) = E(Zt – E(Zt))2 = E((Yt – µ) / σ)2 = σ2 / σ2 = 1

Ū ~ N(0, σ2/n) tipificada: z = (Ū – 0) / (σ / √n) ~ N(0, 1)

  1. Normalidad
  2. E(z) = E(Ū) / (σ / √n) = 0
  3. V(z) = E(z – E(z))2 = E(Ū)2 / (σ / √n)2 = (σ2 / n) / (σ2 / n) = 1

Estimación Mínimo Cuadrático Ordinario (MCO)

Yt = µ̂ + Ût

El parámetro µ es desconocido y hay que estimar.

El método de estimación MCO busca aquellos estimadores que minimicen la suma de los cuadrados de los residuos (SCR).

S(µ̂) = ∑Ût2 = ∑(Yt – Ŷt)2 = ∑(Yt – µ̂)2

Ût = Yt – Ŷt = Yt – µ̂

Proposición: Estimador MCO de µ

El estimador de mínimos cuadrados de µ en la regresión de Y sobre una constante es la media muestral de Y: µ̂MCO = ȳ

Demostración:

La función S(µ̂) tiene un mínimo en el punto µ̂ = ȳ

  • Si S'(µ̂) = 0 → ∑(Yt – µ̂)2 = 0 → 2∑(Yt – µ̂)(-1) = 0 → ∑(Yt) – ∑(µ̂) = 0 → µ̂ = ∑Yt / n = ȳ
  • Si S»(µ̂) > 0 → 2∑(Yt – µ̂)(-1) = 0 → -2∑(-1) = 2 * n

Proposición: Residuos y Suma Cero

Los residuos en la regresión sobre una constante coinciden con los datos de Y centrados: Ût = Yt – ȳ cuya suma es igual a cero: ∑Ut = ∑(Yt – µ) = ∑(Yt – ȳ) = 0

Demostración:

CPO: S'(µ) = S'(ȳ) = ∑(Yt – µ̂) = -2∑(Yt – ȳ) = 0

Se cumple porque: ∑(Yt – ȳ) = ∑(Yt) – ∑(ȳ) = ∑(Yt) – n * ȳ = ∑(Yt) – ∑(Yt) = 0

Propiedades Numéricas de los Residuos

La suma de los residuos tiene que ser cero: ∑Ut = ∑(Yt – µ) = ∑(Yt – ȳ) = 0

Demostrar que hay n-1 datos centrados que pueden variar libremente.

∑(Yt – ȳ) = (Y1 – ȳ) + (Y2 – ȳ) + …. + (Yn – ȳ) = 0

(Y1 – ȳ) = -(Y2 – ȳ) -…-(Yn – ȳ) = -∑(Yt – ȳ)

(Yn – ȳ) = -(Y1 – ȳ) -(Y2 – ȳ) -…-(Yn-1 – ȳ) = -∑(Yt – ȳ)

Distribución de la Media Muestral (Distribución del Estimador MCO µ̂)

Partiendo del modelo Yt = µ + Ut, la distribución muestral de ȳ es N(µ, σ2/n)

Yt ~ N(E(Yt), V(Yt)) = N(µ, σ2/n)

  1. Normalidad: ȳ = ∑Yt / n = (nµ / n) + ∑Ut = µ + ū; µ̂ es lineal.
  2. Media: E(ȳ) = E(µ̂ + ū) = µ; µ̂ es insesgado.
  3. Varianza: V(ȳ) = E(ū)2 = E(U12 + .. + Un2 + U1U2 + .. + UN-1UN) / n2 = σ2/n; µ̂ es eficiente.

Teorema de Gauss-Markov

µ̂LG = ∑Wt * Yt; si Wt = 1/n → µ̂LG = µ̂ porque µ̂LG = ∑Wt * Yt = ∑Yt / n = ȳ = µ̂

El estimador µ̂LG sigue una distribución N(µ∑Wt, σ2∑Wt2)

  1. µ̂LG = ∑Wt * Yt = ∑Wt(µ + Ut) = µ∑Wt + ∑WtUt
  2. E(µ̂LG) = µ∑Wt + ∑Wt * E(Ut) = µ∑Wt; µ̂LG insesgado
  3. V(µ̂LG) = E(∑WtUt)2 = E(∑Wt2Ut2 + 2∑∑WtWjUtUj) = σ2∑Wt2

Comparar la V(µ̂LG) con la V(µ̂):

Wt = 1/n + δt; si ∑Wt = 1 → ∑(1/n + δt) = 1 → ∑δt = 0

La suma de cuadrados de los pesos Wt es:

∑Wt2 = ∑(1/n + δt)2 = ∑(1/n2 + 2δt/n + δt2) = 1/n + ∑δt2 por lo que:

V(µ̂LG) = σ2∑Wt2 = σ2(1/n + ∑δt2) = σ2/n + σ2∑δt2 => V(µ̂) <= V(µ̂LG)

µ̂ es eficiente

La ȳ o estimador de µ (µ̂) cumple 3 propiedades estadísticas deseables de un buen estimador:

  1. Insesgadez: Es insesgado si E(µ̂) = µ
  2. Eficiencia: Es eficiente si la V(µ̂) < que la de cualquier otro estimador de µ.
  3. Consistencia: Si coincide con el parámetro en muestras muy grandes.

Demostración:

  1. La media de las estimaciones del parámetro µ en todas las posibles muestras aleatorias de tamaño n coincide con el parámetro µ.
  2. El teorema GM establece que la varianza de la distribución muestral ȳ es la menor en la clase de estimadores lineales insesgados.
  3. Es consistente si al aumentar el tamaño muestral, el estimador tiende al parámetro a estimar.

Distribución del Ratio Z

El ratio z se distribuye como una N estándar. Z = (ȳ – µ) / σȳ; z ~ N(µ, σ/√n)

  1. ȳ ~ N(µ, σ2/n) → z = (ȳ – µ) / (σ / √n) ~ N(0, 1)
  2. E(z) = E(ū) / (σ / √n) = 0
  3. V(z) = E(z)2 = E(ū)2 / (σ2 / n) = (σ2 / n) / (σ2 / n) = 1

Distribución de la Varianza Muestral

S2y = ∑(Yt – ȳ)2 / (n – 1)

E(Xk2) = k; V(Xk2) = 2k

En el modelo Yt = µ + Ut, la varianza muestral S2y sigue una distribución chi-cuadrado con n-1 grados de libertad.

(n – 1)S2y / σ2 ~ X2n-1

En el modelo Yt = µ + Ut, se cumple que S2y = S2u → S2y = ∑(Yt – ȳ)2 / (n – 1) = ∑(Ut – ū)2 / (n – 1) = S2u

Por tanto, el estadístico (n – 1)S2y / σ2 puede escribirse como:

(n – 1)S2y / σ2 = (n – 1)S2u / σ2 = ∑(Ut2 – 2ūUt + ū2) / σ2 = ∑(Ut / σ)2 – (ū / (σ / √n))2 = X2n – X21 = X2n-1

Propiedades de la Varianza Muestral

Sea el modelo Yt = µ + Ut, veremos que la varianza muestral Sy2 cumple 3 propiedades:

  1. Insesgadez: Para calcular la insesgadez de σ̂2, utilizamos una propiedad X2, E(Xk2) = k

E(Xk2) = k → E(X2n-1) = E((n – 1)Sy2 / σ2) = (n – 1) → (n – 1)E(Sy2) / σ2 = (n – 1) → E(Sy2) = σ2

  1. Varianza: V(X2n-1) = E(X2n-1 – E(X2n-1))2 = E(((n – 1)S2y / σ2) – (n – 1))2 = 2(n – 1) → ((n – 1)2 * E(S2y / σ2 – 1)2) = 2(n – 1) → ((n – 1) * E((S2y – σ2) / σ2)2) = 2 → ((n – 1) / σ4) * E((S2y – σ2)2) = 2 → E((S2y – σ2)2) = E((S2y – E(S2y))2) = V(S2y) = (2σ4) / (n – 1)
  2. Consistencia: La varianza muestral S2y es un estimador consistente de la varianza poblacional.

Distribución Conjunta de la Media y la Varianza

Modelo Yt = µ + Ut, la media y la varianza muestral son variables aleatorias independientes.

Demostración:

Serán independientes si su covarianza es nula.

Cov(Yt – ȳ, ȳ) = E(((Yt – ȳ) – E(Yt – ȳ)) * (ȳ – E(ȳ))) = E((Yt – ȳ) * (ȳ – µ)) = E((µ + Ut – µ – ū) * (µ + ū – µ)) = E((Ut – ū) * ū) = E((Ut – ∑Ut / n) * (∑Ut / n)) = E((Ut – ∑Ut / n) * (U1 + .. + Un) / n) = (E(Ut2) / n) – (∑E(Ut2) / n2) = (σ2 / n) – (nσ2 / n2) = (σ2 / n) – (σ2 / n) = 0

Estadístico t de Student

El estadístico t = (ȳ – µ) / σ̂ȳ sigue una distribución t de Student con n-1 grados. Desviación típica = Sy / √n

Sabemos que µ̂ ~ N(E(µ̂), V(µ̂)) = N(µ, σ2/n)

(µ̂ – µ) / √(σ2 / n) = (ȳ – µ) / (σ / √n) ~ N(0, 1)

La media muestral de la varianza: σ̂2 = Sy2 = ((n – 1)Sy) / σ2 ~ X2n-1

Y como además la media muestral µ̂ = ȳ y la varianza muestral σ̂2 = S2y son dos variables aleatorias independientes.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.