Regresión con Constante: Fundamentos, Supuestos y Estimación MCO

Modelo de Regresión con una Constante

Modelo de Regresión de una Constante

Término constante µ; variable dependiente Yt; Ut error aleatorio. Yt = µ + Ut

Supuestos Básicos del Modelo

1º supuesto: La media poblacional de E[Ut] = 0

2º supuesto: Homocedasticidad. V(Ut) = E(Ut – E(Ut))² = E(Ut)² = σ²

El incumplimiento de este supuesto se llama heterocedasticidad, e implica que esta varianza no es constante. V(Ut) = E(Ut²) = σ²_t

3º supuesto: Normalidad. El error aleatorio Ut tiene una distribución normal.

4º supuesto: Independencia o ausencia de correlación. f(U₁, …U_n) = f(U₁) * .. * f(U_n)

El incumplimiento de este supuesto se denomina autocorrelación.

Cov(U_t, U_s) = E((U_t – E(U_t)) * (U_s – E(U_s))) = E(U_tU_s) = 0

Teorema: Distribución Normal de la Variable Dependiente

La distribución normal de probabilidad de la variable dependiente es: Yt = µ + Ut

Y ~ N(µ, σ²) → Yt ~ iidN (E(Yt), V(Yt)) = iidN(µ, σ²)

E(Yt) = E(µ + Ut) = µ

V(Yt) = E(Yt – E(Yt))² = E(Ut)² = σ²

Demostración: Distribución de la Media de Ut

Demostrar que la media de Ut se distribuye como una N de media 0 y varianza (σ²/n)

Ū ~ N(E(Ū), V(Ū)) = N(0, σ²/n)

Demostración:

Normalidad: Por la propiedad reproductiva de la distribución normal de la variable aleatoria Ū, que es una transformación lineal del error aleatorio gaussiano Ut, entonces sigue una distribución normal.
E(Ū) = E(∑Ut / n) = 0
Homocedasticidad: V(Ū) = E(Ū – E(Ū))² = E(Ū)² = V(Ū) = σ²/n

Distribución Normal Estándar

Si Yt ~ iidN(µ, σ²), entonces la variable Zt sigue una distribución N estándar.

Zt = (Yt – µ) / σ; Zt ~ iidN(E(Zt), V(Zt)) = iidN(0, 1)

Normalidad.
E(Zt) = E((Yt – µ) / σ) = (µ – µ) / σ = 0
V(Zt) = E(Zt – E(Zt))² = E((Yt – µ) / σ)² = σ² / σ² = 1

Ū ~ N(0, σ²/n) tipificada: z = (Ū – 0) / (σ / √n) ~ N(0, 1)

Normalidad
E(z) = E(Ū) / (σ / √n) = 0
V(z) = E(z – E(z))² = E(Ū)² / (σ / √n)² = (σ² / n) / (σ² / n) = 1

Estimación Mínimo Cuadrático Ordinario (MCO)

Yt = µ̂ + Ût

El parámetro µ es desconocido y hay que estimar.

El método de estimación MCO busca aquellos estimadores que minimicen la suma de los cuadrados de los residuos (SCR).

S(µ̂) = ∑Ût² = ∑(Yt – Ŷt)² = ∑(Yt – µ̂)²

Ût = Yt – Ŷt = Yt – µ̂

Proposición: Estimador MCO de µ

El estimador de mínimos cuadrados de µ en la regresión de Y sobre una constante es la media muestral de Y: µ̂_MCO = ȳ

Demostración:

La función S(µ̂) tiene un mínimo en el punto µ̂ = ȳ

Si S'(µ̂) = 0 → ∑(Yt – µ̂)² = 0 → 2∑(Yt – µ̂)(-1) = 0 → ∑(Yt) – ∑(µ̂) = 0 → µ̂ = ∑Yt / n = ȳ
Si S»(µ̂) > 0 → 2∑(Yt – µ̂)(-1) = 0 → -2∑(-1) = 2 * n

Proposición: Residuos y Suma Cero

Los residuos en la regresión sobre una constante coinciden con los datos de Y centrados: Ût = Yt – ȳ cuya suma es igual a cero: ∑Ut = ∑(Yt – µ) = ∑(Yt – ȳ) = 0

Demostración:

CPO: S'(µ) = S'(ȳ) = ∑(Yt – µ̂) = -2∑(Yt – ȳ) = 0

Se cumple porque: ∑(Yt – ȳ) = ∑(Yt) – ∑(ȳ) = ∑(Yt) – n * ȳ = ∑(Yt) – ∑(Yt) = 0

Propiedades Numéricas de los Residuos

La suma de los residuos tiene que ser cero: ∑Ut = ∑(Yt – µ) = ∑(Yt – ȳ) = 0

Demostrar que hay n-1 datos centrados que pueden variar libremente.

∑(Yt – ȳ) = (Y₁ – ȳ) + (Y₂ – ȳ) + …. + (Y_n – ȳ) = 0

(Y₁ – ȳ) = -(Y₂ – ȳ) -…-(Y_n – ȳ) = -∑(Yt – ȳ)

(Y_n – ȳ) = -(Y₁ – ȳ) -(Y₂ – ȳ) -…-(Y_n-1 – ȳ) = -∑(Yt – ȳ)

Distribución de la Media Muestral (Distribución del Estimador MCO µ̂)

Partiendo del modelo Yt = µ + Ut, la distribución muestral de ȳ es N(µ, σ²/n)

Yt ~ N(E(Yt), V(Yt)) = N(µ, σ²/n)

Normalidad: ȳ = ∑Yt / n = (nµ / n) + ∑Ut = µ + ū; µ̂ es lineal.
Media: E(ȳ) = E(µ̂ + ū) = µ; µ̂ es insesgado.
Varianza: V(ȳ) = E(ū)² = E(U₁² + .. + U_n² + U₁U₂ + .. + U_N-1U_N) / n² = σ²/n; µ̂ es eficiente.

Teorema de Gauss-Markov

µ̂_LG = ∑Wt * Yt; si Wt = 1/n → µ̂_LG = µ̂ porque µ̂_LG = ∑Wt * Yt = ∑Yt / n = ȳ = µ̂

El estimador µ̂_LG sigue una distribución N(µ∑Wt, σ²∑Wt²)

µ̂_LG = ∑Wt * Yt = ∑Wt(µ + Ut) = µ∑Wt + ∑WtUt
E(µ̂_LG) = µ∑Wt + ∑Wt * E(Ut) = µ∑Wt; µ̂_LG insesgado
V(µ̂_LG) = E(∑WtUt)² = E(∑Wt²Ut² + 2∑∑WtWjUtUj) = σ²∑Wt²

Comparar la V(µ̂_LG) con la V(µ̂):

Wt = 1/n + δ_t; si ∑Wt = 1 → ∑(1/n + δt) = 1 → ∑δ_t = 0

La suma de cuadrados de los pesos Wt es:

∑Wt² = ∑(1/n + δt)² = ∑(1/n² + 2δ_t/n + δ_t²) = 1/n + ∑δ_t² por lo que:

V(µ̂_LG) = σ²∑Wt² = σ²(1/n + ∑δ_t²) = σ²/n + σ²∑δ_t² => V(µ̂) <= V(µ̂_LG)

µ̂ es eficiente

La ȳ o estimador de µ (µ̂) cumple 3 propiedades estadísticas deseables de un buen estimador:

Insesgadez: Es insesgado si E(µ̂) = µ
Eficiencia: Es eficiente si la V(µ̂) < que la de cualquier otro estimador de µ.
Consistencia: Si coincide con el parámetro en muestras muy grandes.

Demostración:

La media de las estimaciones del parámetro µ en todas las posibles muestras aleatorias de tamaño n coincide con el parámetro µ.
El teorema GM establece que la varianza de la distribución muestral ȳ es la menor en la clase de estimadores lineales insesgados.
Es consistente si al aumentar el tamaño muestral, el estimador tiende al parámetro a estimar.

Distribución del Ratio Z

El ratio z se distribuye como una N estándar. Z = (ȳ – µ) / σ_ȳ; z ~ N(µ, σ/√n)

ȳ ~ N(µ, σ²/n) → z = (ȳ – µ) / (σ / √n) ~ N(0, 1)
E(z) = E(ū) / (σ / √n) = 0
V(z) = E(z)² = E(ū)² / (σ² / n) = (σ² / n) / (σ² / n) = 1

Distribución de la Varianza Muestral

S²_y = ∑(Yt – ȳ)² / (n – 1)

E(X_k²) = k; V(X_k²) = 2k

En el modelo Yt = µ + Ut, la varianza muestral S²_y sigue una distribución chi-cuadrado con n-1 grados de libertad.

(n – 1)S²_y / σ² ~ X²_n-1

En el modelo Yt = µ + Ut, se cumple que S²_y = S²_u → S²_y = ∑(Yt – ȳ)² / (n – 1) = ∑(Ut – ū)² / (n – 1) = S²_u

Por tanto, el estadístico (n – 1)S²_y / σ² puede escribirse como:

(n – 1)S²_y / σ² = (n – 1)S²_u / σ² = ∑(Ut² – 2ūUt + ū²) / σ² = ∑(Ut / σ)² – (ū / (σ / √n))² = X²_n – X²₁ = X²_n-1

Propiedades de la Varianza Muestral

Sea el modelo Yt = µ + Ut, veremos que la varianza muestral S_y² cumple 3 propiedades:

Insesgadez: Para calcular la insesgadez de σ̂², utilizamos una propiedad X², E(X_k²) = k

E(X_k²) = k → E(X²_n-1) = E((n – 1)S_y² / σ²) = (n – 1) → (n – 1)E(S_y²) / σ² = (n – 1) → E(S_y²) = σ²

Varianza: V(X²_n-1) = E(X²_n-1 – E(X²_n-1))² = E(((n – 1)S²_y / σ²) – (n – 1))² = 2(n – 1) → ((n – 1)² * E(S²_y / σ² – 1)²) = 2(n – 1) → ((n – 1) * E((S²_y – σ²) / σ²)²) = 2 → ((n – 1) / σ⁴) * E((S²_y – σ²)²) = 2 → E((S²_y – σ²)²) = E((S²_y – E(S²_y))²) = V(S²_y) = (2σ⁴) / (n – 1)
Consistencia: La varianza muestral S²_y es un estimador consistente de la varianza poblacional.

Distribución Conjunta de la Media y la Varianza

Modelo Yt = µ + Ut, la media y la varianza muestral son variables aleatorias independientes.

Demostración:

Serán independientes si su covarianza es nula.

Cov(Yt – ȳ, ȳ) = E(((Yt – ȳ) – E(Yt – ȳ)) * (ȳ – E(ȳ))) = E((Yt – ȳ) * (ȳ – µ)) = E((µ + Ut – µ – ū) * (µ + ū – µ)) = E((Ut – ū) * ū) = E((Ut – ∑Ut / n) * (∑Ut / n)) = E((Ut – ∑Ut / n) * (U₁ + .. + U_n) / n) = (E(Ut²) / n) – (∑E(Ut²) / n²) = (σ² / n) – (nσ² / n²) = (σ² / n) – (σ² / n) = 0

Estadístico t de Student

El estadístico t = (ȳ – µ) / σ̂_ȳ sigue una distribución t de Student con n-1 grados. Desviación típica = S_y / √n

Sabemos que µ̂ ~ N(E(µ̂), V(µ̂)) = N(µ, σ²/n)

(µ̂ – µ) / √(σ² / n) = (ȳ – µ) / (σ / √n) ~ N(0, 1)

La media muestral de la varianza: σ̂² = S_y² = ((n – 1)S_y) / σ² ~ X²_n-1

Y como además la media muestral µ̂ = ȳ y la varianza muestral σ̂² = S²_y son dos variables aleatorias independientes.

Modelo de Regresión con una Constante

Supuestos Básicos del Modelo

Teorema: Distribución Normal de la Variable Dependiente

Demostración: Distribución de la Media de Ut

Demostración:

Distribución Normal Estándar

Estimación Mínimo Cuadrático Ordinario (MCO)

Proposición: Estimador MCO de µ

Demostración:

Proposición: Residuos y Suma Cero

Demostración:

Propiedades Numéricas de los Residuos

Distribución de la Media Muestral (Distribución del Estimador MCO µ̂)

Teorema de Gauss-Markov

Distribución del Ratio Z

Distribución de la Varianza Muestral

Propiedades de la Varianza Muestral

Distribución Conjunta de la Media y la Varianza

Demostración:

Estadístico t de Student

Deja una respuesta Cancelar la respuesta