Estimación MCO: Propiedades, Distribución y Aplicaciones en Econometría

Estimación MCO: Propiedades, Distribución y Aplicaciones

Conceptos Básicos del Estimador MCO

El estimador de Mínimos Cuadrados Ordinarios (MCO) se define como:

PC = pico (Nota: Se refiere al valor estimado)

SCR = Sumatorio Upc2 = U’pc * Upc = (Y – XBpc)'(Y – XBpc)

Donde:

  • Upc = (upc1, upc2, …, upcn) (en vertical)
  • U’pc (en horizontal) = Y – Ypc = Y – XBpc

Aplicando las condiciones de mínimo, se obtiene:

Bpc = ((X’X)-1) * X’Y

Características de los Residuos MCO

Upc = Y – XBpc

Es una variable aleatoria normal.

  • Vector de esperanzas: E(Upc/X) = 0
  • Matriz var-cov: ΣUpcUpc = Var(Upc/X) = E(Upc – E(Upc/X)) * (Upc – E(Upc/X))’ = σ2M
  • Distribución: Upc/X => N(0, σ2M)

Nota: M es distinta de I, por tanto, los residuos son heterocedásticos y correlacionados.

Expresiones Matriciales de la Distribución de Y/X

Como Y/X es una función lineal de u, su distribución es n-dimensional.

  • Vector de medias: E(Y/X) = E(XB + u/X) = XB + E(u/X) = XB
  • Matriz de varianzas-covarianzas: ΣYY = E((Y – XB)(Y – XB)’/X) = E(uu’/X) = σ2I
  • Distribución: Y/X => N(XB, σ2I)

Características de Ypc

Es una variable aleatoria normal.

  • Vector de esperanzas: E(Ypc/X) = X * E(Bpc/X) = XB
  • Matriz var-cov: ΣYpcYpc = E((Ypc – E(Ypc/X)) * (Ypc – E(Ypc/X))’/X) = σ2X(X’X)-1X’

Propiedades y Distribución del Estimador MCO

Bajo los supuestos de MCO, los estimadores son:

  1. Lineales en Y y en U:

    Bpc = (X’X)-1 * X’Y = (X’X)-1 * X’XB + (X’X)-1 * X’U = B + (X’X)-1 * X’U

  2. Insesgados:

    E(Bpc/X) = E(B + (X’X)-1 * X’U/X) = B + (X’X)-1 * X’E(U/X) = B

  3. Óptimos:

    ΣBpcBpc = σ2(X’X)-1 * X’X * (X’X)-1 = σ2(X’X)-1

  4. Distribución normal:

    Bpc/X => N(B, σ2(X’X)-1)

  5. Consistentes:

    Plimn->∞ Bpc = Plimn->∞ (B + (X’X)-1 * X’u) = Plimn->∞ B + Plimn->∞ (X’X)-1 * X’u

    Multiplicando y dividiendo por N:

    B + Plimn->∞ ((X’X)/N)-1 * (X’U)/N = B + Plimn->∞ ((X’X)/N)-1 * Plimn->∞ (X’U)/N = B

Contrastes de Hipótesis

Contraste de Significación Individual

Contraste para evaluar si una variable individual (Bj) es significativa:

Bj / Sbj = tn-k-1

  • H0: Bj = 0
  • H1: Bj ≠ 0

Se rechaza H0 si el p-valor es menor que el nivel de significación.

Contraste de Significación Conjunta

Contraste para evaluar si las variables del modelo son conjuntamente significativas:

(SCE / S2) / K = Fn-k-1

  • H0: (B1, B2, B3) = 0
  • H1: Al menos un Bi ≠ 0

Se rechaza H0 si el p-valor es menor que el nivel de significación.

Interpretación de Coeficientes

Cuando el valor de la variable a interpretar se incrementa en 1 unidad, la variable endógena cambia (aumenta o disminuye) en el valor del coeficiente de dicha variable.

Contraste de Hipótesis General

(Ur‘Ur – U’U) / (S2u * H) = FHN-k-1

Nota: Las ‘u’ con pico (Upc) se obtienen de la primera estimación (View > Coefficient Diagnostics > Wald test).

Ejemplo: 0.5*C(1) + 500*C(3) = 0

Comparación de Efectos entre Grupos (Ej. Hombres y Mujeres)

Se necesita una variable multiplicativa que incluya al menos a uno de los grupos (hombres o mujeres).

Contraste de Linealidad (Ramsey RESET Test)

  • H0: Modelo lineal
  • H1: Modelo no lineal

Se añade la variable endógena al cuadrado en la estimación (En la estimación > View > Stability Diagnostics > Ramsey RESET test > Fitted terms 1).

Si la variable endógena al cuadrado y el Fitted2 son significativos individualmente, se rechaza H0 y el modelo es no lineal.

Evaluación de la Capacidad Predictiva del Modelo

Se utiliza la U de Theil (En la estimación > Forecast). Si se evalúa una muestra más pequeña, se debe cambiar el ‘sample’. La U de Theil varía de 0 a 1; cuanto más cerca de cero, mejor.

Modelos No Lineales

  • Modelo Lineal-Log: Una variación del 1% en X está asociada con un cambio en Y de 0.01 * β.
  • Modelo Log-Lineal: Una variación de una unidad en X está asociada con un cambio en Y de 100 * β1%.
  • Modelo Log-Log: Una variación del 1% en X está asociada con un cambio en Y del β1%.

Tipos de Datos en Econometría

El carácter experimental o no experimental de los datos determina en buena medida las propiedades de la perturbación aleatoria de un modelo econométrico.

  • Datos experimentales: el término de error es aleatorio (producto del azar).
  • Datos observacionales: el término de error puede contener, además, factores relevantes no observados.

La mayor parte de la econometría está dedicada a mejorar los métodos que existen para estimar efectos causales cuando se utilizan datos del mundo real.

Tipos de Bases de Datos

  • Datos de corte transversal: Observaciones de individuos o entidades de una variable para un único periodo de tiempo.
  • Datos de series temporales: Observaciones de una variable, para un único individuo o entidad, recogidos para múltiples periodos.
  • Datos de panel: Observaciones de una variable para distintas unidades económicas a lo largo del tiempo (combinación de datos temporales y de corte transversal).

Análisis Causal

El análisis causal permite:

  • Determinar los efectos de ciertas políticas.
  • Caracterizar y cuantificar la relación de comportamiento entre variables económicas, de acuerdo con lo que sugiere la teoría económica.
  • Simular los efectos de políticas alternativas.

Tipos de Modelos No Lineales

  • Modelos no lineales en las variables: Son funciones lineales de los parámetros, por lo que pueden estimarse por MCO y se pueden realizar contrastes utilizando las herramientas vistas en temas anteriores.
  • Modelos no lineales en los parámetros: Son funciones no lineales de los parámetros y no pueden estimarse por MCO. Aunque existen otros métodos de estimación (como el método de mínimos cuadrados no lineales), no se estudiarán en este tema.

Supuestos del Estimador MCO

  • Supuesto 1: La distribución condicional de la perturbación para cada individuo, ui, dado Xi, tiene media igual a cero.
  • Supuesto 2: Los datos (Xi, Yi), i=1,2,…N, son una realización de una muestra aleatoria de tamaño N de una población desconocida. Las observaciones son independientes entre individuos y provienen de la misma distribución.
  • Supuesto 3: Se cumplen las condiciones para asegurar que los momentos muestrales convergen en probabilidad a los correspondientes momentos poblacionales.
  • Supuesto 4: La perturbación aleatoria, ui, es homoscedástica.
  • Supuesto 5: La distribución de ui, condicionada a Xi, es normal.
  • Supuesto 6 (Tema 3): No existe multicolinealidad perfecta. Ninguna columna de la matriz X’ es una combinación lineal exacta de otra u otras columnas de X.

Sesgo de Variable Omitida

  1. Si los factores omitidos son importantes para explicar Y y están correlacionados con X1 (los regresores incluidos), los estimadores de los regresores incluidos son sesgados e inconsistentes, y los contrastes no son fiables.
  2. Si los factores omitidos son importantes para explicar Y, pero no están correlacionados con los regresores incluidos, los estimadores de los regresores incluidos son insesgados y consistentes, pero los contrastes no son fiables.
  3. Si los factores omitidos no son importantes para explicar Y, no hay consecuencias. Los estimadores mantienen sus propiedades y los contrastes son fiables.

Consecuencias: Los estimadores de MCO son sesgados, y el sesgo no desaparece (inconsistentes).

Medidas de Bondad de Ajuste

  • Error estándar de la regresión: S = √(S2)
  • Coeficiente de determinación: R2 = SCE / SCT = 1 – (SCR / SCT)

Descomposición de la varianza:

Σ(Yi – Ȳ)2 = Σ(Yipc – Ȳ)2 + Σ(Uipc)2

Inconveniente: R2 no sirve para comparar modelos porque aumenta cada vez que se añade un regresor, aunque este no mejore el ajuste.

  • Coeficiente de determinación ajustado: R̄2 = 1 – ((N – 1) / (N – k – 1)) * (1 – R2)

Cuestiones Relevantes sobre R2 Ajustado

  • R2 ajustado siempre es menor que R2.
  • Añadir un regresor tiene dos efectos opuestos:
    1. Disminuye SCR y aumenta R2 ajustado.
    2. Aumenta (N – 1) / (N – k – 1).
  • El R2 ajustado puede ser negativo.
  • Cuando el tamaño de la muestra es grande, R2 ajustado y R2 son parecidos.
  • Con datos de corte transversal, es frecuente encontrar valores bajos de R2, pero la ecuación puede ser una buena estimación de la relación ceteris paribus.

Pautas sobre R2 y R2 Ajustado

  • R2 y R2 ajustado indican si los regresores son buenos para predecir o «explicar» los valores de la variable dependiente.
  • R2 y R2 ajustado no indican:
    • Si una variable incluida es significativa.
    • Si los regresores son la verdadera causa de los movimientos de la variable dependiente.
    • Si existe sesgo de variable omitida.
    • Si se ha elegido el conjunto más adecuado de regresores.
  • Estas medidas solo pueden utilizarse para comparar modelos alternativos cuando la variable endógena es la misma.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.