Estimación MCO: Propiedades, Distribución y Aplicaciones
Conceptos Básicos del Estimador MCO
El estimador de Mínimos Cuadrados Ordinarios (MCO) se define como:
PC = pico (Nota: Se refiere al valor estimado)
SCR = Sumatorio Upc2 = U’pc * Upc = (Y – XBpc)'(Y – XBpc)
Donde:
- Upc = (upc1, upc2, …, upcn) (en vertical)
- U’pc (en horizontal) = Y – Ypc = Y – XBpc
Aplicando las condiciones de mínimo, se obtiene:
Bpc = ((X’X)-1) * X’Y
Características de los Residuos MCO
Upc = Y – XBpc
Es una variable aleatoria normal.
- Vector de esperanzas: E(Upc/X) = 0
- Matriz var-cov: ΣUpcUpc = Var(Upc/X) = E(Upc – E(Upc/X)) * (Upc – E(Upc/X))’ = σ2M
- Distribución: Upc/X => N(0, σ2M)
Nota: M es distinta de I, por tanto, los residuos son heterocedásticos y correlacionados.
Expresiones Matriciales de la Distribución de Y/X
Como Y/X es una función lineal de u, su distribución es n-dimensional.
- Vector de medias: E(Y/X) = E(XB + u/X) = XB + E(u/X) = XB
- Matriz de varianzas-covarianzas: ΣYY = E((Y – XB)(Y – XB)’/X) = E(uu’/X) = σ2I
- Distribución: Y/X => N(XB, σ2I)
Características de Ypc
Es una variable aleatoria normal.
- Vector de esperanzas: E(Ypc/X) = X * E(Bpc/X) = XB
- Matriz var-cov: ΣYpcYpc = E((Ypc – E(Ypc/X)) * (Ypc – E(Ypc/X))’/X) = σ2X(X’X)-1X’
Propiedades y Distribución del Estimador MCO
Bajo los supuestos de MCO, los estimadores son:
- Lineales en Y y en U:
Bpc = (X’X)-1 * X’Y = (X’X)-1 * X’XB + (X’X)-1 * X’U = B + (X’X)-1 * X’U
- Insesgados:
E(Bpc/X) = E(B + (X’X)-1 * X’U/X) = B + (X’X)-1 * X’E(U/X) = B
- Óptimos:
ΣBpcBpc = σ2(X’X)-1 * X’X * (X’X)-1 = σ2(X’X)-1
- Distribución normal:
Bpc/X => N(B, σ2(X’X)-1)
- Consistentes:
Plimn->∞ Bpc = Plimn->∞ (B + (X’X)-1 * X’u) = Plimn->∞ B + Plimn->∞ (X’X)-1 * X’u
Multiplicando y dividiendo por N:
B + Plimn->∞ ((X’X)/N)-1 * (X’U)/N = B + Plimn->∞ ((X’X)/N)-1 * Plimn->∞ (X’U)/N = B
Contrastes de Hipótesis
Contraste de Significación Individual
Contraste para evaluar si una variable individual (Bj) es significativa:
Bj / Sbj = tn-k-1
- H0: Bj = 0
- H1: Bj ≠ 0
Se rechaza H0 si el p-valor es menor que el nivel de significación.
Contraste de Significación Conjunta
Contraste para evaluar si las variables del modelo son conjuntamente significativas:
(SCE / S2) / K = Fn-k-1
- H0: (B1, B2, B3) = 0
- H1: Al menos un Bi ≠ 0
Se rechaza H0 si el p-valor es menor que el nivel de significación.
Interpretación de Coeficientes
Cuando el valor de la variable a interpretar se incrementa en 1 unidad, la variable endógena cambia (aumenta o disminuye) en el valor del coeficiente de dicha variable.
Contraste de Hipótesis General
(Ur‘Ur – U’U) / (S2u * H) = FHN-k-1
Nota: Las ‘u’ con pico (Upc) se obtienen de la primera estimación (View > Coefficient Diagnostics > Wald test).
Ejemplo: 0.5*C(1) + 500*C(3) = 0
Comparación de Efectos entre Grupos (Ej. Hombres y Mujeres)
Se necesita una variable multiplicativa que incluya al menos a uno de los grupos (hombres o mujeres).
Contraste de Linealidad (Ramsey RESET Test)
- H0: Modelo lineal
- H1: Modelo no lineal
Se añade la variable endógena al cuadrado en la estimación (En la estimación > View > Stability Diagnostics > Ramsey RESET test > Fitted terms 1).
Si la variable endógena al cuadrado y el Fitted2 son significativos individualmente, se rechaza H0 y el modelo es no lineal.
Evaluación de la Capacidad Predictiva del Modelo
Se utiliza la U de Theil (En la estimación > Forecast). Si se evalúa una muestra más pequeña, se debe cambiar el ‘sample’. La U de Theil varía de 0 a 1; cuanto más cerca de cero, mejor.
Modelos No Lineales
- Modelo Lineal-Log: Una variación del 1% en X está asociada con un cambio en Y de 0.01 * β.
- Modelo Log-Lineal: Una variación de una unidad en X está asociada con un cambio en Y de 100 * β1%.
- Modelo Log-Log: Una variación del 1% en X está asociada con un cambio en Y del β1%.
Tipos de Datos en Econometría
El carácter experimental o no experimental de los datos determina en buena medida las propiedades de la perturbación aleatoria de un modelo econométrico.
- Datos experimentales: el término de error es aleatorio (producto del azar).
- Datos observacionales: el término de error puede contener, además, factores relevantes no observados.
La mayor parte de la econometría está dedicada a mejorar los métodos que existen para estimar efectos causales cuando se utilizan datos del mundo real.
Tipos de Bases de Datos
- Datos de corte transversal: Observaciones de individuos o entidades de una variable para un único periodo de tiempo.
- Datos de series temporales: Observaciones de una variable, para un único individuo o entidad, recogidos para múltiples periodos.
- Datos de panel: Observaciones de una variable para distintas unidades económicas a lo largo del tiempo (combinación de datos temporales y de corte transversal).
Análisis Causal
El análisis causal permite:
- Determinar los efectos de ciertas políticas.
- Caracterizar y cuantificar la relación de comportamiento entre variables económicas, de acuerdo con lo que sugiere la teoría económica.
- Simular los efectos de políticas alternativas.
Tipos de Modelos No Lineales
- Modelos no lineales en las variables: Son funciones lineales de los parámetros, por lo que pueden estimarse por MCO y se pueden realizar contrastes utilizando las herramientas vistas en temas anteriores.
- Modelos no lineales en los parámetros: Son funciones no lineales de los parámetros y no pueden estimarse por MCO. Aunque existen otros métodos de estimación (como el método de mínimos cuadrados no lineales), no se estudiarán en este tema.
Supuestos del Estimador MCO
- Supuesto 1: La distribución condicional de la perturbación para cada individuo, ui, dado Xi, tiene media igual a cero.
- Supuesto 2: Los datos (Xi, Yi), i=1,2,…N, son una realización de una muestra aleatoria de tamaño N de una población desconocida. Las observaciones son independientes entre individuos y provienen de la misma distribución.
- Supuesto 3: Se cumplen las condiciones para asegurar que los momentos muestrales convergen en probabilidad a los correspondientes momentos poblacionales.
- Supuesto 4: La perturbación aleatoria, ui, es homoscedástica.
- Supuesto 5: La distribución de ui, condicionada a Xi, es normal.
- Supuesto 6 (Tema 3): No existe multicolinealidad perfecta. Ninguna columna de la matriz X’ es una combinación lineal exacta de otra u otras columnas de X.
Sesgo de Variable Omitida
- Si los factores omitidos son importantes para explicar Y y están correlacionados con X1 (los regresores incluidos), los estimadores de los regresores incluidos son sesgados e inconsistentes, y los contrastes no son fiables.
- Si los factores omitidos son importantes para explicar Y, pero no están correlacionados con los regresores incluidos, los estimadores de los regresores incluidos son insesgados y consistentes, pero los contrastes no son fiables.
- Si los factores omitidos no son importantes para explicar Y, no hay consecuencias. Los estimadores mantienen sus propiedades y los contrastes son fiables.
Consecuencias: Los estimadores de MCO son sesgados, y el sesgo no desaparece (inconsistentes).
Medidas de Bondad de Ajuste
- Error estándar de la regresión: S = √(S2)
- Coeficiente de determinación: R2 = SCE / SCT = 1 – (SCR / SCT)
Descomposición de la varianza:
Σ(Yi – Ȳ)2 = Σ(Yipc – Ȳ)2 + Σ(Uipc)2
Inconveniente: R2 no sirve para comparar modelos porque aumenta cada vez que se añade un regresor, aunque este no mejore el ajuste.
- Coeficiente de determinación ajustado: R̄2 = 1 – ((N – 1) / (N – k – 1)) * (1 – R2)
Cuestiones Relevantes sobre R2 Ajustado
- R2 ajustado siempre es menor que R2.
- Añadir un regresor tiene dos efectos opuestos:
- Disminuye SCR y aumenta R2 ajustado.
- Aumenta (N – 1) / (N – k – 1).
- El R2 ajustado puede ser negativo.
- Cuando el tamaño de la muestra es grande, R2 ajustado y R2 son parecidos.
- Con datos de corte transversal, es frecuente encontrar valores bajos de R2, pero la ecuación puede ser una buena estimación de la relación ceteris paribus.
Pautas sobre R2 y R2 Ajustado
- R2 y R2 ajustado indican si los regresores son buenos para predecir o «explicar» los valores de la variable dependiente.
- R2 y R2 ajustado no indican:
- Si una variable incluida es significativa.
- Si los regresores son la verdadera causa de los movimientos de la variable dependiente.
- Si existe sesgo de variable omitida.
- Si se ha elegido el conjunto más adecuado de regresores.
- Estas medidas solo pueden utilizarse para comparar modelos alternativos cuando la variable endógena es la misma.