Modelo Básico de Regresión Lineal (MBRL)
2.1 Planteamiento del MBRL
El término «regresión» fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”: “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en promedio, en un grado menor. Regresión a la media”.
Supongamos que consideramos el comportamiento de una variable endógena, Yi, que puede ser adecuadamente explicado mediante una relación lineal de K variables exógenas, Xi, más un término de perturbación aleatoria μi, que recoge el efecto conjunto de otras variables no directamente explicitadas en el modelo, cuyo efecto individual no resulta relevante. Así, formulamos el MBRL en los siguientes términos:
Yi = β0 + β1x1,i + β2x2,i + … + βkxk,i + μi
Donde:
- Yi: variable observable, variable endógena, variable explicada
- Xk,i: variables predeterminadas
- μi: variable no observable, perturbación aleatoria, variable aleatoria
A efectos de hacer operativo el modelo, aplicándolo a una realidad concreta, partiremos de *n* observaciones para el conjunto de variables observables implicadas:
[FOTO]
Siendo *n* los distintos individuos o momentos de tiempo que componen la muestra. Para el conjunto de observaciones podemos entonces plantear un sistema de ecuaciones, donde cada ecuación sería el modelo definido para cada uno de los *n* datos o puntos muestrales:
[FOTO]
Dicho sistema tiene, por tanto, *n-k* grados de libertad, ya que deberá ser utilizado para estimar estadísticamente las incógnitas del mismo, que son los *k* parámetros del modelo propuesto. Resulta inmediato expresar este sistema en forma matricial como:
Y = Xβ + u
Donde:
- Y: vector de los valores endógenos (*n* x 1)
- X: matriz de valores de las variables predeterminadas (*n* x *k*)
- β: vector de parámetros (*k* x 1)
- U: vector de la perturbación aleatoria (*n* x 1)
OBJETIVO: Cuantificar la relación existente entre una variable endógena y un conjunto de variables predeterminadas, todas ellas cuantitativas en sentido estricto (escala de razón), mediante una aproximación no determinista del problema.
MBRL: El modelo se llama modelo básico por incorporar a la expresión de un modelo lineal lo que SCHMIDT (1976) llamó las “hipótesis ideales”. Estas hipótesis permiten generalizar procedimientos, cálculos, procedimientos de inferencia independientemente de parámetros.
2.2 Estimación del MBRL
Método de MCO: Cuando en un modelo econométrico se han establecido las variables que lo integran y las características formales del mismo (relación funcional e hipótesis), se considera cubierta la etapa denominada de especificación del modelo y puede pasarse a la estimación del mismo sobre la base de los datos estadísticos disponibles. De entre los diferentes métodos o criterios de estimación estadística, los más habituales son el de mínimos cuadrados y el de máxima verosimilitud. En el caso del modelo básico de regresión lineal ambos coinciden, por lo que desarrollaremos el proceso de estimación de los Mínimos cuadrados ordinarios (MCO).
El método de mínimos cuadrados ordinarios consiste en obtener los estimadores de β (parámetros de posición) minimizando la suma de cuadrados de los errores o residuos del modelo. Para aplicar este método es necesario incorporar al modelo una serie de supuestos o hipótesis. Supuestos sobre la parte sistemática (parámetros y variables)
Supuestos:
- Supuesto 1: Ausencia de error de especificación (correcta especificación del modelo o Linealidad o No se omiten variables explicativas relevantes o No se incluyen variables explicativas irrelevantes)
- Supuesto 2: Grados de libertad suficientes o Más observaciones en la muestra que parámetros a estimar. Es decir: n-k>0 o que n>k
- Supuesto 3: Hipótesis de parámetros constantes o Esta hipótesis supone que los parámetros β1 , β2, …, βk son constantes en el tiempo (Hipótesis de permanecía estructura o ausencia de cambio estructural)
- Supuesto 4: Ausencia de multicolinealidad exacta o Las variables explicativas son linealmente independientes: r (X) = k ⇒ r (X′ X) = k ⇒|X′ X| ≠ 0 ⇒ ∃(X′ X)-1
Supuesto 5: Regresores no estocásticos o Esta hipótesis implica que los datos de las variables explicativas son fijos en muestras repetitivas E(Xi)=Xi E(X)=X La parte sistemática y aleatoria son independientes => Cov(X,U)=0. –Hipótesis de independencia lineal entre las variables explicativas del modelo.
Esta hipótesis implica que cada variable explicativa contiene información adicional sobre la endógena que no está contenida en otras. Si hubiera información repetida, habrá variables explicativas dependientes linealmente de otras. El hecho de que cada columna sea linealmente independiente de las otras implica que el rango de la matriz X es completo, es decir, igual a k. Si alguna variable Xi (i=1,2,..,k) es linealmente dependiente de otra, decimos que existe un problema de multicolinealidad exacta
Supuesto 6: Esperanza cero de las perturbaciones aleatorias: En todo instante de tiempo E(ui)=0 ∀ i=1,2,…,n E(U)=0. –El vector de las perturbaciones aleatorias (U) tiene un vector esperanza nulo E(0). Esperanza cero del termino del error: la perturbación aleatoria representa la suma de mucho efectos individuales sobre la endógena, donde el signo de cada uno es desconocido. Por tanto, esperanza cero en todo instante implica que el efecto medio de todos estos factores inobservables es nulo.
Supuesto 7: Varianza constante (Homoscedasticidad): Esta hipótesis implica que la varianza de las perturbaciones aleatorias es constante a lo largo de la muestra: Var(Ui ) = (s2 ) ∀ i =1,2,…,n Si la variabilidad (o dispersión alrededor de la media) de las perturbaciones cambia a lo largo de la muestra hablamos de heteroscedasticidad
Supuesto 8: Covarianzas nulas entre un par de perturbaciones aleatorias distintas o Ausencia de autocorrelación en todo instante de tiempo: Cov (ui, uj ) = 0 E(ui, uj ) = 0 ∀ i ≠ j
Supuesto 9: Los errores (ui ) se distribuye como una normal u ∼ N(0,σ2 )
Los supuestos se pueden resumir calculando la matriz de varianzas y covarianzas del vector de perturbaciones. Las perturbaciones que cumplen ambos supuestos se denominan esféricas o matriz de varianzas y covarianzas escalar.
Gráfico de dispersión / recta de regresión: El cálculo de la recta de regresión por el método de mínimos cuadrados entre dos variables. Esta línea es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles. Y=α+βX
Estimación por M.C.O. El método de mínimos cuadrados ordinarios consiste en obtener los estimadores de β minimizando la suma de cuadrados de los errores, esto es: Minimizar:
Demostración: sabemos que:
Supuestos utilizados:
- S1. Especificación correcta
- S2. Grados de libertad suficientes
- S3. Parámetros constantes
- S4. No multicolinealidad exacta
Note que:
- Solución única si: X`X≠ 0
- Infinintas soluciones si: |X`X| = 0
yi = α + βXi + μi donde α es el intercepto, β la pendiente y μ el error.
2.3 Propiedades de los estimadores de MCO
Propiedades en muestras finitas: Bajo el cumplimiento de las hipótesis básicas del MBRL, los estimadores MCO son ELIO, es decir, lineales, insesgados y óptimos (en el sentido de que cualquier otro estimador lineal e insesgado tiene una matriz de varianzas y covarianzas “mayor”)
- Lineal (función lineal de las observaciones de y): La linealidad consiste en poder escribir el estimador como una combinación lineal fija de los valores de la variable endógena. El estimador MCO de β es una función lineal de las observaciones de la variable endógena Y (vble. aleatoria) β=(X`X)-1 (X`Y)= A(X`Y)
- Insesgado: que no se desvía de su valor esperado.
Demostración:
Supuestos utilizados:
- S3. Parámetros constantes
- S5. Las variables explicativas son deterministas
- S6. E(U)=0
- Óptimo, en el sentido de mínima varianza.
Demostración
Supuestos utilizados:
- Todos los utilizados anteriormente anteriores más
- S7. var( ui ) =σ2, ∀ i
- S8. cov(ui , uj ) = 0 ∀ i ≠ j. S7 y S8 Var(μ)σ2
A) El vector de perturbaciones sigue una distribución normal, Demostración
Dado que las estimaciones de los parámetros β por MCO son una combinación lineal de las perturbaciones y las perturbaciones son Normales, entonces las estimaciones se distribuyen como Normales
Supuestos utilizados:
- S.3 Parámetros constantes
- S.5 Variables explicativas son deterministas
- S.6+S.7+S.8+S.9
2.4 Estimación de la varianza de la perturbación (parámetros de dispersión) σ2
2.5 Resumen
La identificación: supone el paso del modelo económico al econométrico
La construcción de un modelo no termina con la identificación y estimación de los parámetros. El resultado de la estimación inicial es sólo un punto de partida hacia el modelo final que deberá ser contrastado y validado.
El proceso de validación y contraste debe hacerse de forma ordenada pero generalmente no consistirá en un proceso lineal sin vuelta atrás: se planteará la revisión de especificación y estimación.
- Especificación:
- Revisión del marco teórico en el contexto de la aplicación
- Selección de variables relevantes
- Selección de la forma funcional
- Estimación:
- MCO
- Estimación de parámetros β=(x`X)-1 X`Y
- Estimación varianza de la perturbación aleatoria σ2 =u`u / n-k……… Y=Xβ
- Contraste de validez:
- Análisis de signos, de impacto
- C. Individuales, C. Conjuntos
- Contraste de hipótesis básicas relativas a la perturbación aleatoria