CAPÍTULO 3: MODELO DE REGRESIÓN CON DOS VARIABLES: PROBLEMA DE ESTIMACIÓN
La primera tarea consiste en estimar la función de regresión poblacional (FRP) con base en la función de regresión muestral (FRM) en la forma más precisa posible. El método de MCO es el más común en el análisis de regresión, sobre todo por ser mucho más intuitivo y matemáticamente más sencillo que el método de máxima verosimilitud.
3.1 Método de Mínimos Cuadrados Ordinarios (MCO)
Los ui (los residuos) son simplemente las diferencias entre los valores observados y los estimados de Y. Dados n pares de observaciones de Y y X, nos interesa determinar la FRM de manera que quede lo más cerca posible de la Y observada. Con este fin, se adopta el siguiente criterio: seleccionar la FRM de modo que la suma de los residuos ∑ui = ∑(Yi – Ŷi) sea la menor posible.
Los estimadores obtenidos antes se conocen como estimadores de mínimos cuadrados, pues se derivan del principio de mínimos cuadrados. Observe las siguientes propiedades numéricas de los estimadores obtenidos con el método de MCO: «Propiedades numéricas son las que se mantienen como consecuencia del uso de mínimos cuadrados ordinarios, sin considerar la forma como se generaron los datos»
- Los estimadores de MCO se expresan únicamente en términos de las cantidades (es decir, X y Y) observables (es decir, muestras). Por consiguiente, se calculan con facilidad.
- Son estimadores puntuales: dada la muestra, cada estimador proporciona un solo valor (puntual) del parámetro poblacional pertinente.
- Una vez obtenidos los estimadores de MCO de los datos de la muestra, se obtiene sin problemas la línea de regresión muestral.
3.2 Modelo Clásico de Regresión Lineal: Fundamentos
3.2.1 Método de Mínimos Cuadrados
Supuestos:
- El modelo de regresión es lineal en los parámetros.
- Valores fijos de X, o valores de X independientes del término de error.
- El valor medio de la perturbación ui es igual a cero.
- Homocedasticidad o varianza constante de ui: La varianza del término de error, o de perturbación, es la misma sin importar el valor de X. (Heterocedasticidad, o dispersión desigual, o varianza no constante).
- No hay autocorrelación entre las perturbaciones (las observaciones se muestrean de forma aleatoria).
- El número de observaciones n debe ser mayor que el número de parámetros por estimar.
- Naturaleza de las variables X: No todos los valores X en una muestra determinada deben ser iguales.
3.3 Precisión o Errores Estándar de las Estimaciones de Mínimos Cuadrados
El error estándar no es otra cosa que la desviación estándar de la distribución muestral de un estimador. Un estimador es tan sólo una probabilidad o distribución muestral, y la distribución muestral de un estimador es decir, una distribución del conjunto de valores del estimador obtenidos de todas las muestras posibles de igual tamaño de una población dada. Con las distribuciones muestrales se infieren los valores de los parámetros de la población, con base en los valores de los estimadores calculados a partir de una o más muestras.
Se conoce como el error estándar de estimación o el error estándar de la regresión (EE). No es más que la desviación estándar de los valores Y alrededor de la línea de regresión estimada, la cual suele servir como medida para resumir la «bondad del ajuste» de dicha línea. El término número de grados de libertad significa el número total de observaciones en la muestra menos el número de restricciones (lineales) independientes o de restricciones que se les impusieron. En otras palabras, es la cantidad de observaciones independientes de un total de n observaciones.
Teorema de Gauss-Markov: Dados los supuestos del modelo clásico de regresión lineal, los estimadores de mínimos cuadrados, dentro de la clase de estimadores lineales insesgados, tienen varianza mínima.
3.5 Coeficiente de Determinación (r2): Una Medida de la «Bondad del Ajuste»
La bondad del ajuste de la línea de regresión a un conjunto de datos, es decir, veremos cuán «bien» se ajusta la línea de regresión a los datos. Se tiene la esperanza de que estos residuos alrededor de la línea de regresión sean lo más pequeños posibles. El coeficiente de determinación r2 (caso de dos variables) o R2 (regresión múltiple) es una medida que dice cuán bien se ajusta la línea de regresión muestral a los datos.
r2 mide la proporción o el porcentaje de la variación total en Y explicada por el modelo de regresión. Sus límites son 0 ≤ r2 ≤ 1.
Resumen y Conclusiones
- El marco básico del análisis de regresión es el MCRL (Modelo Clásico de Regresión Lineal).
- El MCRL se basa en un conjunto de supuestos.
- Con base en estos supuestos, los estimadores de mínimos cuadrados adquieren ciertas propiedades resumidas en el teorema de Gauss-Markov, el cual plantea que dentro de la clase de estimadores lineales insesgados, los estimadores de mínimos cuadrados tienen una varianza mínima. En resumen, son MELLI (Mejores Estimadores Lineales Insesgados).
- La precisión de los estimadores de MCO se mide por sus errores estándar.
- La bondad del ajuste general del modelo de regresión se mide con el coeficiente de determinación, r2. Éste indica qué proporción de la variación en la variable dependiente, o variable regresada, se explica por la variable explicativa, o regresora. r2 se sitúa entre 0 y 1; entre más cerca esté de 1, mejor será el ajuste.
- Un concepto relacionado con el coeficiente de determinación es el coeficiente de correlación, r. Es una medida de asociación lineal entre dos variables y su valor se encuentra entre -1 y +1.