Consecuencias de la Heterocedasticidad y Estimación de Brechas Salariales

Pregunta 1: Heterocedasticidad

(5 puntos) ¿Cuál de las siguientes opciones es consecuencia de la heterocedasticidad?

  1. Los estimadores de MCO (βj) son inconsistentes.
  2. El estadístico F usual ya no tiene una distribución F.
  3. El estimador obtenido por el Método de Mínimos Cuadrados Ordinarios ya no es el Mejor Estimador Lineal Insesgado (MELI).

Respuesta

Cuando tenemos heterocedasticidad en el modelo lineal general, y todos los demás supuestos de Gauss-Markov se cumplen, el estimador MCO será insesgado y consistente, pero ya no será el mejor estimador lineal insesgado (MELI).

Por lo tanto, la primera aseveración es falsa, la última es verdadera. La aseveración del medio es verdadera, ya que el test F calculado de la manera estándar no será válido.

Pregunta 2: Brecha Salarial de Género

Un investigador quiere conocer si existen diferencias salariales entre hombres y mujeres. Para esto, él sabe que debe incorporar la variable de género en su estimación, pero no sabe cuál es la forma correcta de incorporar esta variable cualitativa. A continuación, se presentan cuatro alternativas. ¿Cuál o cuáles de estas alternativas le permiten a usted estimar usando MCO la brecha salarial entre hombres y mujeres? En todos los casos, explique qué coeficiente le mide dicha brecha, y qué test de hipótesis le permite evaluar si ésta es estadísticamente significativa.

log(yi) = β0 + β1Femeninoi + β2Masculinoi + β3Experienciai + μi (1)

log(yi) = α0 + α1Femeninoi + α2Experienciai + εi (2)

log(yi) = γ0 + γ1Masculinoi + γ2experienciai + εi (3)

log(yi) = δ1Femeninoi + δ2Masculinoi + δ3Experienciai + νi (4)

Respuesta

El primer modelo no puede estimarse porque caemos en la trampa de las variables ficticias (colinealidad perfecta). Los modelos (2) y (3) sirven para calcular la brecha de salarios entre hombres y mujeres. Es más, tendremos que cuando estimamos estos modelos por MCO, α^1 = –γ^1. Un test de significancia sobre la brecha es un test de significancia sobre α^1 o sobre γ^1.

También podemos usar el modelo (4) para evaluar la brecha. Es más, uno puede demostrar que δ^1 = γ^0 = α^0 + α^1 o que δ^2 = α^0 = γ^0 + γ^1. Pero si usamos este modelo (4) para evaluar si hay una brecha, uno debe hacer un test t para evaluar la hipótesis nula de que δ1 = δ2 o que δ1δ2 = 0.

Pregunta 3: Colinealidad y Sesgo

Al intentar estimar por Mínimos Cuadrados Ordinarios el modelo Y = β0 + β1X + β2X2 + u, en el que hemos incluido una variable y su cuadrado, no podremos tener una solución porque estaremos en presencia de colinealidad perfecta entre estas dos variables.

Respuesta

Es falso. No hay colinealidad perfecta entre estas variables, ya que X2 no es una función lineal de X.

Todos los siguientes casos pueden provocar sesgo en los estimadores MCO: omitir una variable relevante; heterocedasticidad; alta colinealidad entre las variables explicativas incluidas en el modelo.

Respuesta

Es falso. Omitir variables relevantes ocasiona sesgo si es que la covarianza entre la variable omitida y las incluidas es no nula; pero la existencia de heterocedasticidad o de alta colinealidad entre las variables no provoca sesgo.

Pregunta 4: Determinantes de las Calificaciones

Un investigador está interesado en evaluar los determinantes que inciden en las calificaciones de sus estudiantes. Se propone el siguiente modelo de regresión:

Calificacion = β0 + β1cumgpa + β2hrsECTS + β3PAES + β4hsperc + β5femenino + β6deporte + μi

Aquí, Calificacion es el promedio general de calificaciones (GPA) del semestre actual, cumgpa es el promedio general de calificaciones previas a este semestre, hrsECTS es el total de horas crédito que el alumno acumuló antes de este semestre, PAES es la puntuación en la prueba PAES de admisión a la universidad, hsperc es el percentil que ocupó el alumno entre los graduados de la enseñanza media, femenino es una variable binaria que toma el valor uno cuando es mujer y 0 en otro caso, y deporte es una variable binaria que es igual a uno si el estudiante está practicando deporte y 0 en otro caso.

380mdXfDX6AAAAABJRU5ErkJggg==

  1. Utilizando los resultados de la Tabla (columna rotulada MCO), comente el signo, la significancia y la interpretación de la estimación del coeficiente MCO para las variables PAES y Deporte. Use un nivel de significancia del 5 %. [Valores críticos: t262,0.10 = 1.28; t262,0.05 = 1.64; t262,0.025 = 1.96]

Respuesta

Variable PAES: Todo lo demás constante, un punto más en la evaluación PAES aumenta el promedio del semestre en 0.0018 puntos. O, alternativamente, 100 puntos más aumentan el promedio en 0.18 puntos. Esta variable es estadísticamente significativa, ya que al construir el test t, para la hipótesis nula de que el coeficiente es igual a cero, rechazamos esta hipótesis. El test t observado es igual a 0.0018 / 0.0002 = 9, muy superior al valor crítico de 1.96.

Variable Deporte: Todo lo demás constante, los alumnos que hacen deporte tienen una calificación esperada más baja que los que no hacen: hacer deporte reduce la calificación en 0.157 puntos. Esta variable es estadísticamente significativa, ya que al construir el test t, para la hipótesis nula de que el coeficiente es igual a cero, rechazamos esta hipótesis. El test t observado es igual a -0.157 / 0.079 = -1.98, que es menor que -1.96, por lo que caemos en zona de rechazo.

  1. Luego se estima la regresión por MCO (columna 1), se predicen los residuos obtenidos de esta estimación y se nombran como μ^i. Luego estos residuos se elevan al cuadrado y se estima la siguiente regresión auxiliar:

μ^2 = γ0 + γ1cumgpa + γ2hrsECTS + γ3PAES + γ4hsperc + γ5femenino + γ6deporte + εi

Por simplicidad no le estoy presentando los resultados de esta regresión. El test de ajuste global de esta regresión auxiliar se presenta en la columna 2. Evalue la presencia de heterocedasticidad utilizando un test de Breusch-Pagan a un nivel de significancia del 5 %. Especifique la hipótesis nula, la hipótesis alternativa y el estadístico de prueba. ¿Qué concluye? ¿Hay evidencia de heterocedasticidad?

Respuesta

Esta regresión auxiliar se corresponde con el test de Breusch-Pagan. La hipótesis nula es que hay homocedasticidad. La hipótesis alternativa es que hay heterocedasticidad. El estadístico de prueba es el test de ajuste global en esta regresión. En la columna (2) se reporta un valor para el test de ajuste global de 35.68 con un p-value muy bajo. Entonces, a un nivel de significancia del 5 %, rechazamos la hipótesis nula de que hay homocedasticidad. Hay evidencia de heterocedasticidad.

  1. En la columna 3 se estima nuevamente el modelo por MCO, pero usando errores estándar robustos (errores robustos a la heterocedasticidad; columna rotulada «MCO robusto»). ¿Cuándo deben usarse estos errores? Explique. En base a lo encontrado en (b), ¿qué resultados serían los que usted debiera mirar a la hora de evaluar la significancia de sus coeficientes, los presentados en la columna (1) o los presentados en la columna (3)?

Respuesta

Cuando tenemos evidencia de heterocedasticidad, los errores estándar que obtenemos haciendo MCO no son correctos. Tenemos que usar los errores robustos, que son errores estándar estimados para los coeficientes que reconocen que la varianza del error no es constante. Dado lo encontrado en el apartado anterior, tengo que usar estos errores robustos. Entonces, debo mirar los resultados de la columna (3) a la hora de evaluar la significancia de los coeficientes.

Pregunta 5: Oferta de Trabajo y Fertilidad

Se quiere conocer cuánto se reduce la oferta de trabajo de una mujer cuando ésta tiene un hijo más. Se propone estimar este efecto usando datos de mujeres casadas del censo de EE.UU. de 1980. La base de datos contiene información de mujeres casadas entre 21 y 35 años con dos o más hijos. Se estima el siguiente modelo:

Trabajoi = β0 + β1Mashijosi + β2Edadmi + β3Hispanai + β4edadmxhispi + ui

donde trabajo es el número de semanas trabajadas por una madre en el año; mashijos es una variable binaria que toma el valor 1 si tiene más de dos hijos y 0 en otro caso; edadm es la edad de la madre; hispana es una variable binaria que toma el valor 1 si la madre es de raza hispana y 0 en otro caso; edadmxhisp es el producto entre la variable edadm e hispana. En la siguiente tabla se presentan diversas estimaciones. La columna 1 presenta la estimación del modelo por MCO. En la columna 2, este mismo modelo se estima por variables instrumentales. Se sospecha que la variable mashijos puede ser una variable endógena, por lo que se utiliza como instrumento una variable binaria (llamada mismosexo), que toma el valor 1 si los dos primeros hijos son del mismo sexo, cero en cualquier otro caso. La primera etapa de esta estimación se presenta en la columna 3 de la tabla.

PoFGOZfMvV6aWurKqRnmhARIgAS6EaA46caPd5MACZAACZAACWQmQHGSGSiTIwESIAESIAES6EaA4qQbP95NAiRAAiRAAiSQmQDFSWagTI4ESIAESIAESKAbAYqTbvx4NwmQAAmQAAmQQGYCFCeZgTI5EiABEiABEiCBbgQoTrrx490kQAIkQAIkQAKZCVCcZAbK5EiABEiABEiABLoR+P8qETzF1cNLXgAAAABJRU5ErkJggg==

Finalmente, en la columna 4 se presenta la estimación del modelo original, pero agregando como variable adicional el residuo obtenido de la primera etapa (llamamos a esta variable residuomashijos). Al final del ejercicio se presentan algunos valores críticos que pudiera necesitar para responder esta pregunta.

Ignorando el hecho de que la variable mashijos puede ser endógena, según los coeficientes estimados por MCO (columna 1), ¿trabajan, en promedio, las mujeres con más de dos hijos menos que las mujeres con dos hijos? ¿Cuánto menos?

Respuesta

El coeficiente es negativo y estadísticamente significativo. Todo lo demás constante, el modelo predice que las mujeres con más de dos hijos trabajarán menos que las con menos de dos hijos: casi seis horas menos (-5.975).

Usando la estimación MCO (columna 1), evalúe si el efecto de la edad de la madre en las semanas trabajadas depende de la raza de esta. Interprete este coeficiente y evalúe su significancia. Utilice un nivel de significancia del 10 %.

Respuesta

El modelo tiene una interacción entre la edad de la madre y la raza. Si el coeficiente de esta variable es estadísticamente significativo, es porque el efecto de la edad varía con la raza. El coeficiente de la interacción entre la variable edad y la dummy hispana es -0.097 y su desviación estándar es 0.045. El test t para la hipótesis nula de que este coeficiente es cero, me da un valor de -2.15, muy superior al valor crítico de 1.645 (en valor absoluto), ergo, se rechaza la hipótesis nula. Y concluimos que, efectivamente, el efecto de la edad es distinto para las mujeres hispanas. El efecto de la edad es menor.

Realice un test de ajuste global sobre el modelo (columna 1).

Respuesta

Hay que hacer un test de ajuste global. Si lo calculamos nos da un valor de 1948.64; como este valor es mayor al valor crítico F4,254649,0.05 = 2.37, por lo que rechazamos la hipótesis nula; las variables explicativas explican la varianza de la variable dependiente.

Como ya se adelantara en el enunciado, se sospecha que la variable mashijos puede ser una variable endógena. ¿Qué consecuencias tendría para el estimador MCO (estimaciones presentadas en la columna 1) que mashijos sea una variable endógena?

Respuesta

Si esta variable es endógena, el estimador MCO no será consistente.

  1. (7 puntos) Se considera la variable mismosexo como un posible instrumento de mashijos. Analice si la variable mismosexo es un buen instrumento para mashijos utilizando la información disponible. Utilice un nivel de significancia del 5 %.

Respuesta

Notar que en la primera etapa (columna 3) el coeficiente de esta variable es altamente significativo; no es muy grande, pero efectivamente es estadísticamente distinto de cero. Ergo, esta variable es un buen instrumento para la variable endógena mashijos.

Evalúe, usando un test de Hausman, la potencial endogeneidad de la variable mashijos. Utilice un nivel de significancia del 5 %. [Ayuda: en la columna (4) se presenta el modelo «aumentado» con el residuo de la primera etapa; esta es una de las versiones del test de Hausman que vimos en clase.]

Respuesta

Tenemos que hacer un test de Hausman; esto se hace como un test t sobre la variable adicional en el modelo de la columna 4; no puede rechazarse la hipótesis nula, ergo, no hay evidencia de que esta variable sea endógena.

B+1bZQIHZNNnAAAAAElFTkSuQmCC

Note que el tamaño de la muestra es grande, por lo que el valor de N-k-1 no cambia los valores de los estadísticos críticos para la distribución t y F.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.