Conceptos Fundamentales en Estadística
Error Tipo 1 y Riesgo Asociado
El Error Tipo 1 (o Error de primera especie) se comete cuando se rechaza una hipótesis nula (H0) que en realidad es verdadera. La probabilidad de cometer este error se denomina riesgo de primera especie (α).
Diferencias entre Estadística Descriptiva e Inferencial
La estadística descriptiva se enfoca en resumir y describir las características de la muestra analizada. Por otro lado, la estadística inferencial utiliza la información de la muestra para hacer generalizaciones sobre la población de la cual se extrajo, con un margen de error controlado. Busca extrapolar los resultados de una parte (muestra) al todo (población).
El P-valor
El p-valor es la probabilidad de obtener resultados tan o más extremos que los observados, asumiendo que la hipótesis nula es verdadera.
Amplitud del Intervalo de Confianza (IC) para una Proporción Poblacional
La amplitud del IC para una proporción poblacional (p) depende de:
- La estimación muestral p* (frecuencia relativa observada del suceso en la muestra).
- El tamaño de la muestra (N).
- El nivel de confianza (1-α).
Cuanto mayor sea N, menor será la amplitud. Cuanto más cerca de 0.5 esté p*, mayor será la amplitud. Cuanto mayor sea el nivel de confianza, mayor será la amplitud.
Diferencias Significativas en Contraste de Hipótesis
Una diferencia «muy significativa» (p-valor muy pequeño) indica que es muy probable que la diferencia no sea nula, pero no necesariamente que sea grande o relevante en la práctica. Con un tamaño muestral grande, incluso diferencias pequeñas pueden ser estadísticamente significativas.
Relación Significativa y Causalidad
Una relación significativa entre dos variables no implica necesariamente una relación causa-efecto. Puede haber una tercera variable que influya en ambas.
Pasos en un Contraste de Hipótesis
- Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1).
- Obtener datos.
- Calcular el estadístico de discrepancia.
- Comparar el estadístico con la distribución de referencia (bajo H0).
- Decidir si se rechaza o no H0.
Error Tipo 2 y Riesgo Asociado
El Error Tipo 2 (o Error de segunda especie) ocurre cuando se acepta una hipótesis nula que en realidad es falsa. La probabilidad de cometer este error se denomina riesgo de segunda especie (β).
Pruebas de Independencia y Homogeneidad
¿Cuándo usar cada prueba?
- Test de Independencia: Se utiliza cuando se tienen dos variables cualitativas en una sola población y se quiere investigar si existe relación entre ellas. Por ejemplo, estudiar la relación entre la supervivencia a un infarto y el sexo. H0: Las variables son independientes.
- Test de Homogeneidad: Se aplica cuando se tienen diferentes grupos o tratamientos y se quiere comparar la distribución de una variable cualitativa entre ellos. Por ejemplo, comparar la efectividad de tres técnicas quirúrgicas. H0: Los tratamientos son homogéneos respecto a la característica estudiada.
Estadístico y Distribución
Un estadístico es cualquier cantidad calculada a partir de los datos de una muestra. Si la muestra es aleatoria, el estadístico es una variable aleatoria.
Tabla de Contingencia
Una tabla de contingencia es una tabla de frecuencias que muestra el número de veces que ocurre cada combinación de las categorías de dos variables cualitativas.
Deducción del Intervalo de Confianza (IC)
Si N no es pequeña, la variable binomial X se aproxima a una distribución Normal con media Np y desviación típica.
. La frecuencia relativa P* = X/N se distribuye aproximadamente como una Normal con media p y desviación típica √(p(1-p)/N). Si zα/2 cumple Prob(-zα/2α/2) = 1-α, entonces:
. Los límites de la desigualdad definen un IC para p con un nivel de confianza de 1-α. Se sustituye p por su estimación p* y zα/2 por tn-1,α/2 (t de Student con n-1 grados de libertad).
Interpretación del Riesgo de Primera Especie
Con un riesgo de primera especie del 20%, se puede calcular un IC para la desviación típica poblacional (σ) con un nivel de confianza del 80%. Este intervalo contendrá los valores de H0 sobre la desviación típica poblacional que se aceptarían, dada la muestra.
, donde N es el tamaño muestral, s2 es la varianza muestral, y g1 y g2 son los percentiles 10% y 90% de una distribución χ2 con N-1 grados de libertad.
Relaciones entre Media y Varianza
Media Muestral y Media Poblacional
Varianza de la Media Muestral
Varianza de la media muestral = Varianza de la población / N (tamaño de la muestra):
Riesgo de Primera y Segunda Especie
Usar un α muy bajo aumenta el riesgo de segunda especie (β). Un valor de α = 0.05 se considera un compromiso razonable.
IC para la Desviación Típica (σ)
Si s2 es la varianza muestral de una muestra de tamaño N de una población normal con varianza σ2, entonces (N-1)s2/σ2 sigue una distribución χ2 con N-1 grados de libertad. Se pueden obtener g1 y g2 tales que P(g12.
. Sin raíces cuadradas, es el IC para la varianza poblacional; con raíces, para la desviación típica poblacional.
Análisis de Varianza (ANOVA)
Comprobación de la Fratio
El cociente s12/s22 de dos estimaciones independientes de una misma varianza sigue una distribución F de Fisher. Si un efecto es inexistente (H0 cierta), Fratio = CMefecto / CMresidual se distribuye como una F. Si existe un efecto, Fratio tenderá a ser mayor. Un efecto es significativo si su p-valor es menor que 0.05 y muy significativo si es menor que 0.01.
Ejemplo de ANOVA Factorial
Ejemplo: Análisis del efecto del tipo de escáner (X1: A, B) y la resolución de la imagen (X2: 150, 300 píxeles) sobre el tiempo de procesamiento (Y), con tres réplicas por tratamiento.
Modelos Teórico y Estimado en ANOVA
- Modelo teórico:
- Modelo estimado:
Donde αi es el efecto del nivel i del Factor …, βj es el efecto del nivel j del factor …, y αβij es el efecto de la interacción.
Valor Crítico para la Interacción
Grados de libertad (gl): Total = 11, Escáner = 1, Resolución = 1, Interacción = 1, Residual = 8. El estadístico para la interacción es F1,8. El valor crítico al 1% es F1,80.01 = 11.26.
Predicción del Tiempo Medio
Para una resolución de 300 ppp (nivel j=2 del factor Resolución): m300* = m* + b2 = media muestral para las 6 pruebas con resolución de 300 ppp.
Modelo de Regresión Lineal
Para estudiar el efecto del tipo de escáner (categórica con dos variantes), se define una variable dummy Z (1 si es B, 0 si es A).
- Modelo teórico: Tiempo/resol, escáner = β0 + β1Resolución + β2Z + β3Resolución*Z + uj
- Modelo estimado: Tiempo/Resol, escáner = b0 + b1Resolución + b2Z + b3Resolución*Z + ej
Relación entre Test de Comparación de Varianzas y ANOVA
En el test de comparación de varianzas, si S12 y S22 son varianzas muestrales de muestras de tamaño N1 y N2 de poblaciones normales con varianzas σ12 y σ22, y las muestras son independientes, entonces
se distribuye como una F con (N1-1) y (N2-1) grados de libertad. Si las varianzas poblacionales son iguales, el cociente sigue una distribución F. En ANOVA, el CMresidual estima la σ2 común. Si un efecto es inexistente (H0 cierta), el CMefecto también estima σ2. Por lo tanto, Fratio = CMefecto / CMresidual se distribuye como F. Si existe un efecto, Fratio será mayor.
Interpretación Práctica del IC para una Proporción Poblacional (p)
Un IC, como
, indica que existe una probabilidad de 1-α de que los límites del intervalo contengan el verdadero valor de p. No significa que haya una probabilidad de 1-α de que p esté dentro de un intervalo concreto. p no es una variable aleatoria. Existe una población de posibles muestras, cada una con su IC, y una proporción 1-α de estas muestras tienen ICs que cubren el verdadero valor de p. La probabilidad 1-α es una medida de la confianza en que el intervalo contenga a p.