Conceptos Clave de Estadística: Errores, Pruebas y Modelos

Conceptos Fundamentales en Estadística

Error Tipo 1 y Riesgo Asociado

El Error Tipo 1 (o Error de primera especie) se comete cuando se rechaza una hipótesis nula (H0) que en realidad es verdadera. La probabilidad de cometer este error se denomina riesgo de primera especie (α).

Diferencias entre Estadística Descriptiva e Inferencial

La estadística descriptiva se enfoca en resumir y describir las características de la muestra analizada. Por otro lado, la estadística inferencial utiliza la información de la muestra para hacer generalizaciones sobre la población de la cual se extrajo, con un margen de error controlado. Busca extrapolar los resultados de una parte (muestra) al todo (población).

El P-valor

El p-valor es la probabilidad de obtener resultados tan o más extremos que los observados, asumiendo que la hipótesis nula es verdadera.

Amplitud del Intervalo de Confianza (IC) para una Proporción Poblacional

La amplitud del IC para una proporción poblacional (p) depende de:

La estimación muestral p* (frecuencia relativa observada del suceso en la muestra).
El tamaño de la muestra (N).
El nivel de confianza (1-α).

Cuanto mayor sea N, menor será la amplitud. Cuanto más cerca de 0.5 esté p*, mayor será la amplitud. Cuanto mayor sea el nivel de confianza, mayor será la amplitud.

Diferencias Significativas en Contraste de Hipótesis

Una diferencia «muy significativa» (p-valor muy pequeño) indica que es muy probable que la diferencia no sea nula, pero no necesariamente que sea grande o relevante en la práctica. Con un tamaño muestral grande, incluso diferencias pequeñas pueden ser estadísticamente significativas.

Relación Significativa y Causalidad

Una relación significativa entre dos variables no implica necesariamente una relación causa-efecto. Puede haber una tercera variable que influya en ambas.

Pasos en un Contraste de Hipótesis

Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1).
Obtener datos.
Calcular el estadístico de discrepancia.
Comparar el estadístico con la distribución de referencia (bajo H0).
Decidir si se rechaza o no H0.

Error Tipo 2 y Riesgo Asociado

El Error Tipo 2 (o Error de segunda especie) ocurre cuando se acepta una hipótesis nula que en realidad es falsa. La probabilidad de cometer este error se denomina riesgo de segunda especie (β).

Pruebas de Independencia y Homogeneidad

¿Cuándo usar cada prueba?

Test de Independencia: Se utiliza cuando se tienen dos variables cualitativas en una sola población y se quiere investigar si existe relación entre ellas. Por ejemplo, estudiar la relación entre la supervivencia a un infarto y el sexo. H0: Las variables son independientes.
Test de Homogeneidad: Se aplica cuando se tienen diferentes grupos o tratamientos y se quiere comparar la distribución de una variable cualitativa entre ellos. Por ejemplo, comparar la efectividad de tres técnicas quirúrgicas. H0: Los tratamientos son homogéneos respecto a la característica estudiada.

Estadístico y Distribución

Un estadístico es cualquier cantidad calculada a partir de los datos de una muestra. Si la muestra es aleatoria, el estadístico es una variable aleatoria.

Tabla de Contingencia

Una tabla de contingencia es una tabla de frecuencias que muestra el número de veces que ocurre cada combinación de las categorías de dos variables cualitativas.

Deducción del Intervalo de Confianza (IC)

Si N no es pequeña, la variable binomial X se aproxima a una distribución Normal con media Np y desviación típica. 1J9i4BuvxDZ+ngxwXgAAAABJRU5ErkJggg==

. La frecuencia relativa P* = X/N se distribuye aproximadamente como una Normal con media p y desviación típica √(p(1-p)/N). Si z_α/2 cumple Prob(-z_α/2_α/2) = 1-α, entonces: yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

. Los límites de la desigualdad definen un IC para p con un nivel de confianza de 1-α. Se sustituye p por su estimación p* y z_α/2 por t_n-1,α/2 (t de Student con n-1 grados de libertad).

Interpretación del Riesgo de Primera Especie

Con un riesgo de primera especie del 20%, se puede calcular un IC para la desviación típica poblacional (σ) con un nivel de confianza del 80%. Este intervalo contendrá los valores de H0 sobre la desviación típica poblacional que se aceptarían, dada la muestra. yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

, donde N es el tamaño muestral, s² es la varianza muestral, y g₁ y g₂ son los percentiles 10% y 90% de una distribución χ² con N-1 grados de libertad.

Relaciones entre Media y Varianza

Media Muestral y Media Poblacional

yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

Varianza de la Media Muestral

Varianza de la media muestral = Varianza de la población / N (tamaño de la muestra): yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

Riesgo de Primera y Segunda Especie

Usar un α muy bajo aumenta el riesgo de segunda especie (β). Un valor de α = 0.05 se considera un compromiso razonable.

IC para la Desviación Típica (σ)

Si s² es la varianza muestral de una muestra de tamaño N de una población normal con varianza σ², entonces (N-1)s²/σ² sigue una distribución χ² con N-1 grados de libertad. Se pueden obtener g1 y g2 tales que P(g1². 5Xl7KAYwGFD29YUCTjzU6qlbKAssCeFlAks6fh1G

. Sin raíces cuadradas, es el IC para la varianza poblacional; con raíces, para la desviación típica poblacional.

Análisis de Varianza (ANOVA)

Comprobación de la Fratio

El cociente s₁²/s₂² de dos estimaciones independientes de una misma varianza sigue una distribución F de Fisher. Si un efecto es inexistente (H0 cierta), Fratio = CMefecto / CMresidual se distribuye como una F. Si existe un efecto, Fratio tenderá a ser mayor. Un efecto es significativo si su p-valor es menor que 0.05 y muy significativo si es menor que 0.01.

Ejemplo de ANOVA Factorial

Ejemplo: Análisis del efecto del tipo de escáner (X1: A, B) y la resolución de la imagen (X2: 150, 300 píxeles) sobre el tiempo de procesamiento (Y), con tres réplicas por tratamiento.

Modelos Teórico y Estimado en ANOVA

Modelo teórico:
Modelo estimado:

Donde α_i es el efecto del nivel i del Factor …, β_j es el efecto del nivel j del factor …, y αβ_ij es el efecto de la interacción.

Valor Crítico para la Interacción

Grados de libertad (gl): Total = 11, Escáner = 1, Resolución = 1, Interacción = 1, Residual = 8. El estadístico para la interacción es F_1,8. El valor crítico al 1% es F_1,8^0.01 = 11.26.

Predicción del Tiempo Medio

Para una resolución de 300 ppp (nivel j=2 del factor Resolución): m₃₀₀* = m* + b₂ = media muestral para las 6 pruebas con resolución de 300 ppp.

Modelo de Regresión Lineal

Para estudiar el efecto del tipo de escáner (categórica con dos variantes), se define una variable dummy Z (1 si es B, 0 si es A).

Modelo teórico: Tiempo/resol, escáner = β₀ + β₁Resolución + β₂Z + β₃Resolución*Z + u_j
Modelo estimado: Tiempo/Resol, escáner = b₀ + b₁Resolución + b₂Z + b₃Resolución*Z + e_j

Relación entre Test de Comparación de Varianzas y ANOVA

En el test de comparación de varianzas, si S₁² y S₂² son varianzas muestrales de muestras de tamaño N₁ y N₂ de poblaciones normales con varianzas σ₁² y σ₂², y las muestras son independientes, entonces LDCs4T9V3R9WJT4F9XqX0AAAAABJRU5ErkJggg==

se distribuye como una F con (N₁-1) y (N₂-1) grados de libertad. Si las varianzas poblacionales son iguales, el cociente sigue una distribución F. En ANOVA, el CMresidual estima la σ² común. Si un efecto es inexistente (H0 cierta), el CMefecto también estima σ². Por lo tanto, Fratio = CMefecto / CMresidual se distribuye como F. Si existe un efecto, Fratio será mayor.

Interpretación Práctica del IC para una Proporción Poblacional (p)

Un IC, como yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

, indica que existe una probabilidad de 1-α de que los límites del intervalo contengan el verdadero valor de p. No significa que haya una probabilidad de 1-α de que p esté dentro de un intervalo concreto. p no es una variable aleatoria. Existe una población de posibles muestras, cada una con su IC, y una proporción 1-α de estas muestras tienen ICs que cubren el verdadero valor de p. La probabilidad 1-α es una medida de la confianza en que el intervalo contenga a p.