Conceptos Clave de Estadística: Errores, Pruebas y Modelos

Conceptos Fundamentales en Estadística

Error Tipo 1 y Riesgo Asociado

El Error Tipo 1 (o Error de primera especie) se comete cuando se rechaza una hipótesis nula (H0) que en realidad es verdadera. La probabilidad de cometer este error se denomina riesgo de primera especie (α).

Diferencias entre Estadística Descriptiva e Inferencial

La estadística descriptiva se enfoca en resumir y describir las características de la muestra analizada. Por otro lado, la estadística inferencial utiliza la información de la muestra para hacer generalizaciones sobre la población de la cual se extrajo, con un margen de error controlado. Busca extrapolar los resultados de una parte (muestra) al todo (población).

El P-valor

El p-valor es la probabilidad de obtener resultados tan o más extremos que los observados, asumiendo que la hipótesis nula es verdadera.

Amplitud del Intervalo de Confianza (IC) para una Proporción Poblacional

La amplitud del IC para una proporción poblacional (p) depende de:

  • La estimación muestral p* (frecuencia relativa observada del suceso en la muestra).
  • El tamaño de la muestra (N).
  • El nivel de confianza (1-α).

Cuanto mayor sea N, menor será la amplitud. Cuanto más cerca de 0.5 esté p*, mayor será la amplitud. Cuanto mayor sea el nivel de confianza, mayor será la amplitud.

Diferencias Significativas en Contraste de Hipótesis

Una diferencia «muy significativa» (p-valor muy pequeño) indica que es muy probable que la diferencia no sea nula, pero no necesariamente que sea grande o relevante en la práctica. Con un tamaño muestral grande, incluso diferencias pequeñas pueden ser estadísticamente significativas.

Relación Significativa y Causalidad

Una relación significativa entre dos variables no implica necesariamente una relación causa-efecto. Puede haber una tercera variable que influya en ambas.

Pasos en un Contraste de Hipótesis

  1. Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1).
  2. Obtener datos.
  3. Calcular el estadístico de discrepancia.
  4. Comparar el estadístico con la distribución de referencia (bajo H0).
  5. Decidir si se rechaza o no H0.

Error Tipo 2 y Riesgo Asociado

El Error Tipo 2 (o Error de segunda especie) ocurre cuando se acepta una hipótesis nula que en realidad es falsa. La probabilidad de cometer este error se denomina riesgo de segunda especie (β).

Pruebas de Independencia y Homogeneidad

¿Cuándo usar cada prueba?

  • Test de Independencia: Se utiliza cuando se tienen dos variables cualitativas en una sola población y se quiere investigar si existe relación entre ellas. Por ejemplo, estudiar la relación entre la supervivencia a un infarto y el sexo. H0: Las variables son independientes.
  • Test de Homogeneidad: Se aplica cuando se tienen diferentes grupos o tratamientos y se quiere comparar la distribución de una variable cualitativa entre ellos. Por ejemplo, comparar la efectividad de tres técnicas quirúrgicas. H0: Los tratamientos son homogéneos respecto a la característica estudiada.

Estadístico y Distribución

Un estadístico es cualquier cantidad calculada a partir de los datos de una muestra. Si la muestra es aleatoria, el estadístico es una variable aleatoria.

Tabla de Contingencia

Una tabla de contingencia es una tabla de frecuencias que muestra el número de veces que ocurre cada combinación de las categorías de dos variables cualitativas.

Deducción del Intervalo de Confianza (IC)

Si N no es pequeña, la variable binomial X se aproxima a una distribución Normal con media Np y desviación típica. 1J9i4BuvxDZ+ngxwXgAAAABJRU5ErkJggg==

. La frecuencia relativa P* = X/N se distribuye aproximadamente como una Normal con media p y desviación típica √(p(1-p)/N). Si zα/2 cumple Prob(-zα/2α/2) = 1-α, entonces: yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

. Los límites de la desigualdad definen un IC para p con un nivel de confianza de 1-α. Se sustituye p por su estimación p* y zα/2 por tn-1,α/2 (t de Student con n-1 grados de libertad).

Interpretación del Riesgo de Primera Especie

Con un riesgo de primera especie del 20%, se puede calcular un IC para la desviación típica poblacional (σ) con un nivel de confianza del 80%. Este intervalo contendrá los valores de H0 sobre la desviación típica poblacional que se aceptarían, dada la muestra. yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

, donde N es el tamaño muestral, s2 es la varianza muestral, y g1 y g2 son los percentiles 10% y 90% de una distribución χ2 con N-1 grados de libertad.

Relaciones entre Media y Varianza

Media Muestral y Media Poblacional

yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

Varianza de la Media Muestral

Varianza de la media muestral = Varianza de la población / N (tamaño de la muestra): yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

Riesgo de Primera y Segunda Especie

Usar un α muy bajo aumenta el riesgo de segunda especie (β). Un valor de α = 0.05 se considera un compromiso razonable.

IC para la Desviación Típica (σ)

Si s2 es la varianza muestral de una muestra de tamaño N de una población normal con varianza σ2, entonces (N-1)s22 sigue una distribución χ2 con N-1 grados de libertad. Se pueden obtener g1 y g2 tales que P(g12. 5Xl7KAYwGFD29YUCTjzU6qlbKAssCeFlAks6fh1G

. Sin raíces cuadradas, es el IC para la varianza poblacional; con raíces, para la desviación típica poblacional.

Análisis de Varianza (ANOVA)

Comprobación de la Fratio

El cociente s12/s22 de dos estimaciones independientes de una misma varianza sigue una distribución F de Fisher. Si un efecto es inexistente (H0 cierta), Fratio = CMefecto / CMresidual se distribuye como una F. Si existe un efecto, Fratio tenderá a ser mayor. Un efecto es significativo si su p-valor es menor que 0.05 y muy significativo si es menor que 0.01.

Ejemplo de ANOVA Factorial

Ejemplo: Análisis del efecto del tipo de escáner (X1: A, B) y la resolución de la imagen (X2: 150, 300 píxeles) sobre el tiempo de procesamiento (Y), con tres réplicas por tratamiento.

Modelos Teórico y Estimado en ANOVA

  • Modelo teórico: N6Vkjr3nDcMAAAAASUVORK5CYII=
  • Modelo estimado: JIGTBA4vgf8Dd+dRCD0iZ1UAAAAASUVORK5CYII=

Donde αi es el efecto del nivel i del Factor …, βj es el efecto del nivel j del factor …, y αβij es el efecto de la interacción.

Valor Crítico para la Interacción

Grados de libertad (gl): Total = 11, Escáner = 1, Resolución = 1, Interacción = 1, Residual = 8. El estadístico para la interacción es F1,8. El valor crítico al 1% es F1,80.01 = 11.26.

Predicción del Tiempo Medio

Para una resolución de 300 ppp (nivel j=2 del factor Resolución): m300* = m* + b2 = media muestral para las 6 pruebas con resolución de 300 ppp.

Modelo de Regresión Lineal

Para estudiar el efecto del tipo de escáner (categórica con dos variantes), se define una variable dummy Z (1 si es B, 0 si es A).

  • Modelo teórico: Tiempo/resol, escáner = β0 + β1Resolución + β2Z + β3Resolución*Z + uj
  • Modelo estimado: Tiempo/Resol, escáner = b0 + b1Resolución + b2Z + b3Resolución*Z + ej

Relación entre Test de Comparación de Varianzas y ANOVA

En el test de comparación de varianzas, si S12 y S22 son varianzas muestrales de muestras de tamaño N1 y N2 de poblaciones normales con varianzas σ12 y σ22, y las muestras son independientes, entonces LDCs4T9V3R9WJT4F9XqX0AAAAABJRU5ErkJggg==

se distribuye como una F con (N1-1) y (N2-1) grados de libertad. Si las varianzas poblacionales son iguales, el cociente sigue una distribución F. En ANOVA, el CMresidual estima la σ2 común. Si un efecto es inexistente (H0 cierta), el CMefecto también estima σ2. Por lo tanto, Fratio = CMefecto / CMresidual se distribuye como F. Si existe un efecto, Fratio será mayor.

Interpretación Práctica del IC para una Proporción Poblacional (p)

Un IC, como yxMptWlHYJjUuOuufIaJAlIxTVIp2nZCydErKQCW

, indica que existe una probabilidad de 1-α de que los límites del intervalo contengan el verdadero valor de p. No significa que haya una probabilidad de 1-α de que p esté dentro de un intervalo concreto. p no es una variable aleatoria. Existe una población de posibles muestras, cada una con su IC, y una proporción 1-α de estas muestras tienen ICs que cubren el verdadero valor de p. La probabilidad 1-α es una medida de la confianza en que el intervalo contenga a p.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.