Medidas de Tendencia Central, Localización y Dispersión
Definición: Utilizadas para describir y resumir un conjunto de datos. Son valores numéricos que representan el centro o la ubicación central de un conjunto de observaciones.
Propósito: Proporcionar una representación o resumen del conjunto de datos, permitiendo entender la distribución y la ubicación central de los valores.
Medidas de Tendencia Central
Media: Promedio. Se calcula sumando todos los valores de un conjunto de datos y dividiéndolos por el número total de observaciones.
Mediana: Valor central en un conjunto de datos ordenados de forma ascendente o descendente.
Moda: Valor que se repite con mayor frecuencia en un conjunto de datos.
Medidas de Localización
Cuartiles: Los cuartiles dividen el conjunto de datos en cuatro partes iguales. Q1 (25%), Q2 (50%), Q3 (75%).
Deciles: Los deciles dividen el conjunto de datos en diez partes iguales. Hay nueve deciles en total, incrementando de 10% en 10%.
Percentiles: Los percentiles dividen el conjunto de datos en cien partes iguales. Hay 99 percentiles en total, incrementando de 1% en 1%.
Medidas de Dispersión
Rango: Es una medida de dispersión que representa la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos.
Varianza: Es una medida de dispersión que cuantifica la variabilidad o dispersión de un conjunto de datos con respecto a su media.
Desviación estándar: Es una medida de dispersión que representa la raíz cuadrada positiva de la varianza.
Diagrama de Caja y Bigotes
Definición y propósito del diagrama: Es una representación gráfica que muestra la distribución de un conjunto de datos numéricos utilizando Q1, Q2 y Q3. El propósito es proporcionar una visualización compacta y fácil de interpretar de la distribución de los datos, incluyendo información sobre la ubicación central, la dispersión y la presencia de valores atípicos.
Interpretación de sus componentes:
Caja: Representa el rango intercuartílico (IQR). La línea en el medio de la caja representa la mediana.
Bigotes: Representan la dispersión de los datos fuera del rango intercuartílico.
Valores atípicos: Son valores individuales que se encuentran significativamente alejados del resto de los datos. Se suelen representar con asteriscos.
Distribuciones de Probabilidad con Tabla de Distribución Normal Z
Concepto de distribución normal y sus características: Se caracteriza por ser una distribución simétrica alrededor de su media y tiene forma de campana. Tiene dos parámetros principales: la media (μ) que determina la posición central de la distribución, y la desviación estándar (σ) que determina su dispersión o amplitud.
Características de la distribución normal:
- Simetría
- Forma de campana
- Valor esperado (media μ)
- Desviación estándar: Cuanto mayor sea la desviación estándar, mayor será la dispersión de los datos.
Uso e interpretación de la tabla Z en una distribución normal: Es una herramienta utilizada para calcular probabilidades asociadas a una distribución normal estándar (con media igual a 0 y desviación estándar igual a 1).
Cálculo de probabilidades: Se utiliza para calcular probabilidades asociadas a una distribución normal estándar.
Teorema de Chebyshev
Enunciado y aplicaciones del teorema: Para cualquier conjunto de datos, al menos el (1 – 1/k^2) por ciento de los datos se encuentra dentro de k desviaciones estándar de la media, donde k es cualquier número mayor que 1.
Aplicaciones importantes:
- Estimación de la proporción de datos.
- Establecimiento de límites de confianza amplios y conservadores.
- Cálculo de límites superior e inferior y probabilidades.
Límites superior e inferior: Para calcular los límites superior e inferior, se utiliza la fórmula:
Límite superior: media + k * desviación estándar
Límite inferior: media – k * desviación estándar
Donde k es el número de desviaciones estándar alrededor de la media.
Estimación de probabilidades: Proporciona una estimación mínima para la proporción de datos que se encuentran dentro de un rango específico alrededor de la media.
Método Chi-Cuadrado para Prueba de Hipótesis
Concepto y propósito de la prueba Chi-cuadrado: Es una técnica para evaluar la asociación o la independencia entre dos variables categóricas. Su propósito principal es determinar si existe una diferencia significativa entre las frecuencias observadas y las frecuencias esperadas bajo una hipótesis nula.
Interpretación de resultados y decisión sobre la hipótesis: Implica evaluar la estadística de Chi-cuadrado obtenida y el valor p correspondiente.
Establecimiento de hipótesis:
Hipótesis nula (H₀): Afirmación de que no hay asociación entre las variables categóricas en la población.
Hipótesis alternativa (H₁): Afirmación de que hay una asociación entre las variables categóricas en la población.
Toma de decisión:
Si el valor p es menor que un nivel de significancia predefinido (por ejemplo, 0.05), se rechaza la hipótesis nula. Esto indica que existe evidencia suficiente para concluir que hay una asociación significativa entre las variables categóricas.