Conceptos y Aplicaciones de Estadística Descriptiva e Inferencial

Conceptos Fundamentales de Estadística

La estadística es una rama de las matemáticas que se ocupa de recopilar, organizar, analizar, interpretar y presentar datos. Se utiliza para comprender fenómenos, tomar decisiones y hacer predicciones basadas en la información recopilada.

Estadística Descriptiva

La estadística descriptiva comprende los métodos que implican la recolección, presentación y caracterización de un conjunto de datos, a fin de describir apropiadamente sus características. Utiliza técnicas relacionadas con el resumen y la descripción de datos numéricos, que pueden ser gráficos o incluir análisis mediante cálculos. Por ejemplo, un profesor calcula la calificación promedio de uno de sus grupos para describir su desempeño, sin generalizar a otros grupos. Gráficos, tablas y diagramas muestran los datos de forma más clara.

Estadística Inferencial

La estadística inferencial comprende los métodos que posibilitan la estimación de una característica de una población o la toma de decisiones concerniente a una población, basándose solo en los resultados de una muestra. Utiliza estadísticos muestrales para llegar a conclusiones acerca de los verdaderos parámetros de la población. Por ejemplo, un médico que estudia la eficacia de un nuevo medicamento puede utilizar la estadística inferencial para realizar una prueba de hipótesis y determinar si el medicamento es eficaz. Otro ejemplo: un profesor decide utilizar el promedio de calificaciones obtenido por uno de sus grupos en una unidad para estimar la calificación promedio en las diez unidades del curso.

Conceptos Clave

  • Población: Conjunto de todos los elementos que se estudian. La población puede ser finita o infinita.
  • Muestra: Subconjunto de la población, seleccionado para representarla y obtener información sobre ella. Ejemplo: 5000 personas.
  • Unidad de Observación: Cada uno de los miembros de la muestra o población. Ejemplo: cada una de las 5000 personas.
  • Variable: Característica que puede variar de una unidad de observación a otra. Ejemplo: aceptación de un producto.

Tipos de Variables

  • Cualitativas: Se definen en clases y categorías, no numéricamente. Pueden ser:
    • Nominales (ej: color de ojos).
    • Ordinales.
  • Cuantitativas: Se pueden medir numéricamente. Pueden ser:
    • Discretas.
    • Continuas.

Dato: Cada uno de los valores que toma la variable (respuesta de cada unidad de observación).

Tablas de Frecuencia y Gráficos (para Variables Cuantitativas)

Los datos se registran en una tabla de frecuencias, que asocia cada valor de la variable con el número de veces que se repite (frecuencia absoluta).

  • Fi (Frecuencia Absoluta): Número de veces que se repite la variable.
  • Fr (Frecuencia Relativa): Proporción. Se calcula como el cociente de cada Fi respecto al total.
  • F% (Frecuencia Porcentual): Fr multiplicado por 100.
  • F (Frecuencia Acumulada): Suma de las frecuencias absolutas.
  • Marca de Clase: Valor representativo de cada intervalo. Se calcula como la semisuma del límite inferior y superior.

Gráficos Comunes

  • Gráfico de Bastones: Representa los valores de la variable (x) en el eje de abscisas y las frecuencias absolutas (y) en el eje de ordenadas.
  • Gráfico de Barras: Representa datos mediante barras rectangulares de longitud proporcional a los valores representados.
  • Histogramas: Representación gráfica de una variable en forma de barras.
  • Gráfico Circular o de Pastel: Utilizado para representar porcentajes y proporciones.
  • Polígono de Frecuencias: Gráfico lineal creado a partir de un histograma, uniendo los puntos medios del lado superior de cada rectángulo. Permite visualizar cambios en la frecuencia.
  • Ojiva: Muestra la curva de una distribución acumulativa (utilizando el límite superior de cada intervalo o la marca de clase).

Medidas de Tendencia Central

  • Media: La medida más utilizada. Es el promedio de los valores. Ventajas: fácil de calcular, representativa. Desventajas: sensible a valores atípicos.
  • Mediana: Divide el conjunto de datos ordenados en dos partes iguales. Ventajas: no se ve afectada por valores atípicos. Desventajas: puede no ser representativa, más difícil de calcular que la media.
  • Moda: Valor que aparece con mayor frecuencia. Ventajas: fácil de identificar. Desventajas: no adecuada para datos con pocos valores repetidos, puede no ser representativa.

Medidas de Posición

  • Deciles: Dividen la población o muestra en diez partes iguales.
  • Percentiles: Dividen la sucesión de datos ordenados en cien partes porcentualmente iguales.
  • Cuartiles: Dividen la sucesión de datos en cuatro partes iguales. Hay tres cuartiles:
    • Q1 (Primer cuartil o percentil 25): Al menos el 25% de los datos están por debajo de él.
    • Q2 (Segundo cuartil o percentil 50): Al menos el 50% de los datos están por debajo de él (coincide con la mediana).
    • Q3 (Tercer cuartil o percentil 75): Al menos el 75% de los datos están por debajo de él.
  • Proporción (p): Fracción de la muestra que posee una característica determinada.

Medidas de Dispersión o Variabilidad

Indican el grado de dispersión en un conjunto de datos. Un valor pequeño indica poca variabilidad, un valor grande indica alta variabilidad, y un valor de cero indica que todos los datos son iguales.

  • Rango: Diferencia entre el valor más alto y el más bajo. Ventajas: fácil de entender. Desventajas: utilidad limitada, solo considera valores extremos.
  • Desviación Media: Promedio de los valores absolutos de los desvíos. Ventajas: incluye todos los datos.
  • Varianza: Media de los cuadrados de las desviaciones de los datos con respecto a la media aritmética. Ventajas: medida precisa. Desventajas: difícil de interpretar.
  • Desviación Estándar: Raíz cuadrada de la varianza. Ventajas: medida precisa, más fácil de interpretar que la varianza. Desventajas: sensible a valores atípicos.

Medidas de Dispersión Relativa

  • Coeficiente de Variación: Desvío estándar expresado como porcentaje de la media.
  • Coeficiente de Asimetría de Pearson: Determina si la distribución es simétrica o sesgada. Si la media (x̅) es igual a la mediana (Me), CA=0 (simétrica). Si x̅ > Me, CA > 0 (sesgada a la derecha). Si x̅ < Me, CA < 0 (sesgada a la izquierda).

Uso de la Desviación Estándar

Permite determinar, con precisión, dónde están localizados los valores de una distribución de frecuencias con respecto a la media, a través de la Regla de Chebyshev y la Regla Empírica.

  • Regla de Chebyshev: Al menos el (1-1/k2) * 100% de las observaciones quedan comprendidas entre (x̅ – K*S, x̅ + K*S), para todo valor real de K > 1.
  • Regla Empírica (Regla de las Tres Sigmas): Describe la distribución de los datos en una distribución normal (en forma de campana):
    1. El intervalo (x̅ ± S) contiene aproximadamente el 68% de los datos.
    2. El intervalo (x̅ ± 2S) contiene aproximadamente el 95% de los datos.
    3. El intervalo (x̅ ± 3S) contiene aproximadamente el 99.9% de los datos.

Probabilidad

  • Experimento Aleatorio (E): Actividad que produce datos. Ejemplo: lanzar una moneda.
  • Espacio Muestral (S): Conjunto de todos los resultados posibles de un experimento aleatorio.
  • Eventos (A, B, C…): Subconjuntos del espacio muestral. Resultados específicos o conjuntos de resultados de un experimento. Pueden ser simples (un resultado) o compuestos (varios resultados).

Operaciones entre Eventos

  • Unión (∪): Elementos que pertenecen a A, a B o a ambos.
  • Intersección (∩): Elementos que pertenecen a A y a B.
  • Conjuntos Disjuntos: No tienen elementos comunes.
  • Complemento (C): Elementos del universo que no pertenecen al conjunto A (representado como A con una línea arriba).
  • Eventos Mutuamente Excluyentes: Si uno y solo uno tiene lugar a la vez (no hay resultados simultáneos). Ejemplo: obtener cara o cruz al lanzar una moneda.

Tipos de Probabilidad

  • Probabilidad Clásica: Todos los resultados posibles son igualmente probables. Ejemplo: probabilidad de obtener un número par al lanzar un dado (3/6 = 0.5).
  • Probabilidad de Frecuencia Relativa: Se calcula observando la frecuencia con la que ocurre un evento. Ejemplo: si el número 3 aparece 25 veces en 100 lanzamientos de un dado, la probabilidad de que salga un 3 es 25/100 = 0.25.
  • Probabilidad Subjetiva: Basada en la creencia o juicio personal. Ejemplo: estimar que hay un 70% de probabilidad de lluvia basándose en la experiencia.
  • Enfoque Axiomático: Función que asigna a cada evento un número entre 0 y 1, siguiendo tres axiomas:
    • Axioma de la no negatividad: 0 ≤ P(A) ≤ 1.
    • Axioma de la certeza: P(S) = 1 (S es el espacio muestral).
    • Si A y B son mutuamente excluyentes, entonces P(A ∪ B) = P(A) + P(B).
  • Probabilidad Condicional: Probabilidad de que ocurra un evento dado que otro evento ya ha ocurrido. Se representa como P(A|B): probabilidad de A dado B.
  • Probabilidad Conjunta o Regla Multiplicativa: Probabilidad de la intersección de dos eventos. P(A ∩ B) = P(B) * P(A|B). Si A y B son independientes, P(A ∩ B) = P(A) * P(B).

Reglas de Conteo

  • Regla Multiplicativa del Conteo: Si un experimento I ocurre de *m* maneras y un experimento II ocurre de *n* maneras, el experimento compuesto de I seguido de II ocurre de *m* * *n* maneras. Ejemplo: 4 pantalones y 6 camisas diferentes permiten 4 * 6 = 24 combinaciones.
  • Factorial de un Número (n!): Producto consecutivo de todos los enteros desde 1 hasta *n*. 1! = 1 y 0! = 1.
  • Permutación: Arreglo ordenado de objetos distintos. El orden importa. Se calcula como P(n, k). Ejemplo: con A, B, C, las permutaciones de 2 letras son AB, AC, BA, BC, CA, CB.
  • Combinación: Selección no ordenada de objetos distintos. El orden no importa. Se representa como C(n, k). Ejemplo: con A, B, C, las combinaciones de 2 letras son AB, AC y BC.

Variable Aleatoria

Descripción numérica del resultado de un experimento aleatorio. Valores numéricos correspondientes a cada posible resultado. Ejemplo: número de lámparas defectuosas producidas.

  • Discretas: Toma solo algunos valores entre dos números dados. Ejemplo: número de alumnos que asisten a clase.
  • Continuas: Toma cualquier valor entre dos números dados. Ejemplo: milímetros de lluvia diarios en un mes.

Distribuciones de Probabilidad

Distribución Binomial

Describe datos discretos resultantes de un experimento de Bernoulli (dos resultados posibles: éxito o fracaso). Parámetros: *n* (número de ensayos), *p* (probabilidad de éxito), *q* = (1 – *p*) (probabilidad de fracaso). Probabilidad de *x* éxitos en *n* ensayos: P(X = x) = nCx * px * q(n-x). Valor esperado: E(x) = n*p. Varianza: V(x) = n*p*q. Desvío estándar: S(x) = √V(x).

Distribución Hipergeométrica

Se aplica a poblaciones finitas sin reemplazo (la probabilidad cambia en cada observación). La población se divide en dos grupos (éxitos y fracasos). La variable aleatoria es el número de éxitos en una muestra de *n* elementos. Valor esperado: E(x) = n*r/N (donde *r* es el número de éxitos en la población y *N* es el tamaño de la población).

Distribución de Poisson

Modela eventos discretos independientes en un intervalo (tiempo, espacio, etc.). Útil para eventos raros. Probabilidad de *x* eventos: P(X = x) = (λx * e) / x!. Valor esperado: E(x) = λ. Varianza: V(x) = λ.

Distribución Normal

Distribución muy importante en estadística. Forma de campana, simétrica respecto a la media. Parámetros: μ (media), σ (desviación estándar). Valor esperado: E(x) = μ. Varianza: V(x) = σ2. Desvío estándar: S(x) = σ.

Distribución Normal Estándar

Caso particular de la distribución normal con μ = 0 y σ = 1. Se denota como Z ~ N(0, 1). Estandarización: Z = (X – μ) / σ. Permite comparar distribuciones y calcular probabilidades usando tablas.

Modelos de Regresión

Modelo de Regresión Lineal Simple

Describe la relación lineal entre una variable dependiente (Y) y una variable independiente (X). Ecuación: Y = mX + b (m: pendiente, b: ordenada al origen). Evalúa la fuerza y dirección de la relación con el coeficiente de correlación (r) y el coeficiente de determinación (r2).

Modelo de Regresión Múltiple

Extiende la regresión lineal simple a múltiples variables independientes (X1, X2, …, Xn).

Análisis de Correlación

  • Coeficiente de Correlación (r): Grado de aproximación de los puntos a la recta de regresión. r = -1 (correlación negativa perfecta), r = 0 (no hay relación lineal), r entre 0 y 1 (correlación positiva), r entre 0 y -1 (correlación negativa).
  • Coeficiente de Determinación (r2): Porcentaje de variación de Y explicado por X.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.