Estadística: Fundamentos y Aplicaciones
La **estadística** permite analizar y comprender la información recopilada en una investigación, permitiendo:
- Resumir datos
- Identificar patrones
- Tomar decisiones informadas
- Probar hipótesis
- Generalizar resultados
Conceptos Clave
Población
Representada con letras griegas, es la totalidad de elementos que comparten una característica en estudio. Pueden ser finitas (ej: muertes en 2021, altas en la seguridad social) o infinitas (ej: lanzamientos de una moneda, personas con alta motivación, humanos).
Muestra
Representada con letras latinas, es un conjunto de elementos que componen la población. Debe ser representativa, idealmente obtenida mediante muestreo aleatorio.
Unidades de Análisis
Son los elementos en los que se compara alguna cualidad, y deben ser representativos.
Estadísticos
Se simbolizan con letras latinas. El valor del parámetro es único y desconocido, mientras que los estadísticos podrán tomar tantos valores como muestras sean extraídas de la población.
Fases de la Investigación
- Pregunta de investigación
- Documentación
- Formulación de hipótesis
- Diseño del estudio
- Recogida de datos
- Análisis de datos
- Interpretación de resultados
Tipos de Estadística
Estadística Descriptiva
Se enfoca en la recogida, organización y análisis de datos de una muestra. Su objetivo es resumir y presentar la información de manera clara.
Estadística Inferencial
Busca estimar propiedades desconocidas de la población mediante los datos recogidos en la muestra. Su objetivo es estimar, a base de cálculos probabilísticos, datos de la población.
Variables
Variables Independientes
Son las variables manipulables.
Variables Cualitativas
Son categorías excluyentes que no se suman, restan u ordenan (ej: sexo, grupo, tipo). Pueden ser dicotómicas o politómicas. Solo se puede calcular la moda.
Variables Cuasi-Cuantitativas
Son categorías ordenadas que se ordenan, pero no se suman ni restan (ej: niveles de estudios). Pueden ser dicotomizadas o politomizadas. Se puede calcular la moda o la mediana, siendo preferible la mediana.
Variables Cuantitativas
Valores técnicamente infinitos que se ordenan y operan matemáticamente (ej: nota, altura).
- Continua: Con números intermedios.
- Discreta: Sin números intermedios.
Se puede calcular la moda, mediana o la media, aunque siempre es preferible la media, mejor estimador de su parámetro en la población que la mediana o la moda. Se usa la mediana para variables cuantitativas en vez de la media, cuando los datos de la variable presenten valores extremos.
Escalas de Medida
Relacionan la modalidad entre variables con distintos números. Un número NO representa dos modalidades, es único y transformable, es decir, un número tiene significado.
Escala Nominal
Aplicable a variables cualitativas. La relación entre atributos y valores es igual o desigual. Los números tienen carácter simbólico (ej: 0: soltero). No tienen propiedades matemáticas.
Escala Ordinal
Aplicable a variables cuasi-cuantitativas. La relación es igual/desigual y ordenados (mayor que o menor que). La diferencia entre valores no tiene significado matemático.
Escala de Intervalo
Aplicable a variables cuantitativas. La relación entre atributos y valores es igual/desigual y orden mayor o menor que. La diferencia entre valores tiene significado matemático. El 0 es un valor absoluto y se admiten valores negativos. No hay proporciones (ej: grados Celsius).
Escala de Razón
Aplicable a variables cuantitativas. La relación es igual/desigual y orden mayor o menor que. La diferencia entre valores tiene propiedades matemáticas. El origen 0 es un valor absoluto, no hay valores negativos y sí hay proporciones (ej: Kg).
Media Aritmética
Es el índice de tendencia central más utilizado y uno de los modelos estadísticos más comunes.
Estadística Descriptiva Univariada
Fases
- Construir una base de datos
- Etiquetar e identificar variables
- Análisis exploratorio
- Descripción de variables y muestra
- Inferencia y contraste de hipótesis
- Presentación de resultados
- Interpretación
Distribuciones de Frecuencias
Frecuencia Absoluta (ni)
Número de veces que se repite un valor de la variable en la muestra.
Frecuencia Relativa (fi)
Proporción de la presencia de un valor respecto a la muestra total: fi = ni/N.
Porcentaje (pi)
Porcentaje que representa ese valor en la muestra total: fi x 100.
Frecuencia Absoluta Acumulada (Ni)
Número de veces que se repite en la muestra un valor o inferiores. No tiene sentido en variables nominales.
Frecuencia Relativa Acumulada (Fi)
Proporción acumulada: Fi = Ni/N. No tiene sentido con variables nominales.
Porcentaje Acumulado (Pi)
Fi x 100.
Representaciones Gráficas
Ciclograma / Gráfico Pastel / Diagrama de Sectores
En forma de círculo, dividido en porciones proporcionales a la frecuencia del valor. Se usa la frecuencia absoluta, relativa o porcentaje. Adecuado para variables nominales, ordinales y cuantitativas discretas.
Diagrama de Barras
Barras que representan la frecuencia de cada valor. Se usa la frecuencia absoluta, relativa o porcentaje. Adecuado para variables nominales, ordinales y cuantitativas discretas.
Histograma
Barras que representan la frecuencia (eje Y) de cada valor (eje X). Las barras están pegadas para representar la continuidad de la variable. Se usa la frecuencia absoluta, relativa o porcentaje. Los valores están agrupados por intervalos. Adecuado para variables cuantitativas continuas.
Polígono de Frecuencias
Frecuencia absoluta (eje Y) de cada valor (eje X). Puntos unidos por líneas, cada punto colocado en el límite superior de la barra. Indica cuántas veces aparece ese valor en la muestra. Útil para comparar grupos o describir perfiles. Adecuado para variables cuantitativas (mejor discretas).
Diagrama de Tallo y Hojas
Muestra el orden y la forma de los datos, útil para evaluar anomalías en la distribución de la variable.
Diagrama de Caja
Con indicadores de posición. La línea gruesa/central representa la mediana. Muestra de forma simple la forma de la variable, su simetría y los valores extremos.
Propiedades de las Distribuciones de Frecuencias
Tendencia Central
Valor promedio, por ejemplo: la media.
Variabilidad
Grado de dispersión de las observaciones respecto a la media.
- Baja: Los datos están concentrados y difieren poco.
- Alta: Los datos están dispersos.
Asimetría o Sesgo
Medida en que la mayoría de los valores presentados se agrupan en torno a los valores centrales de la distribución.
- Perfecta (Uniforme): La media divide la distribución en dos mitades simétricas.
- Positiva: Los datos se concentran en valores inferiores, a la izquierda.
- Negativa: Los datos se concentran en valores superiores, a la derecha.
Curtosis
Grado de concentración presente en los datos respecto a los valores centrales.
- Mesocúrtica: Distribución normal.
- Leptocúrtica: Más pico.
- Platicúrtica: En los extremos, baja.
Centiles (Ck) o Percentiles (Pk)
Entre 1 y 99, valor que deja por debajo de sí a una parte de la muestra (K%). El valor del percentil es igual a K%. Fórmula para calcular la posición (NO el valor): Pk = (K x (n+1))/100. (k = Nº del P que queremos calcular).
Deciles (Dk)
Entre 1 y 9, deja por debajo de sí a un porcentaje de la muestra, pero dividido en 10. Indican el 10%. Dk = ((k x (n+1))/10 K = Nº del D que calcular.
Cuartiles (Qk)
Cuartiles 1, 2 y 3. Divide la muestra en 4 (25%). Qk = ((nº cuartil x (n+1))/4 K = Nº del Q que queremos calcular.
Si queda entre dos números
P/D/Qk = E1 + (E2-E1) x e (e = lo decimal).
Moda
Valor más frecuente. Puede no existir o haber 2 o 3.
Mediana
Divide la muestra en 2 mitades, es igual al cuartil 2.
Si el número de datos es par
N/2 + 1.
Nivel de Medición y Estadísticos Apropiados
- Nominal: moda.
- Ordinal: moda, mediana.
- Intervalo y razón: todos.
Índices de Variabilidad
Grado en que los valores de una variable se alejan de un valor de tendencia central, parecidos o diferentes entre sí. Más dispersión: más heterogeneidad. Poca variabilidad: más homogeneidad.
Medidas de Dispersión Absolutas
Amplitud
Fácil observar el valor más alto y el más bajo.
- Índice de amplitud: Máximo menos mínimo.
Rango Intercuartílico (RIC)
Para solucionar esa distorsión se calcula:
- Amplitud intercuartílica (Aq): Q3 – Q1. Distancia entre los 2 cuartiles.
- Desviación semiintercuartílica (DSIQ): (Q3 – Q1)/2. Valor medio de la distancia entre los 2 cuartiles. Mitad de la distancia. Se usa al proporcionar la mediana como medida de tendencia central (distribución asimétrica).
Varianza
Estadístico de dispersión fiable y estable, sufre cambios si hay valores extremos, no se calcula sin la media. Grado en el que los valores observados se alejan de la media. Promedio de las distancias con respecto a la media.
Pasos para Calcular la Varianza
- Calcular la media.
- Calcular la diferencia de cada puntuación con respecto a la media (X – X’).
- Elevar al cuadrado las distancias con respecto a la media y sumarlas.
- Dividir esa suma entre el número de observaciones (n).
La fórmula depende de si es la población total o una muestra:
- Población total: σ²X = (∑(X – media)²) / N
- Muestra: S²X = (∑(X – X’)²) / (n – 1)
Desviación Típica
Da el valor en las mismas unidades físicas que la distribución. Se le llama Ẋ o DT. Es la raíz cuadrada de la varianza: DT = sx = Raíz de S²X.
Coeficiente de Variación
Relaciona la desviación típica y la media, permitiendo comparar la dispersión de dos distribuciones. Más dispersión = valores altos. CV = Sx / Desviación típica. El porcentaje es x100.
Puntuaciones Directas
X. Poca información, no interpretables, no comparables entre sí si no provienen del mismo instrumento.
Puntuaciones Diferenciales
Diferencia entre la media y la puntuación directa. No tiene en cuenta la variabilidad.
Puntuaciones Típicas
Cuando convertimos una puntuación directa en típica, se tipifica. Sirve para comparar dos o más distribuciones distintas, de distintos grupos o puntuaciones de distinta variable. Siempre indica cuántas desviaciones típicas se aparta la X de la media: Z = (x – x’) / S.
Conclusiones
- Una puntuación igual a la media tiene una puntuación típica (Z) de 0.
- Los valores suelen estar entre -3 y 3.
- La suma/media de las puntuaciones típicas es 0.
- La DT y la varianza es 1.
Distribución Tipificada
Media 0, DT 1. (u o) N(0,1). Es simétrica: Moda, mediana y media coinciden en el centro (50%). Asintótica: de -inf a inf. No se cruza con el eje X, de -3 a 3 DT. Tiene puntos de inflexión.
Porcentajes
Probabilidad que tiene la variable de tomar valores iguales o menores a él. Siempre son los mismos. Se puede calcular a partir de la Puntuación Típica (Z) usando tablas de distribución normal.
Probabilidad de Obtener una Puntuación por Debajo
P(Z < a). Podemos calcularlos exactamente a partir de una Z, usando las tablas de distribución normal. La tabla siempre proporciona la probabilidad por debajo de Z. Primero, calculamos Z = (x – x’) / s (s = desviación). P(Z < el resultado de z), se busca en la tabla y se transforma en probabilidad al hacer x100.
Estadística Descriptiva Bivariada
Causalidad
El cambio en una variable es responsable del cambio en otra.
Relación
Dos variables varían positiva o negativamente a la vez.
Relación entre Variables Categóricas (Nominal y Ordinal)
Se necesita saber las frecuencias conjuntas.
Frecuencias Absolutas Conjuntas
Representan el número de personas que presentan a la vez un valor de la variable X y un valor de la variable Y.
Distribuciones Marginales
(En la última fila y en la última columna) muestran las frecuencias absolutas para cada variable.
Tablas de Contingencia
Se usan más frecuentemente con variables categóricas. Se pueden elaborar frecuencias relativas y porcentajes.
Representación Gráfica
El más usado es el Diagrama de barras agrupadas.
Índice de Correlación
Nominal-Nominal, Nominal-Ordinal, Ordinal-Ordinal. Se usa el Estadístico Chi-Cuadrado (x²): Mide la diferencia entre las frecuencias observadas (tabla de relación) (nº) en tablas de contingencia y las frecuencias esperadas (tabla de no relación) (ne). A más alejado de 0, más relación.
Para Calcular la Frecuencia Esperada
Frecuencia total de la categoría 1, tabla de relación (X) por la frecuencia total de la categoría 1, tabla de no relación (Y), todo entre la muestra.
Chi Cuadrado
Sirve para medir la discrepancia que existe entre las frecuencias observadas (no) en una tabla de contingencia y las frecuencias esperadas (ne).
Calcular Chi Cuadrado
- Elaborar la tabla de contingencias y la tabla de frecuencias observadas.
- Calcular la frecuencia esperada y aplicar la fórmula: chi x² = ∑((nº – ne)² / ne)
ne = multiplicando los marginales de cada fila y columna y dividiendo entre los participantes.
Diagrama de Dispersión
- Relación positiva: valores altos en las dos variables.
- Relación negativa: valores altos en una, bajos en otra.
Índice de Correlación para Variables Cuantitativas
Relación Lineal
Cuando covarían conjuntamente.
Covarianza
De -inf a inf, no sabemos si la relación es fuerte o débil. Mide el grado de relación lineal entre 2 variables. Para conocer el sentido de la relación. Es la media de los productos de las puntuaciones diferenciales de 2 variables.
- Población: Sxy = (∑((Xi – X’) x (Yi – Y’)) / n
- Muestra: (∑((Xi – X’) x (Yi – Y’)) / (n – 1)
Si es 0, no hay relación lineal. Un signo negativo indica una relación negativa.
Índice de Correlación de Pearson
rxy = Sxy (Índice de covarianza) / (Sx (desviación típica X) x Sy (Desviación típica Y)). Entre -1 y 1.
Interpretación
- Elevada negativa: > -0.5
- Moderada: -0.49
- Baja: -0.29
- No relación: -0.10 – 0.10
- Baja: 0.29
- Moderada: 0.49
- Elevada positiva: 0.5
Estadística Descriptiva vs. Estadística Inferencial
- Estadísticos (ô): Conclusión sobre la muestra.
- Estadística inferencial (0): Conclusión sobre la población, probabilidad de cada resultado.
Hipótesis
Hipótesis Conceptual
Afirmación directa.
Hipótesis Operativa
En términos cuantificables y analizables. Establecen cómo se medirán los conceptos a estudiar. Comprobar la relación enunciada objetivamente.
Hipótesis Nula (H0)
Siempre igualada a algo. Hipo estadística en términos estadísticos o paramétricos.
Hipótesis Alternativa (H1)
Siempre niega la hipótesis nula, derivada de la hipo conceptual.
Contraste de Hipótesis
Hipo conceptual > hipo estadísticas.
Tipos de Hipótesis
- Bidireccional: H0 = y H1 ≠
- Direccional: H0 mejor o peor
Proceso de Inferencia Estadística
Para contrastar la hipo, basado en la probabilidad. Se usan muestras e índices calculados en ella. Cada estadístico se comporta como dato de conjunto, cada muestra un elemento distinto. Se asume que los valores de ese conjunto siguen una determinada distribución.
Teorema Central del Límite
Si la variable aleatoria X se distribuye normalmente en la población con infinitas muestras y se calcula la media, la distribución muestral tendrá forma de distribución normal y la desviación típica es denominada error típico de la media (ox = yx, o = y). ox = o / raíz N. z = (x’ – u) / ox.
Concepto de Significación Estadística
Valor p
En función de la probabilidad de ocurrencia del efecto observado, suponiendo la H nula cierta.
p-valor
Probabilidad asociada al estadístico de contraste siendo la H nula cierta. Cómo de probable sería encontrar ese valor por azar. Si la probabilidad de azar es baja, la probabilidad de que la H0 sea cierta se reduce. Si p es menor o igual a 0.05, se rechaza. Z = (media – totalx) / ox.
Errores en la Decisión
- Error Tipo 1: Rechazo la H0 cuando es correcta. Para minimizar, establecer un alfa pequeña (0.05 – 0.01).
- Error Tipo 2: Acepto la H0 cuando es falsa. Para minimizar, aumentar el tamaño de la muestra.
Intervalo de Confianza
Estimar el rango de valores donde se puede encontrar el verdadero valor, con una probabilidad alta y conocida.
Valores
Límite superior e inferior, intervalo de confianza IC% = (Li, Ls) (IC95% = -1.96; 1.96). Emax = Z x 0o, 0o = s / raíz(N – 1), Li = 0′ – Emax, Ls = 0′ + Emax. Alfa es la probabilidad de estar fuera del intervalo.
Procedimiento
Sumar y restar el Error muestral máximo (emax) al estadístico (0). Emax = 1.96 por el error típico del estadístico (o sub o). Error típico del estadístico = s / raíz(N – 1). Límite superior = Valor estadístico + Emax. Límite inferior = Valor estadístico – Emax.
Estadístico de Contraste
Cada estadística tiene una distribución normal, con esto podemos conocer la probabilidad de que tome un valor concreto en la población, lo que nos permite inferir.
Proceso de Inferencia Estadística
Conocer el estadístico adecuado y conocer la distribución del estadístico.
Pruebas Paramétricas vs. No Paramétricas
- Pruebas Paramétricas: Los datos deben cumplir ciertos supuestos, se deben ajustar a cierta distribución. Son mejores para aceptar/rechazar la H nula (Correlación de Pearson).
- Pruebas No Paramétricas: Requerimientos más flexibles, cuando los datos no cumplen los supuestos para las paramétricas, no deben ajustarse a una distribución. Son más válidas en más situaciones (Correlación de Spearman).
Contraste sobre Dos Medias
Distribución muestral usada:
- Distribución normal: Se conoce la varianza o la desviación típica de la población.
- T de Student: No se conoce la varianza de la población. Es simétrica, de -inf a inf, esperanza/media 0.
Varianza Conocida
El estadístico es Z, se le asigna una probabilidad de ocurrencia p. Z = ((X’ – u) / (o / raíz N).
Contraste
- Bilateral: H0 = X’ = u
- Unilateral izquierdo: H0 = X’ >= u
- Unilateral derecho: H0 = X’ <= u
Reglas de Decisión
- Bilateral: SI Z >= -Zalfa/2 o >= Zalfa/2, rechazo.
- Unilateral izq: Si Z <= -Zalfa/2, rechazo.
- Derecho, izq >=.
- Opción 2: p <= 0.05, rechazo.
Varianza Desconocida
Ver si hay diferencias significativas entre las medias poblacionales.
Distribución Muestral
- Si se conoce la variación/desviación: distribución normal.
- Si no se conoce: T de Student, simétrica, de -inf a inf, esperanza/media 0.
Deben ser cuantitativas, distribución normal, homocedasticidad (homogeneidad de varianzas). T = ((X’ – u / desviación típica) / Raíz(N – 1)). En la tabla, arriba 0.05 unilat, 0.25 bilat.
Reglas de Decisión
Contraste bilateral: si t es menor o igual a la región de rechazo. Unilateral izq: si T es menor o igual. Derecho: mayor o igual.
Contraste sobre Más de Dos Medias en Función de una Variable Categórica (SPSS)
Usamos ANOVA, análisis de varianza. Se mira si hay igualdad o no de las varianzas. Valor F y significación p. > 0.05 no hay diferencia entre las medias.
Requisitos
- Paramétrica: Requiere variable cuantitativa o variable categórica de 3 categorías o más (ANOVA unifactorial), variables con distribución normal o grandes (>= n30), supuesto de homocedasticidad.
Estadístico F de Snedecor
Valores de grados de libertad, de 0 a inf, asimétrica positiva (valores bajos, más probables).
Contraste
H0 == u1 = u2 = u3… H1 == u1 ≠ etc.
Chi-Cuadrado de Pearson (x²)
Para inferir si se encuentra la misma relación en la población. Mide la diferencia entre no y ne en la tabla de contingencia.
Requisitos
- No paramétrica: No requiere que las variables tengan distribución normal, pero sí que todas las casillas (80%) tengan una frecuencia esperada mínima de 5.
Contraste
H0: no = ne. Si las frecuencias observadas y esperadas son iguales, no hay relación.
Distribución Muestral del Estadístico
Chi cuadrado. De 0 a inf, asimétrica positiva.
Cálculo
Para obtener la probabilidad:
- Primero, calcular x² de la muestra con: X² = ∑((no – ne)² / ne)
- Después, encontrar X² teórica (tabla de distribución de probabilidad chi cuadrado), es decir, Grados de libertad (gl) = (nº filas – 1) x (nº columnas – 1).
- Luego, si la probabilidad de x² es menor que el valor crítico (chi, tabla), acepto H0. Si es mayor, rechazo.
Correlación de Pearson (p) en Variables Cuantitativas
Más aplicado.
Requisitos
- Paramétricas: Requiere distribución normal y variables cuantitativas.
Contraste Lineal
Contraste bilateral: H0: p = 0, H1 ≠ 0. Contraste izq: relación negativa, derecha: positiva.
t de Student
De -inf a inf, media 0, depende de los grados de libertad. Cuando tengas T, se le asocia la probabilidad de ocurrencia t de Student, grados de libertad (N – 2) (2 porque son 2 variables). 0 – 0.10 nula, 0.29 pequeña, 0.5 moderada, > 0.5 grande. El signo nos indicará la dirección positiva o negativa.
SPSS
Uso de T de Student. Paramétrico: n >= 30, supuesto de homocedasticidad.
Tipos de Variables
- Independientes: Variable cuantitativa y dicotómica, homocedasticidad.
- Dependientes: Muchos participantes, 2 variables cuantitativas relacionadas.
Prueba t de Student
Se mira la fila según se hayan asumido o no las varianzas iguales. Nos quedamos con el valor t y sig. (p). Si p > 0.05, no hay diferencia entre las medias del grupo.
El Modelo de Regresión Lineal
¿Cómo/Cuánto cambia una variable en función de otra? Permite predecir cambios de la variable dependiente Y a partir de cambios en la variable independiente X. Se necesitan 2 variables cuantitativas relacionadas linealmente.
Ecuación de la Regresión Lineal
Mínimos errores de predicción al cuadrado.
La Ecuación de la Recta de Regresión
Y’ = a + b por X. a = Valor de Y cuando X es 0. b = Pendiente, valor de Y cuando X varía en 1 unidad.
Calcular la Pendiente
b = Covarianza Sxy / Varianza S²x.
Calcular el Intercepto
a = Y’ – b por X’.
La Varianza Residual
Diferencia entre la puntuación real y la recta, Sr² = (∑(Y – Y’)²) / N.
Desviación Típica o Error Típico de Estimación
Es Sr = raíz de lo anterior. A mayor valor, peor ajuste de la regresión.
El Coeficiente de Determinación
O R², es igual a rxy². Cuando 2 variables están relacionadas, una parte de la variabilidad de Y puede explicar la variabilidad de X. r = -0.5. Va de 0 a 1, 1 – R² = Proporción de Y explicada por otras variables.
Contraste de Hipótesis en el Modelo de Regresión
t de Student
Hipo nula: b = 0, x no es predictor de Y.
ANOVA (F de Snedecor)
Hipo nula: si no tiene buen ajuste. Hipo alternativa: si lo tiene. p < 0.05.
Modelo de Regresión Simple
Predicción del comportamiento de la variable Y a partir de una variable X (X1).
Modelo de Regresión Múltiple
Predicción del comportamiento de la variable Y (VD) a partir de dos o más variables: Y’ = a + b1x + c1x … + residuos (variables que no tenemos en cuenta). DT = Sx. Es paramétrico, requiere distribución normal de los residuos, homocedasticidad, independencia de los errores y ausencia de multicolinealidad: ausencia de relación entre los predictores (VI).