Guía Completa de Estadística e Investigación: Fases, Variables, Diseños y Análisis

Fundamentos de Estadística e Investigación

Fases de la Investigación

Pregunta de investigación
Documentación
Formulación de hipótesis
Diseño del estudio
Recogida de datos
Análisis de datos
Interpretación de resultados

Población

Representada por letras griegas, es la totalidad de elementos que comparten una característica en el estudio. Puede ser finita (ej., muertes en 2021, altas en la seguridad social) o infinita (ej., lanzamiento de una moneda, personas con alta motivación, humanos).

Muestra

Representada por letras latinas, es un conjunto de elementos que componen la población. Debe ser representativa, idealmente obtenida mediante muestreo aleatorio.

Estadística Descriptiva

Recogida, organización y análisis de datos de una muestra. Su objetivo es resumir y presentar la información de manera clara.

Estadística Inferencial

Estimación de propiedades desconocidas de la población a partir de los datos recogidos en la muestra. Su objetivo es estimar, mediante cálculos probabilísticos, datos de la población.

Variables

Cualitativas

Categorías excluyentes que no se suman, restan u ordenan (ej., sexo, grupo, tipo). Pueden ser dicotómicas o politómicas.

Cuasi-cuantitativas

Categorías ordenadas que se ordenan, pero no se suman ni restan (ej., niveles de estudios, dicotomizada y politomizada).

Cuantitativas

Valores técnicamente infinitos que se ordenan. Incluyen:

Continua: Con números intermedios (ej., altura).
Discreta: Sin números intermedios.

Escalas de Medida

Relación entre la modalidad entre variables con distintos números. Un número NO representa dos modalidades, es único y son transformables, o sea, un número tiene significado.

Escala Nominal

Aplicable a variables cualitativas. La relación entre atributos y valores es igual o desigual. Los números tienen carácter simbólico (ej., 0: soltero). No tienen propiedades matemáticas.

Escala Ordinal

Para variables cuasi-cuantitativas. La relación es igual/desigual y ordenados (mayor que o menor que). La diferencia entre valores no tiene significado matemático.

Escala de Intervalo

Para variables cuantitativas. La relación entre atributos y valores es igual/desigual y orden mayor o menor que. La diferencia entre valores tiene significado matemático. El 0 es un valor absoluto y se admiten valores negativos. No hay proporciones (ej., grados Celsius).

Escala de Razón

Para variables cuantitativas. Igual/desigual y orden mayor/menor que. La diferencia entre valores tiene propiedades matemáticas. El origen 0 es un valor absoluto, no hay valores negativos y sí hay proporciones (ej., Kg).

Medición

Nominal: Moda y mediana.
Ordinal: Valores con orden, frecuencia y distribución, moda y mediana.
Intervalo: Orden, frecuencia y distribución, moda, mediana, media, desviación típica.
Razón: Todo.

Error de Medida

Discrepancias entre medias tomadas y valores reales, cuestionarios, auto reportes.

Validez

Técnicas de evaluación/medición. Si el instrumento mide lo que debe medir. Precisión.

Fiabilidad

Poder producir los mismos resultados en distintas condiciones. Estabilidad. Se necesita validez y fiabilidad.

Tipos de Validez

Validez de Criterio

Grado de correlación con variables ajenas. Criterio: variable de referencia.

Validez Externa

Generalización.

Validez Interna

Correlación con otro instrumento validado. Interpretación.

Validez de Contenido

Grado en el que los ítems representan y cubren el constructo.

Validez Concurrente

Si las dimensiones relacionadas lo están.

Validez Divergente

Si se diferencia o no con lo que tiene que diferenciarse.

Fiabilidad

Consistencia Interna / Dos Mitades

Grado en el que los elementos del instrumento se relacionan entre sí.

Test-Retest

Grado en que un instrumento se relaciona con su aplicación en otro momento.

Formas Paralelas

Grado en que las medidas de dos instrumentos parecidos están relacionadas.

Diseños de Investigación

Diseño Correlacional

Análisis: coeficiente de correlación, regresión (predicción). Limitaciones: no indica relación causa-efecto, no controla variables extrañas. Ventajas: conocer pasos previos a análisis complejo.

Diseño Transversal

Comparación de muchos sujetos recogidos en un mismo momento en el tiempo. Análisis: correlaciones, regresión, ANOVA, ANCOVA, MANOVA, comparación de medias. Limitaciones: no relación causa-efecto, no 100% representativo. Ventajas: económicos y breves, establece diferencias de grupos, establece conocimiento para estudios futuros.

Diseño Longitudinal

Comparación del mismo grupo de sujetos a lo largo del tiempo. Análisis: correlación, regresión, ANOVA, ANCOVA… Medidas repetidas. Limitaciones: menos representatividad (mortalidad de la muestra), costoso y duradero. Ventajas: muchas variables, establece causa-efecto.

Diseño Mixto

Combina transversal y longitudinal. Variables recogidas en un único momento con variables medidas en más de una ocasión.

Cómo Seleccionar la Muestra

Más representativa: mejor inferencia, más azar mejor. Pasos: Identificación, conocer tamaño, variables importantes para no sesgo, extracción muestral a priori, identificar sujetos, iniciar estudio.

Muestreo Probabilístico

Muestreo Aleatorio Simple

Total azar, rápido, difícil en la práctica.

Muestreo Sistemático

Seleccionar un sujeto y a partir de ahí según n disponible. Simple y rápido, puede sesgar, datos deben ordenarse.

Muestreo Estratificado

Dividir la población en grupos homogéneos pero heterogéneos entre sí y seleccionar muestra con misma distribución. Estima con precisión, difícil si muchas variables.

Conglomerado

Grupos naturales que reúnen variables a estudiar, representativa. Ventaja operativa, puede faltar homogeneidad entre grupos.

Muestreo NO Probabilístico

Conveniencia

Selección por disponibilidad, barato y fácil, restringe generalización.

Cuotas

Elección de grupos que caracterizan la muestra, garantía de generalización en algunas variables, no se afirma representatividad.

Bola de Nieve

Selecciona uno y ese hace de enlace a otros, facilita encontrar, no garantía de precisión.

Intencional

Elección ad hoc según criterio, fácil y económico, no científico, sesgado.

Consecutivo

Muestra por conveniencia repetida en el tiempo, permite longitudinales, abandono y no consecución de objetivos.

Técnicas de Control de Variables

Eliminación: Situación de laboratorio sin variable extraña.
Constancia: Si no se elimina, mantenerla con el mismo valor siempre.
Balanceo: Equilibrar el efecto de la variable extraña, si no puede ser constante, incluir grupo control con variable independiente=0, mismo nº de sujetos a cada condición de la variable extraña.
Contrabalanceo: Hacer que todos los sujetos pasen por distintas condiciones, iguala el efecto de la variable extraña, una mitad de la muestra un orden y la otra mitad otro. Dos o más condiciones experimentales.
Aleatorización: Asignar condiciones al azar, la variable extraña pueda estar distribuida homogéneamente, solo si ya nada es factible.

Estadística Descriptiva Univariada

Fases

Construir una base de datos, etiquetar e identificar variables.
Análisis exploratorio.
Descripción de variables y muestra.
Inferencia y contraste de hipótesis.
Presentación de resultados.
Interpretación.

Distribuciones de Frecuencias

Frecuencia Absoluta (ni)

Número de veces que se repite un valor de la variable en la muestra.

Frecuencia Relativa (fi)

Proporción de la presencia de un valor respecto a la muestra total fi=ni/N.

Porcentaje (p i)

Porcentaje que representa ese valor en la muestra total fi x 100.

Frecuencia Absoluta Acumulada (Ni )

Número de veces que se repite en la muestra un valor o inferiores. No tiene sentido nominal.

Frecuencia Relativa Acumulada Fi

Proporción acumulada Fi=Ni/N. No tiene sentido con variables nominales.

Porcentaje Acumulado Pi

Fi x 100.

Representaciones Gráficas

Ciclograma / Gráfico Pastel / Diagrama de Sectores

En forma de círculo, dividido en porciones proporcionales a la frecuencia del valor. Absoluta, relativa o porcentaje. Variables nominales, ordinales y cuantitativas discretas.

Diagrama de Barras

Barras que representan la frecuencia de cada valor. Absoluta, relativa o porcentaje. Variables nominales, ordinales y cuantitativas discretas.

Histograma

Barras representan la frecuencia (eje Y) de cada valor (eje X). Las barras están pegadas para representar la continuidad de la variable. Absoluta, relativa o porcentaje. Valores agrupados por intervalos. Variables cuantitativas continuas.

Polígono de Frecuencias

Frecuencia absoluta (eje Y) de cada valor (eje X). Puntos unidos por líneas, cada punto colocado en el límite superior de la barra. Cuántas veces aparece ese valor en la muestra. Útil para comparar grupos o describir perfiles. Variables cuantitativas (mejor discretas).

Diagrama de Tallo y Hojas

Muestra el orden y la forma de los datos, útil para evaluar anomalías en la distribución de la variable.

Diagrama de Caja

Con indicadores de posición. Línea gruesa/central: mediana. Disponible de forma simple la forma de la variable. Simetría y extremos.

Propiedades de la Distribución de Frecuencias

Tendencia Central

Valor promedio, por ejemplo: media.

Variabilidad

Grado de dispersión de las observaciones respecto a la media. Baja: Están concentrados, difieren poco. Alta: Dispersos.

Asimetría o Sesgo

Medida en que la mayoría de los valores presentados se agrupan en torno a valores centrales de la distribución. Si es uniforme:

Perfecta: La media se divide en dos mitades simétricas a los datos.
Positiva: Los datos se concentran en valores inferiores, izquierda.
Negativa: Los datos en valores superiores, derecha.

Curtosis

Grado de concentración presente en los datos respecto a los valores centrales.

Mesocúrtica: Distribución normal.
Leptocúrtica: Más pico.
Platicúrtica: En extremos, baja.

Centiles Ck o Percentiles Pk

Entre 1 y 99, valor que deja por debajo de sí a una parte de la muestra (K%). El valor del percentil es igual a K%. Fórmula para calcular la posición NO el valor: Pk=(K x (n+1))/100. (k= Nº del P que queremos calcular).

Deciles Dk

Entre 1 y 9, deja por debajo de sí a un porcentaje de la muestra. PERO dividido en 10. Indican 10%. Dk=((k x (n+1))/10 K=Nº del D que calcular.

Cuartiles Qk

Cuartiles 1, 2 y 3. Divide la muestra en 4 (25%) Qk= ((nº cuartil x (n+1))/4 K= Nº del Q que queremos calcular.

Si queda entre dos números: P/D/Qk= E1 + (E2-E1) x e (e= lo decimal).

Moda

Valor más frecuente, puede no existir o haber 2 o 3.

Mediana

Divide la muestra en 2 mitades, es igual al cuartil 2.

Si número par de datos: N/2 +1.

Nominal: moda y media.
Ordinal: orden, frecuencia distribución, moda mediana.
Intervalo y razón: Todos.

Índices de Variabilidad

Grado en que los valores de la variable se alejan de un valor de tendencia central, parecidos o diferentes entre sí. Más dispersión: más heterogéneo. Poca variabilidad: más homogéneo.

Medidas de Dispersión Absolutas

Amplitud

Fácil observar el valor más alto y bajo. Índice de amplitud: Máxima menos mínima.

Rango Intercuartil

o RIC. Para solucionar esa distorsión se calcula Amplitud intercuartil Aq= Q3-Q1 Distancia entre los 2 cuartiles. Desviación semiintercuartílica DSIQ= (Q3-Q1)/2 Valor medio distancia 2 cuartiles. Mitad distancia. Se usa al proporcionar la mediana como media de tendencia central (distribución asimétrica).

Varianza

Estadístico de dispersión fiable y estable, sufre cambios si valores extremos, no se calcula sin media. Grado en el que los valores observados se alejan de la media. Promedio de distancias con respecto a la media.

Pasos Varianza

Calcular la media, Calcular la diferencia de cada puntuación con respecto a la media (X-X´). Luego las distancias con respecto a la media se elevan al cuadrado y se suman, luego esa suma se divide entre el número de observaciones (n), da la varianza, pero la fórmula depende de SI población total: o^2X= (∑(X-media)^2 / N) SI muestra: S^2X= (∑(X-X´)^2 / n-1).

Desviación Típica

Da el valor en las mismas unidades físicas que la distribución, se le llama Ẋ o DT Raíz cuadrada de la varianza DT= sx= Raíz de S^2X.

Coeficiente de Variación

Media única relaciona la desviación típica y la media, permite comparar la dispersión de dos distribuciones, más dispersión=valores altos CV=Sx /Desviación típica. El porcentaje es x100.

Puntuaciones Directas

X, Poca información, no interpretables, no comparables entre sí si no vienen del mismo instrumento.

Puntuaciones Diferenciales

Diferencia entre la media y la puntuación directa, no tiene en cuenta la variabilidad.

Puntuaciones Típicas

Se estandariza la puntuación directa, o sea, se tipifica. Sirve para comparar dos o más distribuciones distintas de distintos grupos o puntuaciones de distinta variable. Siempre indica cuántas desviaciones típicas se aparta la X de la media Z= x-x´/S.

Conclusiones

Puntuación igual a la media, la típica(Z) es 0, entre -3 y 3. La suma/media de puntuaciones típicas es 0, La DT y la varianza es 1.

Distribución Tipificada

Media 0, DT 1. (u o) N(0,1) Simétrica: Moda mediana y media coinciden en el centro (50%) Asintótica: -inf a inf. No se cruza con el eje X, de -3 a 3 DT. Tiene puntos de inflexión.

Porcentajes

Probabilidad que tiene la variable de tomar valores igual o menor a él. Siempre son los mismos. Se puede calcular a partir de la Puntuación Típica(Z) usando tablas de distribución normal.

Estadística Descriptiva Bivariada

Causalidad: Cambio en una variable es responsable del cambio en otra.
Relación: Dos variables varían positiva o negativamente a la vez.

Relación Variables Categóricas (Nominal y Ordinal)

Se necesita saber las frecuencias conjuntas.

Tablas de Contingencia

Se usa más frecuentemente con variables categóricas. Se pueden elaborar frecuencias relativas y porcentajes.

Representación Gráfica

Diagrama de barras agrupadas.

Índice de Correlación

nom-nom, nom-ord ord-ord. Se usa Estadístico chi-cuadrado (x^2): Mide la diferencia entre las frecuencias observadas (tabla relación) (nº) en tablas de contingencias y las frecuencias esperadas, (tabla no relación) (ne). A más alejado de 0 más relación.

Para Calcular la Frecuencia Esperada

Frecuencia total categoría 1, tabla relación (X) por frecuencia total categoría 1 tabla no relación (Y) todo entre muestra.

Calcular Chi Cuadrado

Elaborar tabla de contingencias y tabla de frecuencia observada. Calcular la frecuencia esperada y aplicar la fórmula chi x^2=∑((nº-ne)^2/ne).

Diagrama de Dispersión

Relación positiva: valores altos en las dos variables, Relación negativa: Valores altos en una, bajos en otra.

Índice de Correlación Relación Lineal

Cuando covarían conjuntamente.

Índice de Covarianza

-inf a inf, no sabemos si la relación es fuerte o débil. Mide el grado de relación lineal entre 2 variables. Para conocer el sentido de la relación. Es la media de productos de las puntuaciones diferentes de 2 variables. Población: Sxy= (∑(Xi-X´)x(Yi-Y´))/n Muestra: (∑(Xi-X´)x(Yi-Y´))/n-1. SI 0 no relación lineal, signo negativo es relación negativa.

Índice de Correlación Pearson

rxy= Sxy(Índice de covarianza)/Sx(desviación típica X)Sy(Desviación típica Y). Entre -1 y 1.

Interpretación

Elevada negativa: >-0,5
Moderada -0.49
Baja -0.29
No relación -0.10-0.10
Baja 0.29
Moderada 0.49
Elevada positiva 0.5

Estadística Descriptiva

ô, conclusión sobre la muestra.

Estadística Inferencial

0, conclusión sobre la población.

Hipótesis Conceptual

Afirmación directa.

Hipótesis Operativa

Términos cuantificables y analizables. Establecen cómo se medirán los conceptos a estudiar. Comprobar la relación enunciada objetivamente.

Hipótesis Nula

= Ho, siempre igualada a algo.

Hipótesis Alternativa

= H1 Siempre niega la hipótesis nula, derivada de la hipótesis conceptual.

Proceso de Inferencia Estadística

Infiere: Cada estadístico se comporta como dato de conjunto. Debido a eso y al error de la media, en la muestra se presenta un estadístico distinto. Los valores de una variable se reparten en determinada distribución normal, así inferimos a partir de la muestra.

Teorema Central del Límite

Si la variable aleatoria X se distribuye normalmente en la población con infinitas muestras y se calcula la media, la distribución normal:

La esperanza matemática coincidirá con la media de la población E(X´)=u.
La varianza será igual a la varianza en la población dividida entre el tamaño de la muestra V(X´)=(o^2)/N
La desviación típica es Error típico de la media ox=o/raizN, que disminuye hasta ser menor que la población.

Concepto de Significación Estadística

Valor p

Probabilidad asociada a un estadístico de contraste, H nula cierta. Cómo de probable sería encontrar ese valor por azar, si es baja la probabilidad de que Ho sea cierta se reduce, si p es menor o igual a 0,05 se rechaza. Z=(media-totalx/y)/raizN.

Error Tipo 1

Rechazo Ho cuando es correcta, para minimizar establecer alfa pequeña (0.05-0.01).

Error Tipo 2

Acepto Ho cuando es falsa, para minimizar aumentar el tamaño de la muestra.

Intervalo de Confianza

Estimar el rango de valores donde se puede encontrar el verdadero valor, probabilidad alta y conocida. Alfa es la probabilidad de fuera del intervalo. Procedimiento: sumar y restar el Error muestral máximo(emax) al estadístico(0), Emax= 1.96 por el error típico estadístico(o sub o). Error típico estadístico= s/raizN-1. Límite superior= Valor estadístico+Emax Límite inferior= Valor estadístico-Emax.

Estadístico de Contraste

Cada estadística tiene una distribución normal, con esto podemos conocer la probabilidad de que tome un valor concreto en la población, nos permite inferir. Proceso de inferencia estadística: Conocer el estadístico adecuado y conocer la distribución del estadístico.

Pruebas Paramétricas

Los datos deben cumplir ciertos supuestos, se deben ajustar a cierta distribución, más potentes (Correlación de Pearson).

Pruebas No Paramétricas

Requerimientos más flexibles, cuando los datos no cumplen los supuestos para las paramétricas, no deben ajustarse a la distribución, más robustas (Correlación de Spearman).

Contraste sobre Dos Medias

Distribución muestral usada:

Distribución normal: se conoce la varianza o la desviación típica de la población.
T de Student: no se conoce la varianza de la población. Simétrica, -inf a inf, esperanza/media 0.

Con Varianza Conocida

El estadístico es Z, se le asigna una probabilidad de ocurrencia p. Z=((X´-u)/o/raizN.

Contraste

Bilateral: Ho=X´=u
Unilateral izquierdo: Ho=X´ >=u
Unilateral derecho Ho=X´<=u

Reglas de Decisión

Bilateral SI Z>= o >= región de rechazo Unilateral izq Si Z<=. Opción 2=P<=0.05.

Varianza Desconocida

Estadístico convertido en puntuación T, se asigna una probabilidad de ocurrencia p. luego se compara con t esperada o teórica. T=((X´-u/desv tipica)/RaizN-1.

Reglas de Decisión

Contraste bilateral si t es menor o igual a la región de rechazo, unilateral izq si T es menor o igual, dere mayor o igual.

Contraste sobre Dos Medias en Función del Grupo SPSS

Ver si hay diferencia entre las medias de las poblaciones, Diferencia entre las medias muestrales= D(X´-u) y diferencia entre las medias poblacionales.

Contraste

Bilateral si la medida de la población es 0, izq si es mayor o igual y derecho si es menor o igual. Usamos t student.

Paramétrica

Variable de distribución normal (n mayor o igual a 30), supuesto de homocedasticidad que la dispersión de los grupos sea similar en SPSS. Independiente: diferencia grupo persianas, requiere variable cuantitativa y categoría dicotómica, supuesto homo: Varianzas iguales(prueba levene). Dependientes: mismo grupo diferente momento, requiere 2 variables cuantitativas relacionadas.

Prueba t de Student

Se mira la fila que haya asumido o no varianzas iguales.

Contraste sobre Más de Dos Medias en Función de una Variable Categórica

Usamos ANOVA.

Paramétrica

Requiere variable cuantitativa o variable categórica de 3 categorías o más(anova unifact), Variables de distribución normal o grandes para que se acerquen a n30 o más, supuesto de homocedasticidad.

Estadístico F de Snedecor

Valores de grados de libertad, de 0 a inf, asimétrica positiva (valores bajos, más probabilidad).

Contraste

H0- u1=u2=u3..

Chi-Cuadrado de Pearson

x^2, Para inferir si se encuentra la misma relación en la población.

No Paramétrica

No requieren que las variables tengan distribución normal, pero sí que todas las casillas (80%) tengan una frecuencia esperada mínimo 5. Mide la diferencia entre la frecuencia observada (no) y la frecuencia esperada (ne) en la tabla de contingencia.

Contraste

H0- no=ne. Si las frecuencias observadas y esperadas son iguales, no hay relación.

Distribución Muestral Estadístico

Chi cuadrado. De 0-inf asim positiva.

Cálculo Para Obtener la Probabilidad

Primero calcular x^2 de la muestra con: X^2= ∑(no-ne)^2)/ne Después encontrar X^2 teórica (tabla distribución de probabilidad chi cuadrado) o sea Grados de libertad (gl)= nº filas-1 x nº columnas-1. Luego, si la probabilidad de x^2 es menor que el valor crítico (chi, tabla), acepto Ho. Si mayor rechazo.

Correlación Pearson (p) Cuantitativa

Contraste más aplicado, para decidir si se encuentra la misma relación en la población.

Paramétricas

Requiere distribución normal y variables cuantitativas.

Contraste Lineal

Ho- p=0 izq p mayor o igual 0.

t Student

-inf a inf, media 0, depende de los grados de libertad, cuando tengas T, se le asocia la probabilidad de ocurrencia t Student, grados de libertad(N-2) (2 porque son 2 variables) T= (rxy x raizN-2)/raiz1-rxy^2 Contraste izq si T es menor o igual a t alfa, rechazo hipo.

El Modelo de Regresión Lineal

¿Cómo/Cuánto cambia una variable en función de otra? Permite predecir cambios de la variable dependiente Y a partir de cambios en la variable independiente X, se necesitan 2 variables cuantitativas relacionadas linealmente.

Ecuación de la Regresión Lineal

Mínimos errores de predicción al cuadrado.

La Ecuación de la Recta de Regresión

Y´= a+b por X. a= Valor Y cuando X es 0. b= Pendiente, valor Y cuando X varía en 1 unidad Calcular pendiente b=Sxy/S^2x calcular interceptor a=Y´-b por X´.

La Varianza Residual

Diferencia entre la puntuación real y la recta, Sr^2= (∑(Y-Y´)^2)/N.

Desviación Típica o Error Típico de Estimación

Es Sr= raíz de lo anterior. A mayor, peor ajuste de la regresión.

El Coeficiente de Determinación

o R^2, es igual a rxy^2, cuando 2 variables relacionadas, una parte de la variabilidad de Y puede explicar la variabilidad de X. r=-0.5. Va de 0 a 1, 1-R^2= Proporción Y explicada por otras variables.

Contraste de Hipótesis en el Modelo de Regresión

t Student

Hipótesis nula: b=0, x no predictor Y ANOVA(F snedecor) Hipótesis nula si no tiene buen ajuste, p<0.05.

Modelo de Regresión Simple

Predicción del comportamiento de la variable Y a partir de una variable X (X1).

Modelo de Regresión Múltiple

Predicción del comportamiento de la variable Y (VD) a partir de dos o más variables X1, X2..