Fundamentos de Estadística e Investigación
Fases de la Investigación
- Pregunta de investigación
- Documentación
- Formulación de hipótesis
- Diseño del estudio
- Recogida de datos
- Análisis de datos
- Interpretación de resultados
Población
Representada por letras griegas, es la totalidad de elementos que comparten una característica en el estudio. Puede ser finita (ej., muertes en 2021, altas en la seguridad social) o infinita (ej., lanzamiento de una moneda, personas con alta motivación, humanos).
Muestra
Representada por letras latinas, es un conjunto de elementos que componen la población. Debe ser representativa, idealmente obtenida mediante muestreo aleatorio.
Estadística Descriptiva
Recogida, organización y análisis de datos de una muestra. Su objetivo es resumir y presentar la información de manera clara.
Estadística Inferencial
Estimación de propiedades desconocidas de la población a partir de los datos recogidos en la muestra. Su objetivo es estimar, mediante cálculos probabilísticos, datos de la población.
Variables
Cualitativas
Categorías excluyentes que no se suman, restan u ordenan (ej., sexo, grupo, tipo). Pueden ser dicotómicas o politómicas.
Cuasi-cuantitativas
Categorías ordenadas que se ordenan, pero no se suman ni restan (ej., niveles de estudios, dicotomizada y politomizada).
Cuantitativas
Valores técnicamente infinitos que se ordenan. Incluyen:
- Continua: Con números intermedios (ej., altura).
- Discreta: Sin números intermedios.
Escalas de Medida
Relación entre la modalidad entre variables con distintos números. Un número NO representa dos modalidades, es único y son transformables, o sea, un número tiene significado.
Escala Nominal
Aplicable a variables cualitativas. La relación entre atributos y valores es igual o desigual. Los números tienen carácter simbólico (ej., 0: soltero). No tienen propiedades matemáticas.
Escala Ordinal
Para variables cuasi-cuantitativas. La relación es igual/desigual y ordenados (mayor que o menor que). La diferencia entre valores no tiene significado matemático.
Escala de Intervalo
Para variables cuantitativas. La relación entre atributos y valores es igual/desigual y orden mayor o menor que. La diferencia entre valores tiene significado matemático. El 0 es un valor absoluto y se admiten valores negativos. No hay proporciones (ej., grados Celsius).
Escala de Razón
Para variables cuantitativas. Igual/desigual y orden mayor/menor que. La diferencia entre valores tiene propiedades matemáticas. El origen 0 es un valor absoluto, no hay valores negativos y sí hay proporciones (ej., Kg).
Medición
- Nominal: Moda y mediana.
- Ordinal: Valores con orden, frecuencia y distribución, moda y mediana.
- Intervalo: Orden, frecuencia y distribución, moda, mediana, media, desviación típica.
- Razón: Todo.
Error de Medida
Discrepancias entre medias tomadas y valores reales, cuestionarios, auto reportes.
Validez
Técnicas de evaluación/medición. Si el instrumento mide lo que debe medir. Precisión.
Fiabilidad
Poder producir los mismos resultados en distintas condiciones. Estabilidad. Se necesita validez y fiabilidad.
Tipos de Validez
Validez de Criterio
Grado de correlación con variables ajenas. Criterio: variable de referencia.
Validez Externa
Generalización.
Validez Interna
Correlación con otro instrumento validado. Interpretación.
Validez de Contenido
Grado en el que los ítems representan y cubren el constructo.
Validez Concurrente
Si las dimensiones relacionadas lo están.
Validez Divergente
Si se diferencia o no con lo que tiene que diferenciarse.
Fiabilidad
Consistencia Interna / Dos Mitades
Grado en el que los elementos del instrumento se relacionan entre sí.
Test-Retest
Grado en que un instrumento se relaciona con su aplicación en otro momento.
Formas Paralelas
Grado en que las medidas de dos instrumentos parecidos están relacionadas.
Diseños de Investigación
Diseño Correlacional
Análisis: coeficiente de correlación, regresión (predicción). Limitaciones: no indica relación causa-efecto, no controla variables extrañas. Ventajas: conocer pasos previos a análisis complejo.
Diseño Transversal
Comparación de muchos sujetos recogidos en un mismo momento en el tiempo. Análisis: correlaciones, regresión, ANOVA, ANCOVA, MANOVA, comparación de medias. Limitaciones: no relación causa-efecto, no 100% representativo. Ventajas: económicos y breves, establece diferencias de grupos, establece conocimiento para estudios futuros.
Diseño Longitudinal
Comparación del mismo grupo de sujetos a lo largo del tiempo. Análisis: correlación, regresión, ANOVA, ANCOVA… Medidas repetidas. Limitaciones: menos representatividad (mortalidad de la muestra), costoso y duradero. Ventajas: muchas variables, establece causa-efecto.
Diseño Mixto
Combina transversal y longitudinal. Variables recogidas en un único momento con variables medidas en más de una ocasión.
Cómo Seleccionar la Muestra
Más representativa: mejor inferencia, más azar mejor. Pasos: Identificación, conocer tamaño, variables importantes para no sesgo, extracción muestral a priori, identificar sujetos, iniciar estudio.
Muestreo Probabilístico
Muestreo Aleatorio Simple
Total azar, rápido, difícil en la práctica.
Muestreo Sistemático
Seleccionar un sujeto y a partir de ahí según n disponible. Simple y rápido, puede sesgar, datos deben ordenarse.
Muestreo Estratificado
Dividir la población en grupos homogéneos pero heterogéneos entre sí y seleccionar muestra con misma distribución. Estima con precisión, difícil si muchas variables.
Conglomerado
Grupos naturales que reúnen variables a estudiar, representativa. Ventaja operativa, puede faltar homogeneidad entre grupos.
Muestreo NO Probabilístico
Conveniencia
Selección por disponibilidad, barato y fácil, restringe generalización.
Cuotas
Elección de grupos que caracterizan la muestra, garantía de generalización en algunas variables, no se afirma representatividad.
Bola de Nieve
Selecciona uno y ese hace de enlace a otros, facilita encontrar, no garantía de precisión.
Intencional
Elección ad hoc según criterio, fácil y económico, no científico, sesgado.
Consecutivo
Muestra por conveniencia repetida en el tiempo, permite longitudinales, abandono y no consecución de objetivos.
Técnicas de Control de Variables
- Eliminación: Situación de laboratorio sin variable extraña.
- Constancia: Si no se elimina, mantenerla con el mismo valor siempre.
- Balanceo: Equilibrar el efecto de la variable extraña, si no puede ser constante, incluir grupo control con variable independiente=0, mismo nº de sujetos a cada condición de la variable extraña.
- Contrabalanceo: Hacer que todos los sujetos pasen por distintas condiciones, iguala el efecto de la variable extraña, una mitad de la muestra un orden y la otra mitad otro. Dos o más condiciones experimentales.
- Aleatorización: Asignar condiciones al azar, la variable extraña pueda estar distribuida homogéneamente, solo si ya nada es factible.
Estadística Descriptiva Univariada
Fases
- Construir una base de datos, etiquetar e identificar variables.
- Análisis exploratorio.
- Descripción de variables y muestra.
- Inferencia y contraste de hipótesis.
- Presentación de resultados.
- Interpretación.
Distribuciones de Frecuencias
Frecuencia Absoluta (ni)
Número de veces que se repite un valor de la variable en la muestra.
Frecuencia Relativa (fi)
Proporción de la presencia de un valor respecto a la muestra total fi=ni/N.
Porcentaje (p i)
Porcentaje que representa ese valor en la muestra total fi x 100.
Frecuencia Absoluta Acumulada (Ni )
Número de veces que se repite en la muestra un valor o inferiores. No tiene sentido nominal.
Frecuencia Relativa Acumulada Fi
Proporción acumulada Fi=Ni/N. No tiene sentido con variables nominales.
Porcentaje Acumulado Pi
Fi x 100.
Representaciones Gráficas
Ciclograma / Gráfico Pastel / Diagrama de Sectores
En forma de círculo, dividido en porciones proporcionales a la frecuencia del valor. Absoluta, relativa o porcentaje. Variables nominales, ordinales y cuantitativas discretas.
Diagrama de Barras
Barras que representan la frecuencia de cada valor. Absoluta, relativa o porcentaje. Variables nominales, ordinales y cuantitativas discretas.
Histograma
Barras representan la frecuencia (eje Y) de cada valor (eje X). Las barras están pegadas para representar la continuidad de la variable. Absoluta, relativa o porcentaje. Valores agrupados por intervalos. Variables cuantitativas continuas.
Polígono de Frecuencias
Frecuencia absoluta (eje Y) de cada valor (eje X). Puntos unidos por líneas, cada punto colocado en el límite superior de la barra. Cuántas veces aparece ese valor en la muestra. Útil para comparar grupos o describir perfiles. Variables cuantitativas (mejor discretas).
Diagrama de Tallo y Hojas
Muestra el orden y la forma de los datos, útil para evaluar anomalías en la distribución de la variable.
Diagrama de Caja
Con indicadores de posición. Línea gruesa/central: mediana. Disponible de forma simple la forma de la variable. Simetría y extremos.
Propiedades de la Distribución de Frecuencias
Tendencia Central
Valor promedio, por ejemplo: media.
Variabilidad
Grado de dispersión de las observaciones respecto a la media. Baja: Están concentrados, difieren poco. Alta: Dispersos.
Asimetría o Sesgo
Medida en que la mayoría de los valores presentados se agrupan en torno a valores centrales de la distribución. Si es uniforme:
- Perfecta: La media se divide en dos mitades simétricas a los datos.
- Positiva: Los datos se concentran en valores inferiores, izquierda.
- Negativa: Los datos en valores superiores, derecha.
Curtosis
Grado de concentración presente en los datos respecto a los valores centrales.
- Mesocúrtica: Distribución normal.
- Leptocúrtica: Más pico.
- Platicúrtica: En extremos, baja.
Centiles Ck o Percentiles Pk
Entre 1 y 99, valor que deja por debajo de sí a una parte de la muestra (K%). El valor del percentil es igual a K%. Fórmula para calcular la posición NO el valor: Pk=(K x (n+1))/100. (k= Nº del P que queremos calcular).
Deciles Dk
Entre 1 y 9, deja por debajo de sí a un porcentaje de la muestra. PERO dividido en 10. Indican 10%. Dk=((k x (n+1))/10 K=Nº del D que calcular.
Cuartiles Qk
Cuartiles 1, 2 y 3. Divide la muestra en 4 (25%) Qk= ((nº cuartil x (n+1))/4 K= Nº del Q que queremos calcular.
Si queda entre dos números: P/D/Qk= E1 + (E2-E1) x e (e= lo decimal).
Moda
Valor más frecuente, puede no existir o haber 2 o 3.
Mediana
Divide la muestra en 2 mitades, es igual al cuartil 2.
Si número par de datos: N/2 +1.
- Nominal: moda y media.
- Ordinal: orden, frecuencia distribución, moda mediana.
- Intervalo y razón: Todos.
Índices de Variabilidad
Grado en que los valores de la variable se alejan de un valor de tendencia central, parecidos o diferentes entre sí. Más dispersión: más heterogéneo. Poca variabilidad: más homogéneo.
Medidas de Dispersión Absolutas
Amplitud
Fácil observar el valor más alto y bajo. Índice de amplitud: Máxima menos mínima.
Rango Intercuartil
o RIC. Para solucionar esa distorsión se calcula Amplitud intercuartil Aq= Q3-Q1 Distancia entre los 2 cuartiles. Desviación semiintercuartílica DSIQ= (Q3-Q1)/2 Valor medio distancia 2 cuartiles. Mitad distancia. Se usa al proporcionar la mediana como media de tendencia central (distribución asimétrica).
Varianza
Estadístico de dispersión fiable y estable, sufre cambios si valores extremos, no se calcula sin media. Grado en el que los valores observados se alejan de la media. Promedio de distancias con respecto a la media.
Pasos Varianza
Calcular la media, Calcular la diferencia de cada puntuación con respecto a la media (X-X´). Luego las distancias con respecto a la media se elevan al cuadrado y se suman, luego esa suma se divide entre el número de observaciones (n), da la varianza, pero la fórmula depende de SI población total: o^2X= (∑(X-media)^2 / N) SI muestra: S^2X= (∑(X-X´)^2 / n-1).
Desviación Típica
Da el valor en las mismas unidades físicas que la distribución, se le llama Ẋ o DT Raíz cuadrada de la varianza DT= sx= Raíz de S^2X.
Coeficiente de Variación
Media única relaciona la desviación típica y la media, permite comparar la dispersión de dos distribuciones, más dispersión=valores altos CV=Sx /Desviación típica. El porcentaje es x100.
Puntuaciones Directas
X, Poca información, no interpretables, no comparables entre sí si no vienen del mismo instrumento.
Puntuaciones Diferenciales
Diferencia entre la media y la puntuación directa, no tiene en cuenta la variabilidad.
Puntuaciones Típicas
Se estandariza la puntuación directa, o sea, se tipifica. Sirve para comparar dos o más distribuciones distintas de distintos grupos o puntuaciones de distinta variable. Siempre indica cuántas desviaciones típicas se aparta la X de la media Z= x-x´/S.
Conclusiones
Puntuación igual a la media, la típica(Z) es 0, entre -3 y 3. La suma/media de puntuaciones típicas es 0, La DT y la varianza es 1.
Distribución Tipificada
Media 0, DT 1. (u o) N(0,1) Simétrica: Moda mediana y media coinciden en el centro (50%) Asintótica: -inf a inf. No se cruza con el eje X, de -3 a 3 DT. Tiene puntos de inflexión.
Porcentajes
Probabilidad que tiene la variable de tomar valores igual o menor a él. Siempre son los mismos. Se puede calcular a partir de la Puntuación Típica(Z) usando tablas de distribución normal.
Estadística Descriptiva Bivariada
- Causalidad: Cambio en una variable es responsable del cambio en otra.
- Relación: Dos variables varían positiva o negativamente a la vez.
Relación Variables Categóricas (Nominal y Ordinal)
Se necesita saber las frecuencias conjuntas.
Tablas de Contingencia
Se usa más frecuentemente con variables categóricas. Se pueden elaborar frecuencias relativas y porcentajes.
Representación Gráfica
Diagrama de barras agrupadas.
Índice de Correlación
nom-nom, nom-ord ord-ord. Se usa Estadístico chi-cuadrado (x^2): Mide la diferencia entre las frecuencias observadas (tabla relación) (nº) en tablas de contingencias y las frecuencias esperadas, (tabla no relación) (ne). A más alejado de 0 más relación.
Para Calcular la Frecuencia Esperada
Frecuencia total categoría 1, tabla relación (X) por frecuencia total categoría 1 tabla no relación (Y) todo entre muestra.
Calcular Chi Cuadrado
Elaborar tabla de contingencias y tabla de frecuencia observada. Calcular la frecuencia esperada y aplicar la fórmula chi x^2=∑((nº-ne)^2/ne).
Diagrama de Dispersión
Relación positiva: valores altos en las dos variables, Relación negativa: Valores altos en una, bajos en otra.
Índice de Correlación Relación Lineal
Cuando covarían conjuntamente.
Índice de Covarianza
-inf a inf, no sabemos si la relación es fuerte o débil. Mide el grado de relación lineal entre 2 variables. Para conocer el sentido de la relación. Es la media de productos de las puntuaciones diferentes de 2 variables. Población: Sxy= (∑(Xi-X´)x(Yi-Y´))/n Muestra: (∑(Xi-X´)x(Yi-Y´))/n-1. SI 0 no relación lineal, signo negativo es relación negativa.
Índice de Correlación Pearson
rxy= Sxy(Índice de covarianza)/Sx(desviación típica X)Sy(Desviación típica Y). Entre -1 y 1.
Interpretación
- Elevada negativa: >-0,5
- Moderada -0.49
- Baja -0.29
- No relación -0.10-0.10
- Baja 0.29
- Moderada 0.49
- Elevada positiva 0.5
Estadística Descriptiva
ô, conclusión sobre la muestra.
Estadística Inferencial
0, conclusión sobre la población.
Hipótesis Conceptual
Afirmación directa.
Hipótesis Operativa
Términos cuantificables y analizables. Establecen cómo se medirán los conceptos a estudiar. Comprobar la relación enunciada objetivamente.
Hipótesis Nula
= Ho, siempre igualada a algo.
Hipótesis Alternativa
= H1 Siempre niega la hipótesis nula, derivada de la hipótesis conceptual.
Proceso de Inferencia Estadística
Infiere: Cada estadístico se comporta como dato de conjunto. Debido a eso y al error de la media, en la muestra se presenta un estadístico distinto. Los valores de una variable se reparten en determinada distribución normal, así inferimos a partir de la muestra.
Teorema Central del Límite
Si la variable aleatoria X se distribuye normalmente en la población con infinitas muestras y se calcula la media, la distribución normal:
- La esperanza matemática coincidirá con la media de la población E(X´)=u.
- La varianza será igual a la varianza en la población dividida entre el tamaño de la muestra V(X´)=(o^2)/N
- La desviación típica es Error típico de la media ox=o/raizN, que disminuye hasta ser menor que la población.
Concepto de Significación Estadística
Valor p
Probabilidad asociada a un estadístico de contraste, H nula cierta. Cómo de probable sería encontrar ese valor por azar, si es baja la probabilidad de que Ho sea cierta se reduce, si p es menor o igual a 0,05 se rechaza. Z=(media-totalx/y)/raizN.
Error Tipo 1
Rechazo Ho cuando es correcta, para minimizar establecer alfa pequeña (0.05-0.01).
Error Tipo 2
Acepto Ho cuando es falsa, para minimizar aumentar el tamaño de la muestra.
Intervalo de Confianza
Estimar el rango de valores donde se puede encontrar el verdadero valor, probabilidad alta y conocida. Alfa es la probabilidad de fuera del intervalo. Procedimiento: sumar y restar el Error muestral máximo(emax) al estadístico(0), Emax= 1.96 por el error típico estadístico(o sub o). Error típico estadístico= s/raizN-1. Límite superior= Valor estadístico+Emax Límite inferior= Valor estadístico-Emax.
Estadístico de Contraste
Cada estadística tiene una distribución normal, con esto podemos conocer la probabilidad de que tome un valor concreto en la población, nos permite inferir. Proceso de inferencia estadística: Conocer el estadístico adecuado y conocer la distribución del estadístico.
Pruebas Paramétricas
Los datos deben cumplir ciertos supuestos, se deben ajustar a cierta distribución, más potentes (Correlación de Pearson).
Pruebas No Paramétricas
Requerimientos más flexibles, cuando los datos no cumplen los supuestos para las paramétricas, no deben ajustarse a la distribución, más robustas (Correlación de Spearman).
Contraste sobre Dos Medias
Distribución muestral usada:
- Distribución normal: se conoce la varianza o la desviación típica de la población.
- T de Student: no se conoce la varianza de la población. Simétrica, -inf a inf, esperanza/media 0.
Con Varianza Conocida
El estadístico es Z, se le asigna una probabilidad de ocurrencia p. Z=((X´-u)/o/raizN.
Contraste
- Bilateral: Ho=X´=u
- Unilateral izquierdo: Ho=X´ >=u
- Unilateral derecho Ho=X´<=u
Reglas de Decisión
Bilateral SI Z>= o >= región de rechazo Unilateral izq Si Z<=. Opción 2=P<=0.05.
Varianza Desconocida
Estadístico convertido en puntuación T, se asigna una probabilidad de ocurrencia p. luego se compara con t esperada o teórica. T=((X´-u/desv tipica)/RaizN-1.
Reglas de Decisión
Contraste bilateral si t es menor o igual a la región de rechazo, unilateral izq si T es menor o igual, dere mayor o igual.
Contraste sobre Dos Medias en Función del Grupo SPSS
Ver si hay diferencia entre las medias de las poblaciones, Diferencia entre las medias muestrales= D(X´-u) y diferencia entre las medias poblacionales.
Contraste
Bilateral si la medida de la población es 0, izq si es mayor o igual y derecho si es menor o igual. Usamos t student.
Paramétrica
Variable de distribución normal (n mayor o igual a 30), supuesto de homocedasticidad que la dispersión de los grupos sea similar en SPSS. Independiente: diferencia grupo persianas, requiere variable cuantitativa y categoría dicotómica, supuesto homo: Varianzas iguales(prueba levene). Dependientes: mismo grupo diferente momento, requiere 2 variables cuantitativas relacionadas.
Prueba t de Student
Se mira la fila que haya asumido o no varianzas iguales.
Contraste sobre Más de Dos Medias en Función de una Variable Categórica
Usamos ANOVA.
Paramétrica
Requiere variable cuantitativa o variable categórica de 3 categorías o más(anova unifact), Variables de distribución normal o grandes para que se acerquen a n30 o más, supuesto de homocedasticidad.
Estadístico F de Snedecor
Valores de grados de libertad, de 0 a inf, asimétrica positiva (valores bajos, más probabilidad).
Contraste
H0- u1=u2=u3..
Chi-Cuadrado de Pearson
x^2, Para inferir si se encuentra la misma relación en la población.
No Paramétrica
No requieren que las variables tengan distribución normal, pero sí que todas las casillas (80%) tengan una frecuencia esperada mínimo 5. Mide la diferencia entre la frecuencia observada (no) y la frecuencia esperada (ne) en la tabla de contingencia.
Contraste
H0- no=ne. Si las frecuencias observadas y esperadas son iguales, no hay relación.
Distribución Muestral Estadístico
Chi cuadrado. De 0-inf asim positiva.
Cálculo Para Obtener la Probabilidad
Primero calcular x^2 de la muestra con: X^2= ∑(no-ne)^2)/ne Después encontrar X^2 teórica (tabla distribución de probabilidad chi cuadrado) o sea Grados de libertad (gl)= nº filas-1 x nº columnas-1. Luego, si la probabilidad de x^2 es menor que el valor crítico (chi, tabla), acepto Ho. Si mayor rechazo.
Correlación Pearson (p) Cuantitativa
Contraste más aplicado, para decidir si se encuentra la misma relación en la población.
Paramétricas
Requiere distribución normal y variables cuantitativas.
Contraste Lineal
Ho- p=0 izq p mayor o igual 0.
t Student
-inf a inf, media 0, depende de los grados de libertad, cuando tengas T, se le asocia la probabilidad de ocurrencia t Student, grados de libertad(N-2) (2 porque son 2 variables) T= (rxy x raizN-2)/raiz1-rxy^2 Contraste izq si T es menor o igual a t alfa, rechazo hipo.
El Modelo de Regresión Lineal
¿Cómo/Cuánto cambia una variable en función de otra? Permite predecir cambios de la variable dependiente Y a partir de cambios en la variable independiente X, se necesitan 2 variables cuantitativas relacionadas linealmente.
Ecuación de la Regresión Lineal
Mínimos errores de predicción al cuadrado.
La Ecuación de la Recta de Regresión
Y´= a+b por X. a= Valor Y cuando X es 0. b= Pendiente, valor Y cuando X varía en 1 unidad Calcular pendiente b=Sxy/S^2x calcular interceptor a=Y´-b por X´.
La Varianza Residual
Diferencia entre la puntuación real y la recta, Sr^2= (∑(Y-Y´)^2)/N.
Desviación Típica o Error Típico de Estimación
Es Sr= raíz de lo anterior. A mayor, peor ajuste de la regresión.
El Coeficiente de Determinación
o R^2, es igual a rxy^2, cuando 2 variables relacionadas, una parte de la variabilidad de Y puede explicar la variabilidad de X. r=-0.5. Va de 0 a 1, 1-R^2= Proporción Y explicada por otras variables.
Contraste de Hipótesis en el Modelo de Regresión
t Student
Hipótesis nula: b=0, x no predictor Y ANOVA(F snedecor) Hipótesis nula si no tiene buen ajuste, p<0.05.
Modelo de Regresión Simple
Predicción del comportamiento de la variable Y a partir de una variable X (X1).
Modelo de Regresión Múltiple
Predicción del comportamiento de la variable Y (VD) a partir de dos o más variables X1, X2..