Tablas de Frecuencia y Conceptos Relacionados
Tablas de frecuencia: Exponen la información recogida en la muestra, de forma que no se pierda nada de información.
- Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad.
- Frecuencias relativas: Porcentajes.
Matriz de datos: Es una tabla de doble entrada con tantas columnas como variables se consideren y tantas filas como unidades de análisis.
Distribución de frecuencias: Conjunto de valores de la variable con sus frecuencias.
Porcentajes: Las proporciones multiplicadas por 100.
Razón: Un valor A con relación a otro valor B, su fracción simplificada A/B.
Mediana: Es el valor de la variable tal que, ordenando los datos de menor a mayor, el 50% es menor que ella y el otro 50% es mayor.
Diagrama de barras: Representación gráfica donde la altura se mide por barras.
Histograma: La representación gráfica la dan las áreas de los rectángulos sobre los intervalos que agrupan las variables.
Datos atípicos: Los que sospechamos que son erróneos, difieren mucho de la mayoría de los datos.
Media aritmética: Valor que resulta al dividir la suma de todos los valores de la variable por el número de valores.
Media Ponderada: Resultado de dividir la suma de cada valor de la variable multiplicada por su coeficiente de ponderación entre la suma de los coeficientes de la ponderación.
Medidas de Dispersión y Tipificación
Medidas de Dispersión: Cuantifican la variabilidad de las observaciones de manera que sirvan de referencia para considerar a las medidas de centralización como muy, poco o nada representativas.
- Desviación típica: Es la raíz cuadrada de la media aritmética de las desviaciones elevadas al cuadrado.
- Varianza: Es la media aritmética de los cuadrados de las desviaciones de los valores de las variables.
Propiedades de la varianza y la desviación típica:
- La desviación típica siempre es positiva.
- Para calcularlas, la variable ha de estar medida a nivel de intervalo o de razón.
- Se ven afectadas por un cambio de escala.
Tipificación: Proceso por el que a los valores de una variable se les resta la media y la diferencia se divide por la desviación típica. Las variables tipificadas tienen dos propiedades importantes:
- La media de una variable tipificada es 0.
- La desviación típica de una variable es 1.
Población, Muestra y Variables
Población: Conjunto de unidades que verifican una definición bien determinada. A cualquier subconjunto le llamaremos Muestra. La muestra hace referencia a una población de la que forma parte y la manera de obtenerla, para que sea suficientemente representativa.
Variable: Toda característica de un objeto susceptible de adoptar diferentes nombres.
- Las categorías son exhaustivas cuando permiten clasificar a todas las unidades que investigamos.
- Son excluyentes si están definidas de manera que permitan la clasificación de individuos sin confusión.
Variables cuantitativas y cualitativas:
- Cualitativa: Si sus valores no varían en grado o cantidad. Se concretan en categorías no cuantificables (ej: sexo).
- Cuantitativa: Cuando varía en grado y cantidad. Se puede cuantificar (ej: la edad).
- Discreta: Una variable cuantitativa es discreta si solo puede tomar valores aislados, es decir, el paso de un valor de la variable al siguiente representa un salto (ej: nº de hijos).
- Continua: Entre dos valores cualesquiera siempre existen entre ellos una infinidad de valores (ej: peso).
Variable independiente: La que influye en otras variables.
Variable dependiente: Si sus valores dependen de otra variable.
Niveles de medida:
- Nominal: Si dadas dos o más modalidades solo podemos comprobar si son iguales o distintos. A este nivel, los números atribuidos son puros «nombres».
- Ordinal: Si dadas dos o más categorías, no solo podemos comprobar si son iguales o distintas, sino también establecer un orden entre ellas.
- De intervalo: Indica la distancia que hay entre dos categorías, según el grado en que presenta un carácter determinado.
- De razón: Tiene un interés puramente académico. A todas se les suele llamar de intervalo. La diferencia entre las variables de razón y las de intervalo es que aquellas tienen un cero absoluto y no arbitrario, como ocurre en las variables de medida a nivel de intervalo.
Muestreo y Tamaño de la Muestra
Muestreo aleatorio simple: Método de extracción de muestras que garantiza que todos los elementos de una población tienen la misma probabilidad de ser elegidos para formar parte de la muestra.
Muestreo sistemático: Debemos hallar el coeficiente de elevación. Elegimos un número y le vamos sumando el coeficiente hasta que el número de la suma supere el de la población.
Muestreo estratificado: Aquel en que los elementos de la población están divididos en estratos:
- Variable espacial: provincias.
- Variables independientes: Edad.
- Variables inherentes a la población en estudio.
Afijación: Reparto de los elementos de la muestra entre los distintos estratos:
- Simple: Puede asignarse el mismo número de unidades muestrales a cada estrato.
- Proporcional: Se extrae de cada estrato el número necesario de individuos para que la distribución por estratos en la muestra y en la población coincida.
- Óptima: Tomaremos muestras más pequeñas en los estratos homogéneos y más grandes en los heterogéneos.
Muestreo por conglomerados: Se da cuando la población está dividida en subconjuntos homogéneos, llamados conglomerados. Los componentes son heterogéneos.
Muestreo no probabilístico:
- Muestreo accidental.
- Muestreo intencionado.
- Muestreo por cuotas.
Determinación del tamaño de la muestra:
- Tamaño de la población: sin información, se considera infinita.
- Finita: < 100.000
- Infinita: >= 100.000
- Error muestral: debe ser menor que la muestra.