Estadística Descriptiva: Conceptos Clave
TEMA 1
- Número de características o elementos comunes de una población o muestra (VARIABLE UNIDIMENSIONAL o VARIABLE BIDIMENSIONAL).
- Marginal (Mg): Se considera una de las variables independientemente del valor que tome la otra.
- Condicionada (x/y): Se considera una de las variables teniendo en cuenta una condición que debe cumplir la otra del valor que tome la otra.
- Número de valores que toman (DISCRETAS: cuando entre dos valores consecutivos la variable toma un número finito de valores o CONTINUAS: cuando toma infinitos valores).
Variable tipo numérico, Cuantitativa: DATO. Variable tipo cualitativo: ATRIBUTO (Nosotros trabajamos con datos o atributos transformados en datos).
- Frecuencia ABSOLUTA: Número de veces que cada dato aparece en el colectivo. Número de veces que se presenta el valor de la variable.
- Frecuencia TOTAL: Número total de datos representados por la variable. Suma de frecuencias absolutas.
- Frecuencia RELATIVA: Cociente entre frecuencia absoluta y frecuencia total. Indica la importancia que un dato posee en un colectivo. La suma de las frecuencias relativas siempre es 1.
- Frecuencia ABSOLUTA ACUMULADA: La frecuencia absoluta acumulada correspondiente al último dato es igual a la frecuencia total.
- Frecuencia RELATIVA ACUMULADA: El último valor de la frecuencia relativa acumulada debe ser 1.
En distribuciones con intervalos de amplitud constante, la diferencia entre 2 marcas de clase consecutivas será igual a la amplitud del intervalo.
TEMA 2
Medidas de Posición
Centrales (medias, mediana, moda). No centrales (percentiles, ventiles…)
Media Aritmética
Se define como el cociente de la suma de todos los valores de la variable por sus respectivas frecuencias y el número de observaciones totales. Es la media más usada.
Propiedades:
- La suma algebraica de las desviaciones de los valores de la variable respecto a su media es 0.
- Si a todos los valores de la variable le sumamos una constante, la media queda afectada en dicha constante. La media se ve afectada por los cambios de Origen (C).
- Si a todos los valores de la variable los multiplicamos por una constante, su media queda afectada por esa constante. La media se ve afectada por los cambios de Escala (K).
- Le afectan los cambios de Origen y Escala y los valores extremos. Es el centro de gravedad de toda distribución.
Ventajas: La Media Aritmética es única, es calculable y considera todos los valores de la distribución.
Inconvenientes: La media a veces puede dar lugar a conclusiones no muy atinadas, pues está muy influenciada por los valores extremos. Este inconveniente no lo posee la mediana.
Media Geométrica
Es la raíz enésima del producto de los valores de las variables elevados a las frecuencias. Nos sirve para promediar tasas, proporciones, índices, calcular rendimientos.
Ventajas: La Media Geométrica considera todos los valores de la distribución. Por su carácter de producto es menos sensible a los valores extremos.
Inconvenientes: Su significado es menos intuitivo que la Media Aritmética. Su cómputo es más difícil. En ocasiones no se puede calcular, esto es cuando algún valor de la variable es 0.
Media Armónica
Es la media aritmética de los inversos de los valores de la variable. Se usa para promediar velocidades, rendimientos.
Ventajas: Es única para cada muestra, utiliza todos los datos de la muestra.
Inconvenientes: No tiene significado estadístico claro, puede presentar problemas de cálculo: afectada por valores muy pequeños, no se puede calcular cuando hay algún 0 en la muestra.
Mediana (Me)
Valor de la variable estadística que divide en dos partes iguales a la distribución de frecuencias, o valor de la variable que deja mismo número de elementos a derecha o izquierda. Es un promedio de tendencia central. Es el valor central de la distribución (N/2).
Ventajas: Es única para cada muestra, no está afectada por los valores atípicos, no presenta problemas de cálculo, tiene un significado estadístico muy claro.
Inconvenientes: No utiliza todos los datos de la muestra.
Moda (Mo)
Es el valor de la variable que más veces se repite.
Medidas No Centrales
Dividen a la distribución en tantas partes iguales como indica el nombre (percentil=100, ventil=20).
Medidas de Dispersión: Varianza y Desviación Típica
Varianza
Es la mejor medida de dispersión cuadrática. Interesa que la Varianza sea lo menor posible; ya que cuanto menor sea menor es la dispersión y más representativa es la media. Nunca puede ser negativa. Esta es siempre ≥ 0. Se puede calcular en función de los momentos respecto al origen, le afectan los cambios de escala pero no los cambios de origen.
Ventajas: Utiliza todos los datos de la muestra, es una medida de dispersión a la Media Aritmética, luego mide su representatividad.
Inconvenientes: Es difícil de interpretar, su valor está expresado en unidades de la variable al cuadrado.
Desviación Típica
Es la raíz cuadrada positiva de la Varianza. Es la mejor medida de dispersión no cuadrática. Nunca es negativa. Cuanto menor sea la desviación típica, más fuerte será la representatividad de la media. Luego interesa que sea lo menor posible. La principal ventaja es que no vienen las unidades medidas al cuadrado. Le afectan los cambios de escala pero no los de origen. No permite comparar dispersiones de distribuciones distintas.
Medidas de Forma: Asimetría y Curtosis
(Mide la dispersión. Leptocúrtica: valores más concentrados respecto de la media. Platicúrtica: valores menos concentrados respecto de la media).
Si el coeficiente de asimetría es 0.5 y el de apuntamiento -2, entonces nuestra distribución es asimétrica positiva y platicúrtica.
Medidas de Dispersión Relativas
Coeficiente de Variación de Pearson
Cuanto menor sea, más representatividad posee la media de la distribución a la hora de comparar varias distribuciones.
Ventajas: Es una medida de dispersión a la Media Aritmética, mide su representatividad, no tiene unidades luego permite comparar la dispersión de dos muestras.
Inconvenientes: Cuando la media es 0 no se puede calcular.
Variable Tipificada
Cuanto mayor sea la tipificación mejor es la posición del dato (más representativo es el dato). Se utiliza para poder comparar valores de muestras diferentes. En una distribución tipificada la media siempre es 0 y la desviación típica siempre es 1.
El fin de considerar simultáneamente dos caracteres de un mismo colectivo es… estudiar las posibles relaciones entre ellos.
Cuando no existe relación entre dos variables, se dice que las variables son… independientes.
Cuando la relación entre dos variables es perfecta, se dice que… las variables están relacionadas funcionalmente, lo que significa que su relación puede ser expresada bajo la forma y=f(x).
Dos variables (X e Y) son independientes estadísticamente si… todas las frecuencias relativas condicionadas son iguales a sus correspondientes frecuencias relativas marginales.
Son siempre nulos… los momentos bidimensionales respecto a la media de orden 1.
Opción correcta… si X e Y son independientes, su covarianza es 0, pero el recíproco no siempre es cierto.
Si el σ da igual por ambos lados la covarianza es 0 y las variables son independientes.
Números Índice
Un NÚMERO ÍNDICE es una medida que refleja cambios de una variable o grupo de variables relacionadas con respecto al tiempo o cualquier otra característica. Muestra el % de variación respecto al año base, de modo que si no hubiera cambio el índice sería 100%. Puede ser complejo y reflejar cambios en muchos tipos de información.
- ÍNDICE DE PRECIOS: Muestra la variación del precio entre periodos, lugares, etc.
- ÍNDICE DE CANTIDADES: Muestra la variación de las cantidades entre periodos, lugares, etc.
- ÍNDICE VALOR: Muestra la variación del precio por la cantidad entre periodos, lugares, etc.
Índices de Precios Específicos
- LASPEYRES PRECIOS: Es la Media Aritmética ponderada de los índices simples de precios. El criterio de ponderación es Wi= precio del año base x cantidad del año base. Se pondera siempre por las mismas cantidades, permite comparar mejor distintos valores del índice a lo largo del tiempo. Según transcurre el tiempo, la ponderación al no variar, puede quedar desfasada o irreal. No tiene en cuenta los cambios en los patrones de consumo. Media aritmética ponderada por el precio por cantidad en el año base.
- PAASCHE PRECIOS: Es la Media Aritmética ponderada de los índices simples de precios, pero el coeficiente de ponderación es Wi= precio del año base x cantidad del año no base. Se adapta mejor la ponderación al tiempo, como la ponderación no varía no se puede comparar distintos valores del índice a lo largo del tiempo. No se pueden hacer comparaciones directas de precios puesto que al tener en cuenta las alteraciones en el consumo puede ser debido a ellas la variación. Media aritmética ponderada por el precio del año base por cantidad en año (t).
- FISHER: Es la Media Geométrica de los índices de precios/cantidades de Laspeyres y Paasche.
Agregados: Muestran la variación del precio, cantidad o valor entre periodos, lugares, etc. de diversos bienes.
Ponderados: Tienen la ventaja de asignar distinta ponderación a cada bien.
Series Temporales
Son datos separados por unidades constantes de tiempo. Mensuales, anuales, etc.
- TENDENCIA: Comportamiento a largo plazo de la serie temporal.
- CICLO: Comportamientos recurrentes con periodo superior al año.
- ESTACIONALIDAD: Comportamiento irregular en el mismo periodo (mes) de cada año (Serie anual), mismo día de cada mes (serie mensual).
- IRREGULARIDAD: Alteraciones en la serie, sin periodicidad concreta, ni pauta ni tendencia reconocible.
¿Qué podemos observar al calcular el índice de una magnitud en dos momentos del tiempo? Comparar con respecto a un año de referencia y analizar los incrementos o decrementos.
Las ponderaciones en los índices complejos ponderados permiten… corregir la diferente importancia de los índices simples para el cálculo del complejo.
Procedimiento más adecuado para deflactar el PIB… dividir por el IPC.
Índice de precios al consumo → Índice de Laspeyres.
Números índice… Es una forma de cuantificar la variación a lo largo del tiempo de una variable.
El procedimiento mediante el cual una serie de valores nominales (en u.m corrientes) se pasa a valores constantes (en u.m constantes de un periodo) se denomina… deflactación.
Deflactar… es útil poder comparar el valor de una magnitud en diferentes instantes del tiempo.
Se han calculado índices simples de cantidades vendidas de cierto artículo, pero los registros de partida estaban en miles de unidades. Si los registros hubieran estado en unidades… Se obtendrían iguales resultados.