Estadística Descriptiva
La estadística es la ciencia que estudia los métodos y procedimientos para recoger, clasificar, resumir y analizar datos, así como para realizar inferencias a partir de los mismos, cuyo carácter esencial es la variabilidad.
Clasificación de la Estadística
- Estadística descriptiva: Se utiliza para recoger, clasificar, resumir y analizar datos, deduciendo conclusiones sobre su estructura y composición.
- Estadística inferencial o confirmatoria: Se usa para realizar estimaciones a partir de resultados obtenidos del análisis de una muestra sobre el conjunto de elementos (población) de la que se ha extraído esa muestra.
- Estadística exploratoria: Se trata de encontrar estructuras significativas de los datos para poder crear modelos o hipótesis de trabajo.
Tipos de Variables
- Cuantitativas: Se usan números. Pueden ser discretas (valores enteros) o continuas (con decimales, de modo que entre dos valores hay infinitos valores) y se miden con escalas numéricas.
- Semicuantitativas: Se miden con escalas ordinales (poco, mucho…).
- Cualitativas: Se utilizan atributos en lugar de números. Pueden ser dicotómicas (solo toman dos valores, ejemplo: alto o bajo) o no dicotómicas. Se miden con escalas nominales y se pueden codificar con números.
Tipos de Escalas
- Nominal: Se usa como medida de identificación para variables cualitativas y solo permite la operación de igual o desigual.
- Ordinal: Refleja el orden de observaciones y se establecen rangos. Se usa para variables semicuantitativas y se pueden hacer operaciones de igual, desigual, mayor y menor. También se llama categórica.
- Numérica: Los números definen el valor de la variable. Se usa para variables cuantitativas y se pueden realizar con esta escala todas las operaciones que se pueden hacer con números. Hay dos tipos:
- De intervalo: Se pueden cambiar de escala y de origen de las medidas (como la temperatura).
- De razón: Se puede cambiar la escala de la unidad de medida, pero no el origen de coordenadas, que será un punto de origen natural de medida (el cero), como es el caso del peso o la altura.
Frecuencias
- Frecuencia absoluta (ni): Indica el número de veces que se presenta una modalidad de la variable.
- Frecuencia relativa (fi): Indica el número de veces que se presenta la modalidad de una variable respecto al número total de veces.
- Frecuencia acumulada (niac) y (fiac): Se usa tanto en caso de relativas como de absolutas y se acumulan frecuencias.
- Frecuencia conjunta: Cuando usamos más de una variable, indica el número de veces que aparecen dos determinadas modalidades de dos variables.
- Frecuencia condicionada: Indica el número de veces que aparecen varias determinadas modalidades de variables respecto a una variable.
Medidas de Frecuencias en el Ámbito Sanitario
- Número: En relación de frecuencia absoluta.
- Proporción: En relación a frecuencia relativa, es decir, el número de veces que aparece en relación al total. El numerador está incluido en el denominador.
- Razón: El numerador no se incluye en el denominador.
- Odds: Es una razón y se suele usar en factores de riesgo.
- Tasas: Proporción con características especiales, hace referencia a un lugar y un tiempo determinado.
- Riesgo: Son razones o proporciones, y el riesgo relativo es una razón.
Presentación de los Datos
Generalmente, tenemos datos procedentes de una muestra y los vamos a ordenar para poder presentar mediante tablas, gráficos, etc. Así, la síntesis de datos (medidas de tendencia central, medidas de dispersión, medidas de posición y medidas sin dimensión).
1. Tablas Estadísticas para Variables Unidimensionales
Las tablas estadísticas deben presentar los datos de forma ordenada, resumida e inteligible, y deben respetar una serie de normas básicas: rotuladas claramente, indicar los valores totales, etc. Generalmente, la tabla consta de tres partes: título, tabla y fuente.
- El título responde a qué, cuándo, dónde y cómo.
- En el encabezamiento se indica a qué se refieren los datos que van inscritos en las restantes casillas de la parte central.
- En la columna matriz se colocarán los valores de la variable en la escala de clasificación correspondiente.
- En el cuerpo van los datos numéricos indicados por las diferentes clasificaciones del encabezamiento y columna matriz.
- La fuente indica la procedencia.
La marca de clase es la media de los dos valores límite.
Pasos para construir intervalos:
- Calcular el recorrido o amplitud de la distribución (diferencia entre el valor más grande y el más pequeño).
- Calcular el número de intervalo.
- Determinar la amplitud de los intervalos.
- Calcular el límite superior del intervalo máximo y el límite inferior del intervalo mínimo.
Luego construimos una tabla con 4 columnas: una con el intervalo, otra con la marca, otra con la frecuencia absoluta (contar uno a uno e indicar el número de veces que vemos valores que se encuentran dentro de cada intervalo) y también podemos hacer la frecuencia absoluta acumulada (sumamos los anteriores).
2. Presentación en Gráficos
El objetivo es ayudar al análisis de una información. Existen normas básicas, como la explicación por sí mismo, y tiene partes (título, gráfico y notas explicativas si es necesario).
Existen distintos tipos de gráficos para distintas variables:
- Variables cualitativas y cuantitativas discretas: Diagrama de barras, sectores, pictogramas, cartogramas.
- Variables cuantitativas discretas y continuas: Diagrama de caja, de tallo y hoja, diagrama logarítmico.
Diagrama de Barras: Podemos tener barras simples, barras dobles o barras compuestas. En abscisa la variable con sus distintas modalidades y en ordenadas la frecuencia. Para datos cualitativos y cuantitativos discretos.
Sectorama: Para datos cualitativos y cuantitativos discretos.
Pictogramas: Para datos cualitativos y cuantitativos discretos.
Cartogramas: Para datos cualitativos y cuantitativos discretos.
Histograma y Polígono de Frecuencias: Para datos cuantitativos continuos.
Histograma y Polígono de Frecuencias Acumulado
Diagrama de Tallo y Hojas: Es para cuantitativas discretas y continuas.
Nomograma: Interviene más de una variable y es para datos cuantitativos discretos y continuos.
Diagrama Semilogarítmico: Cuando se quieren comparar dos series distintas, relacionadas y medidas en cuantías muy diferentes.
Serie Temporal: Vemos la evolución temporal.
Síntesis de Datos
Las distintas medidas van a ser de tendencia central, de dispersión (cómo se dispersan los datos respecto al centro), de posición y sin dimensión.
2.1 Tendencia Central
2.1.1 Media Aritmética
Cuando hablamos de muestras, la media viene representada como X̄ (media muestral) y cuando hablamos de poblaciones, μ.
Cálculo de la media: Se multiplica x1 por n1, luego x2 por n2 y se divide para n.
Propiedades de la media aritmética:
- La suma de las diferencias dará cero.
- La diferencia cuadrática respecto de la media es menor o igual a la diferencia con otro valor.
- La media es un operador lineal.
- Es muy sensible a la variación de los datos, es decir, cuando varía uno, entonces se nota la diferencia en la media.
Usos de la media:
- Cuando los datos están distribuidos simétricamente alrededor de un valor central (cuando la distribución es normal).
- Se desee una media relativamente estable, de gran uso y fácil interpretación.
- Posteriormente haya que calcular otros estadísticos cuya obtención se facilite conociendo la media.
2.1.2 Mediana
Es el valor de la variable que deja a la izquierda y a la derecha el mismo número de observaciones. Se debe utilizar cuando se quiera conocer el punto exacto que deja por encima o por debajo el 50% y cuando existan datos extremos que afecten a la media. También es de posición.
Propiedades:
- La suma de las diferencias de las puntuaciones respecto a la mediana en valor absoluto es igual o menor que respecto a cualquier otro valor de la variable, igualmente en valor absoluto. Σxini /n = fixi
- La vertical levantada sobre ella divide el área total del histograma y polígono de frecuencias en dos áreas de idéntica superficie.
- Es menos sensible a valores extremos que la media.
2.1.3 Moda
Es el valor de la variable para la cual la frecuencia es máxima. Matemáticamente se corresponde con los máximos de una función (el valor que más veces se repite).
Propiedades:
- Es fácil de calcular.
- En una serie de datos pueden aparecer dos o más valores de frecuencia máxima y su distribución ser bimodal.
Cálculo en datos no agrupados: el valor que más veces se repite.
Relación entre la Media, la Mediana y la Moda
- Cuando la media, la mediana y la moda coinciden, entonces la distribución es simétrica y, por tanto, tendrá forma de campana de Gauss.
- Cuando la media es más pequeña que la mediana y la mediana menor que la moda, entonces son asimétricas izquierdas y la elevación está desplazada hacia la derecha. Esto es porque los valores menores tiran de la media hacia debajo y, por tanto, será menor que la mediana.
- Cuando la media es mayor que la mediana, y esta a la vez mayor que la moda, entonces es asimétrica a la derecha y la elevación está desplazada hacia la izquierda.
2.2 Medidas de Posición
Son valores de la variable que señalan una posición de la distribución de frecuencias que por algún motivo es interesante.
Se les denomina cuantiles si las subdivisiones obtenidas del conjunto de datos son análogas.
- Cuartiles: Dividimos en 4 partes.
- Percentiles: En cien partes.
- Mililes: En mil partes.
- Deciles: En diez partes.
Cálculo en datos no agrupados: Primer cuartil deja por debajo un 25% y por encima un 75%.
- Ordenar datos de menor a mayor.
- Cuando el total es impar, entonces se elige el valor que ocupa la posición (n+1)/4.
- Cuando sea par, entonces es el valor que ocupa la semisuma entre n/4 y (n/4)+1.
El segundo cuartil es la mediana.
2.3 Medidas de Dispersión
Son: recorrido, recorrido intercuartílico y la diferencia cuartílica. También la varianza, la desviación típica o cuasi y el error estándar.
- El recorrido es la diferencia entre el valor mayor y el menor.
- El recorrido intercuartílico es la diferencia entre el tercer cuartil y el primero.
- La desviación media es el sumatorio de las diferencias entre cada valor y la media, dividido este sumatorio para n.
- La desviación cuartílica es el recorrido intercuartílico / 2.
Diagramas de cajas: Recoge la información del primer cuartil, el segundo y el tercero. Se representa con una caja que indica el recorrido intercuartílico. También la caja tiene bigotes que informa hasta donde llega el máximo valor que no llega a ser atípico, hace lo mismo con el mínimo que no llega a ser atípico. También ubica con círculos los valores atípicos extremos y con estrellas los atípicos muy extremos.
Varianza y Desviación Típica: La varianza se puede calcular con datos poblacionales o con datos muestrales. En el caso de poblacionales, la llamamos sigma cuadrado y la muestral como s2.
En el caso de la muestral, la llamamos cuasivarianza muestral y este es el mejor estimador de la varianza muestral. Hay que hacer una variación en la varianza muestral para que se llame cuasivarianza.
La varianza es una media de desviaciones cuadráticas respecto de la media.
Para calcular la desviación típica, hacemos la raíz de la varianza y para la cuasidesviación típica se hace para la cuasivarianza.
Características:
- Toman siempre valores positivos y solo se aplican a variables cuantitativas (quitar siempre el valor negativo que sale de la raíz).
- Si todos los valores de la variable son iguales, ambas salen cero.
- Son muy sensibles a la variación de los valores de las variables.
- No se recomienda usar cuando no lo sea el uso de la media.
- La interpretación física no es tan sencilla como la media; en el caso de la varianza, al ser medidas cuadráticas, corresponde con el momento de inercia.
Relación entre la Media y la Desviación Típica
En una distribución normal: si le sumamos el valor de la media más el valor de la desviación típica y restamos a la media la desviación típica, vamos a contener entre esos valores el 68.26% del área. Si ahora sumamos dos veces la desviación típica y restamos dos veces la desviación típica a la media, entonces encerramos el 95.45% del área, y si hacemos lo mismo, pero ahora la media menos la desviación típica tres veces o sumándola tres veces, entonces encerramos el 99.73% del área.
2.4 Sin Dimensión
Coeficiente de Variación: Se utiliza cuando queremos comparar la variación de dos poblaciones independientemente de la magnitud de sus medidas y para comparar la variabilidad de diferentes variables. Y también cuando la unidad de medida es muy distinta.
Propiedades:
- Solo debe usarse con variables con todos los valores positivos.
- No es invariante ante cambios de origen, ya que si a los valores de la variable le sumamos una cantidad positiva, entonces el CV de esta nueva variable será menor que el CV de la variable.
- Es invariable ante los cambios de escala.
Interpretación: CV 50% = Distribución no homogénea.
Coeficiente de Asimetría de Fisher: Se usa en poblaciones, es similar a la varianza pero elevada al cubo.
- Cuando es igual a cero: Simétrica.
- Cuando es mayor que cero: Asimetría derecha.
- Cuando es menor que cero: Asimetría izquierda.
Coeficiente de Curtosis de Fisher: Nos muestra cómo de alta o baja es esa distribución.
- La distribución normal es simétrica, mesocúrtica.
- Si es mayor que cero, entonces es leptocúrtica, es decir, más alta.
- Y si es menor que cero, entonces platicúrtica, es decir, más aplastada.
Podría ser una platicúrtica asimétrica derecha, es decir, hay múltiples combinaciones. La hipótesis de asimetría y1=0 y de curtosis y2=0, por tanto, de normalidad, se rechazan cuando los estimadores y1 e y2 se alejan de cero más de dos veces el error estándar de estos coeficientes.