Conceptos Básicos de Estadística: Tipos de Variables y Aplicaciones

1. Estadística: Definición, Utilidad y Ejemplo Real

Definición

La estadística es el conjunto de métodos necesarios para recoger, clasificar, representar y resumir datos, así como para hacer inferencias (extraer conclusiones) científicas a partir de ellos.

Utilidad

Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo, trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas descriptivas. La estadística busca interpretar condiciones regulares en fenómenos de tipo aleatorio.

Ejemplo Real

Tenemos como población a los practicantes de natación de la categoría absoluta del Club Náutico Sevilla; para estudiar las diferentes variables, seleccionamos al azar a 20 nadadores de este estudio mediante el análisis de los datos recogidos y tratados. Queremos averiguar qué porcentaje de mariposistas y espaldistas hay en este grupo (variable cualitativa “estilo”). A través de la variable cuantitativa discreta “número de brazadas” (en un largo), obtendremos información sobre el número de brazadas media de este grupo de nadadores, así como la moda (número de brazadas que se repite más entre los nadadores) y, como algo menos significativo pero también importante, la mediana (número de brazadas que se encuadra en el centro de los datos). También calcularemos la desviación típica de esta variable, para saber si hay mucha diferencia de brazadas entre los mariposistas y los espaldistas. En este estudio también podremos seleccionar otras variables de estudio, como la frecuencia cardíaca antes y después de competir. También podría ser otra variable de estudio el “número de nadadores que tienen mínima para campeonatos de España”, o “velocidad del primer parcial (primer 50) de una prueba de 200 metros”.

2. Variables Estadísticas Cualitativas: Concepto, Gráfica Apropiada y Medida Estadística Adecuada

Concepto

Aquellas variables que se refieren a una cualidad, no son expresables de manera rigurosa por un número.

Hay dos tipos:

  • Nominales: Si las cualidades no son susceptibles de estar ordenadas (sexo, grupo sanguíneo, color de pelo, etc.). Por ejemplo, el color de pelo; habría diferentes opciones: rubio, castaño y moreno. Ninguna opción es mejor que la otra, sino diferente. Si hay solo dos modalidades, se dice que son datos binarios o dicotómicos.
  • Ordinales: Siguen un orden según los valores que tengan y tienen una preferencia. Por ejemplo, las categorías de fútbol: 1ª, 2ªA, 2ªB, 3ª. Nivel de satisfacción, nivel de percepción del esfuerzo según la escala de Borg.

Gráfica Apropiada

Se pueden hacer diagramas de barras simples, compuestas y apiladas, además de diagramas de sectores circulares y pictogramas.

Ejemplo: En un campeonato de Andalucía de natación se midió el nivel de percepción del esfuerzo según la escala de Borg para compararlo luego con su frecuencia cardíaca. Se podría hacer una gráfica de barras, donde estén representadas las frecuencias absolutas (en el lado números del 0 al 15, y abajo las diferentes clasificaciones: suave, duro, normal, etc.).

Ejemplo de variable cualitativa nominal: El sexo de los competidores.

Ejemplo para comentar una gráfica: Se le preguntó a 100 futbolistas en qué división jugaban. Los datos vienen representados en la siguiente tabla:

En esta gráfica se representan todos los jugadores de fútbol a los que se les ha hecho la encuesta, distribuidos cada uno en su categoría o división en la que juegan. Nos dice que 22 jugadores juegan en primera, 40 en segunda A, 12 en segunda B y 26 en tercera división. Todos ellos representados por un diagrama de barras.

Medida Estadística Adecuada

Sería la moda, ya que es el valor que más se repite de los datos. La moda del ejercicio anterior es Segunda División A, ya que se repite más veces (40).

Ejemplo Real

Quiero saber la cantidad de tabaco que consumen en mi empresa. Para ello, pondremos varias categorías en el estudio que sean “fumador moderado”, “fumador casual” y “no fumador”.

3. Variables Estadísticas Cuantitativas: Concepto, Gráfica Apropiada y Medida Estadística Adecuada

Concepto

Aquellas variables que requieren necesariamente de valores numéricos para ser expresadas.

Hay dos tipos:

  • Discretas: Son valores aislados, entre una opción y otra no existe ninguna más. Por ejemplo, para saber el grado de satisfacción de un servicio, tenemos tres opciones: 1, 2 o 3 (en la que el 1 es muy poco y el 3 es muy satisfecho); número de goles, número de puntos, número de faltas, recuentos en general.
  • Continuas: Son valores continuos, entre dos valores puede existir otro. Por ejemplo, como nota de un examen: 3, 4.5, 5.6; peso, altura, VO2, medidas en general.

Gráfica Apropiada

Se pueden hacer histogramas y diagramas de caja y bigotes. Vamos a comentar una gráfica en la que mediremos el número de veces que Ryan Lochte ha realizado en los 100 metros espalda este año.

Un histograma son barras, pero no se centran en un número solo, sino que representan intervalos.

Ejemplo: Como podemos observar, el tiempo en el que más ha estado este año es 53, después 54, siguiéndole 52 y por último 55. Su media sería: (52+53+54+55)/4 = 53.5. Su mediana sería: (53+54)/2 = 53.5. Su moda: el valor que más se repite, o sea, el 53.

Medida Estadística Adecuada

La mediana es un valor que divide el conjunto de datos en dos partes iguales. Se tiene en cuenta el número de valores, no los valores en sí. Se diferencia de la media porque no le afectan los valores extremos.

Según el ejemplo anterior: la media (medida de localización que hace referencia al valor medio de la muestra). En este caso, la media del tiempo que se ha hecho Ryan Lochte este año ha sido de 53.5 s.

Un ejemplo de variable cuantitativa discreta sería: el número de puntos que ha conseguido mi equipo en el campeonato de Andalucía.

4. Diagrama de Caja y Bigotes: Uso, Construcción e Información Descriptiva

Un diagrama de cajas y bigotes es una representación visual que describe varias características importantes, tales como la simetría y la dispersión (media, mediana y cuartiles). Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. Sirve para variables cuantitativas.

Construcción

1º) Cómo se dibuja la caja: el lado inferior representa Q1 y el lado superior Q3.

2º) Cómo se hacen los bigotes:

  • Se calcula el rango del intervalo: RQ = Q3 – Q1 (que es la anchura de la caja).
  • Calculamos la longitud de los bigotes: L = 1.5 x RQ.
  • Dónde damos el corte: una vez calculada la longitud, seguimos la recta hasta encontrar el primer dato y damos el corte (en ambos lados).

Información Descriptiva

Aporta mucha información descriptiva, ya que además de medidas de posición, medidas de dispersión y medidas de simetría, nos aporta:

  1. Proporcionan una visión general de la simetría de la distribución de los datos. Si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
  2. Son útiles para ver la presencia de valores atípicos (outliers).
  3. La caja concentra el 50% de los datos centrales, con lo cual esto nos dará la dispersión del 50% de los datos centrales.

De todas formas, la información que nos da no es concluyente, por lo que nos obliga a realizar otros estudios.

5. Media Muestral: Definición, Fórmula, Interpretación y Ejemplo Real

Dado un conjunto de datos numéricos x1, x2, …, xn, se define su media muestral al valor medio de la muestra:

Es decir, es el centro de gravedad de los datos de la muestra. Debemos mencionar que los valores extremos influyen en ella.

Por ejemplo, si un equipo marca 60 goles en 38 partidos, la media muestral sería: 60/38 = 1.57 goles por partido.

Otro ejemplo: El tiempo medio de los espaldistas del Club Náutico Sevilla en 50 metros.

Sumamos todos los tiempos y los dividimos por el número de espaldistas: Media = (28.2 + 27.9 + 28.6 + 28.3) / 4 = 28.25.

6. Desviación Típica: Definición, Fórmula, Interpretación y Ejemplo Real

Se define la desviación típica como la raíz cuadrada de la varianza. La desviación típica es una medida de dispersión que indica cómo de dispersos se encuentran los datos de la muestra respecto a la media. Si los datos se agrupan estrechamente en torno a la media, la desviación típica será más pequeña; por el contrario, si los datos se encuentran muy dispersos respecto a la media, entonces la desviación típica será mayor.

Cálculo

Para calcularla, primero calculamos la varianza:

  • Media = X = Σxi / n
  • Varianza = Σ(xi – X)^2 / n
  • Desviación típica = raíz cuadrada de la varianza

La desviación típica será siempre un valor positivo o cero. Cuanto más pequeña sea la desviación típica, mayor será la concentración de datos alrededor de X.

Ejemplo: Queremos saber la desviación típica de nuestros espaldistas en el 50 espalda.

7. Mediana: Definición y Diferencia con la Media Muestral

Definición

Es el valor de la variable que divide a la muestra en dos partes iguales (tanto por debajo como por encima se encuentra el 50% de las observaciones). La mediana es el número que se encuentra en el medio de un conjunto de números. La mediana se corresponde con el segundo cuartil (Me = Q2).

Diferencia con la Media Muestral

La media es el valor promedio de un conjunto de números (el centro de gravedad), mientras que la mediana es el número o valor que, ordenados, se sitúa en el centro de la muestra.

8. Modelo Binomial: Concepto, Interpretación y Ejemplo Real

Concepto

Es el modelo de Bernoulli repetido muchas veces. Sirve para transformar un espacio muestral con 2 elementos. Para comprobar si se da éxito o fracaso:

  • Rg(X) = (0, 1)
  • Si se verifica X = 1, se dice que obtenemos “Éxito”, y si se verifica X = 0, obtenemos “Fracaso”.
  • P(X = 1) = p —- probabilidad de éxito.
  • P(X = 0) = 1 – p = q — probabilidad de fracaso.

El experimento aleatorio consiste en la realización de “N” pruebas de tipo Bernoulli. La variable aleatoria discreta binomial cuantifica el número de éxitos de esas n pruebas. Es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos de Bernoulli, independientes entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Se caracteriza por ser dicotómico, es decir, solo son posibles dos resultados: a uno se le denomina éxito y tiene probabilidad de ocurrencia p, y al otro fracaso con una probabilidad q = 1 – p.

9. Modelo Normal: Interpretación de la Curva de Gauss y Ejemplo Real

Se dice que una variable aleatoria continua sigue una distribución normal de parámetros media y sigma si su función de densidad de probabilidad es campaniforme.

Propiedades

  • Es una curva positiva (hacia arriba).
  • El área debajo de la curva vale 1 siempre.
  • La curva normal estándar es simétrica en el origen (x = 0).
  • El punto de inflexión (donde cambia la curva) es el x = +-1.
  • Las colas tienden a 0, pero nunca llegan.
  • Propiedad de la probabilidad de un punto siempre es 0; P(x = a) = 0.
  • La desviación típica es la diferencia entre el punto de inflexión y la media, por lo que el punto de inflexión estará dado por la desviación típica.

Ejemplo: Frecuencia cardíaca en ejercicio intenso.

10. Tipificación de Variables Estadísticas: Utilidad y Ejemplo Real

No tiene sentido tipificar todo tipo de variables estadísticas. Concretamente, no tiene sentido tipificar variables cualitativas. La tipificación trabaja con valores numéricos, exactamente con la media y la desviación típica. La tipificación nos sirve para comparar valores entre distintas distribuciones cuando estas tienen medias y varianzas diferentes.

Ejemplo: Un jugador de voleibol A cadete mide 180 cm, siendo la media de su categoría 178 cm y su desviación típica de 7. Otro jugador B senior del mismo club mide 188 cm, siendo la media de su categoría 185 cm y su desviación típica 5 cm. Quiero saber qué jugador es más alto para su categoría y equipo.

  • Za = (180 – 178) / 7 = 0.28
  • Zb = (188 – 185) / 5 = 0.6

El jugador senior B es más alto comparándolo con su categoría que el cadete A.

11. Diferencia entre Media Muestral y Media Poblacional

La media muestral y la poblacional son muy similares. Una diferencia es que la media muestral se representa con X (con una barra encima) y la media poblacional con µ. La principal diferencia es que la media poblacional se trata del promedio de una población global y la muestral es el promedio de una pequeña parte, es decir, de una muestra de la población.

12. Contraste de Hipótesis Paramétrico: Concepto, Contraste de Igualdad de Medias y Ejemplo

Es la técnica estadística que se utiliza para estudiar si una determinada afirmación acerca de cierto parámetro poblacional es confirmada o invalidada por los datos de una muestra extraída de dicha población.

Contraste

  • Hipótesis nula: Es la que se supone cierta y debe aceptarse salvo que los datos muestrales puedan refutarla. No debe ser rechazada sin una gran evidencia en contra.
  • Hipótesis alternativa: Es la que niega la hipótesis nula. Los datos muestrales pueden mostrar evidencias a favor. No debe ser aceptada sin una gran evidencia a favor.

Para el contraste de igualdad de medias para dos muestras independientes, utilizaremos la varianza, y los cálculos internos se harán de diferente forma.

13. P-Value: Concepto y Ejemplo Real

El p-value es la probabilidad de que la diferencia que muestra el estadístico respecto de H0 se deba al azar propio de la distribución determinada por dicha hipótesis. Por convenio, se ha establecido rechazar la H0 cuando el p-value es menor al 0.05 (5%).

Quiero saber si los jugadores de dos equipos de voleibol tienen el mismo porcentaje de grasa corporal, siendo la H0 que sí tienen el mismo porcentaje, y la H1 que no tienen el mismo porcentaje. Con los datos podemos calcular el p-value.

14. Contraste de Hipótesis No Paramétrico: Concepto, Tipos y Ejemplo Real

Se dice que un contraste de hipótesis es no paramétrico si las hipótesis se refieren al modelo distribucional de los datos (no se está seguro de que siga una normal).

Tipos

  • Variable numérica:
    • Si es para una población y el tamaño de la muestra es igual o menor de 50, utilizamos el test de Shapiro-Wilk.
    • Si el tamaño de la muestra es mayor de 50, utilizaremos el test de Kolmogorov-Smirnov.
    • Si es para dos poblaciones, utilizaremos también el test de Kolmogorov-Smirnov.
  • Variable cualitativa:
    • Si es para una población, utilizaremos el test de Chi-cuadrado de Pearson.
    • Si es para dos poblaciones, dependiendo del tamaño de la tabla, utilizaremos el test exacto de Fisher (tablas 2×2) o el test de Chi-cuadrado de Pearson (+2×2).

En todos estos modelos, utilizaremos el p-value para tomar la decisión.

Ejemplo: Quiero saber si los jugadores de un club (con equipos masculinos y femeninos) fuman, teniendo en cuenta su sexo, y si estos datos siguen una normal. En este caso, haríamos el test del Chi-cuadrado de Pearson, ya que tengo dos variables que quiero comparar con una tabla de 2×2 y son cualitativas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.