Términos Probabilísticos
Experiencia aleatoria: al repetir un determinado experimento o acción, en las mismas condiciones, se obtiene un conjunto de resultados diferentes, por lo que es imposible predecir el resultado.
Serían experiencias aleatorias, por tanto:
- La observación del tiempo que tarda un aparato nuevo en estropearse.
- La observación del número de pacientes que llegan para ser atendidos en un mostrador.
- La observación del tiempo de espera de un paciente en ser atendido.
Espacio muestral: conjunto de resultados posibles de una experiencia aleatoria.
Suceso o acontecimiento (A): se trata de cualquier subconjunto del espacio muestral. Este se denominará además, Suceso elemental, cuando únicamente tenga un elemento.
Suceso o acontecimiento (A): Dados dos conjuntos de sucesos A y B, que pertenecen al mismo espacio muestral, pueden definirse los siguientes conjuntos:
- Conjunto complementario del suceso A o B (A’ o B’): es el conjunto que incluye todos los sucesos del espacio muestral que no pertenecen al suceso A o al suceso B. En nuestro ejemplo A’ = {1,3,5} y B = {1,2,3}.
- A ∪ B (que se lee como A unión de B): es el conjunto que contiene todos los sucesos de A y B. En nuestro ejemplo A ∪ B = {1,2,3,4,5,6}.
- A ∩ B (que se lee como A intersección de B): es el conjunto que contiene a todos los sucesos de A que al mismo tiempo también son de B. En nuestro ejemplo A ∩ B = {4,6}.
El conjunto vacío se expresa como: {}
El conjunto total se expresa como: espacio muestral.
Se dice que dos conjuntos de sucesos son DISJUNTOS cuando no presentan ningún suceso en común, es decir, A ∩ B = {}.
La Probabilidad
El resultado de una experiencia aleatoria no se puede prever con certeza (es decir, cuando lanzamos un dado no podemos saber qué número va a salir a ciencia cierta).
La probabilidad es la rama de la estadística que se encarga de “dar un peso” a cierto acontecimiento, es decir, se encarga de dar un número que evaluará la certeza de que un resultado ocurra.
La Distribución Normal
La distribución normal es un modelo teórico capaz de aproximar de manera satisfactoria el valor de una variable aleatoria a una situación ideal.
Se encarga de adaptar los valores de una determinada variable aleatoria a una función que dependerá de la Media(μ) y la Desviación Típica (σ).
Este ajuste o aproximación de las variables aleatorias a “una situación ideal” servirá de gran utilidad para la realización de PREDICCIONES.
Muchos fenómenos de la naturaleza y fenómenos físicos se ajustan a este tipo de distribución. Por ejemplo:
- Características morfológicas de individuos como la estatura, peso, talla…
- Características fisiológicas como el efecto de un fármaco, pesticidas, dosis a aplicar de medicamentos…
- Características sociológicas como el consumo de cierto producto por un mismo grupo de individuos.
- Características psicológicas como el cociente intelectual, notas obtenidas por un grupo de alumnos…
La característica principal de los procesos estadísticos que siguen una distribución normal es que sus valores se encuentran siempre comprendidos dentro de una función conocida como CAMPANA DE GAUSS.
Campana de Gauss:
- Los datos obtenidos tienden a agruparse alrededor de un punto central, la media (μ).
- La representación de los datos es simétrica a ambos lados de la media.
- Las desviaciones estándares quedan situadas a igual distancia unas de otras (son simétricas respecto a la media).
La proporción de mediciones situada entre la media y las desviaciones es una constante en la que:
- La media + – 1 unidad de la desviación estándar = cubre el 68,3% de los datos observados.
- La media +- 2 unidades de la desviación estándar = cubre el 95,5% de los datos observados.
- La media +- 3 unidades de la desviación estándar = cubre el 99,7% de los datos observados.
¿Todas las campas de Gauss son iguales? NO Unas ofrecerán una mayor certeza que otras y esto podremos saberlo, simplemente, observando su morfología.
¿Cuál de las dos campanas de Gauss nos ofrecería una predicción más certera?
Como se puede observar, ambas variables se aproximan a una distribución normal y sus datos configuran dos campanas de Gauss.
- La campana de Gauss roja es más fiable ya que todos los datos obtenidos, tanto a derecha como a izquierda de la media, se encuentran muy próximos a ella.
- La campana de Gauss azul, presenta sus datos distribuidos más dispersos con respecto a la media.
Distribución Normal Estándar
- La distribución normal estándar es aquella cuya media de los datos es 0 y su desviación típica es 1: N (0,1).
- Este tipo de distribución normal se utiliza mucho en estadística por su facilidad de cálculo.
La probabilidad de que una variable aleatoria, que se rige por una distribución normal estándar N (0,1), tome un valor MENOR a un valor concreto z, es P(Z
También podremos utilizar esta tabla de valores para determinar cierto valor de probabilidad de los datos de una variable aleatoria que siga una distribución normal NO ESTÁNDAR, N (μ,σ).
- La PROBABILIDAD de que una variable aleatoria, que se rige por una distribución normal NO estándar N (μ,σ), tome un valor MENOR a un valor concreto x, es P(X
- Para poder buscar su valor directamente en la tabla anterior, tendremos que realizar una «conversión previa» de esta distribución NO ESTÁNDAR A UNA ESTÁNDAR, N (0,1).
Variables independientes: también pueden llamarse – variables explicativas (X). Estas son aquellas que escoge el investigador para crear agrupaciones con los individuos de la población o muestra que se estudia. Estas variables son las que causan o explican los valores que pueden tomar las variables respuesta o dependientes (Y). Ejemplos : edad, el sexo, la profesión, el domicilio, etc.
Variables dependientes: también pueden llamarse variables respuesta (Y). Estas variables son aquellas que están influenciadas por las variables independientes o explicativas. Ejemplos: variables que expresan la mortalidad, satisfacción de los pacientes, la duración de las estancias en los hospitales, etc.
Distribución Estadística Bidimensional
Una distribución estadística bidimensional está formada por un conjunto de pares de valores (X, Y). Estos pares son los valores de dos variables cuantitativas para un mismo individuo estadístico.
Diagrama de Dispersión o Nube de Puntos
La representación de las parejas de valores (X, Y), mediante un diagrama de dispersión, permite mostrar la posible relación entre dos variables cuantitativas medidas en los mismos individuos.
A cada punto del diagrama le corresponden dos coordenadas (X.Y), que son los valores de las variables para cada individuo.
Cada uno de los ejes de este diagrama, se corresponde con una de las variables.
La media de una nube de puntos se obtiene de los valores medios de las variables de tipo X y de las de tipo Y, se representa mediante la expresión (X(GUIÓN ARRIBA), Y).
Covarianza de Dos Valores, X e Y
Cálculo de la Covarianza: La covarianza, es un parámetro estadístico que mide la variabilidad o dispersión de los valores estadísticos observados en los individuos de una muestra o población, pero a diferencia de la varianza, este parámetro trabaja con parejas de valores (X, Y).
Tipos de Correlación:
Directa o positiva: Ocurre cuando al aumentar de valor una dispersión es creciente de las variables la otra variable también aumenta. La recta entorno a la que se agrupan los puntos del diagrama de al dispersión es creciente.
Inversa o negativa: ocurre cuando al aumentar de valor una de las variables de la otra variable también disminuye. La recta entorno a la que se agrupan los puntos del diagrama de dispersión es decreciente.
Nula: en este caso las variables son incorrelacionadas, es decir, no hay dependencia entre ambas variables.
Coeficiente de Correlación Lineal de Pearson
El coeficiente de correlación de Pearson, r, indica el grado o fuerza de la relación existente entre ambas variables (X, Y).
Este coeficiente indica si los puntos de un diagrama de dispersión, o mube de puntos, tienden a disponerse alineadamente próximos a una recta.
La correlación no distingue entre variables explicativas y variables respuesta, es decir, no puede indicar cual es la que influye sobre cual, sino únicamente que existe una relación y la fuerza de esta.
Interpretación del Coeficiente Lineal de Pearson
El coeficiente es adimensional. No tiene unidad de medida del tipo de metros, kg, etc.
Su valor siempre está acotado entre -1 y 1.
La fuerza de la relación lineal aumenta cuando el coeficiente de correlación r se aproxima a -1 o 1, es decir, un valor de r cercano a -1 o 1l indica una correlación fuerte.
Hay una relación lineal perfecta cuando r es igual a 1 0-1.
Las variables X e Y son incorrelacionadas cuando r = 0. Un valor de r cercano a 0 indica una relación lineal muy débil. * Un valor positivo de r indica una relación lineal directa. * Un valor negativo de r indica una relación lineal inversa.
Este coeficiente indica únicamente que dos variables independientes varían conjuntamente, pero esta variación conjunta no indica necesariamente que exista causalidad entre ambas.
Tablas de Significación de R de Pearson
Para saber si la asociación entre variables es estadísticamente significativa, es decir, que la relación no se debe al azar, se hace una prueba de significación. Se emplean las tablas de significación de r para descartar que la correlación hallada sea debida al azar. Para simplificar, sólo utilizaremos las tablas con una seguridad del 95 % (nos la dan).
El coeficiente r es un estimador (coeficiente r calculado) que lo comparamos con el coeficiente r de la tabla de significación. Si el valor r estimado > r tabla afirmaremos que la asociación estadística es significativa con una seguridad del 95 % (o del 99 %, según el valor de la tabla con que comparemos).
El coeficiente r de Pearson de la tabla varía según el nivel de seguridad o nivel de confianza y de los grados de libertad. Para calcular los grados de libertad empleamos la siguiente fórmula: g.l.=n-1 Actualmente, con ayuda de programas informáticos calcularemos el P valor asociado, si este es menor a 0,05 existe relación lineal significativa entre las variables.
Grados de Libertad (g.1.)
Se calculan de este modo:
- Cuando hay un solo criterio de clasificación: grados de libertad es 1gual al número de categorías menos una ( g.l. =n -1 ). Por ejemplo, si tenemos que sentar a 30 personas en un aula donde solo hay 30 sillas. Solo podrán elegir silla libremente las primeras 29 personas, la última persona que entre no podrá elegir (grados de libertad = 30-1).
- Cuando hay dos criterios de clasificación : Es el caso de las tablas de doble entrada (2 x 2), los grados de libertad serán el número de filas menos uno multiplicado por número de columnas menos uno (g.l.=[f-1] x [c -1)).
Factores que Pueden Afectar al Coeficiente Lineal de Pearson
La correlación se ve muy afectada por la presencia de observaciones atípicas, por la variabilidad del grupo o por una tercera variable que pueda enmascarar los resultados.
Por ejemplo, si medimos el salto de longitud en un grupo homogéneo, es fácil que r no sea muy elevado. Sin embargo, si elegimos un grupo heterogéneo con personas de diferentes alturas, obtendremos un coeficiente r mayor, que indica que a más altura más salto de longitud.
También puede influir una tercera variable; por ejemplo, puede haber una alta correlación entre el coeficiente intelectual y las notas obtenidas. Sin embargo, otras variables pueden afectar, como son el grado de interés o el tiempo libre.
No existe una relación causa-efecto. La mejor manera de evidenciar este hecho es hacer un experimento en el que la variable explicativa se va modificando, mientras se controlan las posibles terceras variables que pueden influir en la variable respuesta, como apreciamos en la siguiente imagen y gráfica:
Relaciones Entre Variable Categóricas
Recordemos que una variable cualitativa puede adoptar modalidades que son cualidades, categorías o atributos. Para analizar los datos categóricos utilizamos recuentos o porcentajes de los individuos que componen las distintas clases o categorías. Primero organizamos los datos en tablas de doble entrada; mediante los diagramas de barras también podemos estudiar la relación entre variables categóricas.
Test Chi-cuadrado (x2) | La prueba de Chi-cuadrado (x2) es un test de asociación que permite conocer si existe o no relación estadísticamente significativa entre dos variables cualitativas, una variable de interés y el factor de exposición; es decir, conocer si una variable influye en la otra, con un nivel de confianza (N.C.) determinado previamente.
Test Chi-cuadrado (x2)
Es una prueba de significación estadística.
En estas pruebas siempre se plantean dos hipótesis: la hipótesis nula (no hay diferencias significativas entre los estadísticos de las muestras comparadas) y la hipótesis alternativa (hay diferencias estadísticamente significativas).
La prueba x2 se caracteriza por:
- Intervenir dos o más variables cualitativas (fumar/neoplasia).
- Cada variable presenta dos o más modalidades generalmente.
- Los datos se tabulan en tablas de frecuencia de doble entrada (2×2).
Para su cálculo se deben cumplir las siguientes condiciones:
* Debe haber al menos un total de 30 observaciones en la tabla.
* Cada celda debe contener una frecuencia de 5 0 mayor. La existencia de una casilla con una frecuencia teórica menor de 5 hace inviable esta prueba, debiéndose utilizar la prueba exacta de Fisher.
PLANTEAMIENTO HIPÓTESIS
Para realizar un test de contraste se deben definir dos hipotesis: la hipótesis nula y la hipótesis alternativa de la siguiente forma:
* Hipótesis nula H0. Supone que no hay diferencias significativas entre lo observado y los supuestos teóricos, o bien que las diferencias se deben al azar. No hay relación entre las variables. H0 es la hipótesis que contrastamos. Es la que se considera dentro de lo normal y probable. Los datos pueden refutarla. No debería ser rechazada sin una buena razón.
* Hipótesis alternativa H1. Indica que ambas variables X e Y están relacionadas.
Cuanto más alto sea el valor de x2 , mayor es la probabilidad de que exista una diferencia estadísticamente significativa entre los resultados reales observados y los teóricos y mayor posibilidad de rechazar la hipótesis nula (H0).
Pero para valorar si esta diferencia es real, y no se produce por casualidad el indicador más idóneo es el valor P, calculado a partir del estadístico, y de la tabla de distribución de x2 , o con ayuda de un programa informático. Generalmente las pruebas estadísticas dan el valor del estadístico x2 y del P valor.