Contrastes No Paramétricos: Guía Completa y Tipos de Pruebas

Contrastes No Paramétricos: Fundamentos y Aplicaciones

Se dice que el contraste es paramétrico cuando las hipótesis planteadas son paramétricas, es decir, cuando las hipótesis se refieren al valor de un parámetro desconocido de la población. El contraste es no paramétrico cuando las hipótesis planteadas son no paramétricas, o lo que es lo mismo, cuando las hipótesis se refieren a otras características (forma de la distribución, localización, aleatoriedad de una muestra, etc.).

En general, los contrastes no paramétricos necesitan pocas hipótesis para su planteamiento y la mayoría de las veces son más fáciles de aplicar que los contrastes paramétricos. En los contrastes no paramétricos se puede trabajar con características (o variables) ordinales, en las que solo interesa el orden o rango, e incluso nominales, en las que los valores se utilizan para indicar las distintas modalidades o categorías. Esto permite ampliar el campo de aplicación de los test de hipótesis.

Un test no paramétrico es más fácil de realizar y requiere menos cálculo que su correspondiente test paramétrico pero, generalmente, son menos potentes que sus correspondientes paramétricos. Un test no paramétrico será preferido cuando el cálculo y el procedimiento de ejecución aportan una simplificación importante frente al test paramétrico. Además los test no paramétricos, como ya se ha indicado, tienen aplicación para datos cualitativos y, por tanto, en algunas ocasiones el test no paramétrico será el único aplicable.

En concreto, al estudiar los parámetros del modelo (estimación puntual, estimación por intervalos y contraste de hipótesis paramétrica) se supone una distribución conocida (excepto parámetros a estimar). Por esto, este modelo generador de los datos (de la m.a.s.) debe ser analizado para comprobar si es el correcto (hipótesis básicas estructurales coherentes con la información empírica). Debe comprobarse que no hay contradicciones entre hipótesis y muestra respecto a la distribución elegida (modelo poblacional), que existe independencia en los datos recogidos (extracciones realmente independientes) y que hay homogeneidad en las observaciones muestrales (extraídas de la misma población).

Los contrastes no paramétricos que se estudian se pueden clasificar en varios grupos:

  • Bondad de ajuste (hipótesis sobre la distribución)
  • Independencia y aleatoriedad (según existencia influencia entre observaciones cercanas en el tiempo o espacio versus aleatoriedad)
  • Homogeneidad (generadas por el mismo modelo de distribución de probabilidad)

Tipos de Contrastes No Paramétricos

Bondad de Ajuste

Se trata de comprobar si los datos proceden de una distribución concreta, esto es, se comprueban el ajuste a cualquier distribución. Con esto se pretende comprobar la validez de un modelo teórico planteado. La Hipótesis Nula, consiste en afirmar que los datos muestrales proceden del modelo teórico planteado.

Cuando se producen desviaciones respecto al modelo planteado las inferencias respecto a las medias continúan siendo válidas en virtud del TCL pero las inferencias sobre la varianza pierden valor. Como consecuencia, si el modelo de partida no es correcto hay una pérdida de eficiencia en la estimación (intervalos muy grandes asociados a los parámetros y/o contrastes poco potentes).

Los contrastes más importantes o usados son: Test Chi-cuadrado y Test de Kolmogorov-Smirnov. Existen tests de normalidad específicos (Test de Shapiro-Wilks, contrastes de asimetría y curtosis, etc.).

Contraste Chi-cuadrado de Pearson

El Test Chi-cuadrado compara frecuencias teóricas esperadas con frecuencias obtenidas. Se necesita un número suficiente de datos (al menos 30). También es necesario que las frecuencias esperadas sean mayores o iguales que 5 en los diferentes grupos o clases fijados. Es válido tanto para variable discreta, como continua.

Se recomienda parecidas frecuencias esperadas en los diferentes grupos o clases fijados. Asociada a esta idea, se recomienda un número de clases grande (mayor que cinco) ya que el test no contrasta un modelo concreto sino la clase de modelos que atribuyen probabilidades iguales a los intervalos construidos.

La Hipótesis Nula que se contrasta es que los datos proceden de un determinado modelo.

Comentarios: para que el contraste sea considerado “adecuado”el test Chi cuadrado de Pearson puede aplicarse a distribuciones de todo tipo (incluso con información muestral cualitativa), se adapta fácilmente si hay que estimar parámetros poblacionales, no es aplicable en muestras pequeñas (se basa en distribución asintótica de su discrepancia), los intervalos o clases (si “necesario construirlos”) tienen carácter subjetivo.

Contraste de Kolmogorov-Smirnov

El Test de Kolmogorov-Smirnov compara las funciones de distribución teórica y empírica. Sólo es válido para variables continuas. La Hipótesis Nula que se contrasta es que los datos proceden de un determinado modelo. El test se basa en que la distribución del estadístico discrepancia, es el mismo sea cual sea la distribución poblacional de partida.

Paso III: El nivel de significación se fija según valoración de la gravedad del error tipo I (suele darse previamente al desarrollo del análisis).

Paso IV: Dado que la discrepancia nunca es negativa y que la hipótesis alternativa supone altas diferencias entre valores observados y esperados, se llega a un contraste unilateral (de una cola) hacia la derecha.

Paso V: Para una mejor aplicación, el cálculo del valor empírico o experimental debe considerar la comparación o diferencia entre función de distribución teórica del dato y función de distribución empírica (considerando en esta distribución empírica tanto valor asociado como el anterior):

Comentarios: el test de Kolmogorov-Smirnov es de más sencilla aplicación que el test Chi cuadrado de Pearson, no necesita agrupaciones o clases (no pierde información), es aplicable a muestras pequeñas, es más potente (aunque con muestras grandes son similares), el test de Kolmogorov-Smirnov necesita que la función de distribución de la población sea continua, cuando se estiman los parámetros poblacionales con la muestra la distribución del estadístico discrepancia es sólo aproximada (el contraste es conservador y tiende a aceptar la hipótesis nula).

Contrastes de Normalidad

Dada la gran importancia de la distribución Normal existen diferentes test o contrastes de bondad de ajuste a la ley Normal (para comprobar si un conjunto de datos puede admitirse o no que se han generado o extraído a partir de un modelo o población Normal).

Algunos contrastes que pueden emplearse para bondad de ajuste a la distribución Normal son: test Chi cuadrado (genérico), test Kolmogorov-Smirnov (genérico).

No existe un contraste ideal para la hipótesis de normalidad ya que la potencia del contraste dependerá del tamaño muestral y de la verdadera distribución que genera los datos. En general, para muestras pequeñas es adecuado el contraste de Shapiro y Wilks y para muestras grandes son adecuados el test Chi cuadrado y el test Kolmogorov-Smirnov (versión de Lilliefors).

Aplicación o adaptación del test de la Chi cuadrado

El procedimiento es igual al descrito anteriormente para el contraste Chi cuadrado. Sólo se deben tener en cuenta que es conveniente tomar clases “equiprobables” (recomendación) tales que su frecuencia teórica sea mayor que tres. Este test funciona bien si n > 100. Si n<100 y si la distribución es simétrica y unimodal es difícil que se rechace la hipótesis de normalidad, aunque no se trate de una normal (muy conservador, tiende siempre a no rechazar la hipótesis nula).

Como conviene hacer “k” clases equiprobables, se tienen que calcular los “k-1” puntos de corte para dividir la distribución en “k” tramos y, posteriormente, asignar a cada tramo (intervalo o clase) las frecuencias empíricas correspondientes (según recuento de valores y pertenencia a los tramos).

Aplicación o adaptación del test de Kolmogorov-Smirnov

El procedimiento es igual al descrito anteriormente para el contraste Kolmogorov-Smirnov. Sólo se debe tener en cuenta que cuando media y varianza son estimadas (caso más habitual) se aplica el estadístico según lo ha tabulado Lilliefords y se suele denominar entonces “Contraste de Kolmogorov-Smirnov-Lilliefords”. El test de K-S para la normal (de parámetros desconocidos) tiene un nivel de significación mucho menor que el especificado, por esto, con la tabulación de K-S-L se mejora. Aun así, la potencia es muy baja para tamaños muestrales pequeños (este contraste tiende a aceptar la hipótesis de normalidad).

Contrastes de Independencia

Se trata de comprobar si los datos o valores de la muestra presentan dependencias. La dependencia se suele presentar en series de datos temporales o espaciales, situaciones en las que el valor de cada observación puede influir en la siguiente.

Uno de los problemas de la dependencia es que no se controla el verdadero valor de la varianza (todas las expresiones que utilicen varianzas de estimadores son erróneas).

Cuando los datos se han obtenido en orden temporal o espacial, un análisis previo, el dibujarlos en secuencia, sirve para identificar posibles dependencias (métodos gráficos).

Para análisis más formales se recurre a contraste de rachas y contraste de autocorrelación.

Contrastes de Homogeneidad

Se dice que una muestra es homogénea si todos los datos proceden de la misma población (idéntica distribución poblacional). En caso contrario, si los datos proceden de dos o más poblaciones, se dice que la muestra es heterogénea. Una población heterogénea presenta habitualmente alta variabilidad y alto coeficiente de curtosis.

Las fuentes u orígenes de la heterogeneidad pueden ser: la población muestreada es heterogénea respecto de la variable estudiada, o bien, la población es homogénea pero en el muestreo hay errores o cambios recogiéndose datos heterogéneos (atípicos).

Análisis de Tablas de Contingencia

Para identificar la homogeneidad y heterogeneidad de poblaciones cualitativas (o muestras de variables continuas apareadas). Se emplea la misma técnica que en el contraste de bondad de ajuste tipo chi-cuadrado pero con significado diferente. Con esto, bajo la hipótesis nula (Homogeneidad) se sigue una distribución asintótica.

Por tanto, se rechazará la hipótesis de homogeneidad (independencia) cuando, el p-valor correspondiente, sea suficientemente pequeño.

Comentario: si homogeneidad en los datos, aunque agrupemos todos los grupos deben presentar igual estructura respecto a las características de estudio. Por ello, la hipótesis nula de homogeneidad se identifica con la independencia de los grupos respecto a la característica que los forma (no existe relación entre grupos y características).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.