Muestreo
En ocasiones en que no es posible o conveniente realizar un censo, se selecciona una muestra, entendiendo por tal una parte representativa de la población. El muestreo es, por lo tanto, una herramienta de la investigación científica, cuya función básica es determinar qué parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población.
La Muestra
La muestra debe lograr una representación adecuada de la población, en la que se reproduzcan de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe reflejar las similitudes y diferencias encontradas en la población; es decir, ejemplificar las características de ésta.
Tipos de Muestreo
Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos.
I. Muestreo Probabilístico
Los métodos de muestreo probabilísticos son aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Solo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de estos, encontramos los siguientes tipos:
Muestreo Aleatorio Simple
El procedimiento empleado es el siguiente:
- Definir la población a estudiar y el tamaño de la muestra. Identificar la población y la cantidad de individuos (N) y el tamaño de la muestra (n).
- Se asigna un número a cada individuo de la población con la misma cantidad de dígitos.
- A través de algún medio mecánico (bolillero, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza (es decir, se extraen los códigos y luego se los identifica según su código), tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.
Muestreo Aleatorio Sistemático
1. Definir el total de la población y la muestra a trabajar (también nombres y apellidos de acuerdo a la posibilidad).
Ejemplo: N=300 empleados de una fábrica y su n=15.
2. Codificar para conformar el marco.
3. Calcular el intervalo de selección = N/n. Ejemplo: 300/15=20.
4. Se debe poner el primer dígito comprendido entre el número 1 y el número calculado como intervalo de selección (en este caso 20) mediante bolillero o «tabla de números aleatorios».
Ejemplo: 010, 030, 050, 070.
Sistemáticamente se va sumando el intervalo para obtener los otros códigos del marco hasta llegar al total de la muestra (n=15).
Identificación:
010: Darío
030: Celeste
050: Roberto
070: MiguelMuestreo Aleatorio Estratificado
Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Luego, se codifica cada sujeto, elaborando un marco para cada estrato. Se elige el instrumento de selección y se extraen los códigos de cada estrato para llegar a la muestra requerida. Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. Pueden ser de dos formas:
- Proporcionales: En esta técnica, el tamaño de la muestra de cada estrato es proporcional al tamaño de la población del estrato si se compara con la población total. Esto significa que cada estrato tiene la misma fracción de muestreo. La asignación es por aleatorio simple: Proporcional = n/N.
- No Proporcionales: En el muestreo desproporcionado, los diferentes estratos tienen diferentes fracciones de muestreo: el investigador decide qué cantidad se extraerá de cada estrato sin ningún criterio (por aleatorio simple) para llegar al n=40, por ejemplo: extraerá la misma cantidad de cada grupo sin importar que uno tenga más que el otro.
Muestreo Aleatorio por Conglomerados
Consiste en dividir la población en conglomerados. Se eligen al azar unos pocos de estos conglomerados y la muestra estará formada por todos los elementos de ellos o por muestras aleatorias simples de éstos. Es favorable para muestras muy grandes y cuando no se conoce el listado de toda la población. Se especifica la población y se separa por conglomerados; luego, se realiza la codificación de ellos mismos y después la selección del instrumento para extraer un código (bolillero, etc.). Si se realiza en una etapa, se extrae aleatoriamente un código, se identifica y, de esta forma, se trabaja con el o los conglomerados seleccionados. Si se realiza en dos etapas, se agrega la selección de algunos sujetos con aleatorio simple de ese conglomerado, elaborando un listado o marco del conglomerado seleccionado y extrayendo solo una cantidad de códigos para formar la muestra. Por último, se identifica cada código con cada persona en el conglomerado elegido.
II. Métodos de Muestreo No Probabilísticos
A diferencia del muestreo probabilístico, la muestra no probabilística no es un producto de un proceso de selección aleatoria. Los sujetos en una muestra no probabilística generalmente son seleccionados en función de su accesibilidad o a criterio personal e intencional del investigador. Este tipo de muestreo puede ser utilizado cuando se quiere mostrar que existe un rasgo determinado en la población. También se puede utilizar cuando el investigador tiene como objetivo hacer un estudio cualitativo, piloto o exploratorio. Se puede utilizar cuando es imposible la aleatorización, como cuando la población es casi ilimitada. Se puede utilizar cuando la investigación no tiene como objetivo generar resultados que se utilicen para hacer generalizaciones respecto de toda la población. También es útil cuando el investigador tiene un presupuesto, tiempo y mano de obra limitados. Esta técnica también se puede utilizar en un estudio inicial que será llevado a cabo nuevamente utilizando un muestreo probabilístico aleatorio.
Estimación de Parámetros
En la estimación de parámetros se determina el valor exacto de la media del parámetro o poblacional que se obtiene de medir a todas las personas de la población, y esto muy pocas veces ocurre porque los tiempos y costos de la investigación son escasos. Por lo tanto, a partir de los valores obtenidos de una muestra representativa y probabilística, realizaremos inferencia de la media del parámetro o poblacional.
La estimación de parámetros consiste en estimar el valor de la media poblacional, también denominada media del parámetro (μ), a partir del valor estadístico proveniente de la muestra seleccionada de forma aleatoria. Esa estimación que se realiza es probabilística y puede no ser certera; se habla de intervalos de confianza, ya sea del 99% o del 95%, en la estimación. La estimación de parámetros puede ser puntual: se estima para la media poblacional el mismo valor del estadístico proveniente de la muestra. Por ejemplo, si la edad promedio de un grupo de estudiantes de la facultad es de 22 años, se infiere que la media poblacional es 22. La estimación por intervalos de confianza trata de encontrar el parámetro poblacional entre dos valores que limitan los intervalos de confianza, por ejemplo, entre 19 y 25 años, denominados límite inferior y límite superior.
Los datos necesarios de una muestra que necesitamos para realizar la estimación de parámetros son: media aritmética, desviación estándar (s) y tamaño de la muestra (n). Una vez recolectados estos datos, comienza el proceso de estimación en el que participan tres distribuciones:
- Distribución de la Muestra: que es conocida y empírica porque en la investigación se miden a todas las personas de la muestra.
- Distribución de la Población: es desconocida e hipotética, porque se desconoce, aunque se supone, a las personas y el total de la misma. Hacia ésta se realiza la inferencia.
- Distribución Muestral del Estadístico: es una distribución de probabilidad teórica que permite realizar el pasaje de la muestra a la población por las propiedades que presenta como distribución teórica. Es la más importante de las tres distribuciones.
Distribución de Probabilidad: describen datos que se podrían observar bajo ciertas condiciones específicas. Son distribuciones teóricas, ideales, hipotéticas; son modelos teóricos matemáticos que se utilizan para suponer y saber cómo se distribuyen datos de una distribución desconocida, por ejemplo, la curva normal o campana de Gauss y la distribución t de Student.
Curva Normal: modelo teórico, ideal y supuesto de una distribución de probabilidad que se caracteriza por ser simétrica, asintótica, mesocúrtica. El área bajo la curva, en proporción, es igual a 1 o al 100%. Se estandariza con un puntaje z donde la media es 0 y la desviación estándar es 1, por lo que el 68% central de los casos está entre -1z y 1z. Este modelo se usa para casos en que la muestra es igual o mayor a 30 casos.
Curva t de Student: es una familia de curvas t que dependen de los grados de libertad (gl), que son el número de restricciones que varían libremente. Se caracteriza por ser simétrica, es aproximadamente normal, sus extremos se elevan y en el medio es más aplanada que la curva normal. Se utilizan los grados de libertad para normalizar y asemejarla a la curva normal. Se estandariza con puntaje t; por lo tanto, utilizaremos la tabla de puntajes t. Este modelo se utiliza para muestras pequeñas, es decir, menores que 30.
Distribución muestral de un estadístico: es una distribución de probabilidad, supuesta, teórica, ideal, que describe las probabilidades que puede tomar un estadístico obtenido de todas las muestras posibles, aleatorias y de igual tamaño de una población. No se construye empíricamente, sino que se estima y se supone utilizando los modelos teóricos (curva normal y t de Student). El estadístico puede ser una medida de tendencia central (media, moda, mediana), medida de variabilidad, posición, etc.
Distribución muestral de la media (x̄): es una distribución de probabilidad de todos los valores de medias (x̄) obtenidas de todas las muestras posibles, aleatorias, de igual tamaño, de una población. No se construye por medios empíricos, se la supone utilizando modelos teóricos como la curva normal y la t de Student. Se utiliza este modelo para estimar el valor de la media de la población (media del parámetro). El promedio de todas las medias de las muestras es μ y se denomina «media de todas las medias», y su valor es igual al del parámetro poblacional: μ = μx̄.
La desviación estándar de la distribución muestral se denomina «error estándar» (σx̄) e indica la dispersión o variación de las medias (x̄) alrededor del promedio de la población (μ). Se calcula: σx̄ = σ/√n. Para determinar la forma y las características de la distribución muestral de medias, se tienen en cuenta dos leyes:
- Teorema del Límite Central: dada una población normal con media (μ) y desviación estándar (σ), la distribución muestral de medias (x̄) también será normal con una media μ = μ y desviación estándar σ/√n.
- Ley de los Grandes Números: la distribución muestral de x̄ tiende a la normalidad a medida que n va aumentando, independiente de la forma de la distribución poblacional, con media μ y varianza σ².
Los estadísticos son los valores de la muestra: x̄ y s, y el parámetro de la población (μ) que estimamos entre dos límites de confianza. Los estimadores son x̄ y s, que permiten realizar una estimación de μ y σ. La μ es un valor fijo de la población que se desconoce, y la x̄ es un valor cambiante que puede asumir diferentes valores de acuerdo a la muestra extraída; por eso, decimos que los estimadores son variables aleatorias constituidas por todos los valores posibles que puede asumir un estadístico a partir de muestras probabilísticas del mismo número de casos.
Los estadísticos, para ser considerados como buenos estimadores de parámetros, deben reunir determinadas propiedades: insesgabilidad y eficiencia.
Estimadores y Estimación de Parámetros
Un estadístico cumple la función de estimador del parámetro que se pretende estimar. Recordemos que se trata de una variable aleatoria construida por todos los valores posibles que puede asumir a partir de muestras probabilísticas del mismo número de casos. Para que un estadístico pueda ser considerado un buen estimador puntual, debe reunir determinadas propiedades, entre ellas:
- Insesgabilidad: Un estimador es insesgado cuando el valor de la media de la distribución muestral del estadístico es exactamente igual al valor del parámetro por estimar. Por ejemplo, x̄ es un estimador insesgado de μ porque μx̄ = μ.
- Eficiencia: se determina por el grado en que la distribución muestral del estadístico está agrupada alrededor del valor verdadero del parámetro. Por ejemplo, x̄ y mediana son estimadores insesgados de la media, pero x̄ es un estimador más eficiente que la mediana porque σx̄ = σ/√n es menor que σMd = 1.25σ/√n.
Cuando se asigna un valor concreto a un estadístico, se realiza la estimación de un parámetro. Se espera que la estimación no se aleje mucho del valor real.
Dado un parámetro determinado, se puede disponer de más de un estadístico diferente para estimarlo; no existe una forma directa de establecer cuál es el ideal.
Estimación Puntual: Es la más simple de las inferencias estadísticas. Consiste en asignar un valor muestral concreto al parámetro poblacional que se desea estimar. La estimación puntual de un parámetro poblacional es el valor particular que asume el estadístico que utilizamos como estimador.
Estimación por Intervalo de Confianza: Se basa en un rango de valores entre los que se espera que pueda encontrarse el verdadero valor del parámetro con una probabilidad alta y conocida. La construcción de este tipo de intervalos solo cabe para las muestras respecto de las cuales se conoce la probabilidad de selección de cada uno de los elementos de la población.
Calidad de la Información Muestral en la Estimación de Parámetros
Errores Debidos al Azar
Ningún subconjunto de datos describe exactamente al conjunto total del que forma parte. El grado de error en el que se incurre al extender los resultados de una muestra probabilística a la población respectiva se puede establecer a través del error estándar.
El error estándar mide las variaciones debidas al azar, es decir, los «errores de muestreo» (fluctuaciones de muestra en muestra) y los «errores casuales» (factores eventuales que afectan las mediciones). Cuanto menor es su valor, mayor es la precisión en la inferencia; de allí la importancia de poder determinarlo.
Errores Ajenos al Azar
Tanto en un censo (cuando se considera la población completa) como en un muestreo (cuando se toma en cuenta solo una parte de la población) pueden deslizarse equivocaciones no casuales, tales como definición poco clara de la población, fraude, cansancio, etc. El error estándar no descubre este tipo de descuidos, como tampoco los derivados de una selección inapropiada de las muestras. Invertir mucho dinero en una muestra grande para aumentar la precisión en las estimaciones constituye un derroche si se dejan pasar errores que surgen de un muestreo mal realizado, porque el error estándar se convierte entonces en una medida de dudoso valor.
Las características que se tienen en cuenta en una muestra son:
- Tamaño: se establece mediante fórmulas en función del grado de confianza y precisión que planteamos.
- Forma de elección: es fundamental para que la muestra sea representativa de la población de la cual se extrae.