Inferencia Estadística: Conceptos Clave y Métodos de Estimación
Introducción
La inferencia estadística proporciona un método objetivo para establecer reglas que permitan criticar, rechazar y aceptar información científica en condiciones de incertidumbre. Permite extraer conclusiones sobre una población a partir de la información de una muestra. La inferencia inductiva, que extiende lo particular a lo general, es un proceso con riesgo, ya que una inferencia inductiva exacta es imposible.
Una aplicación clara se encuentra en el estudio de la realidad económica, donde se analizan problemas concretos para mejorar el conocimiento de poblaciones (grandes grupos de individuos) mediante encuestas que recogen información de una muestra (pequeños grupos de individuos extraídos de la población).
Los procedimientos inferenciales se clasifican en:
- Según el objetivo: Métodos paramétricos y no paramétricos.
- Según la técnica: Estimación y Contraste de Hipótesis.
La Estimación asigna valores a parámetros:
- Estimación Puntual: Asigna un único valor.
- Estimación por Intervalos: Asigna un intervalo.
El Contraste de Hipótesis establece una regla para rechazar o aceptar una afirmación sobre los parámetros poblacionales u otros aspectos no paramétricos, basándose en la información muestral.
Estimación Puntual
La Estimación Puntual asigna un único valor a un parámetro poblacional desconocido. Un parámetro es un valor representativo de una población. Para conocer el parámetro, se utilizan estimadores. Un estimador es un estadístico (cualquier función muestral) utilizado para estimar un parámetro poblacional desconocido.
El parámetro es una característica de la población. La información sobre la población se «transmite» a la muestra mediante el proceso de muestreo. La muestra es resumida por el estadístico, que, seleccionado por sus cualidades, se denomina estimador. Así, parámetro y estimador están relacionados.
El estimador es una variable aleatoria antes de obtener la muestra (a priori) y un valor concreto después de obtenerla (a posteriori). Los parámetros poblacionales más importantes a estimar son la media y la varianza.
Para obtener una técnica objetiva y «buena» de estimación puntual, los estimadores deben cumplir propiedades deseables:
- Insesgo: El estimador, en media, es igual al parámetro a estimar (la esperanza del estimador coincide con el valor del parámetro).
- Eficiencia: El estimador tiene poca variabilidad (minimización de la varianza del estimador).
- Consistencia: Las estimaciones mejoran al aumentar el número de observaciones (convergencia en probabilidad).
Se necesitan métodos objetivos para construir estimadores con las «mejores» propiedades. Los métodos propuestos (momentos y máxima verosimilitud) suministran estimadores que cumplen ciertas propiedades deseables.
Propiedades de los Estimadores
Un valor pequeño del error cuadrático medio (ECM) indica que el estimador, en media, no está lejos del parámetro desconocido. La descomposición del ECM en dos sumandos positivos muestra que un buen estimador debe minimizar ambos simultáneamente. Generalmente, esto no es posible. Una solución es restringir la búsqueda a estimadores insesgados.
Estimador Insesgado
Un estimador es insesgado cuando su media (o esperanza matemática) coincide con el valor verdadero del parámetro desconocido. En la práctica, se debe calcular la esperanza del estimador para evaluar el sesgo. Si el estimador es insesgado, minimiza el segundo sumando del ECM, y el ECM coincide con la varianza del estimador.
Si un estimador no es insesgado, la diferencia entre la esperanza del estimador y el parámetro se denomina sesgo. Entre dos estimadores sesgados, es mejor aquel con menor sesgo en valor absoluto. Un estimador es asintóticamente insesgado si su sesgo tiende a cero al crecer el tamaño muestral (tiende a infinito).
Estimador Eficiente
La mayor eficiencia se consigue al disminuir el ECM. Con estimadores del mismo sesgo, se elige el de menor varianza. Se estudia especialmente en estimadores insesgados, buscando el de mínima varianza. En la práctica, se debe calcular la varianza del estimador para evaluar la eficiencia (mayor eficiencia implica menor varianza).
Para analizar la eficiencia con estimadores de igual sesgo, se comparan sus varianzas. El problema es mayor con muchos estimadores o al buscar el de menor varianza entre todos los posibles. Un estimador es más eficiente cuanto más cerca de uno esté la medida de eficiencia relativa. Si la cota de Cramer-Rao (CCR) es 1, el estimador es eficiente. Para grandes muestras, interesan los estimadores asintóticamente eficientes. Un estimador es asintóticamente eficiente si su eficiencia es la menor posible al crecer el tamaño muestral.
Estimador Consistente
La muestra proporciona información sobre los parámetros. La cantidad de información aumenta con el tamaño muestral. Un estimador es consistente si la probabilidad de que la desviación entre el estimador y el valor verdadero del parámetro sea superior a cualquier número ε (por pequeño que sea) se acerca a cero cuando el tamaño de la muestra se acerca al tamaño de la población (a infinito en poblaciones infinitas). Un estimador es consistente si, al observar toda la población, la estimación coincide con el valor del parámetro.
En este contexto, se identifica consistencia con estimador asintóticamente insesgado y con varianza asintóticamente nula.
Métodos de Estimación
Método de los Momentos
Idea intuitiva: Como la muestra es una representación a escala de la población, los momentos muestrales «deben» ser iguales a los poblacionales.
Información utilizada: Se basa en el conocimiento indirecto de la distribución poblacional a través de los momentos poblacionales. Es simple y aplicable a muchas situaciones, pero puede llevar a resultados incompatibles al no usar toda la información del modelo poblacional.
Método: Se establece una igualdad entre momentos muestrales y poblacionales (respecto del origen). Los momentos poblacionales, en general, dependen de los parámetros desconocidos. Se plantean tantas ecuaciones como incógnitas (parámetros desconocidos) para obtener un sistema de ecuaciones compatible que permita estimar los parámetros.
Justificación: Se justifica por el teorema de Kintchine (convergencia en probabilidad de los momentos muestrales a los poblacionales) y porque los momentos muestrales respecto del origen son estimadores insesgados de los momentos poblacionales respecto del origen.
Propiedades: Si se estima un momento respecto del origen, el estimador es insesgado. Por el teorema de Kintchine, las estimaciones son consistentes, y por el teorema de Lindeberg-Levi, se comprueba la normalidad asintótica. En general (no necesariamente estimando un momento poblacional), los estimadores son consistentes, pero no insesgados ni de varianza mínima. Su mayor ventaja es la simplicidad, y su desventaja es que no considera toda la información disponible.
Método de Máxima Verosimilitud
Verosimilitud: La verosimilitud indica la confianza en la estimación de un parámetro, considerando la información de la muestra (según la función de verosimilitud) y que habitualmente sucede lo más probable. La función de verosimilitud expresa la posibilidad u orden de preferencia del valor del parámetro, basándose en la distribución de probabilidad poblacional.
Caso discreto: La función de verosimilitud se obtiene como la probabilidad de la muestra, pero «entendida» como función del parámetro. Dada una muestra aleatoria simple (m.a.s.) x y la función de probabilidad poblacional discreta, la función de verosimilitud es proporcional a P(ξ= x,θ), la probabilidad de la muestra condicionada al parámetro.
Caso continuo: La función de verosimilitud se obtiene como la densidad de la muestra, «entendida» como función del parámetro. Dada una m.a.s. x y la función de densidad poblacional, la función de verosimilitud es proporcional a la densidad de la muestra condicionada al parámetro.
En muestreo aleatorio simple, la probabilidad muestral (caso discreto) se obtiene como el producto de las probabilidades de cada elemento muestral. En el caso continuo, se usan los valores de la función de densidad. La función de verosimilitud «L» expresa cómo varía la distribución de probabilidad cuando el parámetro «θ» toma diferentes valores. Es función del parámetro, considerando la muestra fija.
Si se maximiza la función de verosimilitud respecto a θ, el máximo se obtiene para el valor del parámetro que asegura que la muestra dada era la más probable. Con grandes muestras, la verosimilitud tiene mucha importancia.
Idea intuitiva: Habitualmente sucede lo más probable (especialmente con muchos casos), por lo que la muestra se «obtuvo» porque presentaba la máxima probabilidad. «Habitualmente sucede lo más probable» y se tienen los «valores muestrales más probables» (con mayores tamaños muestrales, las estimaciones son mejores).
Información utilizada: Se basa en el conocimiento directo de la distribución de probabilidad poblacional (función de cuantía o densidad). La función de verosimilitud expresa la posibilidad del valor del parámetro.
Método: Consiste en obtener el valor del parámetro que maximiza la función de verosimilitud.
Propiedades: El método de máxima verosimilitud es importante por sus propiedades asintóticas. Con grandes muestras, los estimadores de máxima verosimilitud son asintóticamente insesgados y consistentes. Si existe un estimador eficiente, es el obtenido por máxima verosimilitud. Siempre se llega a la normalidad y eficiencia asintóticas. Si un parámetro tiene un estadístico suficiente, el estimador máximo-verosímil es función de este. La estimación máximo-verosímil es invariante ante una transformación del parámetro.