Fundamentos de Probabilidad y Estadística
Experimento: Proceso mediante el cual obtenemos información de los individuos de una comunidad. Si no podemos predecir su resultado, lo llamamos aleatorio; en otros casos, determinista.
Espacio Muestral: Conjunto de todos los posibles resultados de un experimento aleatorio, se denota por Ω.
Suceso: Cualquier subconjunto que podemos extraer del espacio muestral. Si solo contiene un elemento, es un suceso elemental (A).
Definiciones de Probabilidad
- Definición Clásica o de Laplace: Todos los sucesos tienen la misma probabilidad (a priori). P(A) = nº de sucesos probables / nº de casos posibles.
- Definición según la Teoría Frecuentista: Si realizamos N veces un experimento (a posteriori). P(A) = Lim n→∞ fr(A).
- Definición Axiomática: Se dice que la probabilidad es una aplicación: P:Ω → R que verifica tres axiomas:
- P(A) ≥ 0
- P(Ω) = 1
- Si A y B son incompatibles, P(A∪B) = P(A) + P(B)
Teoría Subjetiva: P(A) = grado de creencia que el evaluador tiene en la ocurrencia del acontecimiento A para un nivel de evidencia empírica.
Teoría Logística: P(A) = grado de creencia que, dada la evidencia empírica existente, es lógico o racional mantener sobre la posibilidad de ocurrencia de dicho acontecimiento.
Propiedades
- P(Ā) = 1 – P(A)
- P(∅) = 0
- Si A ⊆ B; P(A) ≤ P(B)
- P(A) ≤ 1
- P(A∪B) = P(A) + P(B) – P(A∩B)
- P(A∩¬B) = P(A∪B) – P(¬B)
- P(¬A∩¬B) = P(¬A∪¬B) = 1 – P(A∪B)
Probabilidad Condicionada: Dados A y B sucesos dependientes, se define la probabilidad del suceso A condicionado a B: P(A/B) = P(A∩B) / P(B). Si son independientes, P(A∩B) = P(A) * P(B)
Independencia → compatibilidad.
Incompatibilidad → dependencia.
Caso Discreto
Valores enteros: función de cuantía: P(X = xi) = P(xi) = Pi
- ∑ Pi = 1
- Pi ≥ 0
Función de Distribución: F(xi) = P(X ≤ xi), verifica:
- 0 ≤ F(xi) ≤ 1
- F(xi) monótona creciente
- lim h→0 F(x,+h) = F(xi)
- lim xi→∞ F(xi) = 1; lim xi→ -∞ F(xi) = 0
Media o Esperanza de X: E(x) = ∑ xi * pi = μ
- E(a) = a
- E(a + bX) = a + b E(x) (la media varía ante cambios de origen y escala)
- E(X + Y) = E(X) + E(Y)
- Si X e Y son independientes, E(X * Y) = E(X) * E(Y)
Momentos de Orden r de X:
- Respecto al origen: E(xr) = ∑ xir * pi
- Respecto a la media μ: E((x – μ)r) = ∑(xi – μ)r * pi
Los momentos de orden R no tienen por qué existir siempre, porque dependen de la convergencia de la serie. Si existen los momentos de orden K, existen los momentos de orden inferior a K y si no existen los momentos de orden K no existen de orden superior a K.
Varianza de X: V(X) = ∑(xi – E(X))2 * pi = ∑ xi2 * pi – (E(x))2; verifica:
- La varianza de una variable siempre es ≥ 0: V(X) ≥ 0
- La varianza es invariable ante cambios de origen pero varía ante cambios de escala. V(a + bX) = b2 * V(X)
- V(X) = E(x2) – [E(x)]2
- Si X e Y independientes V(X ± Y) = V(X) + V(Y) en la resta también es suma. Si son dependientes V(X ± Y) = V(X) + V(Y) ± 2COV(X,Y); La covarianza es: COV(x,y) = E((x – E(X)media) * (Y – E(Y)media)) = E(X * Y) – E(X) * E(Y)medias
Desviación Típica: DT(X) = √V(X)
Caso Continuo
Toma cualquier valor real (decimales también). P(X = K) = 0.
Función de Densidad: f(X)
- f integrable.
- f(x) ≥ 0 (def pos)
- ∫ -∞ a ∞ de f(x) = 1
Función de Distribución: P(X ≤ xi) = ∫ -∞ a xi f(x)dx verifica:
- P(a ≤ X ≤ b) = ∫ a a b f(x)dx = F(b) – F(a)
Media: E(X) = ∫ -∞ a ∞ x * f(x)dx (propiedades igual que la discreta).
Varianza: ∫ -∞ a ∞(x – E(x))2f(x)dx = ∫-∞a∞ xi2f(x)dx – (E(x))2 = E(xi2) – (E(x))2.
Momentos de Orden r: E(xr) = ∫-∞a∞ xrf(x)dx.
Casos Particulares del Caso Discreto
Experimento de Bernoulli: Es aquel que al realizarlo, solo ocurre un suceso A o su complementario, y si lo repetimos en las mismas condiciones, la probabilidad de A es siempre la misma.
Distribución Binomial: Si realizamos n veces un experimento de Bernoulli y llamamos p a la probabilidad de que ocurra el suceso A considerándolo el éxito del experimento y considerando p(¬A) su complementario el fracaso del experimento.
La variable aleatoria de X cuenta el número de éxitos en las n pruebas, se dice que X sigue una serie de parámetros (n,p): X → B(n,p) y su función de probabilidad viene dado por la siguiente función de probabilidad: P(X = K) = (n sobre K) * pk * qn-k; media(μ): E(x) = n * p; var V(X) = n * p * q . La binomial en n=1 es Bernoulli E(X) = p y V(X) = p * q
Distribución de Poisson: Su finalidad es contar el número de individuos que presenta un suceso A por unidad de tiempo, volumen, superficie, etcétera. (Se desconoce n y en lugar de la p tendremos un parámetro lambda que representa una media), se denota así: X → P(λ) función de probabilidad: P(X = K) = e-λ * λk / k! media: E(x) = λ Var: V(X) = λ DT(X) = √λ.
Aproximación de la Binomial por Poisson: (n ≥ 30)(p < 0.1). Si X → B (n,p) { P(λ=np) → X → B(n,p) { P(λ=n * p).
Distribución Normal: Se dice que X es una variable aleatoria que sigue una distribución normal de media μ y desviación típica sigma, si su función de densidad f(x), viene dado por la siguiente expresión: f(x) = (1 / (σ * √(2π))) * e-1/2 ((x-μ)/σ)2 y se denota: X → N(μ,σ). Función de distribución: F(xo) = ∫-∞ a xo f(x)dx. Variable tipificada: X → N (μ, σ) en una normal de media 0 y des típica 1. X → N(0,1), se le llama tipificar la variable, es decir que si X → N(μ, σ) → z = (x-μ)/σ → N(0,1)
Aproximación de la Binomial por la Normal: (cuando n ≥ 30 y 0.1 ≤ p ≤ 0.9 y n * p > 5): X → B(n,p) { N(μ,σ) siendo μ = n * p y σ = √(n * p * q)
Teorema Central del Límite: Si tenemos x1….xn variables aleatorias independientes e idénticamente distribuidas con media μ y varianza sigma cuadrado finitas. Entonces la suma de esas variables: ∑ Xi → N(nμ,√(nσ2)) → ∞ independientemente de la distribución inicial.
Población y Muestra
Población: Conjunto de todos los posibles resultados de un fenómeno aleatorio.
Muestra: Subconjunto de la población que permite inferir las características de la población de la que procede.
Muestra Aleatoria Simple: Si X es una variable aleatoria con función de masa o densidad, f(x). Se dice que un conjunto {x1,…,xn} es una muestra aleatoria simple para la variable aleatoria X si, todas las xi se distribuyen de la misma forma que la X y son independientes entre sí.
Parámetro: Carácter numérico de la distribución de una variable población que interesa estudiar y que define total o parcialmente su función de cuantía o densidad.
Estadístico Muestral: Carácter de la muestra que refleja lo mismo que el parámetro en la población y que por ser función de la muestra constituye una nueva variable aleatoria.
Estimador: Es un estadístico muestral que se utiliza para estimar un parámetro poblacional.
Tipos de Estimaciones
- Estimación Puntual: Asignar a cada parámetro poblacional, un cierto valor estimado (muestral), llamado estimador.
Si T es un estimador puntual para un parámetro cualquiera O, cuanto más se aproxime el estimador T al parámetro O menor será el error que cometemos al dar T en lugar de O. Error cuadrático medio: ECM(T) es la media de la diferencia de T y O al cuadrado: ECM(T) = E((T-O)2) = V(T) + (E(T)-O)2
Tipos de Estimadores
- Insesgado: Se dice que un estimador es insesgado cuando su sesgo vale 0 <–> E(T) – O = 0 –> E(T) = O.
- Eficiente: Se dice que un estimador es eficiente cuando su mínima variabilidad, es decir, cuanto menor es su error cuadrático medio y en el caso de los estimadores insesgados será más eficiente cuando tenga menor varianza.
- Consistente: Se dice que un estimador es consistente cuando mejora su posición cuando aumenta el tamaño de la muestra.
- Suficiente: Cuando utiliza todos los datos muestrales.
- Máximo Verosímil: Cuando maximiza la función de verosimilitud.
- Estimación por Intervalos de Confianza: Consiste en marcar un intervalo aleatorio al que pertenezca el parámetro poblacional, con una cierta probabilidad y a partir de datos muestrales.
- Estimación por Contraste o Test de Hipótesis: Es una regla de decisión mediante el cual tras formular conjeturas sobre el valor del parámetro (poblacional), optamos por una u otra hipótesis después de observar los datos muestrales.
Aciertos y Errores de un Contraste de Hipótesis
- Error tipo I: Cometemos esto si rechazamos la hipótesis nula (H0) siendo esta cierta. A la probabilidad de cometer el error tipo I se le llama: P(I) = P(¬H0/H0) = Alfa = nivel de significación.
- Acierto tipo I: Cuando aceptamos la hipótesis nula (H0) siendo cierta. P(Acierto I) = 1 – alfa = nivel de confianza.
- Error tipo II: Cometemos el error tipo II si aceptamos la hipótesis nula (H0) siendo falsa. A la probabilidad de cometer error tipo II se le llama P(II) = P(H0/¬H0) = B
- Acierto tipo II: Cuando aceptamos la hipótesis nula (H0) siendo falsa. A la probabilidad de acierto tipo II se le llama: P(Acierto II) = P(¬H0/¬H0) = 1 – B = potencia del test. La potencia del test mejora al aumentar el tamaño de la muestra.