Regla de Bayes y Construcción de Procesos Discriminantes

La Regla de Bayes para Minimizar el Riesgo Total

La regla que mejor minimiza el riesgo total se denomina “Regla de Bayes”.

Solo hay que encontrar la regla que minimiza el riesgo a posteriori. Una vez observado un dato x, el riesgo a posteriori de clasificar x como perteneciente a Ci, es un promedio de las pérdidas Iji, utilizando la distribución a posteriori de las clases, dado x:

Teniendo en cuenta la ecuación del teorema de Bayes

 (9)

Supongamos que cada error de clasificación es igualmente serio. En tal caso elegiremos:

Donde

En este caso es claro que:

Y

Por lo tanto, la mejor regla de clasificación será aquella que asigne cada dato x a la clase i* para la cual:

La mejor regla de clasificación es la que asigna cada dato x a la clase Ci para la cual P(Ci|x) es máximo siempre que P(Ci|x)>1-d

En el caso de una matriz de pérdidas {Lij} general, la ecuación (9) muestra claramente que la mejor regla de clasificación asignará x a la clase i* tal que:

 es mínimo.

El riesgo R(c) es llamado riesgo bayesiano. Es el mejor valor del error que se puede alcanzar, supuesto que se conozcan las P(Ci) y las funciones de densidad de clase .

Este resultado muestra claramente el papel central que desempeñan las probabilidades a posteriori.

Construcción de Procesos Discriminantes

El proceso de clasificación se puede reformular en términos de un conjunto de funciones discriminantes y1(x), …, ym(x) de modo que un vector de entrada x se asigne a la clase Ci si:

De este modo, el clasificador se puede ver como una máquina que calcula m funciones discriminantes y selecciona la clase correspondiente al discriminante mayor.

Un clasificador bayesiano se representa de una forma natural mediante funciones discriminantes elegiendo:

Podemos multiplicar las funciones discriminantes por constantes o reemplazar cada función discriminante por una función monótona de la misma. Tomando logaritmos, por ejemplo:

En general, las regiones de clasificación vendrán determinadas por las zonas en las que las funciones discriminantes sean iguales, de modo que:

Por lo que las transformaciones monótonas de yi(x) no afectan a las regiones de decisión.

En el caso de dos clases (m=2) en vez de usar dos funciones discriminantes, podemos introducir una sola:  o alternativamente

Al introducir funciones discriminantes lo que se gana es que será posible a menudo determinarlas a partir de los datos, sin tener que pasar por el paso intermedio de la estimación de densidades de probabilidad.

Algoritmo k-medias

Este es un algoritmo iterativo, en el cual el número de grupos, k, debe decidirse por adelantado. El algoritmo parte de unos valores iniciales para los centroides de los clusters, digamos μ1, μ2, …, μk, y después va actualizando tales centroides utilizando los datos de X hasta que las actualizaciones no producen cambios. En concreto, el algoritmo de las k-medias trata de minimizar la siguiente función:

Inicialización: Dar valores iniciales (p.e. al azar) para μ1, μ2, …, μk. Pueden dividirse los datos en k conjuntos al azar y luego calcular los μi.

Iterar: Reasignar cada dato xi ∈ IRp al cluster Cj tal que la distancia entre μj y xi sea la menor posible. Recalcular los centroides μ1, μ2, …, μk.

Parar: Cuando los centroides μi no cambien apreciablemente.

PCA

Partimos de una matriz de n observaciones en p variables correladas x1,x2,..,xp

PCA busca una transformación de las xi a un conjunto de p nuevas variables yi incorreladas.

El criterio utilizado es buscar una transformación de la matriz de datos X(n x p) que:

Y= wTX= w1 X1+ w2 X2+..+ wp Xp

donde w=(w1 , w2 ,.., wp)T es un vector columna de pesos tal que: w12+ w22+..+ wp2=1

Buscamos maximizar la varianza de la proyección de las observaciones en las variables Y. Encontrar tal que: Var(wT X)= wTVar(X) w es máxima.

Donde, la matriz C=Var(x) es la matriz de covarianzas de las variables Xi.

La dirección de w viene dada por el vector propio γ1, correspondiente al valor propio mayor de la matriz C.

El segundo vector que es ortogonal (no correlado) al primero es aquel que tiene la segunda varianza más alta y corresponde al segundo mayor valor propio. Y así sucesivamente… Las nuevas variables son combinaciones lineales de las variables originales (xi): Yi=ai1x1+ai2x2+…aipxp donde i=1..p.

Las nuevas variables Yi se obtienen en orden decreciente de importancia y reciben el nombre de “Componentes Principales”.

Los valores propios li se calculan resolviendo la ecuación: det(C-lI)=0. Los vectores propios son columnas de la matriz A tal que: C=A D AT. Donde D:

PCA se debe aplicar a datos que tengan aproximadamente la misma escala en cada variable.

Las nuevas variables, tienen una varianza igual a sus correspondientes valores propios Var(Yi)= li donde i=1…p.

Cuando los li son pequeños la varianza es pequeña y los datos cambian poco en la dirección de la componente Yi. La varianza relativa explicada por cada CP viene dada por

Si las variables tienen varianzas muy heterogéneas, las estandarizamos. Las variables estandarizadas Xi* son:

Las nuevas variables tienen todas la misma varianza y por tanto, el mismo peso.

Imagen

Imagen

Imagen

Imagen Imagen

Imagen Imagen Imagen Imagen

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.