ANÁLISIS DE CORRESPONDENCIAS
Es un análisis factorial aplicado a datos NO métricos. No hay diferencias de grado sino de clase. No se puede partir de la matriz de correlaciones ni se puede aplicar el análisis factorial. Para ello se desarrollo el análisis de correspondencias, trata de reducir dimensiones, comparte los objetivos pero trabaja con variables categóricas.
Jean Paul Benzecri desarrolló el análisis de correspondencias (apenas tiene 50 años). Trata de reducir las categorías de las variables a un número menor de dimensiones,
habitualmente no más de 2 o 3. El objetivo fundamental es la reducción dimensional. Para ello hay que tomar alguna medida cuantitativa de las categorías, para ello usamos las FRECUENCIAS. El punto de partida, entonces, es una tabla de contingencia (tabla de correspondencias o frecuencias). Una tabla de contingencia es un conjunto de filas y columnas en donde se relacionan 2 variables, se busca que se cumplan 2 condiciones
El análisis de correspondencias permite representar la posición relativa de cada una de las categorías de una variable en un espacio de k-1 dimensiones
El punto de partida es una tabla de contingencia, el estadístico de prueba es X cuadrado. A la hora de reducir categorías a dimensiones hay varios procedimientos dependiendo de las categorías que cojamos:
3 métodos
1. Principal por filas: solamente toma en cuenta las categorías de las variables de las filas.
2. Principal por columnas: solamente toma en cuenta las categorías de las variables de las columnas
3. Normalización Simétrica: toma en cuenta a la vez ls categ de las variables en filas y en columnas. S toma en cuenta la distribución de las categorías de ambas variables.
Cuando la tabla de contingencia es pequeña se puede ver como se asocian las diferentes categorías, si hay pocas categorías, con una simple tabla, ya se podría analizar la asociación entre las categorías. Pero cuando hay muchas categorías, no se puede basar solo en la tabla porque es muy complejo. El objetivo es la representación en 2 o 3 dimensiones de cada una de las categorías.pueden distinguirse 2 tipos de categorías:
• Las V activas se utilizan para definir las dimensiones del espacio.
• Las V suplementarias son aquellas que se pueden representar en el espacio pero no define ese espacio.
Primera dimensión en eje X que establece mejor la diferencia entre las categorías: se establece mediante el concepto de inercia: tendencia de las categorías a ser neutras, la primera dimensión contiene mayor inercia, también se basa en el autovalor, el autovalor máximo es igual al total de las variables; la segunda dimensión iría en el eje
Y, y si hay una tercera en la Z. Hay un punto donde los valores se cruzan à Centroide: Ambas dimensiones son neutras.
Las categorías que estén más alejadas del centroide, son las que mejor definen el contenido cada dimensión. El número máximo de dimensiones que puedan extraerse
es igual al numero de categorías en la variable que menos categorías tenga menos uno.
Limitaciones
• Es una técnica descriptica como el ACP, no hay pruebas de significación salvo X2
• No hay ningún criterio definitivo sobre cuantas dimensiones hay que extraer y sobre como denominarlas. (Hay ayudas aún así).
• Aquellas categorías en las que hayan pocos casos pueden distorsionar la distribución gráfica. La inercia depende del número de casos, las categorías muy numerosas estarán cerca del centroide y las poco numerosas estarán más alejado. Las categorías tiene que tener más o menos el mismo número de casos.
6 PASOS
OBJETIVOS: Definimos objetivos. DISEÑO: Delimitamos las condiciones relativas a las variables y al tamaño de la muestra, deben de ser categóricas y ordinales. DISEÑO: No se debe aplicar el ADC si una celda en la matriz tiene un valor inferior a 5. Hay que cerciorarse de la frecuencia de las variables. A veces se deben de fusionar categorías si se pudiese con alguna otra 4 SUPUESTOS: El ADC carece de supuestos previos. Las variables han de ser exhaustivas (a ser posible que no haya ningún caso que no pertenezca a laguna categoría) y excluyentes (un mismo caso no puede estar en 2 categorías a la vez). Las categorías tienen que ser comparables. 5 EXTRACCIÓN: Deben de establecerse el numero de dimensiones en la solución, la medida de la distancia (X2 o la distancia euclídea) , el método de estandarización y el método de normalización.
En el ADC múltiple hay que
:• Discretizar aquellas variables que no contengan valores discretos.
• Definir un tratamiento para las categorías sin ningún valor conocido (perdidas)
• Definir el método de normalización (recomienda la simétrica). Determinar si se determinarán categorías suplementarias.
• Decidir el número de dimensiones que se van a extraer.
Hay que fijarse en: Coeficiente Alfa de Cronbach: En que medida cada una de las dimensiones representa la diferencia entre las categorías (0-1) cuanto más alto mejor representa la dimensión a las frecuencias de las categorías. Deberías estar por encima de 0,5 o 0,6.
La inercia vendría a ser algo así como la varianza pero relativa a las frecuencias. El nivel mínimo para extraer una dimensión debería ser igual o superior a 0,2.
En el ADCM estamos interesados en saber que variables discriminan más. En los valores más altos de la tabla de SPSS de medidas de discriminación, los valores más
altos discriminan más. (Discriminan: separan a los que pertenecen a una categoría de otra).
6 INTERPRETACIÓN
Hay que realizar 4 tareas:
1. Analizar la asociación entre las categorías. 2. Determinar el contenido sustantivo de cada una de las dimensiones, hasta llegar a denominarlas. 3. Determinar grupos de categorías. 4. Establecer la puntuación de cada caso en las dimensiones extraídas.
Perfiles multivariante: Conjunto de catracterísticas que presentan los que pertenecen a una categoría. Dentro de cada categoría hay distintos perfiles. Pero hay una tendencia a que una categoría esté sociado con otra categoría.