Glosario de Conceptos Clave en Análisis Multivariante

La z mide el número de desviaciones típicas que se aleja X de X con raya.

  • En multivariante vamos a trabajar con Zs: con variables tipificadas y, por tanto, de medio 0 y desviación típica 1.
  • Centroide: es el vector de medias de un conjunto de p variables. Se le va a considerar centro de gravedad de los puntos cercanos a él.
  • Matriz de varianzas y covarianzas V: matriz simétrica que tiene en la diagonal principal las varianzas y en el resto de la matriz las covarianzas por pares de variables. Tiene que ser SEMIDEFINIDA NO NEGATIVA.
  • Matriz de precisión: es la inversa de la matriz de varianzas y covarianzas. Es importante porque es la que refleja la relación multivariante de la matriz de datos.
  • Varianza generalizada: es el determinante de la matriz de varianzas y covarianzas (V). El determinante de (V) debe ser mayor o igual que 0.
  • Varianza promedio: es la media geométrica de los autovalores de la matriz de varianzas y covarianzas. Coincide conceptualmente con lo que conocemos en unidimensional como desviación típica.
  • Distancia Euclídea: es la raíz cuadrada de la suma de los componentes del vector diferencia elevadas al cuadrado. (Es la distancia más corta entre dos puntos).
  • Distancia Manhattan: es igual a la suma de los componentes del vector. Es una distancia más larga que la Euclídea.
  • Distancia de Mahalanobis: es la distancia Euclídea ponderada por la matriz de precisión. Sirve para ELIMINAR LA SOBREPONDERACION DIMENSIONAL QUE SUPONE TRABAJAR CON VARIABLES CORRELADAS.
  • Coeficiente de correlación parcial: explica la correlación entre dos variables descontando el efecto multivariante del resto de variables.
  • Dice Peña: los valores atípicos multivariantes los vamos a encontrar en la dirección de máxima Kurtosis. Tradicionalmente, los valores atípicos, son aquellos cuya distancia de Mahalanobis es máxima.

Reducción Dimensional

  • La primera técnica es la Reducción Dimensional. Su objetivo es con el menor número posible de variables explicar la mayor cantidad de varianza posible. A nivel muestral tenemos dos técnicas:
    • La extracción de componentes principales. (ACP). Se aplica a variables continuas, también a ordinales de carácter psicológico o sociológico (Likert).
    • El análisis de correspondencia. Se aplica a variables cualitativas.
  • Diferencia entre regresión y extracción por componentes principales:
    • El objetivo: en una regresión se busca predecir (rellenar huecos). En la extracción por componentes principales se busca encontrar ejes ortogonales que describan la nube de puntos muestral de forma más adecuada desde el punto de vista dimensional.
    • El PCA es una técnica muestral a diferencia del análisis factorial que aspira a descubrir las variables latentes poblacionales.

Análisis Factorial

Análisis factorial: en el AF hay varios métodos de extracción de los factores, muchos de ellos proceden de la teoría de la probabilidad: máxima verosimilitud, estimación bayesiana, métodos de factor principal… Pero el más usado es el análisis de componentes principales, porque es el que, en términos prácticos, funciona mejor. Por tanto, la pregunta será si podemos generalizar las dimensiones de nuestra muestra a las dimensiones de la población. Para cometer un análisis factorial seguimos dos principios:

  1. Principio de parsimonia o navaja de Ockham. Intentaremos describir de la mejor manera posible la realidad muestral con el menor número posible de factores. Esto es encontrar una proporción optima entre la varianza total explicada y un número pequeño de factores.
  2. Interpretabilidad. A los componentes principales les debemos dar un nombre que refleje la variable latente que represente (esto lo conseguiremos con la matriz de componente rotados).

Criterios de selección del número de factores:

  1. Criterio de Káiser. Seleccionamos el número de componentes que tienen un autovalor asociado superior a la unidad.
  2. Criterio del gráfico de sedimentaciones. Seleccionamos el número de factores cuando la pendiente del grafico en el que representamos los autovalores asociados al número de componentes hace un codo, esto es: se reduce la pendiente de caída.
  3. Criterio de la varianza total explicada. Selecciono el número de factores que explican tanta varianza como yo necesito explicar, habitualmente el 60%.

Una vez obtenidos los factores:

  1. El primer factor se va a denominar factor fuerte.
    1. Es el que más varianza explica en términos relativos.
    2. Coincide con la dimensión de máxima ortogonalidad.
    3. Determina la dirección de los demás, porque a partir del segundo factor exigimos que todos sean ortogonales para el primero (no tienen por qué ser ortogonales). Así a los siguientes factores se les denomina factores de forma.

Rotación ortogonal: para describir. Rotación oblicua: para explicar la relación entre los factores. Un factor es una variable tipificada, por tanto: de esperanza 0, desviación típica 1 y varía entre infinito y menos infinito.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.