El análisis factorial busca realizar inferencias, pero este proceso se divide en dos etapas:
1. Exploratorio
En esta fase, se analiza la información disponible en la muestra para identificar clasificaciones. Tiene un carácter descriptivo. Para llevarlo a cabo, se deben cumplir los siguientes requisitos:
- La matriz de varianzas y covarianzas V debe ser semidefinida no negativa.
- El determinante de la matriz de correlaciones debe ser inferior a 10-2.
- El vector de variables aleatorias se distribuye como una normal con centroide μ y matriz de varianzas y covarianzas V. Esto es importante para realizar contrastes más adelante. Nuestra dimensión poblacional multidimensional debe ser una normal multivariante de centroide (vector de medias) μ, y de matriz de varianzas y covarianzas V.
- Dentro de la matriz de correlaciones, no puede haber ningún elemento superior a 0.9 en valor absoluto. (Una correlación parcial entre un par de variables es la relación que existe entre ellas descontando el efecto de todas las demás variables. El AF se basa en este tipo de correlaciones parciales. Por eso desechamos las relaciones entre pares cercanas a 0.9.)
Para seleccionar el número de factores, existen dos métodos:
- Principio de parsimonia respecto al AMV: Se interpreta como explicar la mayor cantidad posible de información con relación al objetivo de investigación (reducción dimensional, discriminación, clasificación, regresión, etc.) utilizando el modelo más sencillo posible. Aplicado al AF, buscamos explicar con el menor número de factores el mayor porcentaje posible de VTE (varianza total explicada).
- Principio de Interpretabilidad: Una vez perfeccionado el AF, se debe ser capaz de dar un nombre al factor que lo identifique de forma sencilla e inequívoca.
La extracción de factores se realiza a través de los siguientes métodos:
- Análisis de Componentes Principales (ACP): Al extraer componentes principales, se maximiza la ortogonalidad a través de un método de MCO. Se realiza una combinación lineal, pero las betas maximizan la ortogonalidad de los componentes. Es muestral.
- Máxima Verosimilitud: A través de distribuciones de probabilidad, si se extrae a través de este método, puede ser generalizable a la población.
La selección del número de factores se basa en tres criterios:
- VTE (Varianza Total Explicada): El autovalor asociado a un componente refleja la varianza que explica un factor con relación a la muestra. Por lo tanto, la suma de todos los autovalores será el 100% de la variabilidad, como el autovalor asociado al componente Y que explica X variabilidad. A priori, se selecciona un porcentaje de varianza total a explicar. Paco Rabadán suele seleccionar un 60%.
- Káiser: Se seleccionan todos aquellos factores cuyo autovalor sea mayor o igual a la unidad.
- Scree Plot: Es una representación gráfica de los autovalores.
Estadísticos/Contrastes sobre la calidad del análisis factorial:
- Determinante de R.
- Test de esfericidad de Bartlett: La nube de puntos a nivel multivariante debe distribuirse… La hipótesis nula es que la matriz de correlaciones poblacional es igual a la matriz de identidad. Interesa rechazar esa hipótesis. Si el p-valor es inferior o igual a 0.05, se rechaza. Si no hay correlaciones parciales, no hay extracción factorial.
- KMO (Coeficiente de Káiser, Meyer y Olkin): El KMO mide la calidad conjunta de todas las variables desde el punto de vista de la multicolinealidad para formar parte del AF. Debería ser mayor que 0.7 (KMO > 0.7). Pero puedo plantearme trabajar con menos.
- MSA (Medida de Adecuación Muestral): Mide la calidad de una variable desde el punto de vista de la multicolinealidad respecto a todas las demás para ser incluida en el AF. El MSA > 0.7. Si una variable con un MSA bajo la quitamos y se reduce también el KMO, hay que volver a meterla.
Matriz de Componentes Rotados (MCR)
- Las columnas de la MCR corresponden a los factores, y las filas corresponden a las variables observadas. A la intersección de un factor y una variable la denominamos saturación, que es la cantidad de varianza de V1 que explica el factor 1. La suma por columnas de la matriz de componentes rotados coincide con los autovalores. Si sumo todos los elementos de la columna 1, tengo el autovalor del primer factor. (Saturación en estricto sentido es el lugar máximo por filas dentro del vector/fila). Si sumo las filas obtengo las comunalidades, que son la cantidad de varianza de V1 que es explicada por todos los factores. Es en la matriz de componentes rotados donde doy nombre a los factores y, por tanto, aquí es donde debo verificar el principio de Interpretabilidad. No puede saturar una variable en dos factores simultáneamente. Un factor no puede estar saturado únicamente por una sola variable: eso indicaría que la variable es en sí misma un factor.
2. Confirmatorio
Se plantea como hipótesis que hay una serie de componentes o dimensiones que realmente pueden reducir la realidad a la que se refiere mi muestra. En él hay dificultades.