7 Análisis Multivariante Básico

Published

October 7, 2025

Code

source("~/R/r-data/16.eda/script.R")

Hemos llegado a un punto de inflexión en nuestro viaje como analistas de datos. Hasta ahora, hemos operado principalmente en un mundo de dos dimensiones. Hemos aprendido a comparar dos grupos, a correlacionar dos variables y a predecir un resultado a partir de un único factor. Estas habilidades son fundamentales, pero son como aprender a tocar las melodías de un instrumento solista. La realidad, sin embargo, no es un solo; es una sinfonía. Los fenómenos que nos interesan —el comportamiento del consumidor, el éxito de un producto, la salud de un paciente— son el resultado de la interacción compleja y simultánea de múltiples instrumentos, de innumerables variables que suenan al mismo tiempo.

Intentar comprender esta sinfonía escuchando cada instrumento por separado nos daría una visión fragmentada e, a menudo, engañosa. Podríamos concluir que la sección de violines es la más importante, sin darnos cuenta de que su impacto depende enteramente de la base armónica que proporcionan los violonchelos y del ritmo que marca la percusión. El Análisis Multivariante es el arte y la ciencia de escuchar la orquesta completa. Es el conjunto de métodos estadísticos cuyo objetivo es analizar simultáneamente múltiples mediciones de cada individuo u objeto bajo investigación. Como se afirma (Hair et al. 1999, 5), “la razón de ser del análisis multivariante consiste en que permite a los investigadores contemplar la realidad en su genuina complejidad, analizando las variables conjuntamente tal como se presentan en la realidad”.

Este salto de un análisis bivariante a uno multivariante no es meramente cuantitativo —pasar de dos a “más de dos” variables—, es un profundo cambio cualitativo en nuestra forma de pensar. Aldás y Uriel (2017) señalan que el análisis bivariante puede ser insuficiente e incluso conducir a conclusiones erróneas. Una aparente relación entre dos variables puede desaparecer o incluso invertirse cuando se considera una tercera variable. Por ejemplo, podríamos observar que las ventas de helados y los ataques de tiburones están correlacionados positivamente. Un análisis bivariante podría llevarnos a conclusiones absurdas. Solo un análisis multivariante, que incluya una tercera variable como la “temperatura estival”, nos revelaría la estructura real: la temperatura influye en ambas variables, y no existe una relación causal directa entre helados y tiburones.

La necesidad del análisis multivariante, por tanto, nace de la propia naturaleza de los problemas que enfrentamos. Ya no buscamos si A afecta a B, sino cómo un conjunto de variables {A, B, C} influye sobre otro conjunto {X, Y}, o cómo un conjunto completo de variables {A, B, C, D, E} se estructura internamente para formar patrones o segmentos. La tecnología actual nos permite recoger enormes cantidades de datos, pero sin las herramientas adecuadas para ver el “cuadro completo”, corremos el riesgo de ahogarnos en información mientras morimos de sed de conocimiento. Como señalan Uriel y Aldás (2017, 2) en su obra más reciente orientada a R, el software estadístico moderno nos libera del peso computacional, permitiéndonos centrarnos en lo verdaderamente importante: “la comprensión de los conceptos que subyacen a cada técnica y la interpretación de los resultados en el contexto del problema de investigación” (Aldás Manzano and Uriel Jiménez 2017, 2).

Para navegar este vasto territorio, los expertos suelen clasificar las técnicas multivariantes en dos grandes familias, una distinción fundamental que nos servirá de mapa a lo largo de los próximos capítulos (Tabachnick and Fidell 2013):

Técnicas de Dependencia: Se utilizan cuando podemos dividir nuestras variables en dos conjuntos: un conjunto de variables dependientes (los resultados que queremos explicar o predecir) y un conjunto de variables independientes (los predictores o factores explicativos). El objetivo es entender cómo las segundas influyen en las primeras. Aquí se incluyen la regresión múltiple, la regresión logística y el análisis discriminante.
Técnicas de Interdependencia: Se emplean cuando no existe una distinción a priori entre variables dependientes e independientes. No buscamos predecir un resultado, sino explorar la estructura interna de todo el conjunto de variables. El objetivo es descubrir patrones, agrupar variables o casos similares, o reducir la complejidad de los datos. El análisis de componentes principales, el análisis de correspondencias y el análisis clúster pertenecen a esta familia.

En este capítulo, trazaremos el mapa general de estas técnicas. Definiremos el propósito de cada una y, lo más importante, entenderemos cómo se relacionan entre sí para formar un ecosistema de análisis coherente. Este será nuestro punto de partida antes de sumergirnos en la aplicación práctica de cada una de ellas.

7.1 Un Mapa de las Técnicas Multivariantes

Antes de dedicar un capítulo a cada técnica, es crucial entender su propósito fundamental y el tipo de pregunta que cada una está diseñada para responder. Esto nos ayudará a elegir la herramienta adecuada para cada problema de investigación.

7.1.1 Técnicas de Interdependencia: Buscando la Estructura Oculta

Estas técnicas son exploratorias por naturaleza. No partimos de una hipótesis de predicción, sino de la pregunta: ¿qué estructura o patrón subyace en mis datos?

7.1.1.1 Análisis de Correspondencias (Simple y Múltiple)

La pregunta que responde: “¿Cómo se asocian las categorías de dos o más variables cualitativas? ¿Puedo crear un ‘mapa perceptual’ que posicione las marcas de coches según los atributos que los consumidores les asocian?”
El objetivo: Es el análogo del ACP para datos cualitativos. El Análisis de Correspondencias Simple (ACS) trabaja con dos variables categóricas (una tabla de contingencia), mientras que el Análisis de Correspondencias Múltiple (ACM) puede manejar tres o más. El resultado es un gráfico de baja dimensión (normalmente 2D) donde la proximidad entre puntos (categorías) representa la fuerza de su asociación.
Relación con otras técnicas: Es una técnica de visualización y exploración de la estructura de datos categóricos, similar a lo que el ACP hace con datos cuantitativos. A menudo se utiliza en investigación de mercados para análisis de posicionamiento e imagen de marca.

7.1.1.2 Análisis de Componentes Principales (ACP) y Análisis Factorial

La pregunta que responde: “¿Tengo demasiadas variables cuantitativas que miden conceptos similares? ¿Puedo resumir la información de, por ejemplo, 20 variables en 3 o 4 ‘super-variables’ o ‘factores’ subyacentes sin perder demasiada información?”
El objetivo: Reducción de la dimensionalidad. El ACP busca transformar un conjunto de variables originales (posiblemente correlacionadas entre sí) en un nuevo conjunto de variables no correlacionadas llamadas “componentes principales”, que capturan la máxima varianza posible de los datos. Es ideal para simplificar problemas complejos y visualizar datos de alta dimensión.
Relación con otras técnicas: Es un paso previo común a otras técnicas. Por ejemplo, antes de realizar un análisis clúster sobre 50 variables, se podría realizar un ACP para reducir el número de variables a unas pocas componentes, facilitando así la segmentación.

7.1.1.3 Análisis Clúster (Jerárquico y No Jerárquico)

La pregunta que responde: “¿Existen grupos o segmentos naturales y homogéneos en mis datos? ¿Puedo clasificar a mis clientes en distintos ‘perfiles’ basándome en sus patrones de compra, sin saber de antemano cuántos perfiles existen?”
El objetivo: Segmentación de casos (individuos, productos, empresas…). A diferencia del Análisis Discriminante, el Análisis Clúster es una técnica de clasificación no supervisada; es decir, los grupos no se conocen a priori, sino que son descubiertos por el algoritmo. Se divide en métodos jerárquicos (que construyen una estructura de árbol de conglomerados) y no jerárquicos (como k-medias, que asigna cada caso a uno de los k clústeres predefinidos).
Relación con otras técnicas: A menudo se combina con otras. Se puede realizar un ACP primero para reducir variables y luego un clúster sobre los componentes. Una vez identificados los clústeres, se puede usar el Análisis Discriminante para validar la clasificación y crear una regla para asignar nuevos casos.

7.1.2 Técnicas de Dependencia: Explicando y Prediciendo Resultados

Aquí, el objetivo es claro: modelar la relación entre un conjunto de predictores y una o más variables resultado.

7.1.2.1 Regresión Múltiple y Regresión Logística

La pregunta que responde: “¿Cómo puedo predecir el valor de una variable (Y) a partir de un conjunto de otras variables (X₁, X₂, X₃…)?”. La técnica específica depende de la naturaleza de Y.
- Regresión Múltiple: Si Y es cuantitativa. Ejemplo: predecir el precio de una vivienda (Y) a partir de su superficie, número de habitaciones y antigüedad (X₁, X₂, X₃).
- Regresión Logística: Si Y es cualitativa (generalmente dicotómica). Ejemplo: predecir si un cliente abandonará la empresa (Sí/No) a partir de su antigüedad, su gasto mensual y el número de quejas.
El objetivo: Explicación y predicción. Estos modelos no solo nos permiten predecir el resultado, sino también entender la importancia relativa y la dirección del efecto de cada variable predictora.
Relación con otras técnicas: Son la extensión multivariante de la regresión simple y de las pruebas de diferencia de medias. Constituyen el núcleo del modelado predictivo en muchas disciplinas.

7.1.2.2 Análisis Discriminante

La pregunta que responde: “¿Qué variables cuantitativas diferencian mejor a dos o más grupos que ya conozco? Y, una vez identificadas, ¿puedo construir una regla para clasificar correctamente a nuevos individuos en estos grupos?”
El objetivo: Discriminación y clasificación. A diferencia del Clúster, aquí los grupos están definidos a priori. El análisis busca una combinación lineal de las variables predictoras (una “función discriminante”) que maximice la separación entre los grupos.
Relación con otras técnicas: Es el reverso del ANOVA. En ANOVA, la pregunta es si una variable cualitativa (los grupos) produce diferencias en una variable cuantitativa. En Discriminante, la pregunta es si un conjunto de variables cuantitativas nos permite predecir la pertenencia a una variable cualitativa (los grupos). Es una técnica de clasificación supervisada, en contraste con el carácter no supervisado del Análisis Clúster.

# Análisis Multivariante Básico ```{r} source("~/R/r-data/16.eda/script.R") ``` Hemos llegado a un punto de inflexión en nuestro viaje como analistas de datos. Hasta ahora, hemos operado principalmente en un mundo de dos dimensiones. Hemos aprendido a comparar dos grupos, a correlacionar dos variables y a predecir un resultado a partir de un único factor. Estas habilidades son fundamentales, pero son como aprender a tocar las melodías de un instrumento solista. La realidad, sin embargo, no es un solo; es una sinfonía. Los fenómenos que nos interesan —el comportamiento del consumidor, el éxito de un producto, la salud de un paciente— son el resultado de la interacción compleja y simultánea de múltiples instrumentos, de innumerables variables que suenan al mismo tiempo. Intentar comprender esta sinfonía escuchando cada instrumento por separado nos daría una visión fragmentada e, a menudo, engañosa. Podríamos concluir que la sección de violines es la más importante, sin darnos cuenta de que su impacto depende enteramente de la base armónica que proporcionan los violonchelos y del ritmo que marca la percusión. El **Análisis Multivariante** es el arte y la ciencia de escuchar la orquesta completa. Es el conjunto de métodos estadísticos cuyo objetivo es analizar simultáneamente múltiples mediciones de cada individuo u objeto bajo investigación. Como se afirma [@hair1999analisis, p. 5], _"la razón de ser del análisis multivariante consiste en que permite a los investigadores contemplar la realidad en su genuina complejidad, analizando las variables conjuntamente tal como se presentan en la realidad"_. Este salto de un análisis bivariante a uno multivariante no es meramente cuantitativo —pasar de dos a "más de dos" variables—, es un profundo cambio cualitativo en nuestra forma de pensar. Aldás y Uriel [-@Uriel2017] señalan que el análisis bivariante puede ser insuficiente e incluso conducir a conclusiones erróneas. Una aparente relación entre dos variables puede desaparecer o incluso invertirse cuando se considera una tercera variable. Por ejemplo, podríamos observar que las ventas de helados y los ataques de tiburones están correlacionados positivamente. Un análisis bivariante podría llevarnos a conclusiones absurdas. Solo un análisis multivariante, que incluya una tercera variable como la "temperatura estival", nos revelaría la estructura real: la temperatura influye en ambas variables, y no existe una relación causal directa entre helados y tiburones. La necesidad del análisis multivariante, por tanto, nace de la propia naturaleza de los problemas que enfrentamos. Ya no buscamos si A afecta a B, sino cómo un conjunto de variables {A, B, C} influye sobre otro conjunto {X, Y}, o cómo un conjunto completo de variables {A, B, C, D, E} se estructura internamente para formar patrones o segmentos. La tecnología actual nos permite recoger enormes cantidades de datos, pero sin las herramientas adecuadas para ver el "cuadro completo", corremos el riesgo de ahogarnos en información mientras morimos de sed de conocimiento. Como señalan Uriel y Aldás [-@Uriel2017, p. 2] en su obra más reciente orientada a R, el software estadístico moderno nos libera del peso computacional, permitiéndonos centrarnos en lo verdaderamente importante: "la comprensión de los conceptos que subyacen a cada técnica y la interpretación de los resultados en el contexto del problema de investigación" [@Uriel2017, p. 2]. Para navegar este vasto territorio, los expertos suelen clasificar las técnicas multivariantes en dos grandes familias, una distinción fundamental que nos servirá de mapa a lo largo de los próximos capítulos [@Tabachnick2013]: 1. **Técnicas de Dependencia:** Se utilizan cuando podemos dividir nuestras variables en dos conjuntos: un conjunto de variables **dependientes** (los resultados que queremos explicar o predecir) y un conjunto de variables **independientes** (los predictores o factores explicativos). El objetivo es entender cómo las segundas influyen en las primeras. Aquí se incluyen la regresión múltiple, la regresión logística y el análisis discriminante. 2. **Técnicas de Interdependencia:** Se emplean cuando no existe una distinción a priori entre variables dependientes e independientes. No buscamos predecir un resultado, sino explorar la estructura interna de *todo* el conjunto de variables. El objetivo es descubrir patrones, agrupar variables o casos similares, o reducir la complejidad de los datos. El análisis de componentes principales, el análisis de correspondencias y el análisis clúster pertenecen a esta familia. En este capítulo, trazaremos el mapa general de estas técnicas. Definiremos el propósito de cada una y, lo más importante, entenderemos cómo se relacionan entre sí para formar un ecosistema de análisis coherente. Este será nuestro punto de partida antes de sumergirnos en la aplicación práctica de cada una de ellas. ## Un Mapa de las Técnicas Multivariantes Antes de dedicar un capítulo a cada técnica, es crucial entender su propósito fundamental y el tipo de pregunta que cada una está diseñada para responder. Esto nos ayudará a elegir la herramienta adecuada para cada problema de investigación. ### Técnicas de Interdependencia: Buscando la Estructura Oculta Estas técnicas son exploratorias por naturaleza. No partimos de una hipótesis de predicción, sino de la pregunta: ¿qué estructura o patrón subyace en mis datos? #### Análisis de Correspondencias (Simple y Múltiple) * **La pregunta que responde:** "¿Cómo se asocian las categorías de dos o más variables cualitativas? ¿Puedo crear un 'mapa perceptual' que posicione las marcas de coches según los atributos que los consumidores les asocian?" * **El objetivo:** Es el análogo del ACP para datos **cualitativos**. El Análisis de Correspondencias Simple (ACS) trabaja con dos variables categóricas (una tabla de contingencia), mientras que el Análisis de Correspondencias Múltiple (ACM) puede manejar tres o más. El resultado es un gráfico de baja dimensión (normalmente 2D) donde la proximidad entre puntos (categorías) representa la fuerza de su asociación. * **Relación con otras técnicas:** Es una técnica de visualización y exploración de la estructura de datos categóricos, similar a lo que el ACP hace con datos cuantitativos. A menudo se utiliza en investigación de mercados para análisis de posicionamiento e imagen de marca. #### Análisis de Componentes Principales (ACP) y Análisis Factorial * **La pregunta que responde:** "¿Tengo demasiadas variables cuantitativas que miden conceptos similares? ¿Puedo resumir la información de, por ejemplo, 20 variables en 3 o 4 'super-variables' o 'factores' subyacentes sin perder demasiada información?" * **El objetivo:** Reducción de la dimensionalidad. El ACP busca transformar un conjunto de variables originales (posiblemente correlacionadas entre sí) en un nuevo conjunto de variables no correlacionadas llamadas "componentes principales", que capturan la máxima varianza posible de los datos. Es ideal para simplificar problemas complejos y visualizar datos de alta dimensión. * **Relación con otras técnicas:** Es un paso previo común a otras técnicas. Por ejemplo, antes de realizar un análisis clúster sobre 50 variables, se podría realizar un ACP para reducir el número de variables a unas pocas componentes, facilitando así la segmentación. #### Análisis Clúster (Jerárquico y No Jerárquico) * **La pregunta que responde:** "¿Existen grupos o segmentos naturales y homogéneos en mis datos? ¿Puedo clasificar a mis clientes en distintos 'perfiles' basándome en sus patrones de compra, sin saber de antemano cuántos perfiles existen?" * **El objetivo:** Segmentación de casos (individuos, productos, empresas...). A diferencia del Análisis Discriminante, el Análisis Clúster es una técnica de clasificación **no supervisada**; es decir, los grupos no se conocen a priori, sino que son descubiertos por el algoritmo. Se divide en métodos **jerárquicos** (que construyen una estructura de árbol de conglomerados) y **no jerárquicos** (como k-medias, que asigna cada caso a uno de los *k* clústeres predefinidos). * **Relación con otras técnicas:** A menudo se combina con otras. Se puede realizar un ACP primero para reducir variables y luego un clúster sobre los componentes. Una vez identificados los clústeres, se puede usar el Análisis Discriminante para validar la clasificación y crear una regla para asignar nuevos casos. ### Técnicas de Dependencia: Explicando y Prediciendo Resultados Aquí, el objetivo es claro: modelar la relación entre un conjunto de predictores y una o más variables resultado. #### Regresión Múltiple y Regresión Logística * **La pregunta que responde:** "¿Cómo puedo predecir el valor de una variable (Y) a partir de un conjunto de otras variables (X₁, X₂, X₃...)?". La técnica específica depende de la naturaleza de Y. * **Regresión Múltiple:** Si Y es **cuantitativa**. Ejemplo: predecir el precio de una vivienda (Y) a partir de su superficie, número de habitaciones y antigüedad (X₁, X₂, X₃). * **Regresión Logística:** Si Y es **cualitativa** (generalmente dicotómica). Ejemplo: predecir si un cliente abandonará la empresa (Sí/No) a partir de su antigüedad, su gasto mensual y el número de quejas. * **El objetivo:** Explicación y predicción. Estos modelos no solo nos permiten predecir el resultado, sino también entender la importancia relativa y la dirección del efecto de cada variable predictora. * **Relación con otras técnicas:** Son la extensión multivariante de la regresión simple y de las pruebas de diferencia de medias. Constituyen el núcleo del modelado predictivo en muchas disciplinas. #### Análisis Discriminante * **La pregunta que responde:** "¿Qué variables cuantitativas diferencian mejor a dos o más grupos que ya conozco? Y, una vez identificadas, ¿puedo construir una regla para clasificar correctamente a nuevos individuos en estos grupos?" * **El objetivo:** Discriminación y clasificación. A diferencia del Clúster, aquí los grupos están **definidos a priori**. El análisis busca una combinación lineal de las variables predictoras (una "función discriminante") que maximice la separación entre los grupos. * **Relación con otras técnicas:** Es el reverso del ANOVA. En ANOVA, la pregunta es si una variable cualitativa (los grupos) produce diferencias en una variable cuantitativa. En Discriminante, la pregunta es si un conjunto de variables cuantitativas nos permite predecir la pertenencia a una variable cualitativa (los grupos). Es una técnica de clasificación **supervisada**, en contraste con el carácter no supervisado del Análisis Clúster.