Code
source("~/R/r-data/16.eda/script.R")source("~/R/r-data/16.eda/script.R")Hemos llegado a un punto de inflexión en nuestro viaje como analistas de datos. Hasta ahora, hemos operado principalmente en un mundo de dos dimensiones. Hemos aprendido a comparar dos grupos, a correlacionar dos variables y a predecir un resultado a partir de un único factor. Estas habilidades son fundamentales, pero son como aprender a tocar las melodías de un instrumento solista. La realidad, sin embargo, no es un solo; es una sinfonía. Los fenómenos que nos interesan —el comportamiento del consumidor, el éxito de un producto, la salud de un paciente— son el resultado de la interacción compleja y simultánea de múltiples instrumentos, de innumerables variables que suenan al mismo tiempo.
Intentar comprender esta sinfonía escuchando cada instrumento por separado nos daría una visión fragmentada e, a menudo, engañosa. Podríamos concluir que la sección de violines es la más importante, sin darnos cuenta de que su impacto depende enteramente de la base armónica que proporcionan los violonchelos y del ritmo que marca la percusión. El Análisis Multivariante es el arte y la ciencia de escuchar la orquesta completa. Es el conjunto de métodos estadísticos cuyo objetivo es analizar simultáneamente múltiples mediciones de cada individuo u objeto bajo investigación. Como se afirma (Hair et al. 1999, 5), “la razón de ser del análisis multivariante consiste en que permite a los investigadores contemplar la realidad en su genuina complejidad, analizando las variables conjuntamente tal como se presentan en la realidad”.
Este salto de un análisis bivariante a uno multivariante no es meramente cuantitativo —pasar de dos a “más de dos” variables—, es un profundo cambio cualitativo en nuestra forma de pensar. Aldás y Uriel (2017) señalan que el análisis bivariante puede ser insuficiente e incluso conducir a conclusiones erróneas. Una aparente relación entre dos variables puede desaparecer o incluso invertirse cuando se considera una tercera variable. Por ejemplo, podríamos observar que las ventas de helados y los ataques de tiburones están correlacionados positivamente. Un análisis bivariante podría llevarnos a conclusiones absurdas. Solo un análisis multivariante, que incluya una tercera variable como la “temperatura estival”, nos revelaría la estructura real: la temperatura influye en ambas variables, y no existe una relación causal directa entre helados y tiburones.
La necesidad del análisis multivariante, por tanto, nace de la propia naturaleza de los problemas que enfrentamos. Ya no buscamos si A afecta a B, sino cómo un conjunto de variables {A, B, C} influye sobre otro conjunto {X, Y}, o cómo un conjunto completo de variables {A, B, C, D, E} se estructura internamente para formar patrones o segmentos. La tecnología actual nos permite recoger enormes cantidades de datos, pero sin las herramientas adecuadas para ver el “cuadro completo”, corremos el riesgo de ahogarnos en información mientras morimos de sed de conocimiento. Como señalan Uriel y Aldás (2017, 2) en su obra más reciente orientada a R, el software estadístico moderno nos libera del peso computacional, permitiéndonos centrarnos en lo verdaderamente importante: “la comprensión de los conceptos que subyacen a cada técnica y la interpretación de los resultados en el contexto del problema de investigación” (Aldás Manzano and Uriel Jiménez 2017, 2).
Para navegar este vasto territorio, los expertos suelen clasificar las técnicas multivariantes en dos grandes familias, una distinción fundamental que nos servirá de mapa a lo largo de los próximos capítulos (Tabachnick and Fidell 2013):
Técnicas de Dependencia: Se utilizan cuando podemos dividir nuestras variables en dos conjuntos: un conjunto de variables dependientes (los resultados que queremos explicar o predecir) y un conjunto de variables independientes (los predictores o factores explicativos). El objetivo es entender cómo las segundas influyen en las primeras. Aquí se incluyen la regresión múltiple, la regresión logística y el análisis discriminante.
Técnicas de Interdependencia: Se emplean cuando no existe una distinción a priori entre variables dependientes e independientes. No buscamos predecir un resultado, sino explorar la estructura interna de todo el conjunto de variables. El objetivo es descubrir patrones, agrupar variables o casos similares, o reducir la complejidad de los datos. El análisis de componentes principales, el análisis de correspondencias y el análisis clúster pertenecen a esta familia.
En este capítulo, trazaremos el mapa general de estas técnicas. Definiremos el propósito de cada una y, lo más importante, entenderemos cómo se relacionan entre sí para formar un ecosistema de análisis coherente. Este será nuestro punto de partida antes de sumergirnos en la aplicación práctica de cada una de ellas.
Antes de dedicar un capítulo a cada técnica, es crucial entender su propósito fundamental y el tipo de pregunta que cada una está diseñada para responder. Esto nos ayudará a elegir la herramienta adecuada para cada problema de investigación.
Estas técnicas son exploratorias por naturaleza. No partimos de una hipótesis de predicción, sino de la pregunta: ¿qué estructura o patrón subyace en mis datos?
Aquí, el objetivo es claro: modelar la relación entre un conjunto de predictores y una o más variables resultado.