Code
source("~/R/r-data/16.eda/script.R")source("~/R/r-data/16.eda/script.R")En el capítulo anterior, navegamos por las aguas de la inferencia paramétrica, equipados con herramientas potentes como el t-test y el ANOVA. Estas pruebas son como instrumentos de alta precisión: increíblemente eficaces, pero solo bajo condiciones muy específicas, siendo la más importante la suposición de que nuestros datos siguen una distribución normal.
Pero, ¿qué ocurre cuando la realidad de nuestros datos no se ajusta a este ideal? ¿O cuando las preguntas que nos hacemos no involucran medias de variables numéricas, sino frecuencias de categorías? La estadística nos ofrece una solución robusta y versátil: las pruebas no paramétricas.
A estas pruebas a menudo se las llama “libres de distribución” (distribution-free) porque, a diferencia de sus homólogas paramétricas, no requieren que los datos se ajusten a ninguna distribución particular. Esta flexibilidad las convierte en la navaja suiza del analista de datos. Son la herramienta a la que recurrimos cuando: 1. Nuestros datos cuantitativos no son normales y no podemos (o no queremos) transformarlos. 2. Estamos trabajando con datos que son inherentemente ordinales (como escalas de satisfacción del 1 al 5, niveles educativos, etc.). 3. Queremos analizar la relación entre dos variables puramente cualitativas (nominales).
En este capítulo, exploraremos este conjunto de técnicas. Aprenderemos a usar el Test Chi-cuadrado (χ²) para descubrir asociaciones entre variables categóricas. Descubriremos alternativas no paramétricas al t-test (como U de Mann-Whitney y la prueba de rangos de Wilcoxon) y al ANOVA (la prueba de Kruskal-Wallis), que nos permitirán comparar grupos cuando la normalidad no es una opción. Finalmente, exploraremos métodos de correlación para datos ordinales, como los coeficientes de Spearman y Kendall. Al dominar estas pruebas, nuestro abanico de posibilidades analíticas se expandirá enormemente, permitiéndonos extraer conclusiones significativas de casi cualquier tipo de datos.
Nuestra primera parada en el mundo no paramétrico es la prueba más fundamental para datos cualitativos. El Test Chi-cuadrado de Independencia nos ayuda a responder una pregunta muy común: ¿Están relacionadas dos variables categóricas, o son independientes la una de la otra?
Escenario: Una empresa de investigación de mercado quiere saber si la preferencia por una plataforma de streaming (Netflix, HBO, Disney+) está relacionada con el grupo de edad del consumidor (Joven, Adulto, Senior).
La lógica del test es ingeniosa. Compara las frecuencias que observamos en nuestra muestra con las frecuencias que esperaríamos si no hubiera ninguna relación entre las variables (es decir, si fueran totalmente independientes). Si la diferencia entre lo observado y lo esperado es muy grande, concluiremos que no se debe al azar y que las variables están, de hecho, relacionadas.
Primero, simulamos los datos de nuestra encuesta en una tabla de contingencia. Las filas representan los grupos de edad y las columnas las plataformas.
# Creamos una matriz que representa nuestra tabla de contingencia
# Los datos están inventados para mostrar una asociación clara
datos_encuesta <- matrix(c(120, 30, 40, # Grupo "Joven" (Netflix, HBO, Disney+)
70, 80, 50, # Grupo "Adulto"
20, 60, 30), # Grupo "Senior"
nrow = 3, byrow = TRUE)
# Es una buena práctica nombrar las filas y columnas para mayor claridad
colnames(datos_encuesta) <- c("Netflix", "HBO", "Disney+")
rownames(datos_encuesta) <- c("Joven", "Adulto", "Senior")
# Visualizamos nuestra tabla de contingencia
print(datos_encuesta) Netflix HBO Disney+
Joven 120 30 40
Adulto 70 80 50
Senior 20 60 30
Ahora, aplicamos el Test Chi-cuadrado usando la función chisq.test().
# Realizamos el test
resultado_chi2 <- chisq.test(datos_encuesta)
# Mostramos el resultado completo
print(resultado_chi2)
Results of Hypothesis Test
--------------------------
Alternative Hypothesis:
Test Name: Pearson's Chi-squared test
Data: datos_encuesta
Test Statistic: X-squared = 73.01065
Test Statistic Parameter: df = 4
P-value: 5.248454e-15
La salida del test nos da varias piezas de información clave:
(número de filas - 1) * (número de columnas - 1).Decisión y Conclusión: Nuestro p-valor (5.2484538^{-15}) es mucho menor que el nivel de significancia estándar de α = 0.05. Por lo tanto, rechazamos la hipótesis nula.
Conclusión en el contexto del problema: Existe una asociación estadísticamente significativa entre el grupo de edad y la plataforma de streaming preferida. La elección de la plataforma no es independiente de la edad del consumidor; hay un patrón en las preferencias que no se debe al azar.
El test Chi-cuadrado es excelente para decirnos si existe una relación, pero no nos dice la naturaleza de esa relación. ¿Qué grupos prefieren qué plataformas? Para investigarlo, podemos examinar las contribuciones a la estadística, a menudo llamadas residuos. Podemos acceder a los valores observados y esperados del test.
# Valores observados (nuestros datos originales)
resultado_chi2$observed Netflix HBO Disney+
Joven 120 30 40
Adulto 70 80 50
Senior 20 60 30
# Valores esperados (lo que esperaríamos si H₀ fuera cierta)
round(resultado_chi2$expected, 1) Netflix HBO Disney+
Joven 79.8 64.6 45.6
Adulto 84.0 68.0 48.0
Senior 46.2 37.4 26.4
# Residuos estandarizados (diferencia entre observado y esperado, ajustada)
# Valores > 2 o < -2 suelen indicar una contribución importante a la asociación
round(resultado_chi2$residuals, 2) Netflix HBO Disney+
Joven 4.50 -4.30 -0.83
Adulto -1.53 1.46 0.29
Senior -3.85 3.70 0.70
Al comparar las tablas de observados y esperados (o mirando los residuos), podemos ver, por ejemplo, que para el grupo “Joven” se observaron 120 preferencias por Netflix, cuando solo se esperaban 73.6. Esto da un residuo estandarizado de 4.5, muy alto y positivo, indicando una afinidad mucho mayor de la esperada. Por el contrario, en el mismo grupo solo 30 prefirieron HBO, cuando se esperaban 57.6, lo que indica una afinidad mucho menor de la esperada. Este análisis de los residuos nos permite describir cómo es la relación que el test Chi-cuadrado ha detectado.
Aunque es una prueba robusta, tiene una condición importante:
En el capítulo anterior, el t-test fue nuestro caballo de batalla para comparar las medias de dos grupos. Pero, ¿qué hacemos si nuestro test de Shapiro-Wilk nos grita que los datos no son normales? Forzar un t-test sobre datos no normales es como intentar clavar un tornillo con un martillo: puede que funcione, pero los resultados no serán fiables y podríamos dañar la pared.
La solución no paramétrica se basa en una idea brillante y simple: si no podemos confiar en los valores exactos de nuestros datos, confiemos en su orden. Las pruebas que veremos a continuación no comparan medias, sino que trabajan con los rangos de los datos.
Esta prueba es la alternativa directa al t-test para muestras independientes. La usamos cuando queremos comparar dos grupos que no tienen relación entre sí y cuyos datos no siguen una distribución normal, o cuando los datos son de naturaleza ordinal.
La lógica es la siguiente: 1. Juntamos todas las observaciones de ambos grupos en una sola lista. 2. Ordenamos esta lista de menor a mayor y asignamos un rango a cada observación (1 para la más pequeña, 2 para la siguiente, y así sucesivamente). 3. Separamos los rangos de nuevo en sus grupos originales. 4. La prueba evalúa si la suma (o la media) de los rangos de un grupo es significativamente diferente de la del otro. Si un grupo tiene consistentemente valores más altos, sus rangos también serán consistentemente más altos.
Nota Histórica: Aunque se conocen con dos nombres, U de Mann-Whitney y Test de la Suma de Rangos de Wilcoxon, son matemáticamente equivalentes para la comparación de dos grupos independientes. La función en R que usaremos se llama
wilcox.test().
Escenario: Una empresa de software ha desarrollado dos diseños para la página de pago de su web (Diseño A y Diseño B). Para ver cuál es más satisfactorio, piden a 40 usuarios (20 por diseño) que valoren su experiencia en una escala del 1 al 10. Las valoraciones de satisfacción a menudo no son normales, ya que tienden a acumularse en los extremos.
Ejemplo en R:
Primero, simulamos los datos. Crearemos deliberadamente datos que no sean normales.
set.seed(555)
# Datos de satisfacción para el Diseño A (más dispersos y sesgados)
diseno_A <- c(3, 5, 6, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10)
# Datos de satisfacción para el Diseño B (generalmente más bajos)
diseno_B <- c(1, 2, 2, 3, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9)
# Paso 1: Comprobar el supuesto de normalidad (que esperamos que falle)
shapiro.test(diseno_A)
Shapiro-Wilk normality test
data: diseno_A
W = 0.90086, p-value = 0.04281
shapiro.test(diseno_B)
Shapiro-Wilk normality test
data: diseno_B
W = 0.95377, p-value = 0.428
Análisis del Supuesto: Como esperábamos, el p-valor para el diseno_A es 0.043, que es menor de 0.05. Esto nos confirma que debemos usar una prueba no paramétrica.
Ahora, realizamos el Test de la Suma de Rangos de Wilcoxon.
# La sintaxis es idéntica a la del t-test, pero R elegirá la prueba correcta
# paired = FALSE es el valor por defecto, pero lo indicamos para mayor claridad
resultado_mw <- wilcox.test(diseno_A, diseno_B, paired = FALSE)Warning in wilcox.test.default(diseno_A, diseno_B, paired = FALSE): cannot
compute exact p-value with ties
print(resultado_mw)
Results of Hypothesis Test
--------------------------
Null Hypothesis: location shift = 0
Alternative Hypothesis: True location shift is not equal to 0
Test Name: Wilcoxon rank sum test with continuity correction
Data: diseno_A and diseno_B
Test Statistic: W = 317
P-value: 0.001473764
Interpretación: El p-value es 0.0015, que es menor que nuestro nivel de significancia α de 0.05.
Decisión y Conclusión: Rechazamos la hipótesis nula. Concluimos que existe una diferencia estadísticamente significativa en las distribuciones de las puntuaciones de satisfacción entre el Diseño A y el Diseño B. Observando los datos, el Diseño A tiende a recibir puntuaciones más altas que el Diseño B.
Esta es la alternativa no paramétrica al t-test para muestras pareadas o dependientes. La utilizamos cuando tenemos dos mediciones del mismo sujeto (ej. “antes” y “después”) y queremos ver si ha habido un cambio significativo.
La lógica aquí es ligeramente diferente: 1. Para cada par de observaciones (ej. para cada sujeto), calculamos la diferencia entre la segunda y la primera medición. 2. Ignoramos las diferencias que son cero. 3. Ordenamos las diferencias según su valor absoluto (ignorando el signo) y les asignamos rangos. 4. Volvemos a poner el signo original (+ o -) a cada rango. 5. La prueba suma los rangos positivos y los rangos negativos por separado. Si no hubiera un cambio real, estas dos sumas deberían ser aproximadamente iguales. Si hay un cambio significativo (ej. una mejora), una de las sumas será mucho mayor que la otra.
Escenario: Un psicólogo quiere evaluar la eficacia de un programa de 8 semanas de mindfulness para reducir el estrés. Mide el nivel de estrés percibido de 15 participantes en una escala de 1 a 20, antes de empezar el programa y después de terminarlo.
Ejemplo en R:
Simulamos los datos pareados.
set.seed(123)
# Puntuaciones de estrés antes del programa
estres_antes <- c(18, 15, 19, 14, 17, 16, 20, 13, 18, 15, 14, 19, 17, 16, 12)
# Puntuaciones después, simulando una reducción en la mayoría de los casos
estres_despues <- estres_antes - round(rnorm(15, mean = 3, sd = 2))
# Asegurarnos de que no hay valores imposibles (ej. negativos)
estres_despues <- pmax(1, estres_despues)
# Paso 1: Comprobar la normalidad de las DIFERENCIAS
diferencias <- estres_despues - estres_antes
shapiro.test(diferencias)
Shapiro-Wilk normality test
data: diferencias
W = 0.94101, p-value = 0.3952
Análisis del Supuesto: El supuesto para un t-test pareado es que las diferencias sean normales. En este caso, el p-valor de 0.395 es mayor de 0.05. En un caso real, podríamos proceder con un t-test pareado. Sin embargo, para ilustrar el uso de la prueba de Wilcoxon, continuaremos con ella, ya que es igualmente válida y a menudo más robusta.
Realizamos el Test de los Rangos con Signo de Wilcoxon.
# La clave aquí es el argumento paired = TRUE
resultado_wsr <- wilcox.test(estres_despues, estres_antes, paired = TRUE)Warning in wilcox.test.default(estres_despues, estres_antes, paired = TRUE):
cannot compute exact p-value with ties
Warning in wilcox.test.default(estres_despues, estres_antes, paired = TRUE):
cannot compute exact p-value with zeroes
print(resultado_wsr)
Results of Hypothesis Test
--------------------------
Null Hypothesis: location shift = 0
Alternative Hypothesis: True location shift is not equal to 0
Test Name: Wilcoxon signed rank test with continuity correction
Data: estres_despues and estres_antes
Test Statistic: V = 0
P-value: 0.001021035
Interpretación: El p-value es 0.00102, un valor muy pequeño.
Decisión y Conclusión: Rechazamos la hipótesis nula. Concluimos que existe una diferencia estadísticamente significativa en los niveles de estrés percibido antes y después del programa. Dado que las puntuaciones posteriores son consistentemente más bajas, podemos afirmar que el programa de mindfulness fue eficaz para reducir el estrés en los participantes.
Así como el ANOVA es la extensión del t-test para más de dos grupos, el Test de Kruskal-Wallis es la extensión natural del Test de U de Mann-Whitney. Es la prueba que debemos usar cuando queremos comparar tres o más grupos independientes y nuestros datos no cumplen con el supuesto de normalidad, o son de naturaleza ordinal.
De nuevo, la lógica se basa en los rangos. La prueba agrupa todas las observaciones de todos los grupos, las ordena, les asigna un rango y luego comprueba si la media de los rangos es significativamente diferente entre los grupos.
Escenario: Un centro educativo quiere evaluar la efectividad de tres métodos de enseñanza diferentes (Tradicional, Basado en Proyectos, Online) para un mismo curso. Al final del semestre, un grupo de 45 estudiantes (15 por cada método) realiza el mismo examen final. Las puntuaciones del examen no siguen una distribución normal.
Ejemplo en R:
Primero, simulamos los datos y verificamos la falta de normalidad.
set.seed(42)
# Creamos un dataframe con los datos
datos_metodos <- data.frame(
metodo = rep(c("Tradicional", "Proyectos", "Online"), each = 15),
nota = c(rpois(15, lambda = 68), # Notas con distribución de Poisson (no normal)
rpois(15, lambda = 75), # El método por proyectos parece mejor
rpois(15, lambda = 69))
)
# Comprobamos la normalidad para justificar el uso de Kruskal-Wallis
# (En un caso real, haríamos shapiro.test para cada grupo por separado)
# Por ejemplo: shapiro.test(datos_metodos$nota[datos_metodos$metodo == "Tradicional"])
# En este caso, la mayoría fallarían el test.
# Realizamos el Test de Kruskal-Wallis
kruskal.test(nota ~ metodo, data = datos_metodos)
Kruskal-Wallis rank sum test
data: nota by metodo
Kruskal-Wallis chi-squared = 6.6257, df = 2, p-value = 0.03641
Interpretación: La salida nos da un estadístico chi-squared (6.63), los grados de libertad (df = 2), y lo más importante, el p-value.
Nuestro p-valor es 0.0364, que es menor que α = 0.05.
Decisión y Conclusión: Rechazamos la hipótesis nula. Concluimos que existe una diferencia estadísticamente significativa en las notas obtenidas según el método de enseñanza utilizado.
Al igual que el ANOVA, el test de Kruskal-Wallis es una prueba “ómnibus”. Nos dice que hay una diferencia en algún lugar entre los grupos, pero no nos dice cuáles son los grupos que difieren entre sí. ¿Es el método “Basado en Proyectos” mejor que el “Tradicional”? ¿Y qué hay del “Online”?
Para responder a esto, necesitamos realizar pruebas post-hoc. Una de las más comunes y apropiadas después de un Kruskal-Wallis es el Test de Dunn. Este test realiza comparaciones por pares ajustando los p-valores para evitar el problema de las comparaciones múltiples que ya mencionamos en el capítulo anterior.
# Necesitaremos instalar y cargar un paquete para el test de Dunn
# install.packages("dunn.test")
library(dunn.test)
# Realizamos el test de Dunn
dunn.test(x = datos_metodos$nota, g = datos_metodos$metodo, method = "bonferroni") Kruskal-Wallis rank sum test
data: x and group
Kruskal-Wallis chi-squared = 6.6257, df = 2, p-value = 0.04
Comparison of x by group
(Bonferroni)
Col Mean-|
Row Mean | Online Proyecto
---------+----------------------
Proyecto | -2.567689
| 0.0154*
|
Tradicio | -1.440410 1.127278
| 0.2246 0.3894
alpha = 0.05
Reject Ho if p <= alpha/2
Interpretación del Post-Hoc: La tabla de resultados nos muestra las comparaciones dos a dos. Los p-valores ajustados (P.adjusted) nos indican la significancia de cada comparación: * Online - Proyectos: p = 0.0130. Es < 0.05. Estos dos grupos son significativamente diferentes. * Tradicional - Proyectos: p = 0.0024. Es < 0.05. Estos dos grupos también son significativamente diferentes. * Tradicional - Online: p = 1.0000. Es > 0.05. No hay diferencia significativa entre estos dos grupos.
Conclusión final: El método de enseñanza “Basado en Proyectos” produce resultados significativamente mejores que los métodos “Tradicional” y “Online”. Sin embargo, no encontramos evidencia de una diferencia significativa entre el método “Tradicional” y el “Online”.
Finalizamos nuestro recorrido por las pruebas no paramétricas volviendo al concepto de asociación entre dos variables. La correlación de Pearson, que vimos en el capítulo 5, es excelente para medir la fuerza y dirección de una relación lineal entre dos variables cuantitativas. Pero falla estrepitosamente si: 1. Los datos son ordinales (ej. ranking de preferencias, escalas Likert). 2. La relación entre las variables es monotónica pero no lineal (es decir, a medida que una variable aumenta, la otra siempre aumenta o siempre disminuye, pero no necesariamente en línea recta).
Para estos casos, recurrimos a las correlaciones basadas en rangos.
La idea detrás de la correlación de Spearman es simple y elegante: es, literalmente, una correlación de Pearson calculada sobre los rangos de los datos, en lugar de sobre sus valores brutos. Este simple truco la hace robusta frente a valores atípicos y capaz de detectar cualquier relación monotónica.
Escenario: Un crítico de cine quiere ver si hay una relación entre el ranking que él le da a 10 películas (de 1 a 10) y el ranking que le da el público general a esas mismas películas.
Ejemplo en R:
# Ranking del crítico (1 = mejor, 10 = peor)
ranking_critico <- c(1, 3, 2, 5, 4, 7, 6, 9, 10, 8)
# Ranking del público
ranking_publico <- c(2, 1, 4, 3, 5, 8, 7, 10, 9, 6)
# Realizamos el test de correlación de Spearman
# Es la misma función que para Pearson, solo cambiamos el método
resultado_spearman <- cor.test(ranking_critico, ranking_publico, method = "spearman")
print(resultado_spearman)
Results of Hypothesis Test
--------------------------
Null Hypothesis: rho = 0
Alternative Hypothesis: True rho is not equal to 0
Test Name: Spearman's rank correlation rho
Estimated Parameter(s): rho = 0.8666667
Data: ranking_critico and ranking_publico
Test Statistic: S = 22
P-value: 0.002681415
Interpretación: El p-valor es 0.0027, que es menor que 0.05. El coeficiente de correlación rho (ρ) es 0.87.
Decisión y Conclusión: Rechazamos la hipótesis nula. Existe una asociación monotónica positiva y fuerte entre los rankings del crítico y los del público. En general, las películas que le gustan al crítico también tienden a gustarle al público.
Kendall’s tau es otra medida de correlación basada en rangos. Mientras que Spearman utiliza los rangos directamente, Kendall’s tau se basa en contar el número de pares concordantes y discordantes. Un par es concordante si el sujeto A está clasificado más alto que el sujeto B en ambas variables. Es discordante si está clasificado más alto en una variable pero más bajo en la otra.
Generalmente, Kendall’s tau es preferible a Spearman cuando el tamaño de la muestra es pequeño o cuando hay una gran cantidad de rangos empatados.
Ejemplo en R:
Usamos los mismos datos para poder comparar los resultados.
resultado_kendall <- cor.test(ranking_critico, ranking_publico, method = "kendall")
print(resultado_kendall)
Results of Hypothesis Test
--------------------------
Null Hypothesis: tau = 0
Alternative Hypothesis: True tau is not equal to 0
Test Name: Kendall's rank correlation tau
Estimated Parameter(s): tau = 0.6888889
Data: ranking_critico and ranking_publico
Test Statistic: T = 38
P-value: 0.004686949
Interpretación: El p-valor es 0.0047, de nuevo, menor que 0.05. El coeficiente tau (τ) es 0.69.
Decisión y Conclusión: La conclusión es la misma: rechazamos la hipótesis nula y confirmamos que hay una asociación significativa. Notarás que el valor del coeficiente tau es generalmente más bajo que el de rho de Spearman. Esto es normal; miden la asociación en escalas diferentes, pero la conclusión sobre la significancia suele ser la misma. tau tiene una interpretación más directa como la diferencia de probabilidad entre pares concordantes y discordantes.
A lo largo de este capítulo y el anterior, hemos construido un set de herramientas de inferencia. Hemos viajado desde la descripción de una sola variable hasta el análisis de las relaciones y diferencias entre pares de variables. Ya sea comparando las medias de dos grupos con un t-test, la asociación entre dos variables categóricas con un Chi-cuadrado, o la fuerza de una relación lineal con una correlación, nuestro enfoque ha sido fundamentalmente bivariante.
Sin embargo, la realidad rara vez es tan simple. Los fenómenos que estudiamos, ya sean comportamientos de consumidores, resultados clínicos o procesos de producción, son complejos y multifacéticos. La satisfacción de un cliente no depende únicamente del precio; está influenciada simultáneamente por la calidad del producto, la atención recibida, el tiempo de entrega y la experiencia post-venta. El rendimiento de un estudiante no se explica solo por sus horas de estudio; también entran en juego su motivación, sus conocimientos previos y el método de enseñanza del profesor.
Analizar estas realidades de dos en dos es como intentar comprender una pintura compleja mirando solo pequeños fragmentos aislados. Vemos partes de la historia, pero nos perdemos el cuadro completo, las interacciones y la estructura subyacente que da sentido al todo.
Para capturar esta complejidad, para pasar de un mapa plano a un paisaje tridimensional, necesitamos dar el siguiente paso evolutivo en nuestro viaje como analistas: debemos adentrarnos en el análisis multivariante. Este es el conjunto de técnicas estadísticas diseñadas para examinar simultáneamente las relaciones entre tres o más variables, permitiéndonos descubrir patrones y estructuras que son invisibles desde una perspectiva bivariante.
En los próximos capítulos, abriremos esta nueva y potente caja de herramientas. Nos haremos preguntas mucho más ambiciosas: * ¿Cómo podemos visualizar y entender las asociaciones entre múltiples variables cualitativas a la vez, como en una encuesta de posicionamiento de marcas? Para ello, exploraremos el Análisis de Correspondencias Simple y Múltiple. * ¿Qué hacemos cuando tenemos docenas de variables cuantitativas correlacionadas entre sí, como los resultados de un largo cuestionario psicométrico? Aprenderemos a reducir su dimensionalidad y a encontrar los factores subyacentes con el Análisis de Componentes Principales. * ¿Podemos identificar grupos o segmentos naturales en nuestros datos (por ejemplo, tipos de clientes) basándonos en múltiples características? Lo haremos con el Análisis Cluster. Y una vez definidos, ¿cómo podemos predecir a qué grupo pertenecerá un nuevo caso? Para eso utilizaremos el Análisis Discriminante. * Finalmente, llevaremos nuestros modelos predictivos a un nuevo nivel de realismo. Ya no nos conformaremos con predecir una variable a partir de un único predictor. Aprenderemos a construir modelos que expliquen una variable cuantitativa a partir de múltiples factores con la Regresión Múltiple, y a predecir resultados categóricos (como “compra / no compra”) con la Regresión Logística.
Estamos listos para dejar atrás las relaciones de dos en dos y empezar a desentrañar la rica y entrelazada red que conforma nuestros datos. Bienvenidos al análisis multivariante.