13  Modelos de Ecuaciones Estructurales (SEM)

Published

October 7, 2025

13.1 Introducción: el paso final del análisis multivariante

En los capítulos anteriores, hemos ascendido por una escalera de complejidad analítica. Comenzamos validando la fiabilidad de nuestras escalas de medida y luego, con el Análisis Factorial Confirmatorio (AFC), probamos formalmente que nuestros ítems eran indicadores válidos de constructos latentes distintos como la “Satisfacción” y la “Lealtad”. En esencia, hemos validado nuestro modelo de medida: hemos demostrado que nuestros instrumentos de medición son sólidos.

Sin embargo, la validación del modelo de medida, aunque indispensable, no es el fin del camino, sino el punto de partida para la pregunta más importante de la investigación: ¿cómo se relacionan estos constructos entre sí? ¿La “Satisfacción” realmente influye en la “Lealtad”? ¿Qué factores determinan la “Reputación Corporativa” de una empresa? Para responder a estas preguntas, que involucran complejas relaciones de causa y efecto entre múltiples variables latentes, necesitamos la herramienta más potente y flexible del análisis multivariante: los Modelos de Ecuaciones Structurales (SEM).

El SEM es una técnica de segunda generación que permite al investigador especificar, estimar y probar modelos teóricos completos sobre las relaciones entre múltiples variables, tanto observadas como latentes (Hair et al. 2019). Es la síntesis definitiva del análisis factorial (el modelo de medida) y la regresión múltiple (el modelo estructural), permitiéndonos analizar un sistema completo de interrelaciones de manera simultánea.

13.2 Las dos filosofías: CB-SEM y PLS-SEM

Dentro del universo del SEM, coexisten dos grandes familias o “filosofías”, cada una con sus propios objetivos, algoritmos y supuestos. La elección entre ellas no es una cuestión de superioridad, sino de adecuación al objetivo de la investigación y a la naturaleza de los datos. Ambas buscan entender las relaciones entre constructos, pero lo hacen desde perspectivas fundamentalmente diferentes.

13.2.1 SEM basado en la covarianza (CB-SEM)

El SEM Basado en la Covarianza, o CB-SEM (por sus siglas en inglés, Covariance-Based SEM), es el enfoque clásico y original del modelado de ecuaciones estructurales.

  • Objetivo Principal: Su propósito fundamental es la confirmación de la teoría. El CB-SEM busca determinar el grado en que un modelo teórico, propuesto a priori por el investigador, es capaz de reproducir la matriz de covarianzas observada en los datos. La pregunta clave que responde es: “¿Es mi teoría compatible con la realidad de los datos?”.
  • Mecanismo: Utiliza un estimador, habitualmente el de Máxima Verosimilitud (Maximum Likelihood), que busca minimizar la discrepancia entre la matriz de covarianzas observada y la matriz de covarianzas que el modelo teórico implicaría.
  • Requisitos: Es un método exigente y se considera de naturaleza confirmatoria. Requiere una base teórica sólida, muestras relativamente grandes (generalmente > 200 casos) y, en su forma clásica, asume que los datos siguen una distribución normal multivariante.
  • Evaluación: El resultado principal es un conjunto de índices de bondad de ajuste global (como el χ², CFI, TLI, RMSEA, SRMR) que evalúan el ajuste del modelo en su totalidad. Un buen ajuste sugiere que la teoría del investigador es una representación plausible de las relaciones en los datos.
  • Software en R: El paquete de referencia para su implementación es lavaan.

13.2.2 SEM basado en mínimos cuadrados parciales (PLS-SEM)

El SEM Basado en Mínimos Cuadrados Parciales, o PLS-SEM (por Partial Least Squares SEM), es un enfoque más reciente que ha ganado una enorme popularidad por su flexibilidad y su orientación predictiva.

  • Objetivo Principal: Su propósito fundamental es la predicción y la explicación de la varianza. El PLS-SEM busca maximizar la varianza explicada de los constructos dependientes (endógenos) del modelo. La pregunta clave que responde es: “¿Cuál es la capacidad predictiva de mi modelo y qué constructos son los predictores más importantes?”.
  • Mecanismo: Utiliza un algoritmo iterativo basado en componentes que no intenta reproducir la matriz de covarianzas, sino que se centra en optimizar la capacidad predictiva de las relaciones especificadas en el modelo.
  • Requisitos: Es un método mucho más flexible y se considera de naturaleza predictiva y exploratoria. Funciona muy bien con muestras pequeñas, no requiere el supuesto de normalidad de los datos y es capaz de manejar modelos de gran complejidad (muchos constructos e indicadores).
  • Evaluación: No se basa en índices de ajuste global. La evaluación se centra en la calidad del modelo de medida (fiabilidad, validez convergente y discriminante) y, sobre todo, en la capacidad predictiva del modelo estructural (el valor de de los constructos dependientes, la relevancia predictiva ) y en la significancia de las relaciones (coeficientes de las rutas), que se determina mediante técnicas de remuestreo como el bootstrapping.
  • Software en R: El paquete de referencia para su implementación es seminr.

13.2.3 Un resumen comparativo

La siguiente tabla resume las diferencias fundamentales entre ambos enfoques, ayudando al investigador a elegir la herramienta más adecuada para su problema.

Característica CB-SEM (Confirmatorio) PLS-SEM (Predictivo)
Objetivo Principal Confirmación de la teoría, ajuste del modelo Predicción, explicación de la varianza
Pregunta Clave ¿Se ajusta mi teoría a los datos? ¿Cuál es la capacidad predictiva del modelo?
Algoritmo Basado en la covarianza (MLE) Basado en componentes (PLS)
Tamaño Muestral Grande (>200) Pequeño o grande
Supuesto de Normalidad Requerido (en su forma clásica) No requerido
Complejidad del Modelo Preferiblemente modelos más sencillos Maneja modelos muy complejos
Evaluación Principal Índices de bondad de ajuste global (CFI, RMSEA…) R², Q², significancia de las rutas (bootstrapping)
Naturaleza Confirmatoria Predictiva / Exploratoria

Como resumen Hair et al. (2021), “mientras que el CB-SEM es principalmente una técnica de confirmación, el PLS-SEM se considera principalmente una técnica de predicción” (p. 25).

13.3 Hoja de ruta de este capítulo

Con esta distinción fundamental en mente, la estructura de este capítulo está diseñada para explorar cada una de estas filosofías en profundidad. * En la sección siguiente, nos sumergiremos en los fundamentos teóricos y los matices del CB-SEM, detallando su lógica, sus requisitos y su proceso de evaluación. * A continuación, aplicaremos estos conceptos en un caso práctico completo utilizando el paquete lavaan. * Posteriormente, dedicaremos una sección a explorar en detalle la metodología del PLS-SEM, su algoritmo y sus criterios de evaluación específicos. * Finalmente, cerraremos el capítulo con un caso práctico exhaustivo utilizando el paquete seminr, donde aplicaremos el conocido “Corporate Reputation Model” para ilustrar todo el proceso de análisis.

Este recorrido nos proporcionará una visión completa y equilibrada del modelado de ecuaciones estructurales, equipándonos con el conocimiento necesario para elegir y aplicar la técnica más adecuada en función de nuestros objetivos de investigación.

13.4 Profundizando en el SEM basado en la covarianza (CB-SEM)

En nuestra introducción, establecimos el CB-SEM como el enfoque clásico y confirmatorio del modelado de ecuaciones estructurales. Su ADN es la prueba de teorías. Mientras que otras técnicas exploran los datos para encontrar patrones, el CB-SEM somete una teoría preexistente a un riguroso escrutinio estadístico. En esta sección, desglosaremos la lógica fundamental que subyace a este enfoque, sus componentes, sus requisitos y el proceso que un investigador debe seguir para validar su modelo teórico.

13.4.1 El principio fundamental: la reproducción de la matriz de covarianzas

Para entender el CB-SEM, debemos comprender su objetivo central. Imaginemos que nuestros datos observados tienen una “huella dactilar” única: esta huella es su matriz de varianzas y covarianzas. Esta matriz contiene toda la información sobre cómo se relacionan nuestras variables entre sí. Por otro lado, nuestro modelo teórico, con sus constructos latentes y sus flechas causales, también implica una “huella dactilar” teórica: una matriz de covarianzas implicada por el modelo.

El principio fundamental del CB-SEM es comparar estas dos huellas dactilares. El algoritmo, habitualmente el de Máxima Verosimilitud, estima los parámetros del modelo (cargas factoriales, coeficientes de las rutas, etc.) con el objetivo de que la matriz de covarianzas implicada por el modelo se parezca lo máximo posible a la matriz de covarianzas que hemos observado en nuestros datos. La pregunta que responde el CB-SEM es, por tanto: ¿el grado en que la estructura de relaciones que yo he teorizado es capaz de replicar las relaciones que realmente existen en mis datos? Si la discrepancia entre ambas matrices es pequeña, concluimos que el modelo tiene un buen ajuste y que nuestra teoría es una representación plausible de la realidad (Kline 2016).

13.4.2 El proceso de modelado en dos etapas: la base de la validación

Una de las prácticas más importantes y rigurosas en CB-SEM es el enfoque de modelado en dos etapas, propuesto por (Anderson and Gerbing 1988). Este enfoque dicta que, antes de probar las relaciones causales entre los constructos (el modelo estructural), primero debemos asegurarnos de que hemos medido bien dichos constructos (el modelo de medida). Es como construir un edificio: antes de poner el tejado (probar las hipótesis), debemos asegurarnos de que los cimientos y los pilares (nuestras escalas de medida) son sólidos.

13.4.2.1 Etapa 1: validación del modelo de medida (AFC)

Esta etapa es, en esencia, la aplicación del Análisis Factorial Confirmatorio (AFC) que vimos en el capítulo anterior, pero a menudo con todos los constructos del modelo a la vez. El objetivo es responder a las siguientes preguntas: * Validez Convergente: ¿Los ítems que se supone que miden un mismo constructo realmente convergen en él? Esto se evalúa examinando la magnitud y significancia de las cargas factoriales y la Varianza Extraída Media (AVE). * Validez Discriminante: ¿Son nuestros constructos latentes realmente distintos entre sí? Esto se evalúa comprobando que la correlación entre los constructos no sea excesivamente alta. * Fiabilidad: ¿Son nuestras escalas internamente consistentes? Se evalúa mediante la Fiabilidad Compuesta (ρc), que es el análogo del Alfa de Cronbach en el entorno SEM.

Solo cuando hemos demostrado que nuestro modelo de medida tiene un buen ajuste a los datos y cumple con los criterios de fiabilidad y validez, podemos proceder a la segunda etapa. Si el modelo de medida es deficiente, cualquier conclusión sobre el modelo estructural carecerá de fundamento.

13.4.2.2 Etapa 2: prueba del modelo estructural

Una vez validados los cimientos, pasamos a probar el “tejado”: las hipótesis causales entre los constructos latentes. En esta etapa, añadimos las flechas direccionales entre los constructos (por ejemplo, de “Satisfacción” a “Lealtad”) y evaluamos el modelo completo. Las preguntas clave aquí son: * ¿El modelo estructural completo sigue teniendo un buen ajuste global? * ¿Son los coeficientes de las rutas (path coefficients), que representan las hipótesis, estadísticamente significativos? * ¿Cuál es la magnitud y la dirección de estos efectos? * ¿Cuánta varianza de los constructos dependientes (endógenos) es explicada por el modelo (el )?

13.4.3 Conceptos técnicos clave en CB-SEM

13.4.3.1 Identificación del modelo

Un modelo debe ser identificado para poder ser estimado. Esto significa que debe haber suficiente información en nuestros datos (las varianzas y covarianzas observadas) para poder estimar una única solución para cada uno de los parámetros del modelo (las “incógnitas”). Existen tres estados: * Sub-identificado: Hay más parámetros a estimar que información disponible. El modelo no tiene solución. * Justo-identificado: Hay exactamente la misma cantidad de información que de parámetros. El modelo tiene una única solución, pero se ajustará perfectamente a los datos, por lo que no podemos probar su ajuste. * Sobre-identificado: Hay más información en los datos que parámetros a estimar. Este es el objetivo deseado. El modelo tiene grados de libertad positivos, lo que nos permite contrastar estadísticamente su bondad de ajuste.

13.4.3.2 Métodos de estimación

El método estándar es el de Máxima Verosimilitud (ML). Es el más eficiente, pero asume que los datos siguen una distribución normal multivariante. Cuando este supuesto se viola (lo cual es común), se deben utilizar estimadores robustos, como el de Máxima Verosimilitud Robusta (MLR o MLM), que ajustan tanto el test Chi-cuadrado como los errores estándar de los parámetros para tener en cuenta la falta de normalidad (Byrne 2016).

13.4.3.3 Modificación del modelo y los índices de modificación

¿Qué hacemos si nuestro modelo inicial no se ajusta bien a los datos? El software nos proporciona índices de modificación (IM), que nos indican cuánto mejoraría el Chi-cuadrado del modelo si liberáramos un parámetro previamente fijado (por ejemplo, si permitiéramos que un ítem cargara en un segundo factor, o que los errores de dos ítems se correlacionaran).

Advertencia Metodológica: El uso de los índices de modificación debe ser extremadamente cauto y siempre guiado por la teoría. Modificar un modelo basándose únicamente en los IM más altos es una práctica muy peligrosa que puede llevar a capitalizar el azar de la muestra y a obtener un modelo que no se replicará en futuros estudios (Hair et al. 2019). Es el equivalente a una “expedición de pesca” estadística. Cualquier modificación debe tener un sólido respaldo teórico antes de ser implementada.

13.4.4 Casos de uso principales para el CB-SEM

Dada su naturaleza confirmatoria y su rigor, el CB-SEM es la herramienta de elección para: * Validación de teorías: Probar modelos complejos derivados de la literatura en campos como la psicología, el marketing o la sociología. * Validación de escalas de medida: Es el método estándar para el desarrollo y validación de instrumentos psicométricos. * Análisis de mediación y moderación: Permite probar hipótesis complejas sobre cómo una variable (mediadora) transmite el efecto de otra, o cómo una tercera variable (moderadora) altera la fuerza de una relación. * Pruebas de invarianza de medida: Para comprobar si una escala de medida funciona de la misma manera en diferentes grupos (ej. hombres y mujeres, diferentes países).

En resumen, el CB-SEM es una metodología exigente pero inmensamente poderosa. Requiere que el investigador tenga una teoría clara y bien fundamentada antes de acercarse a los datos. Su recompensa es la capacidad de someter esa teoría a una de las pruebas estadísticas más completas y rigurosas disponibles, proporcionando una fuerte evidencia a favor o en contra de nuestras hipótesis. En la siguiente sección, pondremos toda esta teoría en práctica.

13.5 Aplicación práctica: probando un modelo de satisfacción y lealtad del cliente

En la sección anterior, validamos un modelo de medida de dos factores, demostrando que nuestras escalas para “Satisfacción” y “Lealtad” eran fiables y válidas. Cumplimos con éxito la Etapa 1 del enfoque de modelado en dos etapas. Ahora, estamos listos para la Etapa 2: probar el modelo estructural y responder a nuestra pregunta de investigación fundamental.

13.5.1 Objetivo de la investigación

Nuestra teoría de marketing postula una relación causal directa entre la satisfacción del cliente y su lealtad subsecuente. El objetivo de este análisis es:

Utilizar el CB-SEM para probar formalmente la hipótesis de que la “Satisfacción del Cliente” (constructo latente exógeno) tiene un efecto positivo y estadísticamente significativo sobre la “Lealtad del Cliente” (constructo latente endógeno).

13.5.2 Preparación de los datos

Continuaremos trabajando con el mismo conjunto de datos de 300 clientes y 7 ítems que validamos en el capítulo de AFC. Es crucial partir de un modelo de medida ya validado para que nuestras conclusiones sobre el modelo estructural sean fiables.

Code
# Cargamos los paquetes necesarios
library(lavaan)
This is lavaan 0.6-19
lavaan is FREE software! Please report any bugs.
Code
library(semPlot)
library(tidyverse)
── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.4     ✔ readr     2.1.5
✔ forcats   1.0.0     ✔ stringr   1.5.1
✔ ggplot2   4.0.0     ✔ tibble    3.3.0
✔ lubridate 1.9.4     ✔ tidyr     1.3.1
✔ purrr     1.1.0     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
Code
# Recreamos exactamente los mismos datos del capítulo de AFC para garantizar la coherencia
set.seed(42)
n <- 300
library(MASS)

Adjuntando el paquete: 'MASS'

The following object is masked from 'package:dplyr':

    select
Code
cor_matrix <- matrix(c(1, 0.6, 0.6, 1), nrow = 2)
latentes <- mvrnorm(n, mu = c(0, 0), Sigma = cor_matrix, empirical = TRUE)
latent_satisfaction <- latentes[, 1]
latent_lealtad <- latentes[, 2]
datos_sem <- data.frame(
  SAT1_General = 7 + 0.85*latent_satisfaction + rnorm(n,0,0.5), SAT2_Expectativas = 7 + 0.80*latent_satisfaction + rnorm(n,0,0.6),
  SAT3_Ideal = 7 + 0.90*latent_satisfaction + rnorm(n,0,0.4), SAT4_Recomendacion = 7 + 0.82*latent_satisfaction + rnorm(n,0,0.5),
  LEAL1_Recompra = 6 + 0.88*latent_lealtad + rnorm(n,0,0.5), LEAL2_Exclusividad = 6 + 0.82*latent_lealtad + rnorm(n,0,0.6),
  LEAL3_Futuro = 6 + 0.91*latent_lealtad + rnorm(n,0,0.4)
)
datos_sem <- as.data.frame(lapply(datos_sem, function(x) round(pmin(10, pmax(1, x)))))

13.5.3 Ejecución del análisis: el enfoque en dos etapas

13.5.3.1 Etapa 1: re-validación del modelo de medida (AFC)

Aunque ya lo hicimos, es una buena práctica comenzar siempre confirmando que nuestro modelo de medida (el AFC de dos factores correlacionados) sigue siendo válido. Esto asegura que nuestros cimientos son sólidos antes de construir sobre ellos.

Code
# Especificamos el modelo de medida (AFC)
modelo_medida <- '
  Satisfaccion =~ SAT1_General + SAT2_Expectativas + SAT3_Ideal + SAT4_Recomendacion
  Lealtad =~ LEAL1_Recompra + LEAL2_Exclusividad + LEAL3_Futuro
'
# Ajustamos el modelo de medida
fit_medida <- cfa(modelo_medida, data = datos_sem)

# Obtenemos un resumen rápido de los índices de ajuste
fitMeasures(fit_medida, c("chisq", "df", "pvalue", "cfi", "tli", "rmsea", "srmr"))
 chisq     df pvalue    cfi    tli  rmsea   srmr 
13.294 13.000  0.425  1.000  1.000  0.009  0.022 

Interpretación: Los índices de ajuste son excelentes (CFI/TLI > 0.95, RMSEA < 0.06, SRMR < 0.08, y un p-valor de Chi-cuadrado no significativo), confirmando que nuestro modelo de medida es robusto. Podemos proceder con confianza a la Etapa 2.

13.5.3.2 Etapa 2: especificación y estimación del modelo estructural

Ahora, extendemos nuestro modelo para incluir la hipótesis causal. Añadimos una regresión (~) que especifica que Lealtad es predicha por Satisfaccion.

Code
# Especificamos el modelo estructural completo
modelo_sem <- '
  # Modelo de Medida (igual que antes)
  Satisfaccion =~ SAT1_General + SAT2_Expectativas + SAT3_Ideal + SAT4_Recomendacion
  Lealtad =~ LEAL1_Recompra + LEAL2_Exclusividad + LEAL3_Futuro
  
  # Modelo Estructural (la hipótesis causal)
  Lealtad ~ Satisfaccion
'

# Ajustamos el modelo estructural a los datos
fit_sem <- sem(modelo_sem, data = datos_sem)

13.5.4 Interpretación de los resultados del modelo estructural

Ahora, examinamos el resumen completo del modelo final.

Code
summary(fit_sem, fit.measures = TRUE, standardized = TRUE, rsquare = TRUE)
lavaan 0.6-19 ended normally after 22 iterations

  Estimator                                         ML
  Optimization method                           NLMINB
  Number of model parameters                        15

  Number of observations                           300

Model Test User Model:
                                                      
  Test statistic                                13.294
  Degrees of freedom                                13
  P-value (Chi-square)                           0.425

Model Test Baseline Model:

  Test statistic                              1224.972
  Degrees of freedom                                21
  P-value                                        0.000

User Model versus Baseline Model:

  Comparative Fit Index (CFI)                    1.000
  Tucker-Lewis Index (TLI)                       1.000

Loglikelihood and Information Criteria:

  Loglikelihood user model (H0)              -2429.052
  Loglikelihood unrestricted model (H1)      -2422.405
                                                      
  Akaike (AIC)                                4888.104
  Bayesian (BIC)                              4943.661
  Sample-size adjusted Bayesian (SABIC)       4896.090

Root Mean Square Error of Approximation:

  RMSEA                                          0.009
  90 Percent confidence interval - lower         0.000
  90 Percent confidence interval - upper         0.058
  P-value H_0: RMSEA <= 0.050                    0.895
  P-value H_0: RMSEA >= 0.080                    0.003

Standardized Root Mean Square Residual:

  SRMR                                           0.022

Parameter Estimates:

  Standard errors                             Standard
  Information                                 Expected
  Information saturated (h1) model          Structured

Latent Variables:
                   Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
  Satisfaccion =~                                                       
    SAT1_General      1.000                               0.892    0.852
    SAT2_Expecttvs    0.883    0.059   15.082    0.000    0.788    0.756
    SAT3_Ideal        0.987    0.054   18.369    0.000    0.881    0.865
    SAT4_Recomndcn    0.961    0.056   17.212    0.000    0.858    0.827
  Lealtad =~                                                            
    LEAL1_Recompra    1.000                               0.833    0.830
    LEAL2_Exclsvdd    0.876    0.065   13.399    0.000    0.730    0.736
    LEAL3_Futuro      1.082    0.070   15.381    0.000    0.901    0.859

Regressions:
                   Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
  Lealtad ~                                                             
    Satisfaccion      0.586    0.059    9.902    0.000    0.628    0.628

Variances:
                   Estimate  Std.Err  z-value  P(>|z|)   Std.lv  Std.all
   .SAT1_General      0.300    0.034    8.697    0.000    0.300    0.273
   .SAT2_Expecttvs    0.466    0.044   10.510    0.000    0.466    0.429
   .SAT3_Ideal        0.260    0.031    8.270    0.000    0.260    0.251
   .SAT4_Recomndcn    0.341    0.036    9.383    0.000    0.341    0.317
   .LEAL1_Recompra    0.312    0.041    7.706    0.000    0.312    0.310
   .LEAL2_Exclsvdd    0.450    0.045    9.975    0.000    0.450    0.458
   .LEAL3_Futuro      0.288    0.043    6.652    0.000    0.288    0.262
    Satisfaccion      0.796    0.089    8.905    0.000    1.000    1.000
   .Lealtad           0.420    0.056    7.499    0.000    0.605    0.605

R-Square:
                   Estimate
    SAT1_General      0.727
    SAT2_Expecttvs    0.571
    SAT3_Ideal        0.749
    SAT4_Recomndcn    0.683
    LEAL1_Recompra    0.690
    LEAL2_Exclsvdd    0.542
    LEAL3_Futuro      0.738
    Lealtad           0.395

13.5.4.1 Evaluación del ajuste global del modelo estructural

Primero, comprobamos si el modelo en su conjunto sigue ajustándose bien a los datos. * Test Chi-cuadrado (χ²): El valor es 13.29 con 13 grados de libertad, y un p-valor de 0.425. El ajuste sigue siendo excelente. * Índices de Ajuste (CFI, TLI, RMSEA, SRMR): Los valores de CFI (1), TLI (1), RMSEA (0.009) y SRMR (0.022) son prácticamente idénticos a los del modelo de medida y todos indican un ajuste excelente.

Conclusión del Ajuste Global: Nuestro modelo teórico, que postula una relación causal de la Satisfacción a la Lealtad, es altamente compatible con los datos observados.

13.5.4.2 Evaluación de las hipótesis (el modelo estructural)

Ahora, nos centramos en la sección Regressions para probar nuestra hipótesis.

Code
# Extraemos los parámetros del modelo estructural para una visualización clara
parameterEstimates(fit_sem, standardized = TRUE) %>% 
  filter(op == "~")
      lhs op          rhs   est    se     z pvalue ci.lower ci.upper std.lv
1 Lealtad  ~ Satisfaccion 0.586 0.059 9.902      0     0.47    0.703  0.628
  std.all
1   0.628

Interpretación: * Relación: La tabla muestra la ruta Lealtad ~ Satisfaccion. * Estimación Estandarizada (std.all): El coeficiente de la ruta estandarizado es 0.63. Este valor, análogo a un coeficiente Beta en regresión, indica que por cada aumento de una desviación estándar en la Satisfacción, la Lealtad aumenta en 0.63 desviaciones estándar. Es un efecto de gran magnitud. * Significancia (pvalue): El p-valor es < 0.001, lo que indica que el efecto de la Satisfacción sobre la Lealtad es altamente significativo.

Conclusión de la Hipótesis: La evidencia estadística respalda firmemente nuestra hipótesis. Existe una relación positiva y significativa entre la Satisfacción del Cliente y su Lealtad.

13.5.4.3 Evaluación de la varianza explicada (R²)

Finalmente, miramos la sección R-Square en el resumen para cuantificar el poder explicativo de nuestro modelo. * El valor de R² para el constructo endógeno Lealtad es de 0.39.

Interpretación: Nuestro modelo explica el 39% de la varianza en la Lealtad del Cliente. Esto significa que la Satisfacción es un predictor muy potente de la Lealtad.

13.5.5 Visualización del modelo estructural final

Un diagrama de ruta es la mejor manera de comunicar nuestros resultados finales.

Code
# Creamos el diagrama de ruta para el modelo estructural completo
semPaths(fit_sem, 
         what = "std", 
         layout = "tree2",
         edge.label.cex = 0.9,
         residuals = TRUE,
         intercepts = FALSE,
         rotation = 2)

El diagrama muestra el modelo completo: los dos modelos de medida validados y, lo más importante, la flecha direccional que va de Satisfaccion a Lealtad, con su coeficiente estandarizado de 0.63, confirmando visualmente nuestra hipótesis principal.

13.5.6 Conclusiones

Siguiendo el riguroso enfoque en dos etapas del CB-SEM, hemos logrado ir más allá de la simple correlación para probar una hipótesis direccional. 1. Primero, validamos nuestro modelo de medida, asegurando que medíamos de forma fiable y válida tanto la “Satisfacción” como la “Lealtad”. 2. Segundo, probamos el modelo estructural, encontrando un excelente ajuste a los datos y confirmando que la Satisfacción del Cliente tiene un efecto causal positivo y muy fuerte sobre la Lealtad del Cliente.

Este análisis no solo nos da confianza en nuestra teoría, sino que también proporciona una visión estratégica clara: para una empresa que busca fomentar la lealtad, las iniciativas destinadas a aumentar la satisfacción del cliente son una inversión con un retorno estadísticamente demostrable.

13.6 SEM basado en mínimos cuadrados parciales (PLS-SEM)

Tras explorar el riguroso mundo confirmatorio del CB-SEM, nos adentramos ahora en su contraparte predictiva y flexible: el SEM Basado en Mínimos Cuadrados Parciales. El PLS-SEM no es simplemente una “alternativa” al CB-SEM para cuando los datos no son normales; es una metodología con una filosofía, un objetivo y un algoritmo fundamentalmente diferentes. Su propósito no es probar si una teoría es correcta en un sentido absoluto, sino desarrollar modelos teóricos que demuestren una alta capacidad predictiva (Hair et al. 2021).

13.6.1 El principio fundamental: la maximización de la varianza explicada

A diferencia del CB-SEM, que se obsesiona con reproducir la matriz de covarianzas, el PLS-SEM se centra en la predicción. Su algoritmo está diseñado para maximizar la varianza explicada (el R²) de los constructos endógenos (dependientes) del modelo. La lógica es más cercana a una serie de regresiones interconectadas que a un análisis de estructuras de covarianza. El PLS-SEM busca responder a la pregunta: ¿cuál es la capacidad de mis constructos predictores para explicar la variabilidad de mis constructos resultado?

Para lograr esto, el algoritmo PLS funciona de manera iterativa en dos etapas principales:

  1. Estimación de las Puntuaciones de los Constructos Latentes: El algoritmo comienza estimando las puntuaciones de cada constructo latente como una combinación lineal ponderada de sus indicadores (el modelo de medida). Lo hace en un proceso iterativo que va y viene entre los indicadores y las puntuaciones latentes hasta que los pesos convergen.
  2. Estimación de los Coeficientes de las Rutas: Una vez que se han estimado las puntuaciones de los constructos latentes, el algoritmo ejecuta una serie de regresiones por Mínimos Cuadrados Ordinarios (MCO) para estimar los coeficientes de las rutas entre los constructos (el modelo estructural).

Este proceso, que se repite hasta la convergencia global, es lo que permite al PLS-SEM ser tan flexible y no depender de supuestos distribucionales (Wold 1982).

13.6.2 La gran ventaja: modelos de medida formativos

Una de las capacidades más distintivas y poderosas del PLS-SEM es su habilidad para manejar modelos de medida formativos. Hasta ahora, solo hemos hablado de modelos reflectivos, donde los indicadores son un “reflejo” del constructo latente (las flechas van del constructo a los ítems). Sin embargo, en muchas áreas, los constructos se forman a partir de sus indicadores.

  • Modelo Reflectivo: Los indicadores son intercambiables y deben estar altamente correlacionados. Ejemplo: los ítems “satisfecho con el servicio”, “volvería a comprar” y “lo recomendaría” son todos reflejos de un constructo subyacente de “Satisfacción”.
  • Modelo Formativo: Los indicadores son las “causas” o los “ingredientes” que definen el constructo. No necesitan estar correlacionados. Ejemplo: el constructo “Estrés Laboral” puede ser formado por los indicadores “presión de tiempo”, “conflictos con el jefe” y “baja remuneración”. Estos tres indicadores no tienen por qué estar correlacionados entre sí, pero juntos definen el nivel de estrés.

El CB-SEM tiene grandes dificultades para estimar modelos formativos, mientras que el PLS-SEM está diseñado para manejarlos con eficacia, lo que abre un abanico de posibilidades teóricas que de otro modo serían intratables (Hair et al. 2021).

13.6.3 El proceso de evaluación en PLS-SEM: un camino de dos etapas

La evaluación de un modelo PLS-SEM es un proceso sistemático y jerárquico. Es fundamental seguir los pasos en el orden correcto, ya que la evaluación del modelo estructural solo tiene sentido si el modelo de medida es sólido (Sarstedt, Ringle, and Hair 2020).

13.6.3.1 Etapa 1: evaluación del modelo de medida reflectivo

Antes de mirar las hipótesis, debemos asegurar la calidad de nuestras mediciones.

  1. Fiabilidad de los Indicadores: Se evalúa mediante las cargas (loadings) de cada ítem en su constructo. La regla general es que las cargas estandarizadas deben ser > 0.708. Este valor se debe a que su cuadrado (0.708² ≈ 0.50) significa que el constructo explica más del 50% de la varianza del ítem.
  2. Fiabilidad de Consistencia Interna: Se evalúa mediante el Alfa de Cronbach, pero se prefiere la Fiabilidad Compuesta (Composite Reliability, ρc), ya que no asume que todas las cargas de los indicadores son iguales. Los valores de ρc deben estar entre 0.70 y 0.95.
  3. Validez Convergente: Mide el grado en que un constructo explica la varianza de sus propios indicadores. Se evalúa mediante la Varianza Extraída Media (AVE). Un valor de AVE > 0.50 es necesario para confirmar la validez convergente.
  4. Validez Discriminante: Es crucial demostrar que un constructo es empíricamente distinto de los otros constructos del modelo. El criterio moderno y más fiable es el HTMT (Heterotrait-Monotrait Ratio of Correlations). El HTMT es una estimación de la correlación entre constructos si se midieran sin error. Para que exista validez discriminante, el valor de HTMT entre dos constructos debe ser < 0.90 (o < 0.85 si los constructos son conceptualmente muy similares) (Henseler, Ringle, and Sarstedt 2015).

13.6.3.2 Etapa 2: evaluación del modelo estructural

Una vez que el modelo de medida es satisfactorio, podemos proceder a probar nuestras hipótesis.

  1. Evaluación de la Colinealidad: Se comprueba que no haya colinealidad entre los constructos predictores que apuntan a un mismo constructo dependiente. Se calculan los VIF (Factor de Inflación de la Varianza), que deben ser < 5 (idealmente < 3).
  2. Evaluación de los Coeficientes de las Rutas (Path Coefficients): Estos coeficientes (β) representan las hipótesis del modelo. Se evalúa su signo, magnitud y, lo más importante, su significancia estadística. Dado que el PLS-SEM es no paramétrico, la significancia no se puede asumir teóricamente. Se determina mediante una técnica de remuestreo llamada bootstrapping. El bootstrapping genera un gran número de submuestras a partir de los datos originales para estimar la distribución del coeficiente y calcular su p-valor.
  3. Evaluación del Coeficiente de Determinación (R²): Mide la cantidad de varianza de un constructo endógeno que es explicada por sus predictores. Es una medida del poder explicativo del modelo. Como regla general en marketing, valores de R² de 0.75, 0.50 y 0.25 se consideran, respectivamente, sustanciales, moderados y débiles (Hair et al. 2019).
  4. Evaluación de la Relevancia Predictiva (Q²): Mientras que el R² mide el poder explicativo dentro de la muestra, el Q² de Stone-Geisser evalúa la relevancia predictiva fuera de la muestra. Se calcula mediante un procedimiento de remuestreo llamado blindfolding. Un valor de Q² > 0 para un constructo endógeno indica que el modelo tiene relevancia predictiva para ese constructo.

13.6.4 Casos de uso principales para el PLS-SEM

El PLS-SEM es la metodología de elección cuando: * El objetivo de la investigación es la predicción o la identificación de los principales factores determinantes. * El modelo estructural es complejo, con un gran número de constructos e indicadores. * Los datos no cumplen el supuesto de normalidad. * El tamaño de la muestra es pequeño. * El modelo incluye constructos formativos. * La investigación se encuentra en una etapa exploratoria del desarrollo de una teoría.

En resumen, el PLS-SEM ofrece un enfoque robusto y flexible para el modelado de ecuaciones estructurales, con un fuerte énfasis en la predicción y la aplicabilidad práctica. Su riguroso proceso de evaluación en dos etapas garantiza que las conclusiones extraídas sean tanto estadísticamente sólidas como teóricamente significativas.

13.7 Aplicación práctica: el modelo de reputación corporativa con PLS-SEM

Llegamos al punto final de nuestro recorrido, donde aplicaremos la potente y flexible metodología del PLS-SEM para probar un modelo teórico completo. Utilizaremos como caso de estudio el Modelo de Reputación Corporativa, un ejemplo canónico detallado en la obra de referencia de Hair et al. (2021). Este análisis servirá como un resumen práctico de los capítulos 3, 4, 5 y 6 de dicho libro.

13.7.1 Objetivo de la investigación

Una empresa de telecomunicaciones desea entender los factores que construyen la satisfacción y la lealtad de sus clientes. Para ello, se ha desarrollado un modelo teórico que postula que la percepción de Competencia y Simpatía de la empresa influyen positivamente en la Satisfacción del cliente, y que estas tres, a su vez, fomentan la Lealtad.

El objetivo de este análisis es:

Utilizar PLS-SEM para estimar y validar el Modelo de Reputación Corporativa, evaluando tanto la calidad de las escalas de medida como la capacidad predictiva del modelo estructural para explicar la Satisfacción y la Lealtad del Cliente, incluyendo el análisis de los efectos de mediación.

13.7.2 Preparación de los datos y especificación del modelo

Utilizaremos el conjunto de datos corporatereputation que viene incluido en el paquete seminr.

Code
# Cargamos los paquetes necesarios
library(seminr)

Adjuntando el paquete: 'seminr'
The following object is masked from 'package:purrr':

    rerun
Code
library(tidyverse)

# Los datos ya están disponibles en el paquete con el nombre 'corporatereputation'
# Vistazo a los datos
glimpse(corp_rep_data)
Rows: 344
Columns: 50
$ serviceprovider <int> 3, 3, 3, 3, 3, 3, 1, 1, 3, 3, 1, 1, 2, 1, 1, 1, 1, 1, …
$ servicetype     <int> 2, 2, 2, 2, 2, 2, 1, 1, 1, 2, 1, 1, 2, 2, 2, 2, 1, 1, …
$ csor_1          <int> 3, 2, 3, 3, 4, 3, 7, 4, 7, 4, 4, 4, 4, 4, 5, 3, 6, 5, …
$ csor_2          <int> 3, 5, 1, 3, 3, 3, 5, 1, 5, 1, 6, 3, 2, 4, 3, 2, 3, 5, …
$ csor_3          <int> 3, 6, 2, 5, 4, 4, 7, 3, 6, 5, 4, 4, 3, 4, 5, 3, 2, 5, …
$ csor_4          <int> 3, 4, 2, 3, 4, 3, 3, 3, 4, 2, 4, 4, 2, 4, 4, 1, 3, 4, …
$ csor_5          <int> 3, 6, 4, 5, 4, 3, 3, 2, 6, 4, 4, 3, 2, 3, 1, 1, 4, 5, …
$ csor_global     <int> 3, 6, 4, 5, 4, 4, 7, 4, 7, 5, 6, 4, 4, 4, 5, 3, 6, 5, …
$ attr_1          <int> 5, 6, 5, 3, 6, 4, 5, 4, 6, 5, 4, 4, 4, 7, 4, 4, 7, 5, …
$ attr_2          <int> 1, 6, 6, 7, 6, 1, 7, 1, 3, 1, 1, 2, 1, 4, 1, 4, 1, 1, …
$ attr_3          <int> 3, 6, 5, 5, 6, 5, 3, 5, 7, 6, 3, 5, 4, 5, 6, 2, 3, 6, …
$ attr_global     <int> 5, 6, 6, 7, 6, 5, 7, 5, 7, 6, 4, 5, 4, 7, 6, 4, 7, 6, …
$ perf_1          <int> 5, 6, 4, 5, 5, 6, 4, 5, 7, 6, 4, 4, 3, 7, 4, 3, 7, 5, …
$ perf_2          <int> 4, 6, 4, 5, 6, 6, 7, 6, 7, 5, 6, 3, 5, 7, 7, 4, 7, 6, …
$ perf_3          <int> 2, 6, 2, 5, 7, 4, 6, 6, 4, 4, 4, 4, 4, 6, 7, 4, 6, 6, …
$ perf_4          <int> 5, 6, 5, 3, 6, 5, 5, 4, 6, 6, 4, 3, 3, 7, 6, 4, 3, 6, …
$ perf_5          <int> 6, 6, 4, 6, 5, 6, 4, 7, 7, 5, 4, 4, 4, 7, 7, 6, 4, 5, …
$ perf_global     <int> 6, 6, 5, 6, 7, 6, 7, 7, 7, 6, 6, 4, 5, 7, 7, 6, 7, 6, …
$ qual_1          <int> 5, 6, 3, 5, 6, 5, 5, 6, 7, 6, 6, 6, 4, 4, 1, 4, 7, 6, …
$ qual_2          <int> 6, 6, 4, 6, 5, 5, 5, 3, 7, 6, 6, 5, 2, 3, 2, 5, 7, 4, …
$ qual_3          <int> 4, 6, 3, 6, 7, 5, 6, 2, 6, 5, 7, 5, 4, 5, 1, 5, 6, 6, …
$ qual_4          <int> 2, 6, 4, 7, 7, 6, 4, 1, 7, 6, 5, 5, 3, 3, 3, 4, 6, 5, …
$ qual_5          <int> 4, 5, 3, 5, 6, 5, 7, 6, 6, 7, 6, 4, 4, 5, 2, 4, 1, 6, …
$ qual_6          <int> 4, 6, 5, 4, 6, 6, 7, 5, 7, 7, 6, 4, 3, 5, 5, 3, 7, 5, …
$ qual_7          <int> 2, 6, 4, 5, 6, 3, 4, 1, 6, 4, 6, 5, 3, 4, 5, 3, 2, 6, …
$ qual_8          <int> 5, 5, 4, 6, 7, 4, 4, 5, 7, 7, 4, 3, 4, 7, 6, 5, 7, 5, …
$ qual_global     <int> 6, 6, 5, 7, 7, 6, 7, 6, 7, 7, 7, 6, 4, 7, 6, 5, 7, 6, …
$ like_1          <int> 3, 6, 5, 6, 6, 6, 4, 4, 7, 6, 4, 4, 2, 3, 6, 3, 3, 6, …
$ like_2          <int> 1, 6, 5, 5, 6, 7, 1, 3, 5, 6, 4, 6, 4, 4, 4, 2, 5, 7, …
$ like_3          <int> 2, 6, 5, 6, 7, 7, 7, 4, 7, 6, 4, 5, 4, 7, 7, 3, 3, 6, …
$ comp_1          <int> 4, 6, 4, 6, 6, 3, 7, 6, 5, 6, 4, 3, 3, 5, 3, 3, 6, 6, …
$ comp_2          <int> 5, 7, 5, 4, 4, 4, 5, 6, 7, 5, 4, 6, 3, 7, 7, 3, 7, 7, …
$ comp_3          <int> 5, 6, 2, 4, 6, 4, 7, 6, 6, 5, 4, 2, 4, 7, 7, 3, 6, 6, …
$ cusl_1          <int> 5, 7, 7, 7, 6, 7, 7, 5, 5, 6, 4, 4, 4, 7, 4, 4, 2, 6, …
$ cusl_2          <int> 3, 7, 7, 7, 7, 7, 7, 4, 7, 6, 2, 5, 5, 7, 1, 4, 1, 6, …
$ cusl_3          <int> 3, 7, 5, 7, 7, 7, 7, 6, 7, 7, 1, 6, 5, 7, 1, 4, 3, 7, …
$ cusa            <int> 5, 7, 6, 6, 6, 6, 7, 4, 6, 6, 3, 4, 4, 5, 5, 4, 4, 6, …
$ age             <int> 2, 6, 2, 3, 2, 2, 1, 5, 1, 3, 2, 2, 5, 6, 3, 3, 2, 4, …
$ education       <int> 3, 3, 3, 4, 2, 2, 2, 2, 1, 2, 4, 2, 3, 2, 1, 2, 2, 2, …
$ occupation      <int> 11, -99, 11, 11, 12, 11, 11, 3, 11, 2, 6, 11, 5, -99, …
$ nphh            <int> 5, 2, 2, 1, 5, 1, 3, 3, 4, 2, 4, 3, 4, 2, 5, 1, 4, 4, …
$ sample_type     <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
$ mga_1           <int> 2, 2, 2, 2, 2, 2, 1, 1, 1, 2, 1, 1, 2, 2, 2, 2, 1, 1, …
$ mga_2           <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, …
$ mga_3           <int> 1, 1, 1, 1, 1, 1, 2, 2, 1, 1, 2, 2, 1, 2, 2, 2, 2, 2, …
$ mga_4           <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
$ switch_1        <int> 3, 5, 4, 3, 5, 5, 5, 4, 5, 5, 5, 3, 2, 4, 4, 2, 5, 4, …
$ switch_2        <int> 1, 5, 3, 4, 5, 2, 3, 1, 5, 3, 5, 4, 2, 3, 4, 2, 1, 5, …
$ switch_3        <int> 3, 4, 2, 4, 5, 4, 5, 5, 5, 5, 5, 3, 3, 4, 1, 3, 1, 5, …
$ switch_4        <int> 2, 4, 3, 2, 4, 4, 4, 3, 4, 4, 4, 2, 1, 3, 3, 1, 4, 3, …

En desarrollo …