1  Análisis exploratorio de datos (EDA)

Published

October 7, 2025

Code
source("~/R/r-data/16.eda/script.R")

1.1 Introducción

El proceso de la investigación comercial y en concreto de la investigación cuantitativa, se estructura en un proceso donde se aprecian claramente diversas fases:

  • Formulación del problema a investigar
  • Diseño de la investigación
  • Recolección de los datos a analizar
  • Análisis de datos e interpretación de los mismos
  • Redacción del informe de resultados, conclusiones y recomendaciones

El objeto de la presente publicación es la cuarta fase conocida como análisis de datos, pero antes de adentrarnos en la misma, creemos necesario refrescar algún concepto interesante para abordar los siguientes puntos, como es el conocimiento de los tipos de variables o escalas de medida, pues un aspecto fundamental del tratamiento de la información. Nos referimos al reconocimiento de los distintos niveles de medición que puede presentar un suceso o variable, ya que el nivel de medición de la misma condiciona el conjunto de análisis a realizar.

Como indican Wickham, Çetinkaya-Rundel, and Grolemund (), “el análisis de datos no es un proceso formal con un conjunto estricto de reglas. Más que nada, el análisis de datos es un estado mental y durante las fases iniciales del análisis de datos, debes sentirte libre de investigar cada idea que se te ocurra”. Algunas de estas ideas serán acertadas y otras no llevarán a ninguna parte, pero a medida que continúes tu exploración, te concentrarás en algunas ideas particularmente productivas que en ocasiones compartirás y comunicarás a otros stakeholders de tu proyecto.

El análisis de datos es una parte importante de cualquier proceso de investigación y comienza cuando te cuestionas si tus datos cumplen con tus expectativas o no. Para hacer esa exploración y limpieza de datos, necesitarás implementar todas las herramientas del análisis de datos: visualización, transformación y modelado.

No es objeto de este documento, el abordar la funcionalidad básica de R y el uso de paquetes básicos como tidyverse () que son y han sido ampliamente desarrollados desde la propia documentación del paquete y desde bibliografía de los autores donde explican su uso. Véase por ejemplo “R for Data Science” () y otros títulos relacionados del mismo autor sobre el sistema de visualización ggplot (). A medida que se desarrollen los diferentes capítulos, iremos aportando la bibliografía específica sobre lo paquetes utilizados y documentos que extiendan su uso.