Published

October 7, 2025

Code
source("~/R/r-data/16.eda/script.R")

El análisis exploratorio de datos es un poco difícil de describir en términos concretos y definitivos, pero creo que la mayoría de los investigadores que son analistas de datos lo saben cuando lo ven.

El análisis exploratorio de datos (EDA) es lo que ocurre en la caja negra o también llamada en ocasiones cocina de un proyecto de investigación o cualquier investigación basada en datos. EDA es el proceso de hacer el trabajo sucio para un análisis de datos. Los objetivos son muchos, pero incluyen identificar relaciones entre variables que son particularmente interesantes o inesperadas, verificar si hay alguna evidencia a favor o en contra de una hipótesis establecida, verificar si hay problemas con los datos recopilados, como datos faltantes o errores de medición, o identificar ciertas áreas donde se necesitan recopilar más datos. En este punto, los detalles más finos de la presentación de los datos y la evidencia, importantes para el producto final, no son necesariamente el foco.

En definitiva, el análisis estadístico de datos es importante porque permite al investigador tomar decisiones críticas sobre lo que es interesante investigar y lo que probablemente no valga la pena investigar, porque los datos simplemente no proporcionan la evidencia (y es posible que nunca la proporcionen, incluso con un seguimiento). Este tipo de decisiones son importantes para que un proyecto avance y se mantenga dentro de su presupuesto. Este libro cubre algunos de los conceptos básicos de análisis y visualización de datos en R, y resumen de datos de alta dimensión con técnicas de análisis estadístico multivariante. Hay menos énfasis en los métodos de inferencia estadística formal, ya que la inferencia no suele ser el foco del análisis estadístico de datos. En cambio, el objetivo es mostrar los datos, resumir la evidencia e identificar patrones interesantes mientras se eliminan las ideas que probablemente no resulten. A lo largo del libro, utilizamos el scripting de programación estadística R y la posibilidad que nos ofrece para hacer este trabajo. Cubriremos los diversos sistemas de gráficos en R y cómo usarlos de manera efectiva. También discutiremos cómo implementar técnicas de reducción de dimensión como la agrupación y la descomposición en valores específicos. Todas estas técnicas ayudarán a visualizar mejor y a tomar decisiones clave en cualquier análisis de datos.

Primeros pasos con R / RStudio

Instalación

Lo primero que debes hacer para comenzar a usar R es instalarlo en tu ordenador / computadora. R funciona en prácticamente todas las plataformas disponibles habituales: Windows, Mac OS X y Linux ampliamente disponibles, aunque no lo hace con Chrome Flex. Si quieres ver un tutorial paso a paso sobre cómo instalar R para Mac o Windows, puedes ver estos videos:

También hay un entorno de desarrollo integrado disponible para R creado por Posit Co, denominado RStudio, que es un IDE de programación y desarrollo de documentación e informes. Realmente es extraordinario este IDE: tiene un buen editor con resaltado de sintaxis, hay un visor de objetos R y varias otras características interesantes que están integradas. Puedes ver cómo instalar RStudio aquí: Instalación de RStudio. En fechas recientes se está extendiendo también el uso de Positron, una herramienta de Posit Co que intenta uniformizar el IDE de programación en Ciencia de Datos a los diferentes lenguajes en un entorno de edición común, Visual Studio Code Editor. Nosotros trabajaremos con RStudio.

El IDE de RStudio está disponible en el sitio web de Posit

Primeros pasos con la interfaz de RStudio

Después de instalar R y RStudio, debes iniciar este último y comenzar a escribir código R en los denominados scripts. Antes de llegar a exactamente cómo escribir código R, es útil tener una idea de cómo está organizado el sistema. Te recomiendo estos dos vídeos de Roger Peng al respecto. En estos dos videos se habla sobre dónde escribir código y cómo configurar tu directorio de trabajo, lo que le permite a R saber dónde encontrar todos tus archivos.

  1. Todos los derechos sobre estos vídeo-tutoriales quedan reservados a su autor (Peng 2020).