Code
source("~/R/r-data/16.eda/script.R")source("~/R/r-data/16.eda/script.R")El proceso de la investigación comercial y en concreto de la investigación cuantitativa, se estructura en un proceso donde se aprecian claramente diversas fases:
El objeto de la presente publicación es la cuarta fase conocida como análisis de datos, pero antes de adentrarnos en la misma, creemos necesario refrescar algún concepto interesante para abordar los siguientes puntos, como es el conocimiento de los tipos de variables o escalas de medida, pues un aspecto fundamental del tratamiento de la información. Nos referimos al reconocimiento de los distintos niveles de medición que puede presentar un suceso o variable, ya que el nivel de medición de la misma condiciona el conjunto de análisis a realizar.
Como indican Wickham, Çetinkaya-Rundel, and Grolemund (2023), “el análisis de datos no es un proceso formal con un conjunto estricto de reglas. Más que nada, el análisis de datos es un estado mental y durante las fases iniciales del análisis de datos, debes sentirte libre de investigar cada idea que se te ocurra”. Algunas de estas ideas serán acertadas y otras no llevarán a ninguna parte, pero a medida que continúes tu exploración, te concentrarás en algunas ideas particularmente productivas que en ocasiones compartirás y comunicarás a otros stakeholders de tu proyecto.
El análisis de datos es una parte importante de cualquier proceso de investigación y comienza cuando te cuestionas si tus datos cumplen con tus expectativas o no. Para hacer esa exploración y limpieza de datos, necesitarás implementar todas las herramientas del análisis de datos: visualización, transformación y modelado.
No es objeto de este documento, el abordar la funcionalidad básica de R y el uso de paquetes básicos como tidyverse (Wickham et al. 2019) que son y han sido ampliamente desarrollados desde la propia documentación del paquete y desde bibliografía de los autores donde explican su uso. Véase por ejemplo “R for Data Science” (Wickham, Çetinkaya-Rundel, and Grolemund 2023) y otros títulos relacionados del mismo autor sobre el sistema de visualización ggplot (Wickham 2016). A medida que se desarrollen los diferentes capítulos, iremos aportando la bibliografía específica sobre lo paquetes utilizados y documentos que extiendan su uso.