3 Conceptos básicos en el análisis cuantitativo

Published

October 7, 2025

Code

source("~/R/r-data/16.eda/script.R")

Aviso

Asumimos que el usuario de esta documentación, conoce los rudimentos de R y como se trabaja con los paquetes. En la documentación del libro, exponemos toda la sintaxis usada para obtener las informaciones que se requieren.

En este capítulo, una vez desarrolladas algunas ideas iniciales sobre la gestión y la manipulación de los datos con R, desarrollaremos algunos conceptos que son básicos para el aprendizaje e iniciación del análisis de los datos, pero ya desde una perspectiva del ámbito no tan generalista y sí más centrado en la parte estadística. Suponemos al usuario, familiarizado con el uso de R y le suministramos un marco de apoyo al tratamiento de datos, particularmente en datos provenientes de encuesta. A diferencia de la anterior sección, aquí el código desarrollado si ya será funcional y se trabajará sobre marcos de datos (dataframes) ya disponibles y específicos.

Los puntos que serán tratados a continuación como introducción son:

La matriz o tabla de datos, dataframe en terminología R;
Las variables o columnas del dataframe;
La relación entre pregunta, variable y código.

Profundizaremos también en las diferentes formas de medición de los datos que derivan en los tratamientos o análisis que demandamos de los datos; para ello analizaremos:

Niveles de medición, escalas básicas;
Diferencia entre cualitativo y cuantitativo;
Categorías de respuesta.

3.1 La matriz o tabla de datos

El término dato es una representación simbólica (numérica, alfabética, algorítmica etc.), de un atributo o de una característica de una entidad. El dato no tiene valor semántico (sentido) en sí mismo, pero si recibe un tratamiento (procesamiento) apropiado, se puede utilizar en la realización de cálculos o toma de decisiones. El estudio de los datos combinado con la aplicación del “know how” o conocimiento, genera información. La información es un fenómeno que proporciona significado o sentido a las cosas. En sentido general, la información es un conjunto organizado de datos procesados, que constituyen un mensaje sobre un determinado ente o fenómeno. Así, comprendemos que los datos se recogen, se integran y su análisis genera la información necesaria para producir el conocimiento que es el que finalmente permite tomar decisiones para realizar las acciones tácticas o estratégicas cotidianas que aseguran la evolución o cambio de las cosas.

En nuestro ámbito de la investigación de mercados, comercial, social o de opinión, todas comparten conocimiento y técnicas de análisis; así también coinciden en hecho de que trabajan con una matriz de datos, objeto de nuestro estudio. Llamamos matriz de datos a la relación ordenada de las informaciones recogidas para una unidad de análisis cualesquiera que sea su naturaleza y una valoración o medición de un elemento con variabilidad. Podemos introducir a esta relación una tercera dimensión que sería la temporalidad de las observaciones, pues éstas son cambiantes con el paso del tiempo.

Veamos un ejemplo: pretendemos tener una matriz de datos sobre las alturas de los individuos que forman parte de una aula de segundo de primaria; la altura, sería el elemento variable, mientras que el alumno sería la unidad de análisis, el tiempo incide en que con el paso del mismo, el elemento variable sufre modificaciones con una determinada tendencia. La representación de estos datos sería:

Table 3.1: Tabla básica de una variable (1)

Podemos observar que ha sido muy fácil para nosotros ordenar esta información en una tabla de una columna, donde tenemos que cada fila es un alumno del aula. Si ahora queremos añadir a esta información un identificador del alumno, de forma que podamos seguir asociando otras informaciones, podemos representar esa información con una tabla de doble entrada. Cada columna será un elemento variable respecto del total y cada fila estará representando un elemento del conjunto, una unidad de análisis.

Table 3.2: Tabla básica de una variable (2)

Si ahora añadimos un elemento variable más a estas identificaciones como el peso, basta con añadir una columna más a esta tabla de doble entrada para poder representar esta información …

Table 3.3: Tabla básica de una variable (3)

El tiempo podemos introducirlo creando diferentes tablas de este tipo para diferentes momentos del tiempo con la misma estructura que la original o bien dotar de una nueva columna (variable) donde de alguna forma reflejáramos el paso del tiepo, es decir, la pertenencia del dato a un momento del tiempo determinado, sea cuál sea su representación.

3.2 Las variables

Una variable es un símbolo que representa un elemento no especificado de un conjunto dado. Dicho conjunto es llamado dominio de la variable, o universo de la variable, y cada elemento del conjunto es un valor de la variable. Sea x una variable cuyo dominio es el conjunto {1,3,5,7,9}; entonces x puede tener cualquiera de esos valores: 1,3,5,7,9. En otras palabras x puede ser sustituido por cualquier valor entero positivo impar menor entre 1 y 10. La variable es una sustitución de cualquier elemento del dominio.

En nuestro ámbito, podemos clasificar las variables según la escala de medición y/o la influencia que asignamos a unas variables sobre otras y por esta razón, se pueden clasificar como sigue:

variables cualitativas;
variables cuantitativas.

Por último, aunque sea un término que utilizamos en capítulos posteriores, entre las variables puede existir cierto tipo de influencia. Según la influencia que asignamos a unas variables sobre otras, podrán ser:

variables independientes;
variables dependientes.

3.2.1 Variables cualitativas

Denominamos variables cualitativas a aquellas que expresan distintas cualidades, características o modalidades. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser ordinales y nominales según su nivel de medición o también según el número de alternativas de respuesta en la clasificación, dicotómicas cuando sólo pueden tomar dos valores posibles (sí/no, hombre/mujer) o politómicas cuando pueden adquirir tres o más valores. Así…

la variable cualitativa ordinal, puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave;
la variable cualitativa nominal donde los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia.

3.2.2 Variables cuantitativas

Denominamos variables cuantitativas a aquellas que se expresan mediante cantidades numéricas con relaciones proporcionales o cuasi proporcionales entre los elementos de su dominio. Las variables cuantitativas además pueden ser:

variable discreta, que presenta interrupciones sistemáticas en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir, como por ejemplo el número de coches en una unidad familiar (1, 2, 3,…).
variable continua, que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el vemos en el apartado preliminar (matriz) las variables peso (23 kg, 24 kg, 25 kg…) o la altura (1.25 m, 1.26 m, 1.27 m…). Estos dominios están limitados por la precisión del aparato medidor, ya que en la teoría permiten que siempre exista un valor entre dos cualesquiera.

3.2.3 Variables independientes

Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de , que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.

3.2.4 Variables dependientes

Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. Existe una relación de causa - efecto en su relación con otras variables también dependientes o independientes.

3.3 Cuestionario, pregunta, variable y código

Para acabar con los fundamentos del análisis de datos, debemos incluir una referencia a los diferentes elementos que componen el conjunto de análisis en la terminología del ámbito de trabajo.

La herramienta cuestionario, fundamentalmente utilizada como soporte de recogida de la información permite estructurar y homogeneizar la ordenación de la misma, se compone de elementos de rango inferior denominados pregunta que son utilizadas por los investigadores para cubrir los objetivos del objeto de análisis y por extensión atender a las necesidades de información de los investigadores. Podemos afirmar que el cuestionario es una colección ordenada de preguntas.

La pregunta es un elemento que compuesto por un protocolo verbal o enunciado que debe ser comunicado o planteado en igual forma a todos los sujetos u objetos analizados. Para atender los requerimientos de esta pregunta, los sujetos u objetos analizados formularán respuestas que pueden ser en ocasiones simples o compuestas. Cada una de estas respuestas deberá ser considerada una variable de respuesta a la pregunta, dado que cada elemento de respuesta tendrá un dominio propio.

Respecto al término respuesta que ya fue definido en apartados anteriores y que lo identificamos con el término variable, la consideramos como simple cuando con una única variable respondemos a los requerimientos de la pregunta y la consideramos compuesta cuando requerimos de más de una variable para representar la respuesta del sujeto u objeto analizado. Es importante que sepamos diferenciar lo que será mejor para el tratamiento de la información, porque en muchos casos, una pregunta con variables compuestas, puede ser representada como simple.

Table 3.4: Cuestionario y pregunta

Así, diremos que cada respuesta que ofrece el sujeto u objeto analizado, es una respuesta y por extensión una variable.

Resta por definir qué es un código. En nuestro ámbito de trabajo, un código es la representación numérica de una respuesta, al que se le puede atribuir:

valor clasificatorio, si el nivel de medición es nominal
valor de orden, si el nivel de medición es ordinal
valor métrico / proporcional, si el nivel de medición es intervalo o razón

3.4 Niveles de medición

3.4.1 Medición nominal o cualitativa

Hablamos de un nivel de medición nominal cuando planteamos su escala de medición sobre la base de una mera asignación de nombres de categoría a los distintos valores que pueda tomar la misma. Es una escala de medición donde lo importante no son los valores numéricos sino su representación textual. Un ejemplo puede ser el datos sociodemográfico “sexo” cuyos valores a tomar serán hombre / mujer con independencia de que asignemos valores 1 y 2 ó también 99 y 2000. No es importante el valor codificado sino su representación. Decimos que en este nivel de medición hay una presencia de clasificación, pero hay una ausencia de orden y cuantificación. Éste es el nivel de medición más básico en las Ciencias Sociales.

Table 3.5: Escala nominal

3.4.2 Medición ordinal (cualitativa)

Hablamos de escala de medición de tipo ordinal, cuando ante un evento o variable planteamos su medida de forma que no sólo clasificamos, sino que incluimos un cierto orden entre las alternativas de respuesta a la variable. En la medición se aprecia un lineal entre las respuestas extremas. Por ejemplo, ante una pregunta sobre la capacidad que presenta un estudiante ante un simulador de negocios, las respuestas son:

Table 3.6: Escala ordinal

Ante dos evaluaciones distintas a dos entrevistados sobre su nivel de capacidad, veríamos que si uno de ellos contesta la opción mucha capacidad y otro contesta la opción bastante capacidad, entre ellos hay una cierta idea de orden además de clasificación. No sabemos cuántas veces más es capaz el primer individuo que el segundo, pero sí sabemos que es más capaz.

Este ejemplo hace que se vea más clara la diferencia entre las dos primeras escalas. En la escala nominal no importaba que hombre fuera en primer lugar o en segundo lugar, sin embargo en este segundo caso, sí es importante que mucha capacidad esté antes que bastante capacidad, y además que su valor sea el correspondiente en la relación. Por tanto, la escala ordinal es válida para clasificar y para ordenar, pero como dijimos al inicio es incapaz para cuantificar la relación.

3.4.3 Medición en escala de intervalo

La escala de intervalo es un nivel de medición que poseyendo las características de las anteriores, podemos decir que aporta un cierto nivel de cuantificación a la medición. Sin llegar a ser una cuantificación absoluta, decimos que las variables medidas en escala intervalo permiten establecer relaciones con la medida utilizada, pero no de forma absoluta.

Por ejemplo, las temperaturas son el exponente de este tipo de escalas. Podemos proporcionar mediciones en escalas diferentes (Celsius, Fahrenheit, Kelvin) y podemos transformarlas a un único patrón de medida. Otro ejemplo de este tipo de medición son las valoraciones que a menudo introducimos como por ejemplo el grado de satisfacción ante un servicio evaluado entre 0 y 5.

3.4.4 Medición en escala de razón o métrica

Conocida también como nivel de medida proporcional, se refiere aquella medición más ambiciosa de todas las conocidas, puesto que clasifica, ordena y cuantifica, existiendo además un cero absoluto en la cuantificación. La propiedad esencial de esta escala de medida es la posibilidad de establecer cuántas veces es más XXX un objeto que otro, por ejemplo, cuantas veces es más pesado A que B, cuantas veces es más alto el individuo x que el individuo y, etc. Constituyen por decirlo de alguna forma el nivel ideal de medida, pues su utilización implica clasificación, orden y cuantificación.

3.5 Categorías de respuesta

3.5.1 Características de las categorías a medir

Es importante destacar que las categorías o alternativas de respuesta que se utilicen tanto en las variables que hemos medimos en escalas nominales como en las variables que medimos con escalas ordinales han de cumplir:

El principio de exhaustividad, no debe haber ninguna posibilidad fuera del listado, por lo que es muy conveniente utilizar categorías de cierre, como por ejemplo el otros, ninguna de las anteriores, resto de opciones, etc..
El principio de mutua exclusión, es decir, definidas sin ningún tipo de ambigüedad. No entramos a valorar aquí la posibilidad de las preguntas formuladas con posibilidad múltiple de respuesta.
El principio de unicidad taxonómica, es decir, hacer intervenir un único criterio de clasificación en la formulación de las alternativas. No sería así por ejemplo incluir en la variable sexo las opciones de niño y niña que aun haciendo referencia al sexo del individuo implican una introducción del criterio de edad en la clasificación.

3.5.2 Categorías especiales de respuesta

Existen cuatro tipos de categorías especiales de respuesta, valores perdidos, o también llamados valores especiales:

Categoría de respuesta denominada No contesta, en la cual el entrevistado muestra su deseo de no contestar a una determinada cuestión planteada; representado por un NA o puede ser un valor numérico no contemplado entre los posibles para el campo de respuesta etc…
Categoría de respuesta denominada No sabe, en la cual el entrevistado muestra su incapacidad para poder ofrecer una respuesta a la cuestión planteada; representado por un NA o puede ser un valor numérico no contemplado entre los posibles para el campo de respuesta etc…
Categoría de respuesta denominada Filtrado o también denominada en muchos casos No aplica, donde no hay intervención del entrevistado, ya que directamente no le es planteada la cuestión, en la mayor parte de los casos, porque alguna de sus repuestas anteriores imposibilita la respuesta a la pregunta actual, por inconveniente o incoherente; representado por un NA o puede ser un valor numérico no contemplado entre los posibles para el campo de respuesta etc…
Categoría de respuesta denominada No definida, cualquier respuesta dada por el entrevistado que no se encuentra entre las diferentes posibilidades que a priori podía recibir la pregunta, suponiendo una pregunta codificada; cualquier valor no incluido entre los códigos definidos para una variable. No tiene representación alguna, puede ser un blanco, puede ser nada (NA) o puede ser un valor numérico no contemplado entre los posibles para el campo de respuesta etc…

Estos valores que en otros programas suelen no estar identificados o incluso si tienen valor numérico, pueden perturbar el cálculo matemático de medias, desviaciones, etc. . Estos valores, reciben códigos especiales en cualquier software, y particularmente en R, toman el valor NA.

En este documento nos referiremos a estos valores como valores especiales, missing values o valores perdidos.

3.6 Métodos de análisis

En los apartados anteriores, hemos realizado una distinción entre variables medidas con escalas cualitativas y cuantitativas, ahora debemos hacer lo mismo con los métodos de análisis.

El primer nivel de clasificación basado en un criterio sobre el número de variables con el que se va a realizar el análisis: con una, dos o más variables. Respectivamente encontraremos los análisis univariantes, bivariantes y multivariantes.
El segundo criterio de clasificación se establece en función del tipo de variables (escalas de medición) con el que vamos a realizar el estudio, y de esta forma encontramos métodos de análisis sobre escalas cualitativas y métodos de análisis sobre escalas cuantitativas.
El tercer criterio tiene que ver con la relación que se establece entre las variables, encontrando de esta forma métodos de interdependencia o descriptivos, “donde se pretende estructurar un fenómeno con el fin de comprenderlo mejor”; por otro lado , métodos de dependencia o explicativos “donde se persigue estudiar las relaciones que se producen entre dos fenómenos o un conjunto de fenómenos” (Pedret, Sagnier, and Camp 2003).

3.7 Tareas del investigador: análisis de valores perdidos

Una vez que hemos comprendido que no todos los valores ausentes son iguales (recordemos las categorías: No contesta, No sabe, No aplica, No definido), debemos abordar el problema de forma sistemática. Un error común es precipitarse a “rellenar” o “borrar” los datos faltantes sin antes entenderlos. El análisis de valores perdidos es un trabajo de detective: debemos buscar pistas, entender el “porqué” de su ausencia y solo entonces decidir el mejor curso de acción. Las siguientes tareas nos guiarán en este proceso.

3.7.1 Depuración de la base de datos

Antes de analizar la ausencia de datos, debemos asegurarnos de que los datos que sí tenemos son correctos. Esta fase inicial de limpieza es crucial, ya que muchos “valores perdidos” pueden estar ocultos como valores imposibles o códigos sin etiquetar.

Búsqueda de errores, valores fuera de rango permitido, etc.
- Teoría: Esta tarea consiste en una validación de la coherencia de los datos. No se trata de buscar NAs, sino valores que, aunque presentes, son lógicamente incorrectos. Un valor de 999 en una variable de “edad” o un 3 en una variable de “género” (codificada como 1=Hombre, 2=Mujer) no son NA, pero son errores o, muy probablemente, códigos especiales que representan un valor perdido (como “No contesta”) y que no han sido correctamente registrados. Si no los identificamos, un cálculo como la edad media se verá completamente distorsionado.
- Ejemplo: Imagina una encuesta de satisfacción donde los participantes valoran un servicio del 1 al 5. Al revisar los datos de la variable satisfaccion, encontramos valores como 1, 4, 5, 2, 9, 3, 1, -1. Los valores 9 y -1 están fuera del rango permitido. No son “ausentes” en el sentido estricto, pero son incorrectos. Nuestro trabajo es investigar qué significan. Tras consultar la documentación de la encuesta (el “libro de códigos”), descubrimos que 9 se usó para “No sabe / No contesta”. Por lo tanto, debemos convertir todos los 9 a NA para que R los reconozca como valores perdidos y no los incluya en el cálculo de la satisfacción media. El -1 podría ser un simple error de transcripción.

3.7.2 Análisis de los valores perdidos

En esta fase, nos ponemos el abrigo y tomamos la lupa de detective. No nos interesa (todavía) qué hacer con los valores perdidos, sino entender su naturaleza. ¿Por qué están ahí? ¿Aparecen al azar o siguen un patrón?

Buscar la aleatoriedad de los datos perdidos
- Teoría: Este es el concepto más importante en el análisis de valores perdidos. Necesitamos saber si la ausencia de un dato es un evento fortuito o si está sistemáticamente relacionada con alguna otra característica de los encuestados.
  - Aleatorio (MCAR - Missing Completely at Random): La ausencia del dato no tiene relación con ninguna otra variable. Es como si alguien hubiera lanzado un dado para decidir si borrar o no una respuesta. Es el escenario ideal, pero poco común.
  - Sistemático: La ausencia del dato está relacionada con otra información que sí tenemos o con la propia variable que falta. Este es el escenario más común y peligroso, porque puede introducir sesgos en nuestros resultados.
- Ejemplo: En una encuesta sobre hábitos de salud, falta el dato de “ingresos anuales” para varias personas.
  - Escenario Aleatorio: Si los valores perdidos de ingresos se distribuyen de manera uniforme entre hombres y mujeres, jóvenes y mayores, y personas de todas las regiones, podríamos pensar que la ausencia es aleatoria. Quizás algunas páginas del formulario se perdieron o hubo fallos técnicos puntuales.
  - Escenario Sistemático: Si descubrimos que el 90% de los valores perdidos de ingresos corresponden a personas que declararon tener un “nivel educativo bajo”, la ausencia no es aleatoria. Está relacionada con el nivel educativo. Esto es un sesgo: las personas con menor nivel educativo podrían sentirse más incómodas revelando sus ingresos.
Patrones en los valores perdidos, mayor importancia que la cuantía
- Teoría: Un 5% de datos perdidos de forma sistemática puede ser mucho más dañino para nuestras conclusiones que un 30% de datos perdidos de forma completamente aleatoria. El patrón revela un sesgo, una parte de la realidad que nos estamos perdiendo. Mientras que la pérdida aleatoria simplemente reduce el tamaño de nuestra muestra (y por tanto, la “potencia” de nuestros análisis), la pérdida sistemática nos lleva a conclusiones erróneas.
- Ejemplo: En una encuesta de satisfacción laboral, la pregunta “¿Recomendarías tu empresa a un amigo?” tiene solo un 2% de valores perdidos. Parece una cantidad insignificante. Sin embargo, al investigar, descubrimos que el 100% de esos valores perdidos provienen de empleados del departamento de “Operaciones”, que es conocido por sus malas condiciones laborales. Aunque la cuantía es baja, el patrón es alarmante. Si ignoramos esto, nuestro informe de satisfacción global estará sesgado al alza, porque hemos excluido sistemáticamente la opinión del departamento más descontento.

3.7.3 Diagnóstico

Ahora que tenemos sospechas sobre los patrones, necesitamos herramientas para confirmarlas y medir su alcance. Esta fase utiliza técnicas más formales para objetivar lo que encontramos en la fase de análisis.

Cuantificación, ver su impacto en el banco de datos
- Teoría: Consiste en hacer un recuento simple: ¿Cuántos NA hay en cada variable (columna)? ¿Y en cada observación (fila)? Esto nos da una idea de la magnitud del problema. Una variable con un 90% de valores perdidos es prácticamente inútil y probablemente deberíamos descartarla. Un encuestado que solo ha respondido a 2 de 100 preguntas no aporta información y podría ser eliminado.
- Ejemplo: Al cuantificar, vemos que la variable email_contacto tiene un 85% de valores perdidos, mientras que edad solo tiene un 2% y satisfaccion_general un 5%. Concluimos que email_contacto no es fiable para nuestro análisis. También identificamos 10 encuestados que tienen más del 90% de sus respuestas en blanco; probablemente abandonaron la encuesta al principio, por lo que decidimos eliminar esas filas.
Revisión del patrón en otras variables
- Teoría: Es la aplicación práctica de la búsqueda de aleatoriedad. Cruzamos la variable que tiene valores perdidos con otras variables demográficas o de interés (género, edad, nivel de estudios, etc.) para ver si la proporción de NAs cambia entre los grupos.
- Ejemplo: Para la variable ingresos (con un 20% de valores perdidos en total), calculamos el porcentaje de NAs por género. Descubrimos que solo el 5% de los hombres no respondieron, mientras que el 35% de las mujeres no lo hicieron. ¡Hemos encontrado un patrón claro! La ausencia de respuesta sobre los ingresos está fuertemente relacionada con el género.
Uso de pruebas t para media en muestras independientes
- Teoría: Esta es una forma estadística de confirmar el punto anterior para variables numéricas. Creamos dos grupos: el grupo A (los que SÍ respondieron a la pregunta X) y el grupo B (los que NO respondieron a la pregunta X). Luego, comparamos la media de otra variable numérica (ej. edad) entre estos dos grupos. Si la media de edad es significativamente diferente entre el grupo A y el B, significa que la edad está relacionada con el hecho de responder o no a la pregunta X.
- Ejemplo: Queremos saber si la edad influye en si la gente responde o no a la pregunta sobre intencion_de_voto.
  - Grupo A: Personas que sí respondieron sobre su intención de voto. Calculamos su edad media: 38.5 años.
  - Grupo B: Personas que no respondieron (NA). Calculamos su edad media: 55.2 años. Una prueba t nos confirmaría que esta diferencia es estadísticamente significativa. La conclusión es que las personas mayores son más reacias a compartir su intención de voto en nuestra encuesta.
Correlaciones dicotomizadas o binarizadas con variables ficticias
- Teoría: Es otra técnica para detectar patrones. Convertimos nuestra variable de interés en una variable “ficticia” (dummy) que solo tiene dos valores: 1 si el dato está perdido y 0 si no lo está. Luego, podemos calcular la correlación de esta nueva variable 0/1 con otras variables de nuestro dataset. Una correlación alta (positiva o negativa) indica una fuerte relación.
- Ejemplo: Creamos una variable llamada falta_ingreso (1 si ingresos es NA, 0 si no lo es). Luego calculamos su correlación con la variable desconfianza_instituciones (una escala del 1 al 10). Si obtenemos una correlación positiva fuerte (ej. 0.7), significa que a mayor desconfianza en las instituciones, mayor es la probabilidad de que una persona no reporte sus ingresos.

3.7.4 Tratamiento, diferentes métodos

Finalmente, después de entender la naturaleza, la magnitud y los patrones de los datos perdidos, decidimos qué hacer. No hay una solución única; la elección depende del diagnóstico previo.

Eliminación de todos los casos (Listwise deletion)
- Teoría: Es el método más drástico. Si una fila tiene al menos un valor perdido en cualquiera de las variables que nos interesan, se elimina toda la fila. Es fácil de implementar, pero puede llevar a una pérdida masiva de información si los NAs están esparcidos por muchas filas. Solo es recomendable si la cantidad de filas a eliminar es muy pequeña (ej. <5%) y hemos comprobado que los datos perdidos son completamente aleatorios (MCAR).
- Ejemplo: Si un participante respondió 49 de 50 preguntas, pero dejó en blanco la pregunta sobre su “hobby principal”, este método eliminaría sus 49 respuestas válidas, perdiendo toda su valiosa contribución.
Eliminación por parejas (Pairwise deletion)
- Teoría: Un método menos agresivo. En lugar de eliminar filas enteras, se utiliza toda la información disponible para cada cálculo específico. Si queremos correlacionar edad e ingresos, solo usamos las filas donde ambas variables tienen valor. Si luego queremos correlacionar edad y satisfaccion, usamos las filas donde esas dos tienen valor, que puede ser un conjunto de datos diferente.
- Ejemplo: Tenemos 100 personas. 90 respondieron edad, 80 respondieron ingresos, y 75 respondieron ambas.
  - Para calcular la edad media, usamos las 90 personas.
  - Para calcular el ingreso medio, usamos las 80 personas.
  - Para calcular la correlación edad-ingresos, usamos solo las 75 personas que respondieron a ambas. La desventaja es que nuestros análisis se basan en sub-muestras diferentes, lo que puede complicar la interpretación.
Imputación de valores medios/modas
- Teoría: Rellenar los NA de una variable numérica con la media de esa variable, o los NA de una variable categórica con la moda (el valor más frecuente). Es un método simple pero peligroso, ya que reduce artificialmente la variabilidad de los datos (la desviación estándar se encoge) y puede distorsionar las relaciones con otras variables.
- Ejemplo: Si la edad media de los encuestados es 42 años, rellenamos todos los NA de la columna edad con el valor 42. Ahora tenemos un pico artificial de personas con exactamente 42 años, lo cual no es realista y debilita cualquier correlación que la edad pudiera tener con otras variables.
Imputación de valores aleatorios
- Teoría: En lugar de usar siempre la media, rellenamos cada NA con un valor elegido al azar de entre los valores observados en esa misma variable. Esto es mejor que la media porque preserva la distribución y la variabilidad originales de los datos.
- Ejemplo: Para rellenar un NA en edad, miramos todas las edades que sí tenemos, elegimos una al azar (ej. 35) y la asignamos. Para el siguiente NA, repetimos el proceso y nos sale otra edad (ej. 51). El resultado es mucho más natural que rellenar todo con 42.
Imputación de valores aleatorios condicionados
- Teoría: Es una versión más inteligente de la anterior. Aprovechamos los patrones que descubrimos. En lugar de elegir un valor al azar de toda la muestra, lo elegimos de un subgrupo de individuos que son similares al que tiene el dato perdido.
- Ejemplo: Sabemos que las mujeres tienden a no reportar sus ingresos. Para imputar el ingreso de una mujer de 30 años con estudios universitarios, no tomamos un valor al azar de toda la muestra. En su lugar, filtramos a todas las mujeres de entre 25-35 años con estudios universitarios que SÍ reportaron sus ingresos, y elegimos un valor al azar solo de ese grupo. El valor imputado será mucho más realista.
Imputación por regresión
- Teoría: Es uno de los métodos más sofisticados. Se construye un modelo predictivo (como una regresión lineal) donde la variable con valores perdidos es la variable objetivo, y otras variables del dataframe son los predictores. El modelo “aprende” la relación entre las variables y predice cuál sería el valor más probable para cada NA.
- Ejemplo: Para predecir los NA de ingresos, creamos un modelo: ingresos = f(edad, nivel_educativo, años_experiencia). Para una persona con datos de edad, estudios y experiencia pero sin ingresos, introducimos sus datos en el modelo y este nos devuelve una predicción (ej. 45,000€). Esta predicción se usa para rellenar el NA. Es un método muy potente porque utiliza toda la información contextual disponible.

# Conceptos básicos en el análisis cuantitativo ```{r} source("~/R/r-data/16.eda/script.R") ``` ::: callout-important ## Aviso Asumimos que el usuario de esta documentación, conoce los rudimentos de R y como se trabaja con los paquetes. En la documentación del libro, exponemos toda la sintaxis usada para obtener las informaciones que se requieren. ::: En este capítulo, una vez desarrolladas algunas ideas iniciales sobre la gestión y la manipulación de los datos con R, desarrollaremos algunos conceptos que son básicos para el aprendizaje e iniciación del análisis de los datos, pero ya desde una perspectiva del ámbito no tan generalista y sí más centrado en la parte estadística. Suponemos al usuario, familiarizado con el uso de R y le suministramos un marco de apoyo al tratamiento de datos, particularmente en datos provenientes de encuesta. A diferencia de la anterior sección, aquí el código desarrollado si ya será funcional y se trabajará sobre marcos de datos (*dataframes*) ya disponibles y específicos. Los puntos que serán tratados a continuación como introducción son: - La matriz o tabla de datos, *dataframe* en terminología R; - Las variables o columnas del *dataframe*; - La relación entre pregunta, variable y código. Profundizaremos también en las diferentes formas de medición de los datos que derivan en los tratamientos o análisis que demandamos de los datos; para ello analizaremos: - Niveles de medición, escalas básicas; - Diferencia entre cualitativo y cuantitativo; - Categorías de respuesta. ## La matriz o tabla de datos El término dato es una representación simbólica (numérica, alfabética, algorítmica etc.), de un atributo o de una característica de una entidad. El dato no tiene valor semántico (sentido) en sí mismo, pero si recibe un tratamiento (procesamiento) apropiado, se puede utilizar en la realización de cálculos o toma de decisiones. El estudio de los datos combinado con la aplicación del "know how" o conocimiento, genera información. La información es un fenómeno que proporciona significado o sentido a las cosas. En sentido general, la información es un conjunto organizado de datos procesados, que constituyen un mensaje sobre un determinado ente o fenómeno. Así, comprendemos que los datos se recogen, se integran y su análisis genera la información necesaria para producir el conocimiento que es el que finalmente permite tomar decisiones para realizar las acciones tácticas o estratégicas cotidianas que aseguran la evolución o cambio de las cosas. En nuestro ámbito de la investigación de mercados, comercial, social o de opinión, todas comparten conocimiento y técnicas de análisis; así también coinciden en hecho de que trabajan con una matriz de datos, objeto de nuestro estudio. Llamamos matriz de datos a la relación ordenada de las informaciones recogidas para una unidad de análisis cualesquiera que sea su naturaleza y una valoración o medición de un elemento con variabilidad. Podemos introducir a esta relación una tercera dimensión que sería la temporalidad de las observaciones, pues éstas son cambiantes con el paso del tiempo. Veamos un ejemplo: pretendemos tener una matriz de datos sobre las alturas de los individuos que forman parte de una aula de segundo de primaria; la altura, sería el elemento variable, mientras que el alumno sería la unidad de análisis, el tiempo incide en que con el paso del mismo, el elemento variable sufre modificaciones con una determinada tendencia. La representación de estos datos sería: ```{r} #| label: tbl-tabla_basica1 #| tbl-cap: Tabla básica de una variable (1) #| echo: false df <- data.frame(Altura=c(1.24,1.25,1.27,1.10)) reactable( df, width = 150, compact = T, bordered = T, outlined = T ) ``` Podemos observar que ha sido muy fácil para nosotros ordenar esta información en una tabla de una columna, donde tenemos que cada fila es un alumno del aula. Si ahora queremos añadir a esta información un identificador del alumno, de forma que podamos seguir asociando otras informaciones, podemos representar esa información con una tabla de doble entrada. Cada columna será un elemento variable respecto del total y cada fila estará representando un elemento del conjunto, una unidad de análisis. ```{r} #| label: tbl-tabla_basica2 #| tbl-cap: Tabla básica de una variable (2) #| echo: false df <- data.frame(Individuo = c(1, 2, 3, 4), Altura = c(1.24, 1.25, 1.27, 1.10) ) reactable( df, width = 300, compact = T, bordered = T, outlined = T ) ``` Si ahora añadimos un elemento variable más a estas identificaciones como el peso, basta con añadir una columna más a esta tabla de doble entrada para poder representar esta información ... ```{r} #| label: tbl-tabla_basica3 #| tbl-cap: Tabla básica de una variable (3) #| echo: false df <- data.frame(Individuo = c(1, 2, 3, 4), Altura = c(1.24, 1.25, 1.27, 1.10), Peso = c(25,25,26,20) ) reactable( df, width = 450, compact = T, bordered = T, outlined = T ) ``` El tiempo podemos introducirlo creando diferentes tablas de este tipo para diferentes momentos del tiempo con la misma estructura que la original o bien dotar de una nueva columna (variable) donde de alguna forma reflejáramos el paso del tiepo, es decir, la pertenencia del dato a un momento del tiempo determinado, sea cuál sea su representación. ## Las variables Una variable es un símbolo que representa un elemento no especificado de un conjunto dado. Dicho conjunto es llamado dominio de la variable, o universo de la variable, y cada elemento del conjunto es un valor de la variable. Sea x una variable cuyo dominio es el conjunto {1,3,5,7,9}; entonces x puede tener cualquiera de esos valores: 1,3,5,7,9. En otras palabras x puede ser sustituido por cualquier valor entero positivo impar menor entre 1 y 10. La variable es una sustitución de cualquier elemento del dominio. En nuestro ámbito, podemos clasificar las variables según la escala de medición y/o la influencia que asignamos a unas variables sobre otras y por esta razón, se pueden clasificar como sigue: - variables cualitativas; - variables cuantitativas. Por último, aunque sea un término que utilizamos en capítulos posteriores, entre las variables puede existir cierto tipo de influencia. Según la influencia que asignamos a unas variables sobre otras, podrán ser: - variables independientes; - variables dependientes. ### Variables cualitativas Denominamos variables cualitativas a aquellas que expresan distintas cualidades, características o modalidades. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser ordinales y nominales según su nivel de medición o también según el número de alternativas de respuesta en la clasificación, dicotómicas cuando sólo pueden tomar dos valores posibles (sí/no, hombre/mujer) o politómicas cuando pueden adquirir tres o más valores. Así... - la variable cualitativa ordinal, puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave; - la variable cualitativa nominal donde los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia. ### Variables cuantitativas Denominamos variables cuantitativas a aquellas que se expresan mediante cantidades numéricas con relaciones proporcionales o cuasi proporcionales entre los elementos de su dominio. Las variables cuantitativas además pueden ser: - variable discreta, que presenta interrupciones sistemáticas en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir, como por ejemplo el número de coches en una unidad familiar (1, 2, 3,...). - variable continua, que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el vemos en el apartado preliminar (matriz) las variables peso (23 kg, 24 kg, 25 kg...) o la altura (1.25 m, 1.26 m, 1.27 m...). Estos dominios están limitados por la precisión del aparato medidor, ya que en la teoría permiten que siempre exista un valor entre dos cualesquiera. ### Variables independientes Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de , que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo. ### Variables dependientes Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. Existe una relación de causa - efecto en su relación con otras variables también dependientes o independientes. ## Cuestionario, pregunta, variable y código Para acabar con los fundamentos del análisis de datos, debemos incluir una referencia a los diferentes elementos que componen el conjunto de análisis en la terminología del ámbito de trabajo. La herramienta cuestionario, fundamentalmente utilizada como soporte de recogida de la información permite estructurar y homogeneizar la ordenación de la misma, se compone de elementos de rango inferior denominados pregunta que son utilizadas por los investigadores para cubrir los objetivos del objeto de análisis y por extensión atender a las necesidades de información de los investigadores. Podemos afirmar que el cuestionario es una colección ordenada de preguntas. La pregunta es un elemento que compuesto por un protocolo verbal o enunciado que debe ser comunicado o planteado en igual forma a todos los sujetos u objetos analizados. Para atender los requerimientos de esta pregunta, los sujetos u objetos analizados formularán respuestas que pueden ser en ocasiones simples o compuestas. Cada una de estas respuestas deberá ser considerada una variable de respuesta a la pregunta, dado que cada elemento de respuesta tendrá un dominio propio. Respecto al término respuesta que ya fue definido en apartados anteriores y que lo identificamos con el término variable, la consideramos como simple cuando con una única variable respondemos a los requerimientos de la pregunta y la consideramos compuesta cuando requerimos de más de una variable para representar la respuesta del sujeto u objeto analizado. Es importante que sepamos diferenciar lo que será mejor para el tratamiento de la información, porque en muchos casos, una pregunta con variables compuestas, puede ser representada como simple. ```{r} #| label: tbl-cuestionario #| tbl-cap: Cuestionario y pregunta #| echo: false df <- data.frame( Pregunta = c('¿Marca y modelo de coche?','¿Marca y modelo de coche?','Peso del modelo'), Variable = c('MARCA y variable MODELO (dos variables diferenciadas), compuesta', 'Variable MARCA_MODELO (una variable), simple', 'Variable PESO, simple') ) reactable( df, compact = T, bordered = T, outlined = T ) ``` Así, diremos que cada respuesta que ofrece el sujeto u objeto analizado, es una respuesta y por extensión una variable. Resta por definir qué es un código. En nuestro ámbito de trabajo, un código es la representación numérica de una respuesta, al que se le puede atribuir: - valor clasificatorio, si el nivel de medición es nominal - valor de orden, si el nivel de medición es ordinal - valor métrico / proporcional, si el nivel de medición es intervalo o razón ## Niveles de medición ### Medición nominal o cualitativa Hablamos de un nivel de medición nominal cuando planteamos su escala de medición sobre la base de una mera asignación de nombres de categoría a los distintos valores que pueda tomar la misma. Es una escala de medición donde lo importante no son los valores numéricos sino su representación textual. Un ejemplo puede ser el datos sociodemográfico “sexo” cuyos valores a tomar serán hombre / mujer con independencia de que asignemos valores 1 y 2 ó también 99 y 2000. No es importante el valor codificado sino su representación. Decimos que en este nivel de medición hay una presencia de clasificación, pero hay una ausencia de orden y cuantificación. Éste es el nivel de medición más básico en las Ciencias Sociales. ```{r} #| label: tbl-escala_nominal #| tbl-cap: Escala nominal #| echo: false df <- data.frame( Categoría = c('hmbre','mujer'), Código = c(1,2) ) reactable( df, compact = T, bordered = T, outlined = T ) ``` ### Medición ordinal (cualitativa) Hablamos de escala de medición de tipo ordinal, cuando ante un evento o variable planteamos su medida de forma que no sólo clasificamos, sino que incluimos un cierto orden entre las alternativas de respuesta a la variable. En la medición se aprecia un lineal entre las respuestas extremas. Por ejemplo, ante una pregunta sobre la capacidad que presenta un estudiante ante un simulador de negocios, las respuestas son: ```{r} #| label: tbl-escala_ordinal #| tbl-cap: Escala ordinal #| echo: false df <- data.frame( Categoría = c( 'mucha capacidad', 'algo de capcidad', 'poca capacidad', 'ninguna capacidad' ), Valor = c(4, 3, 2, 1) ) reactable(df, compact = T, bordered = T, outlined = T) ``` Ante dos evaluaciones distintas a dos entrevistados sobre su nivel de capacidad, veríamos que si uno de ellos contesta la opción mucha capacidad y otro contesta la opción bastante capacidad, entre ellos hay una cierta idea de orden además de clasificación. No sabemos cuántas veces más es capaz el primer individuo que el segundo, pero sí sabemos que es más capaz. Este ejemplo hace que se vea más clara la diferencia entre las dos primeras escalas. En la escala nominal no importaba que hombre fuera en primer lugar o en segundo lugar, sin embargo en este segundo caso, sí es importante que mucha capacidad esté antes que bastante capacidad, y además que su valor sea el correspondiente en la relación. Por tanto, la escala ordinal es válida para clasificar y para ordenar, pero como dijimos al inicio es incapaz para cuantificar la relación. ### Medición en escala de intervalo La escala de intervalo es un nivel de medición que poseyendo las características de las anteriores, podemos decir que aporta un cierto nivel de cuantificación a la medición. Sin llegar a ser una cuantificación absoluta, decimos que las variables medidas en escala intervalo permiten establecer relaciones con la medida utilizada, pero no de forma absoluta. Por ejemplo, las temperaturas son el exponente de este tipo de escalas. Podemos proporcionar mediciones en escalas diferentes (Celsius, Fahrenheit, Kelvin) y podemos transformarlas a un único patrón de medida. Otro ejemplo de este tipo de medición son las valoraciones que a menudo introducimos como por ejemplo el grado de satisfacción ante un servicio evaluado entre 0 y 5. ### Medición en escala de razón o métrica Conocida también como nivel de medida proporcional, se refiere aquella medición más ambiciosa de todas las conocidas, puesto que clasifica, ordena y cuantifica, existiendo además un cero absoluto en la cuantificación. La propiedad esencial de esta escala de medida es la posibilidad de establecer cuántas veces es más XXX un objeto que otro, por ejemplo, cuantas veces es más pesado A que B, cuantas veces es más alto el individuo x que el individuo y, etc. Constituyen por decirlo de alguna forma el nivel ideal de medida, pues su utilización implica clasificación, orden y cuantificación. ## Categorías de respuesta ### Características de las categorías a medir Es importante destacar que las categorías o alternativas de respuesta que se utilicen tanto en las variables que hemos medimos en escalas nominales como en las variables que medimos con escalas ordinales han de cumplir: - El principio de exhaustividad, no debe haber ninguna posibilidad fuera del listado, por lo que es muy conveniente utilizar categorías de cierre, como por ejemplo el otros, ninguna de las anteriores, resto de opciones, etc.. - El principio de mutua exclusión, es decir, definidas sin ningún tipo de ambigüedad. No entramos a valorar aquí la posibilidad de las preguntas formuladas con posibilidad múltiple de respuesta. - El principio de unicidad taxonómica, es decir, hacer intervenir un único criterio de clasificación en la formulación de las alternativas. No sería así por ejemplo incluir en la variable sexo las opciones de niño y niña que aun haciendo referencia al sexo del individuo implican una introducción del criterio de edad en la clasificación. ### Categorías especiales de respuesta Existen cuatro tipos de categorías especiales de respuesta, valores perdidos, o también llamados valores especiales: - Categoría de respuesta denominada **No contesta**, en la cual el entrevistado muestra su deseo de no contestar a una determinada cuestión planteada; representado por un NA o puede ser un valor numérico no contemplado entre los posibles para el campo de respuesta etc... - Categoría de respuesta denominada **No sabe**, en la cual el entrevistado muestra su incapacidad para poder ofrecer una respuesta a la cuestión planteada; representado por un NA o puede ser un valor numérico no contemplado entre los posibles para el campo de respuesta etc... - Categoría de respuesta denominada **Filtrado** o también denominada en muchos casos **No aplica**, donde no hay intervención del entrevistado, ya que directamente no le es planteada la cuestión, en la mayor parte de los casos, porque alguna de sus repuestas anteriores imposibilita la respuesta a la pregunta actual, por inconveniente o incoherente; representado por un NA o puede ser un valor numérico no contemplado entre los posibles para el campo de respuesta etc... - Categoría de respuesta denominada **No definida**, cualquier respuesta dada por el entrevistado que no se encuentra entre las diferentes posibilidades que a priori podía recibir la pregunta, suponiendo una pregunta codificada; cualquier valor no incluido entre los códigos definidos para una variable. No tiene representación alguna, puede ser un blanco, puede ser nada (NA) o puede ser un valor numérico no contemplado entre los posibles para el campo de respuesta etc... Estos valores que en otros programas suelen no estar identificados o incluso si tienen valor numérico, pueden perturbar el cálculo matemático de medias, desviaciones, etc. . Estos valores, reciben códigos especiales en cualquier software, y particularmente en R, toman el valor `NA`. En este documento nos referiremos a estos valores como valores especiales, *missing values* o valores perdidos. ## Métodos de análisis En los apartados anteriores, hemos realizado una distinción entre variables medidas con escalas cualitativas y cuantitativas, ahora debemos hacer lo mismo con los métodos de análisis. - El primer nivel de clasificación basado en un criterio sobre el número de variables con el que se va a realizar el análisis: con una, dos o más variables. Respectivamente encontraremos los análisis univariantes, bivariantes y multivariantes. - El segundo criterio de clasificación se establece en función del tipo de variables (escalas de medición) con el que vamos a realizar el estudio, y de esta forma encontramos métodos de análisis sobre escalas cualitativas y métodos de análisis sobre escalas cuantitativas. - El tercer criterio tiene que ver con la relación que se establece entre las variables, encontrando de esta forma métodos de interdependencia o descriptivos, *“donde se pretende estructurar un fenómeno con el fin de comprenderlo mejor”*; por otro lado , métodos de dependencia o explicativos *“donde se persigue estudiar las relaciones que se producen entre dos fenómenos o un conjunto de fenómenos”* [@pedret2003herramientas]. ```{r} #| label: 'Diagrama de métodos' #| echo: false #| message: false #| warning: false #| out-width: "100%" #| fig-height: 8 DiagrammeR::grViz(" digraph flowchart { # --- CONFIGURACIÓN GENERAL DEL GRÁFICO --- graph [layout = dot, rankdir = TB, splines=ortho, nodesep=0.4, ranksep=0.8]; # --- DEFINICIÓN DE ESTILOS Y COLORES (Paleta The Economist) --- # Estilo para Nodos de Decisión (Rombos) node [shape = diamond, style = 'filled', fontname = 'Arial', fillcolor = '#076fa2', fontcolor=white, fixedsize=false]; Q_Dependencia; Q_TipoExplicada; Q_TipoExplicativaCuan; Q_TipoExplicativaCual; # Estilo para Nodos de Resultado/Método (Rectángulos Redondeados) node [shape = box, style = 'rounded,filled', fillcolor = '#c40000', fontcolor=white]; A_Correlacion; A_TablasContingencia; A_ANOVA; A_RegresionSimple; A_Discriminante; A_Logistica; # Estilo para Nodos de Proceso/Categoría (Rectángulos Grises) node [shape = box, style = 'filled', fillcolor = '#f0f0f0', fontcolor=black]; P_TipoVariable; P_Cuantitativa; P_Cualitativa; # Estilo para las flechas edge [fontname = 'Arial', fontsize=12, color='#4d4d4d']; # --- DEFINICIÓN DE NODOS (TEXTOS) --- # Preguntas Q_Dependencia [label='¿Existe una relación de dependencia \\n entre variables?']; Q_TipoExplicada [label='La variable a explicar \\n (dependiente) es...']; Q_TipoExplicativaCuan [label='...y la variable explicativa \\n (independiente) es...']; Q_TipoExplicativaCual [label='...y la variable explicativa \\n (independiente) es...']; # Pasos Intermedios P_TipoVariable [label='Análisis Bivariante: \\n ¿De qué tipo son las variables?']; P_Cuantitativa [label='Ambas Cuantitativas']; P_Cualitativa [label='Ambas Cualitativas']; # Respuestas / Métodos Finales A_Correlacion [label='Coeficiente de Correlación']; A_TablasContingencia [label='Tablas de Contingencia \\n Test Chi-Cuadrado']; A_ANOVA [label='Análisis de la Varianza (ANOVA)']; A_RegresionSimple [label='Regresión Lineal Simple']; A_Discriminante [label='Análisis Discriminante Simple']; A_Logistica [label='Regresión Logística Simple']; # --- DEFINICIÓN DE CONEXIONES (FLUJO) --- # Flujo principal: ¿Hay dependencia? Q_Dependencia -> P_TipoVariable [label=' No (simetría)']; Q_Dependencia -> Q_TipoExplicada [label=' Sí (asimetría)']; # Rama del NO (Análisis Bivariante Simétrico) P_TipoVariable -> P_Cuantitativa; P_TipoVariable -> P_Cualitativa; P_Cuantitativa -> A_Correlacion; P_Cualitativa -> A_TablasContingencia; # Rama del SÍ (Análisis de Dependencia) Q_TipoExplicada -> Q_TipoExplicativaCuan [label='Cuantitativa ']; Q_TipoExplicada -> Q_TipoExplicativaCual [label='Cualitativa ']; # Sub-rama: Variable dependiente CUANTITATIVA Q_TipoExplicativaCuan -> A_ANOVA [label='Cualitativa ']; Q_TipoExplicativaCuan -> A_RegresionSimple [label='Cuantitativa ']; # Sub-rama: Variable dependiente CUALITATIVA Q_TipoExplicativaCual -> A_Discriminante [label='Cuantitativa ']; Q_TipoExplicativaCual -> A_Logistica [label='Cualitativa ']; } ") ``` ## Tareas del investigador: análisis de valores perdidos Una vez que hemos comprendido que no todos los valores ausentes son iguales (recordemos las categorías: No contesta, No sabe, No aplica, No definido), debemos abordar el problema de forma sistemática. Un error común es precipitarse a "rellenar" o "borrar" los datos faltantes sin antes entenderlos. El análisis de valores perdidos es un trabajo de detective: debemos buscar pistas, entender el "porqué" de su ausencia y solo entonces decidir el mejor curso de acción. Las siguientes tareas nos guiarán en este proceso. ### Depuración de la base de datos Antes de analizar la ausencia de datos, debemos asegurarnos de que los datos que *sí* tenemos son correctos. Esta fase inicial de limpieza es crucial, ya que muchos "valores perdidos" pueden estar ocultos como valores imposibles o códigos sin etiquetar. - **Búsqueda de errores, valores fuera de rango permitido, etc.** - **Teoría:** Esta tarea consiste en una validación de la coherencia de los datos. No se trata de buscar `NA`s, sino valores que, aunque presentes, son lógicamente incorrectos. Un valor de `999` en una variable de "edad" o un `3` en una variable de "género" (codificada como 1=Hombre, 2=Mujer) no son `NA`, pero son errores o, muy probablemente, códigos especiales que representan un valor perdido (como "No contesta") y que no han sido correctamente registrados. Si no los identificamos, un cálculo como la edad media se verá completamente distorsionado. - **Ejemplo:** Imagina una encuesta de satisfacción donde los participantes valoran un servicio del 1 al 5. Al revisar los datos de la variable `satisfaccion`, encontramos valores como `1, 4, 5, 2, 9, 3, 1, -1`. Los valores `9` y `-1` están fuera del rango permitido. No son "ausentes" en el sentido estricto, pero son incorrectos. Nuestro trabajo es investigar qué significan. Tras consultar la documentación de la encuesta (el "libro de códigos"), descubrimos que `9` se usó para "No sabe / No contesta". Por lo tanto, debemos convertir todos los `9` a `NA` para que R los reconozca como valores perdidos y no los incluya en el cálculo de la satisfacción media. El `-1` podría ser un simple error de transcripción. ### Análisis de los valores perdidos En esta fase, nos ponemos el abrigo y tomamos la lupa de detective. No nos interesa (todavía) qué hacer con los valores perdidos, sino entender su naturaleza. ¿Por qué están ahí? ¿Aparecen al azar o siguen un patrón? - **Buscar la aleatoriedad de los datos perdidos** - **Teoría:** Este es el concepto más importante en el análisis de valores perdidos. Necesitamos saber si la ausencia de un dato es un evento fortuito o si está sistemáticamente relacionada con alguna otra característica de los encuestados. - **Aleatorio (MCAR - *Missing Completely at Random*):** La ausencia del dato no tiene relación con ninguna otra variable. Es como si alguien hubiera lanzado un dado para decidir si borrar o no una respuesta. Es el escenario ideal, pero poco común. - **Sistemático:** La ausencia del dato está relacionada con otra información que sí tenemos o con la propia variable que falta. Este es el escenario más común y peligroso, porque puede introducir sesgos en nuestros resultados. - **Ejemplo:** En una encuesta sobre hábitos de salud, falta el dato de "ingresos anuales" para varias personas. - **Escenario Aleatorio:** Si los valores perdidos de ingresos se distribuyen de manera uniforme entre hombres y mujeres, jóvenes y mayores, y personas de todas las regiones, podríamos pensar que la ausencia es aleatoria. Quizás algunas páginas del formulario se perdieron o hubo fallos técnicos puntuales. - **Escenario Sistemático:** Si descubrimos que el 90% de los valores perdidos de ingresos corresponden a personas que declararon tener un "nivel educativo bajo", la ausencia no es aleatoria. Está relacionada con el nivel educativo. Esto es un sesgo: las personas con menor nivel educativo podrían sentirse más incómodas revelando sus ingresos. - **Patrones en los valores perdidos, mayor importancia que la cuantía** - **Teoría:** Un 5% de datos perdidos de forma sistemática puede ser mucho más dañino para nuestras conclusiones que un 30% de datos perdidos de forma completamente aleatoria. El patrón revela un sesgo, una parte de la realidad que nos estamos perdiendo. Mientras que la pérdida aleatoria simplemente reduce el tamaño de nuestra muestra (y por tanto, la "potencia" de nuestros análisis), la pérdida sistemática nos lleva a conclusiones erróneas. - **Ejemplo:** En una encuesta de satisfacción laboral, la pregunta "¿Recomendarías tu empresa a un amigo?" tiene solo un 2% de valores perdidos. Parece una cantidad insignificante. Sin embargo, al investigar, descubrimos que el 100% de esos valores perdidos provienen de empleados del departamento de "Operaciones", que es conocido por sus malas condiciones laborales. Aunque la cuantía es baja, el patrón es alarmante. Si ignoramos esto, nuestro informe de satisfacción global estará sesgado al alza, porque hemos excluido sistemáticamente la opinión del departamento más descontento. ------------------------------------------------------------------------ ### Diagnóstico Ahora que tenemos sospechas sobre los patrones, necesitamos herramientas para confirmarlas y medir su alcance. Esta fase utiliza técnicas más formales para objetivar lo que encontramos en la fase de análisis. - **Cuantificación, ver su impacto en el banco de datos** - **Teoría:** Consiste en hacer un recuento simple: ¿Cuántos `NA` hay en cada variable (columna)? ¿Y en cada observación (fila)? Esto nos da una idea de la magnitud del problema. Una variable con un 90% de valores perdidos es prácticamente inútil y probablemente deberíamos descartarla. Un encuestado que solo ha respondido a 2 de 100 preguntas no aporta información y podría ser eliminado. - **Ejemplo:** Al cuantificar, vemos que la variable `email_contacto` tiene un 85% de valores perdidos, mientras que `edad` solo tiene un 2% y `satisfaccion_general` un 5%. Concluimos que `email_contacto` no es fiable para nuestro análisis. También identificamos 10 encuestados que tienen más del 90% de sus respuestas en blanco; probablemente abandonaron la encuesta al principio, por lo que decidimos eliminar esas filas. - **Revisión del patrón en otras variables** - **Teoría:** Es la aplicación práctica de la búsqueda de aleatoriedad. Cruzamos la variable que tiene valores perdidos con otras variables demográficas o de interés (género, edad, nivel de estudios, etc.) para ver si la proporción de `NA`s cambia entre los grupos. - **Ejemplo:** Para la variable `ingresos` (con un 20% de valores perdidos en total), calculamos el porcentaje de `NA`s por género. Descubrimos que solo el 5% de los hombres no respondieron, mientras que el 35% de las mujeres no lo hicieron. ¡Hemos encontrado un patrón claro! La ausencia de respuesta sobre los ingresos está fuertemente relacionada con el género. - **Uso de pruebas t para media en muestras independientes** - **Teoría:** Esta es una forma estadística de confirmar el punto anterior para variables numéricas. Creamos dos grupos: el grupo A (los que SÍ respondieron a la pregunta X) y el grupo B (los que NO respondieron a la pregunta X). Luego, comparamos la media de otra variable numérica (ej. `edad`) entre estos dos grupos. Si la media de edad es significativamente diferente entre el grupo A y el B, significa que la edad está relacionada con el hecho de responder o no a la pregunta X. - **Ejemplo:** Queremos saber si la `edad` influye en si la gente responde o no a la pregunta sobre `intencion_de_voto`. - Grupo A: Personas que sí respondieron sobre su intención de voto. Calculamos su edad media: 38.5 años. - Grupo B: Personas que no respondieron (NA). Calculamos su edad media: 55.2 años. Una prueba t nos confirmaría que esta diferencia es estadísticamente significativa. La conclusión es que las personas mayores son más reacias a compartir su intención de voto en nuestra encuesta. - **Correlaciones dicotomizadas o binarizadas con variables ficticias** - **Teoría:** Es otra técnica para detectar patrones. Convertimos nuestra variable de interés en una variable "ficticia" (dummy) que solo tiene dos valores: `1` si el dato está perdido y `0` si no lo está. Luego, podemos calcular la correlación de esta nueva variable 0/1 con otras variables de nuestro dataset. Una correlación alta (positiva o negativa) indica una fuerte relación. - **Ejemplo:** Creamos una variable llamada `falta_ingreso` (`1` si `ingresos` es `NA`, `0` si no lo es). Luego calculamos su correlación con la variable `desconfianza_instituciones` (una escala del 1 al 10). Si obtenemos una correlación positiva fuerte (ej. 0.7), significa que a mayor desconfianza en las instituciones, mayor es la probabilidad de que una persona no reporte sus ingresos. ------------------------------------------------------------------------ ### Tratamiento, diferentes métodos Finalmente, después de entender la naturaleza, la magnitud y los patrones de los datos perdidos, decidimos qué hacer. No hay una solución única; la elección depende del diagnóstico previo. - **Eliminación de todos los casos (Listwise deletion)** - **Teoría:** Es el método más drástico. Si una fila tiene al menos un valor perdido en cualquiera de las variables que nos interesan, se elimina toda la fila. Es fácil de implementar, pero puede llevar a una pérdida masiva de información si los `NA`s están esparcidos por muchas filas. Solo es recomendable si la cantidad de filas a eliminar es muy pequeña (ej. \<5%) y hemos comprobado que los datos perdidos son completamente aleatorios (MCAR). - **Ejemplo:** Si un participante respondió 49 de 50 preguntas, pero dejó en blanco la pregunta sobre su "hobby principal", este método eliminaría sus 49 respuestas válidas, perdiendo toda su valiosa contribución. - **Eliminación por parejas (Pairwise deletion)** - **Teoría:** Un método menos agresivo. En lugar de eliminar filas enteras, se utiliza toda la información disponible para cada cálculo específico. Si queremos correlacionar `edad` e `ingresos`, solo usamos las filas donde ambas variables tienen valor. Si luego queremos correlacionar `edad` y `satisfaccion`, usamos las filas donde esas dos tienen valor, que puede ser un conjunto de datos diferente. - **Ejemplo:** Tenemos 100 personas. 90 respondieron `edad`, 80 respondieron `ingresos`, y 75 respondieron ambas. - Para calcular la edad media, usamos las 90 personas. - Para calcular el ingreso medio, usamos las 80 personas. - Para calcular la correlación edad-ingresos, usamos solo las 75 personas que respondieron a ambas. La desventaja es que nuestros análisis se basan en sub-muestras diferentes, lo que puede complicar la interpretación. - **Imputación de valores medios/modas** - **Teoría:** Rellenar los `NA` de una variable numérica con la media de esa variable, o los `NA` de una variable categórica con la moda (el valor más frecuente). Es un método simple pero peligroso, ya que reduce artificialmente la variabilidad de los datos (la desviación estándar se encoge) y puede distorsionar las relaciones con otras variables. - **Ejemplo:** Si la edad media de los encuestados es 42 años, rellenamos todos los `NA` de la columna `edad` con el valor 42. Ahora tenemos un pico artificial de personas con exactamente 42 años, lo cual no es realista y debilita cualquier correlación que la edad pudiera tener con otras variables. - **Imputación de valores aleatorios** - **Teoría:** En lugar de usar siempre la media, rellenamos cada `NA` con un valor elegido al azar de entre los valores observados en esa misma variable. Esto es mejor que la media porque preserva la distribución y la variabilidad originales de los datos. - **Ejemplo:** Para rellenar un `NA` en `edad`, miramos todas las edades que sí tenemos, elegimos una al azar (ej. 35) y la asignamos. Para el siguiente `NA`, repetimos el proceso y nos sale otra edad (ej. 51). El resultado es mucho más natural que rellenar todo con 42. - **Imputación de valores aleatorios condicionados** - **Teoría:** Es una versión más inteligente de la anterior. Aprovechamos los patrones que descubrimos. En lugar de elegir un valor al azar de *toda* la muestra, lo elegimos de un subgrupo de individuos que son similares al que tiene el dato perdido. - **Ejemplo:** Sabemos que las mujeres tienden a no reportar sus ingresos. Para imputar el ingreso de una mujer de 30 años con estudios universitarios, no tomamos un valor al azar de toda la muestra. En su lugar, filtramos a todas las mujeres de entre 25-35 años con estudios universitarios que SÍ reportaron sus ingresos, y elegimos un valor al azar solo de ese grupo. El valor imputado será mucho más realista. - **Imputación por regresión** - **Teoría:** Es uno de los métodos más sofisticados. Se construye un modelo predictivo (como una regresión lineal) donde la variable con valores perdidos es la variable objetivo, y otras variables del *dataframe* son los predictores. El modelo "aprende" la relación entre las variables y predice cuál sería el valor más probable para cada `NA`. - **Ejemplo:** Para predecir los `NA` de `ingresos`, creamos un modelo: `ingresos = f(edad, nivel_educativo, años_experiencia)`. Para una persona con datos de edad, estudios y experiencia pero sin ingresos, introducimos sus datos en el modelo y este nos devuelve una predicción (ej. 45,000€). Esta predicción se usa para rellenar el `NA`. Es un método muy potente porque utiliza toda la información contextual disponible.