Manipulación de datos en R: guía completa con dplyr
Manipulación de datos en R con dplyr
Introducción
La manipulación de datos es una parte fundamental en el análisis de datos con R. Una de las librerías más utilizadas para realizar esta tarea es dplyr. En este artículo, exploraremos cómo utilizar dplyr para transformar y manipular datos en R.
¿Qué es dplyr?
dplyr es una librería de R que proporciona una gramática consistente y fácil de usar para manipular datos. Fue desarrollada por Hadley Wickham, uno de los principales contribuyentes al ecosistema de R.
Instalación de dplyr
Para instalar dplyr, puedes ejecutar el siguiente código en R:
install.packages("dplyr")
Transformar datos con dplyr
Una de las principales funcionalidades de dplyr es la capacidad de transformar datos de diferentes maneras. Algunas de las operaciones más comunes incluyen filtrar filas, seleccionar columnas, ordenar datos y agrupar datos.
Filtrar filas
Para filtrar filas en un data frame, puedes utilizar la función filter() de dplyr. Por ejemplo, si queremos filtrar las filas de un data frame llamado “datos” donde la columna “edad” sea mayor a 18, podemos hacer lo siguiente:
datos_filtrados <- filter(datos, edad > 18)
Esto creará un nuevo data frame llamado “datos_filtrados” que contiene solo las filas donde la edad es mayor a 18.
Seleccionar columnas
Para seleccionar columnas en un data frame, puedes utilizar la función select() de dplyr. Por ejemplo, si queremos seleccionar las columnas “nombre” y “edad” de un data frame llamado “datos”, podemos hacer lo siguiente:
datos_seleccionados <- select(datos, nombre, edad)
Esto creará un nuevo data frame llamado “datos_seleccionados” que contiene solo las columnas “nombre” y “edad”.
Ordenar datos
Para ordenar datos en un data frame, puedes utilizar la función arrange() de dplyr. Por ejemplo, si queremos ordenar un data frame llamado “datos” por la columna “edad” de forma descendente, podemos hacer lo siguiente:
datos_ordenados <- arrange(datos, desc(edad))
Esto creará un nuevo data frame llamado “datos_ordenados” donde los datos están ordenados por la columna “edad” de forma descendente.
Agrupar datos
Para agrupar datos en un data frame, puedes utilizar la función group_by() de dplyr. Por ejemplo, si queremos agrupar un data frame llamado “datos” por la columna “ciudad”, podemos hacer lo siguiente:
datos_agrupados <- group_by(datos, ciudad)
Esto creará un nuevo data frame llamado “datos_agrupados” donde los datos están agrupados por la columna “ciudad”.
Conclusiones
dplyr es una poderosa librería de R que facilita la manipulación de datos. En este artículo, hemos explorado algunas de las funcionalidades principales de dplyr, incluyendo filtrar filas, seleccionar columnas, ordenar datos y agrupar datos. Espero que este artículo te haya dado una introducción sólida a dplyr y te haya inspirado a explorar más sobre esta librería.
Si estás interesado en aprender más sobre dplyr, te recomiendo visitar la página oficial de dplyr y consultar la documentación oficial.