Tutoriales

Explorar datos del Censo de Población y Vivienda 2024 con R

Una de las dificultades más frecuentes en el análisis de datos es poder acceder a datos censales, porque su tamaño suele ser muy grande para la mayoría de los computadores, o bien imposible de abrir con programas como Excel. En este tutorial veremos cómo cargar los datos del Censo 2024 de Chile con R, accediendo a bases de datos de millones de observaciones para calcular estadísticas poblacionales sin colapsar nuestros computadores.

datos chile

Testeo automatizado de aplicaciones Shiny con {shinytest2}

La validación de aplicaciones te permite crear un conjunto de pruebas para confirmar que tus aplicaciones funcionan bien sin tener que probarlas manualmente. Puedes programar un bot que apriete todos los botones de tu aplicación y obtener capturas de pantalla que te confirmen que todo se ve bien. En esta guía aprenderás a utilizar {shinytest2} para automatizar el testeo de tus aplicaciones Shiny, asegurando su correcto funcionamiento a través de capturas de pantalla y otras validaciones automáticas.

shiny automatización

Aprendiendo a usar conectores o pipes

Series: Introducción a R

Los conectores o pipes son símbolos que nos permiten encadenar varias operaciones. En inglés, pipe significa literalmente ’tubería’, porque la idea es que los datos fluyan a través de una serie de pasos. En esta guía comprenderemos cómo se usan los conectores, y cómo pueden ayudarnos a escribir mejores análisis.

Mapas y visualización de datos geoespaciales en R con {sf}

R cuenta con un muy amplio ecosistema para trabajar con datos geoespaciales. Uno de los paquetes más importantes es {sf}, que permite manipular datos espaciales a partir del estándar simple features (características simples). En esta guía iré recopilando los comandos básicos para manipular y visualizar datos geoespaciales en R. En la medida que voy aprendiendo más sobre hacer mapas, iré actualizando y complementando.

mapas visualización de datos

Convierte gráficos {ggplot2} en visualizaciones interactivas con {ggiraph}

{ggiraph} es un paquete de R que permite agregar interactividad a gráficos {ggplot2}. Esto significa que tus gráficos podrán mostrar información extra al pasar el cursor encima (tooltips), hacer que se destaquen u oculten elementos al pasar el cursor, hacer clic en elementos del gráfico para generar cambios en aplicaciones, y más. También es posible combinar la interactividad de dos o más gráficos, lo que permite crear visualizaciones más complejas y reveladoras.

visualización de datos ggplot2

Crear y conectarse a una base de datos en R

Coloquialmente se usa el término base de datos para referirse a datos que están en Excel. Pero en realidad una base de datos es algo distinto: un sistema de almacenamiento y procesamiento de datos que puede contener múltiples tablas, alojado en un computador, servidor o en la nube, que puede entregar datos de forma rápida y eficiente de acuerdo a las solicitudes que se le hagan. En este post veremos cómo crear una base de datos gratuita, cómo conectarnos a ella desde R, a leer y escribir tablas, y procesar datos desde la base de datos remota.

datos optimización dplyr

Crea un mapa de Chile desde datos geoespaciales oficiales en R

En este tutorial aprenderemos a crear mapas de Chile en R usando datos geográficos o shapes oficiales, obtenidos desde la Subsecretaría de Desarrollo Regional y Administrativo (Subdere) y la Biblioteca del Congreso Nacional de Chile. El objetivo será aprender a visualizar mapas desde shapefiles obtenidos de internet, y a procesar datos geográficos más complejos con R, para generar mapas de Chile con polígonos y límites geográficamente correctos.

mapas ggplot2 gráficos ciencias sociales Chile

Unir o cruzar datos con left_join()

Un left join realiza una unión o combinación entre dos tablas de datos a partir de una variable en común o clave (key). En otras palabras, un left join toma dos tablas que tienen datos distintos, pero que comparten una variable o columna en común, y usa esta variable en común para unir las observaciones de ambas tablas. En este tutorial explico a hacer left joins con frutas, animales, y uso irregular de licencias médicas.

procesamiento de datos limpieza de datos básico

Tutorial: web scraping controlando un navegador web con {RSelenium} en R

Selenium es una herramienta que permite realizar web scraping avanzado por medio del control programático de un navegador web, lo cual abre infinitas posibilidades al momento de automatizar la obtención de datos e información desde sitios web dinámicos y/o complejos. En este tutorial aprenderemos a usar {RSelenium} para programar scripts de R que automaticen el control de un navegador para interactuar con sitios web y así scrapear datos mas difíciles de obtener.

web scraping datos

Automatiza la generación de reportes creando documentos parametrizados con Quarto y R

En este tutorial aprenderemos a crear reportes parametrizados con Quarto. Un reporte parametrizado es un reporte diseñado para que el contenido, incluyendo textos, gráficos y más, cambien al modificar una variable en su encabezado. En este sentido, por parámetro nos referimos a un valor que podremos cambiar para alterar el resultado obtenido por un mismo reporte.

De esta manera, podemos generar múltiples versiones de un mismo reporte simplemente cambiando el parámetro, por ejemplo, para diseñar un reporte con datos para un país, en base a un conjuntos de datos de múltiples países, y luego obtener múltiples versiones del mismo reporte pero para distintos países. O generar un reporte con datos de un año específico, y luego generar versiones del mismo reporte para distintos años.

quarto loops

Tutorial: presenta los resultados de tus análisis de datos con R creando reportes y documentos Quarto

Quarto es una herramienta que te permite generar documentos y reportes de manera muy sencilla utilizando bloques de código de R. En estos reportes puedes incluir tablas, gráficos, y mucho más, de forma atractiva, para poder compartir tus análisis y resultados con otras personas. Aprender a generar documentos Quarto es una herramienta que puede llevar tus habilidades de análisis de datos al siguiente nivel!

quarto

Tutorial: visualización de datos con {ggplot2}

Series: Introducción a R

{ggplot2} es una librería de visualización de datos bastante popular en el mundo de la ciencia de datos. Sus principales características son su atractivo, su conveniencia para la exploración de datos, un gran potencial de personalización, y un extenso ecosistema de extensiones que nos permiten generar visualizaciones prácticamente de cualquier tipo. Sigue este tutorial para aprender desde lo más básico a utilizar {ggplot2}

visualización de datos gráficos ggplot2

Introducción al manejo de datos con {dplyr}

Series: Introducción a R

Luego de haber aprendido las funcionalidades básicas del lenguaje y R, y habernos familiarizado con herramientas un poco más avanzadas de la programación en este lenguaje, ahora podemos aplicar estos aprendizajes a los datos. Aprenderemos a explorar, comprender, y navegar tablas de datos, tanto en la forma nativa de trabajar con R, como con la ayuda del paquete {dplyr}.

dplyr datos básico

Herramientas básicas para programar con R

Series: Introducción a R

En guía aprenderemos herramientas de programación poderosas que flexibilizarán mucho nuestras capacidades de análisis de datos, abriendo infinitas posibilidades. Con ellas, podremos crear nuevas herramientas que nos permitan hacer lo que necesitamos (funciones), condicionar lo que queremos que ocurra en nuestros procesos (controlar el flujo), y realizar operaciones repetidamente (iteraciones o loops).

básico funciones control de flujo loops programación

Tutorial: crear un repositorio Git para tu proyecto de R y comparte tu código en GitHub

Series: Introducción a R

En este tutorial se entregan los pasos para empezar a usar Git con tus proyectos de R. Git te permite llevar un registro de las versiones y un control de cambios en tu código, mientras que GitHub te permite subir tus repositorios a un servicio online, en el cual puedes compartir tu código con otras personas, descargar el código de otros, y colaborar en un mismo proyecto.

Git Consejos

Video: Taller Aplicación de la Ciencia de Datos en la Gestión Municipal

Tuve el privilegio de exponer en la Universidad Internacional de la Municipalidad de Rancagua, un espacio de diálogo, aprendizaje y colaboración, organizado por el Programa de Gobierno Local Abierto (GOBLA) de la Municipalidad de Rancagua.

Presenté un taller dirigido a funcionarios y funcionarias municipales sobre Aplicación de la ciencia de datos en la Gestión Municipal, donde comuniqué la importancia de manejar herramientas de progamación para le análisis de datos, favoreciendo el desarrollo de herramientas reutilizables, reproducibles, transparentes y abiertas.

dplyr web scraping datos procesamiento de datos limpieza de datos Chile videos

Tutorial: web scraping en R usando {rvest}

Se denomina web scraping a un conjunto de técnicas usadas para obtener datos desde páginas web. Esto significa poder transformar la información que vemos en distintos sitios de internet en datos que podamos utilizar.

Se usa el web scraping cuando un sitio web presenta información, cifras, datos, números, o cualquier otro elemento que nos pueda servir, pero sin facilitar acceso a los datos, como sería un enlace de descarga, una API para obtener los datos, o alguna forma de exportar la información. En estos casos tenemos que recurrir al scraping para transformar lo que vemos en la web en datos analizables.

web scraping datos

Análisis de sentimiento usando modelos de lenguaje (LLM) locales en R

El análisis de sentimientos es una técnica de análisis de texto donde se aplican distintos algoritmos para poder clasificar textos de distinta longitud y complejidad en un conjunto preestablecido de categorías relacionadas al sentimiento de dichos textos. Con el sentimiento de los textos nos referimos a la información subjetiva que entregan estos textos, así como los afectos que producen. Por ejemplo, “odio a mi gato” versus “mi gatita es tan tierna” son dos textos que expresan distintos niveles de negatividad/positividad, agresividad, ternura, etcétera. Las categorías del análisis del sentimiento suelen ser positivo, neutro y negativo, u otras más complejas, como agrado (agradable/desagradable), activación (activo/pasivo), entre otros.

análisis de texto inteligencia artificial

Crea tu propio asistente de programación en R con inteligencia artificial usando el paquete {pal}

El paquete {pal} te permite crear asistentes para programar en R, potenciados por modelos de lenguaje (LLM). La utilidad de estos asistentes es que pueden ayudarte a realizar tareas rápidamente a partir de tu código de R, o incluso a partir de un texto que describa lo que quieres hacer. En este post te enseño a crear dos asistentes para tareas que realizo frecuentemente: describir lo que hace un código de R, y traducir una instrucción a código de {dplyr}

consejos inteligencia artificial

Crea un mapa de Chile y visualiza datos comunales y regionales con mapas en R

Visualizar datos geográficamente es una herramienta de comunicación y análisis de datos muy potente. En este tutorial te explico cómo obtener mapas comunales y regionales de Chile en R, y cómo crear un gráficos que visualizan variables numéricas en las comunas y regiones del país. En pocos pasos puedes transformar tus datos territoriales en visualizaciones mucho más densas e informativas.

mapas gráficos ciencias sociales Chile

Cargar y explorar datos de la encuesta Casen en R, usando factor de expansión

Este post ejemplifica tres formas de cargar y explorar los datos de la encuesta Casen 2022, la Encuesta de caracterización socioeconómica nacional.

Veremos cómo obtener resultados de la Casen a nivel de país, región y comuna, usando dos formas de aplicar el factor de expansión. El factor de expansión es necesario de aplicar para transformar los resultados de la muestra de la encuesta a cifras que tienen representación a los distintos niveles de agrupación geográfica.

dplyr Chile estadística ciencias sociales datos

Tutorial: publicar una app Shiny en shinyapps.io

Series: Introducción a R

¿Desarrollaste una aplicación con Shiny, y quieres compartirla con el mundo? shinyapps.io es, en mi experiencia, el servicio más sencillo de usar para poder hacer públicas tus aplicaciones Shiny. Este post contiene instrucciones paso a paso para que publiques y compartas tus aplicaciones.

shiny

Primer paso: instalar R

Series: Introducción a R

Instrucciones básicas para que descargues e instales R y RStudio, dirigidas a personas sin conocimientos previos o principiantes. ¡Es tu primer paso al mundo de la programación!

básico

Tutorial: publicar una app Shiny en Digital Ocean

En este tutorial encuentras instrucciones paso a paso para crear un droplet (servidor privado) en Digital Ocean, en el cual puedes subir aplicaciones Shiny, ejecutar RStudio, dejar automatizados procesos recurrentes de análisis de datos o web scraping, y más.

Shiny

Tutorial: Mapa de la zona urbana de la Región Metropolitana de Santiago en R

Este tutorial de R te explicará paso a paso a cómo obtener mapas de todo Chile usando el paquete {chilemapas} desarrollado por Mauricio Vargas, y hacer gráficos con estos mapas usando {ggplot2}.

En la primera parte veremos cómo obtener los mapas y cómo visualizar datos comunales usando mapas en R. Si necesitas una guía sobre mapas en R, revisa este post.

Luego, nos enfrentaremos a un problema común que se tiene al graficar un mapa de la Región Metropolitana de Santiago, que tiene que ver con la diferencia entre los límites comunales reales de cada comuna y los límites urbanos de las comunas. Es la diferencia entre tener un mapa de la RM que abarque sectores rurales como Paine y que llegue hasta Argentina, o un mapa que demarque la zona urbana de Santiago, aproximadamente correspondiente a la zona que atravieza el anillo de la autopista Américo Vespucio.

mapas Chile

Tutorial: Scraping de estadísticas delictuales del Centro de Estudios y Análisis del Delito con R

En este script detallaré cómo descargar datos de estadísticas delictuales del Centro de Estudios y Análisis del Delito (CEAD) de Chile utilizando técnicas de web scraping en R. Las estadísticas disponibles en el sitio web de CEAD corresponden a los siguientes datos oficiales: Estadísticas Oficiales de Delitos de Mayor Connotación Social (DMCS), Violencia Intrafamiliar (VIF), Incivilidades y otros hechos informados por Carabineros y la Policía de Investigaciones de Chile al Ministerio del Interior y Seguridad Pública.

web scraping Chile datos ciencias sociales