Web scraping de noticias: avances de fin de año

A largo de todo el año 2024 he estado realizando web scraping de distintas fuentes de noticias digitales de Chile. Casi todos los días ejecuto un script que a su vez se ejecuta decenas de otros scripts, que realizan el scraping diario de noticias. El resultado de estos procesos, día tras día, va aumentando la cantidad total de noticias que he ido recolectando. De vez en cuando, algún sitio cambia, o algo falla, y tengo que corregir manualmente los scripts. Cada cierto tiempo ejecuto versiones alternativas de los scripts para hacer una extracción de datos desde fechas anteriores, aumentando la cantidad total de noticias de fechas pasadas, lo que me permite rellenar vacíos en las obtenciones anteriores de noticias diarias, como también aumentar la cantidad total de noticias con datos desde años antes de que empezara este proyecto.

blog ggplot2 web scraping animaciones

Extrae datos desde páginas de internet haciendo web scraping en R con {rvest}

Se denomina web scraping a un conjunto de técnicas usadas para obtener datos desde páginas web. Esto significa poder transformar la información que vemos en distintos sitios de internet en datos que podamos utilizar.

Se usa el web scraping cuando un sitio web presenta información, cifras, datos, números, o cualquier otro elemento que nos pueda servir, pero sin facilitar acceso a los datos, como sería un enlace de descarga, una API para obtener los datos, o alguna forma de exportar la información. En estos casos tenemos que recurrir al scraping para transformar lo que vemos en la web en datos analizables.

web scraping datos
27/12/2024

Haciendo que un loop muy largo termine sin cancelarlo

Me encuentro en la tarea de tener que procesar cientos de miles de datos, lo cual demorará varios cientos de horas, por lo que necesito que dejar mi computador trabajando durante las noches, por varios días. La idea es que, cada noche, el computador procese de la mayor cantidad de datos posibles, los resultados se guarden, y a la siguiente noche el proceso se repita con datos nuevos, hasta que en algunos días logre procesar todos los cientos de miles de datos que necesito.

consejos curiosidades blog purrr optimización
26/12/2024

Análisis de sentimiento usando modelos de lenguaje (LLM) locales en R

El análisis de sentimientos es una técnica de análisis de texto donde se aplican distintos algoritmos para poder clasificar textos de distinta longitud y complejidad en un conjunto preestablecido de categorías relacionadas al sentimiento de dichos textos. Con el sentimiento de los textos nos referimos a la información subjetiva que entregan estos textos, así como los afectos que producen. Por ejemplo, “odio a mi gato” versus “mi gatita es tan tierna” son dos textos que expresan distintos niveles de negatividad/positividad, agresividad, ternura, etcétera. Las categorías del análisis del sentimiento suelen ser positivo, neutro y negativo, u otras más complejas, como agrado (agradable/desagradable), activación (activo/pasivo), entre otros.

análisis de texto inteligencia artificial
22/12/2024

Novedades: app de temperaturas extremas, actualizaciones de otras apps

Resumen de las actualizaciones recientes de mis trabajos. Recientemente lancé un visualizador de temperaturas extremas de Chile, que permite ver gráficamente los efectos del calentamiento global medidas por las estaciones meteorológicas del país. Además, actualicé los datos del visualizador de delincuencia, que ahora tiene datos hasta septiembre de 2024, y también del visualizador de femicidios, que también ahora tiene datos hasta la fecha.

En paralelo, otra aplicación que se actualiza frecuentemente es la de análisis de prensa, que se actualiza todos los lunes o martes de la semana con las noticias hasta el domingo anterior; es decir, muestra los datos de la última semana completa hacia atrás (esto porque el visualizador es de datos semanales, no diarios, entonces tienen que estar terminadas las semanas para poder incluirlas en el análisis, de lo contrario las semanas aparecerían con menos datos).

blog

Procesando datos de texto en masa usando modelos de lenguaje (LLM)

Anoche dejé el computador procesando 5000 noticias por 8 horas usando un modelo de lenguaje (LLM) local en R para obtener clasificación, resumen y sentimiento de cada texto.

Esto porque tengo una base de datos de más de 600 mil noticias chilenas, con su texto completo, y quiero empezar a sacarle más provecho. Por ejemplo, saber si noticias que hablan de ciertos temas son positivas o negativas (sentimiento), o simplemente clasificar de manera automatizada las noticias para separar las de política y economía de las de deportes y farándula.

inteligencia artificial blog
20/12/2024

Crea tu propio asistente de programación en R con inteligencia artificial usando el paquete {pal}

El paquete {pal} te permite crear asistentes para programar en R, potenciados por modelos de lenguaje (LLM). La utilidad de estos asistentes es que pueden ayudarte a realizar tareas rápidamente a partir de tu código de R, o incluso a partir de un texto que describa lo que quieres hacer. En este post te enseño a crear dos asistentes para tareas que realizo frecuentemente: describir lo que hace un código de R, y traducir una instrucción a código de {dplyr}

consejos inteligencia artificial
10/12/2024

Portafolio de trabajos previos en R

Muestras de algunos proyectos que he realizado como analista de datos y desarrollador de R, y que consisten principalmente en aplicaciones web para la visualización y exploración de datos usando el lenguaje de programación R, la suite de paquetes para ciencia de datos Tidyverse, y el paquete de desarrollo de aplicaciones web Shiny.

apps gráficos shiny tablas mapas quarto
26/11/2024

Crea un mapa de Chile y visualiza datos comunales y regionales con mapas en R

Visualizar datos geográficamente es una herramienta de comunicación y análisis de datos muy potente. En este tutorial te explico cómo obtener mapas comunales y regionales de Chile en R, y cómo crear un gráficos que visualizan variables numéricas en las comunas y regiones del país. En pocos pasos puedes transformar tus datos territoriales en visualizaciones mucho más densas e informativas.

mapas gráficos ciencias sociales Chile

Convertir un script de R con comentarios a un documento Quarto

Cuando trabajo con R, siempre intento dejar comentarios sobre de las cosas que estoy haciendo, tanto antes como después de cada bloque de código. Así, le hago un favor a mi yo del futuro, dejando una cierta documentación de las cosas que estuve haciendo, los objetivos que tenía, y otras aclaraciones sobre los procesos realizados.

A esta combinación de bloques de código y párrafos de textos se le llama programación literaria, o literate programming.

consejos Quarto

Cargar y explorar datos de la encuesta Casen en R, usando factor de expansión

Este post ejemplifica tres formas de cargar y explorar los datos de la encuesta Casen 2022, la Encuesta de caracterización socioeconómica nacional.

Veremos cómo obtener resultados de la Casen a nivel de país, región y comuna, usando dos formas de aplicar el factor de expansión. El factor de expansión es necesario de aplicar para transformar los resultados de la muestra de la encuesta a cifras que tienen representación a los distintos niveles de agrupación geográfica.

dplyr Chile estadística ciencias sociales datos
10/11/2024