Procesamiento de datos

Predecir género a partir de nombres usando un modelo de lenguaje en R

Hace poco conocí el paquete {mall}, que facilita mucho el uso de un un modelo de lenguaje (LLM) local como una herramienta cotidiana para el análisis y procesamiento de datos.

El paquete incluye varias funciones para usar un modelo LLM local en las columnas de un dataframe. {mall} te puede ayudar a :

  • clasificar el contenido de una variable
  • resumir textos
  • extraer sentimiento a partir del texto
  • extraer información desde el texto
  • confirmar si algo es verdadero o falso a partir de un texto
  • y también a aplicar cualquier prompt a una variable.

Recientemente lo usé para un caso real, donde tenía una columna de casi 2.000 nombres, y necesitaba asignarle un género a cada una de estas personas, solamente a partir de sus nombres y apellidos.

Comparar el rendimiento expresiones en R

Para comparar el rendimiento de distintas expresiones en R, realizamos un benchmark, al cual le entregamos las expresiones que queremos comparar, y nos entregará un detalle de su velocidad de ejecución. Así podemos optar por una de las operaciones en base a su mejor rendimiento.

Visualización y scraping de resultados en vivo de las elecciones municipales 2024

Con motivo de las elecciones municipales, estuve generando algunas visualizaciones ”en tiempo real” de los resultados de las elecciones de alcaldías. Los datos de conteo de votos los fui obteniendo minuto a minuto mediante web scraping con {RSelenium}, que permite programar un navegador web para que interactúe con un sitio como si fuera humano. Finalmente desarrollé un sistema que, con un solo comando, ejecutaba el scraping, la limpieza y procesamiento de los datos, y retornaba tablas y gráficos listos para compartir.