Cálculos multiprocesador en R con {furrr}

5/9/2024

Temas: procesamiento de datos consejos

Si tienes que trabajar con bases de datos muy grandes, puedes acelerar el cálculo usando todos los procesadores de tu computador con tan sólo un par de líneas, usando {purrr} y {furrr}.

library (dplyr) 

# cálculo normal, un solo procesador
datos |>
  count (id, palabra)

# cálculo multiprocesador
library(furrr)
plan(multisession,workers=8) # procesadores a usar

datos |> 
  # crear variable con 8 niveles de igual cantidad de filas
  mutate (grupos = (row_number ()-1) %/% (n()/8)) |>
  # separar el dataframe en una lista con un dataframe por grupo
  group_split (grupos) |>
  # calcular multiprocesador, un grupo por procesador
  future_map(~count(.x, id, palabra)) |>
  # volver a unir resultados en un solo dataframe
  list_rbind()
Fecha de publicación:
September 5, 2024
Extensión:
1 minute read, 111 words
Tags:
procesamiento de datos consejos
Ver también:
Tips para limpieza de datos en R
Contar días hábiles entre dos fechas en R
Predecir género a partir de nombres usando un modelo de lenguaje en R