Développement d’un package R de webscraping et projet RStudio clé en main avec {renv}

Contexte et enjeux de la mission

Dans un souci d’automatisation et de gain de temps, une association sollicite ThinkR afin de réaliser les opérations de webscraping d’un site internet.
L’objectif est de gagner en efficacité sur l’extraction des informations, puis d’automatiser quotidiennement ces tâches, qui étaient extraites manuellement, table après table, et copiées dans Excel.

Notre intervention

  • Développement d’un package R contenant les fonctions utiles pour le webscraping.
  • Création des fonctions pour extraire l’ensemble des ressources à scrapper.
  • Développement du package à l’aide de {renv}
  • Package versionné et documenté avec {fusen}
  • Les fonctions sont testées (91.01% de couverture)
  • Création d’une fonction pour initier un projet Rstudio clé en main
    • Projet embarqué avec {renv} pour permettre l’utilisation des fonctions

Résultat & valeur ajoutée

Le package contient un ensemble d’outils et de fonctions pour permettre une automatisation des tâches de scrapping.
L’extraction de l’ensemble des ressources ne prend désormais plus que quelques secondes contre plusieurs minutes/heures auparavant.
Des messages informationnels permettent de suivre l’évolution des tâches liées à l’extraction des ressources.

Les fonctions sont testées et documentées pour permettre au package une bonne maintenance.
Enfin, le package permet la création d’un projet RStudio, clé en main, grâce à {renv} pour permettre l’exécution des fonctions.
L’utilisateur est en mesure d’utiliser les fonctions, en suivant le guide Rmarkdown fourni, en utilisant les mêmes versions des packages R que celles utilisées lors du développement, ce qui réduit le risque de ruptures futures.

Nos derniers Use Cases