2026-03-08 / Vincent Guyader / astuces, base de données, développement

DuckDB + dbplyr : quand votre pipeline donne des résultats différents à chaque exécution

TL;DR ? L’essentiel en une phrase : DuckDB parallélise l’exécution des requêtes et ne garantit jamais l’ordre des lignes sans ORDER BY explicite. Si une étape de votre pipeline dépend de l’ordre, row_number(), cumsum(), lag(), distinct(.keep_all = TRUE), jointures par inégalité, vous produisez silencieusement des résultats non reproductibles. Cet article présente les quatre patterns qui font mal et comment les ...

Moissonneuse batteuse en plein récolte avec un déplacement horizontal, ligne par ligne

2021-10-21 / Vincent Guyader / astuces, données, tidyverse

Opérations en ligne dans le {tidyverse}

On nous demande souvent comment réaliser des opérations par lignes dans un data.frame (ou un tibble) la réponse est, comme souvent, “ca dépend” 🙂 Voyons ensemble quelques cas de figure qui devraient correspondre à vos besoins. library(tidyverse) Fabriquons un jeu de données d’exemple : base <- tibble::tibble( a = 1:10, b = 1:10, c = 21:30 ) %>% head() base ...