ServicesÀ proposNotesContact Me contacter →
EN FR
Note

dlt : chargement de données natif en Python

Un parcours de lecture à travers les mécaniques fondamentales de dlt — des briques de base au chargement spécifique BigQuery jusqu'au suivi d'état incrémental.

Planté
dltbigquerydata engineeringetlincremental processing

dlt (data load tool) est une bibliothèque Python pour construire des pipelines ELT. Les pipelines sont des scripts Python standard — installés avec pip, sans conteneurs ni serveur d’orchestration requis. La bibliothèque gère la pagination, l’inférence de schéma, l’état incrémental et le chargement spécifique à la destination.

Ces notes couvrent les mécaniques fondamentales de dlt, l’intégration BigQuery et le comportement du chargement incrémental.

Ordre de lecture

  1. dlt Core Concepts — Les quatre briques de base : sources, ressources, pipelines et schémas. Plus les trois write dispositions (replace, append, merge) qui contrôlent comment les données atterrissent. Commencez ici si vous découvrez dlt.

  2. dlt and BigQuery Integration — La couche spécifique BigQuery : streaming inserts vs. staging GCS (et pourquoi le staging est presque toujours plus économique), bigquery_adapter() pour le partitionnement et le clustering, la normalisation JSON imbriqué en tables parent-enfant, et les tables de métadonnées _dlt_ créées par dlt.

  3. dlt Incremental Loading — Comment dlt suit l’état entre les exécutions avec dlt.sources.incremental(). Suivi basé sur un curseur, état stocké dans la destination, configuration déclarative de l’API REST, et la relation avec les modèles incrémentiels dbt en aval.

  4. dlt for AI-Assisted Pipeline Development — Pourquoi le design natif Python et déclaratif de dlt se prête bien au développement assisté par IA. Le REST API builder en pratique, le flux de travail IA + dlt, et les résultats en production des équipes qui ont effectué la transition.

Contexte de décision

Le cadre de décision build-vs-buy couvre les cas où dlt est le bon choix. dlt convient aux équipes maîtrisant Python qui souhaitent du contrôle, ont des contraintes budgétaires, ou ont besoin de sources sans connecteurs préconstruits. Il ne convient pas aux équipes non techniques, aux organisations ayant besoin de plus de 700 connecteurs, ou aux équipes n’ayant pas la capacité de gérer l’infrastructure des pipelines. Voir aussi Fivetran MAR Pricing Shift pour le contexte de tarification des ELT managés.

Lecture connexe

  • Build vs. Buy Data Pipelines — L’argumentation économique complète expliquant pourquoi le calcul managé-vs-personnalisé a évolué en 2025.
  • BigQuery Cost Model — Comprendre le modèle de coûts BigQuery permet d’optimiser les pipelines construits, notamment autour du chargement en streaming vs. par lots.
  • Incremental Models in dbt — Comment fonctionne le traitement incrémental dans la couche de transformation, en complément de l’incrémentalité côté extraction de dlt.