Build vs. Buy : quand construire vos data pipelines en 2026

Pendant des années, le conseil était simple : utilisez Fivetran. Ne perdez pas de temps d’ingénierie à construire des connecteurs quand vous pouvez payer pour la fiabilité et passer à des travaux à plus forte valeur ajoutée. Le calcul était évident : 50 à 100 heures par connecteur personnalisé, 44 % du temps des ingénieurs perdu en maintenance de pipelines, contre une facture mensuelle prévisible.

Ce conseil ne tient plus. Les évolutions tarifaires, le développement assisté par l’IA et les alternatives open source matures ont fondamentalement changé l’équation. Les solutions managées sont pratiques. La vraie question est de savoir si cette praticité justifie encore le coût.

L’ancien calcul est mort

L’argument traditionnel en faveur de l’achat reposait sur une étude Wakefield Research : les data engineers consacrent 44 % de leur temps à construire et maintenir des pipelines, ce qui coûte environ 520 000 $ par an aux entreprises. Le développement d’un connecteur personnalisé prend 50 à 100 heures. Quand Fivetran coûte quelques milliers de dollars par mois et que vos ingénieurs coûtent bien plus, acheter l’emporte.

Puis mars 2025 est arrivé.

Fivetran est passé d’une tarification par compte à une tarification par connecteur basée sur les Monthly Active Rows (MAR), supprimant les remises de volume qui rendaient le service abordable à grande échelle. Des utilisateurs Reddit signalent des augmentations de 4 à 8x. Un utilisateur décrit un passage de 20 $/mois à 2 000 $/mois à mesure que son volume de données augmentait. 35 % des évaluateurs G2 récents citent désormais le coût comme préoccupation principale.

Les données marketing sont particulièrement touchées. La tarification MAR facture chaque ligne modifiée, et les données marketing changent en permanence. Les métriques publicitaires se mettent à jour rétroactivement, les fenêtres d’attribution évoluent, et les données de performance des campagnes se rafraîchissent quotidiennement. Ce qui ressemblait à une dépense raisonnable devient un centre de coûts incontrôlable.

Le coût caché de l’achat est devenu très visible.

Ce qui a vraiment changé

Trois évolutions ont convergé pour inverser l’équation économique.

La tarification de Fivetran est devenue imprévisible. Les changements de mars 2025 n’étaient pas une simple augmentation de prix. Ils ont fondamentalement modifié la manière dont les coûts évoluent. La tarification MAR par connecteur signifie que l’ajout de connecteurs ne bénéficie plus de remises de volume. Les équipes avec de nombreuses connexions constatent des augmentations de 70 %. Le contrat annuel minimum est de 12 000 $, et ce avant même que vos données ne circulent.

La vélocité de développement avec l’IA a été mesurée. Les gains de productivité ne sont plus hypothétiques. Une expérience contrôlée publiée sur arXiv a montré que les développeurs complétaient l’implémentation d’un serveur HTTP 55,8 % plus vite avec GitHub Copilot (1 heure 11 minutes contre 2 heures 41 minutes). Une expérience terrain de Microsoft et Accenture a montré 12 à 21 % de pull requests supplémentaires par semaine. La propre recherche de GitHub a révélé que les développeurs avaient 56 % de chances supplémentaires de passer tous les tests unitaires avec assistance IA.

dlt a atteint la maturité production. La librairie Python-native de data loading a franchi les 3 millions de téléchargements mensuels. En septembre 2024 à lui seul, les utilisateurs ont créé 50 000 connecteurs personnalisés, soit une multiplication par 20 depuis janvier. La librairie en est à la version 1.19, au-delà du jalon de stabilité 1.0, avec des utilisateurs en production comme Artsy et PostHog.

Ces trois facteurs se cumulent. Construire des pipelines coûte moins cher parce que l’IA accélère le développement. dlt fournit le framework qui rend le développement de pipelines assisté par l’IA praticable. Et le coût de base des solutions managées continue d’augmenter.

Ce que l’IA gère bien (et ce qu’elle ne gère pas)

L’assistance IA n’a rien de magique. Comprendre où elle aide (et où elle échoue) détermine si l’option « construire » tient réellement ses promesses.

L’IA excelle sur les tâches répétitives. Code boilerplate, scaffolding de connecteurs API, structure ETL, fichiers de configuration, génération SQL et création de tests. Du code à base de patterns où vous implémentez quelque chose de similaire à des milliers d’exemples existants. Un utilisateur dlt décrit avoir terminé un pipeline complet « en cinq minutes grâce à la documentation de la librairie ». La documentation de dlt, pensée pour les LLM, rend ce workflow praticable.

L’IA peine sur ce qui compte le plus. La logique métier complexe. Les cas limites que votre API ne documente pas. Les décisions d’architecture système. La sécurité (29,1 % du code Python généré par IA contient des failles selon une étude). L’optimisation de performance pour les gros volumes. Les décisions de jugement qui distinguent du code fonctionnel d’un code prêt pour la production.

La question de la maintenance est plus nuancée. Les recherches de GitClear projettent un doublement du code churn en 2024 par rapport à la période pré-IA. Plus de code ajouté, plus de copier-coller, moins de refactoring. L’IA reproduit souvent des patterns obsolètes. Mais des contre-exemples existent : Amazon Q Developer a réduit les temps de migration Java de 50 jours-développeur à quelques heures pour Kyndryl, avec des économies estimées à l’équivalent de 4 500 années-développeur de travail.

L’IA accélère considérablement la phase de construction, mais elle ne supprime pas le besoin d’ingénieurs expérimentés pour guider l’architecture et détecter les problèmes. Pour le développement de data pipelines spécifiquement (où les patterns sont bien établis et dlt fournit le framework), l’assistance IA apporte de vrais gains.

Le workflow dlt + IA en pratique

La philosophie de conception de dlt se prête bien au développement assisté par l’IA. La librairie est Python-native : vous écrivez du Python standard plutôt que des configurations YAML ou des DSL propriétaires. Aucun backend requis : pip install et c’est parti. Les schémas sont inférés automatiquement. Le chargement incrémental, la partie qui nécessite habituellement une gestion d’état minutieuse, se configure de manière déclarative.

Un pipeline API marketing typique ciblant BigQuery tient en une trentaine de lignes :

import dlt
from dlt.sources.rest_api import rest_api_source

# Définir une source API marketing avec pagination
source = rest_api_source({
    "client": {
        "base_url": "https://api.marketing-platform.com/v1",
        "auth": {"type": "bearer", "token": dlt.secrets.value}
    },
    "resources": [
        {
            "name": "campaigns",
            "endpoint": {
                "path": "campaigns",
                "paginator": {"type": "offset", "limit": 100}
            },
            "write_disposition": "merge",
            "primary_key": "id"
        }
    ]
})

# Créer le pipeline vers BigQuery
pipeline = dlt.pipeline(
    pipeline_name="marketing_data",
    destination="bigquery",
    dataset_name="marketing"
)

# Exécuter
load_info = pipeline.run(source)

Ce code gère la pagination, l’authentification, le chargement incrémental via la disposition merge, et les optimisations spécifiques à BigQuery. La documentation dlt est structurée pour être consommée par les LLM, ce qui permet aux assistants IA de générer ces configurations à partir de la documentation d’une API.

Côté BigQuery, dlt prend en charge le staging via GCS pour les gros volumes, le partitionnement et le clustering via bigquery_adapter(), ainsi que les streaming inserts pour les scénarios à faible latence. Les données arrivent dans des datasets avec des tables nommées d’après les ressources. Le JSON imbriqué est automatiquement aplati en tables enfants, avec une profondeur de nesting configurable.

Les résultats en production confirment tout cela. Artsy a remplacé un pipeline Ruby vieux de 10 ans par dlt, réduisant les temps de chargement de 2,5 heures à moins de 30 minutes. Certains pipelines ont connu une amélioration de 98 %, avec des économies de 96 % ou plus. Un utilisateur a rapporté une réduction des coûts ETL de 182x par mois après avoir abandonné Fivetran au profit de dlt.

Quand acheter reste pertinent

Il ne s’agit pas de dire que les solutions managées sont inutiles. Dans certains cas, elles restent le bon choix.

Environnements à forte contrainte de conformité. La conformité SOC 2 Type II, HIPAA et RGPD est intégrée à Fivetran et Airbyte Enterprise. Construire vous-même des pistes d’audit, des contrôles d’accès et une infrastructure de sécurité équivalente représente un effort considérable. Si votre organisation exige ces certifications et manque de capacité en ingénierie sécurité, le surcoût peut se justifier.

Équipes data non techniques. Si votre équipe ne maîtrise pas Python et que l’organisation n’investira pas pour développer cette compétence, les outils code-first ne sont pas adaptés. Les plateformes no-code s’adressent aux équipes qui ont besoin de données sans disposer de capacité d’ingénierie.

Largeur de couverture des connecteurs. Fivetran propose plus de 700 connecteurs. Si vous avez besoin d’intégrations fiables avec des dizaines d’outils SaaS que vous ne construiriez jamais vous-même, cette couverture compte. Certains connecteurs communautaires Airbyte présentent des problèmes de fiabilité, et la liste des connecteurs vérifiés de dlt compte plus de 60 entrées, en plus de son framework REST API. (Pour une analyse détaillée, consultez mon comparatif Fivetran vs Airbyte vs dlt.)

Urgence de mise en service. Les solutions achetées se déploient en quelques jours. Les solutions construites, même avec assistance IA, nécessitent des cycles de développement comptés en semaines avant d’être prêtes pour la production. Si vous avez besoin de données la semaine prochaine pour une décision critique, le managé l’emporte.

La question est de savoir si ces scénarios correspondent à votre situation. Pour la plupart des équipes data qui chargent des données marketing dans BigQuery, ce n’est pas le cas.

La réalité hybride

L’opposition binaire « build versus buy » masque la réponse pratique : faites les deux, de manière stratégique.

Utilisez Fivetran ou Airbyte pour les sources stables et standardisées dont le schéma change rarement. Les ERP, les CRM avec des API bien documentées, les sources où la charge de maintenance des connecteurs est véritablement faible. Acceptez le coût en échange d’une réelle réduction de la charge opérationnelle.

Construisez avec dlt + IA pour :

Les sources à forte consommation MAR où la tarification évolue douloureusement. Plateformes marketing, réseaux publicitaires, toute source avec des données granulaires au niveau ligne qui se mettent à jour fréquemment.
Les intégrations personnalisées que votre fournisseur managé ne prend pas en charge, ou mal. Le framework REST API de dlt rend leur construction simple.
Les sources où vous avez besoin de contrôle sur exactement quelles données sont extraites, à quelle fréquence, avec quelles transformations.

Le coût annuel de 520 000 $ en maintenance de pipelines cité dans les analyses traditionnelles devient un investissement quand vous économisez 100 000 $+ en frais MAR. L’estimation de 50 à 100 heures par connecteur date d’avant l’assistance IA, qui divise ce temps par deux ou plus pour les patterns d’API standards.

Passer à l’action

Si vous payez des factures Fivetran conséquentes pour vos données marketing, voici une approche pragmatique.

Commencez par votre connecteur le plus gourmand en MAR. Identifiez la source la plus coûteuse par rapport à sa valeur métier. Les plateformes marketing sont généralement la réponse : Google Ads, Meta Ads, TikTok Ads. Elles ont une fréquence de mise à jour élevée, des données granulaires et des API bien documentées que dlt + IA peuvent gérer.

Utilisez les fonctionnalités BigQuery de dlt. Le staging GCS pour les gros volumes évite les coûts de streaming insert BigQuery. Partitionnez par date pour les données marketing. Clusterez sur les IDs de campagne ou de groupe d’annonces pour la performance des requêtes. Ces optimisations relèvent de la configuration, pas de l’ingénierie sur mesure.

Mesurez honnêtement. Suivez le temps de développement réel, pas les estimations. Incluez le temps pour comprendre l’API, gérer les cas limites et arriver en production. Comparez avec ce que vous payez actuellement en frais MAR. Le calcul est généralement favorable, mais vérifiez-le pour votre situation.

Construisez le connecteur suivant plus vite. Chaque pipeline que vous construisez développe des patterns et des composants réutilisables. Gestion de l’authentification, gestion des erreurs, scripts de déploiement. Le deuxième connecteur prend moins de temps que le premier. Le cinquième, une fraction.

Le principe pour décider : si votre coût MAR mensuel pour une source dépasse ce qu’un ingénieur senior coûte pour une journée de travail, construire est probablement gagnant. Si vous avez des compétences Python dans l’équipe, un accès à un assistant IA et la tolérance pour gérer votre propre infrastructure, l’équation économique penche en votre faveur.

Le conseil était autrefois simple. Ce n’est plus le cas.

L’ELT managé était la bonne réponse quand construire prenait des mois et que la maintenance occupait un poste à plein temps. Ces postulats ne tiennent plus. L’assistance IA a compressé les délais de développement, dlt a standardisé les patterns, et la tarification de Fivetran a rendu le coût de la commodité douloureusement visible.

Pour les équipes data maîtrisant Python et chargeant des données marketing dans BigQuery, dlt + assistance IA est désormais la voie la plus rapide, la moins chère et la plus maintenable. Les 50 à 100 heures par connecteur ? Comptez plutôt 10 à 20 avec l’assistance IA et une librairie bien documentée. La charge de maintenance ? dlt gère automatiquement l’évolution des schémas. Les 520 000 $ annuels en coût de pipelines ? C’est le budget que vous récupérez.

L’équation économique a changé et les outils ont mûri. La seule question qui reste : quelle part de votre infrastructure de pipelines êtes-vous prêt à prendre en main ?