La fusion entre Fivetran et dbt Labs en octobre 2025 a donné naissance à une entité combinée approchant les 600 M$ d’ARR. Pour les équipes data déjà confrontées à la refonte tarifaire de Fivetran en mars 2025, cette consolidation a soulevé des questions gênantes sur la dépendance fournisseur et les coûts à long terme.
Trois outils dominent la discussion sur l’ingestion de données : Fivetran (l’acteur historique), Airbyte (le challenger open source) et dlt (le nouveau venu Python-natif). Chacun adopte une approche différente pour déplacer les données des sources vers les data warehouses.
Comment chaque outil aborde le chargement de données
Fivetran a été le pionnier du modèle ELT entièrement managé. On configure des connecteurs via une interface web, et Fivetran gère tout : extraction, détection de schéma, chargement incrémental et livraison dans le data warehouse. Pas d’infrastructure à gérer, pas de code à écrire. La contrepartie, c’est le coût et le contrôle.
Airbyte s’est lancé comme alternative open source avec une architecture de connecteurs classique. On peut le self-hoster sur Kubernetes ou utiliser leur offre cloud. Le modèle open source apporte des connecteurs communautaires aux côtés des connecteurs officiels, avec la flexibilité (et la responsabilité) que cela implique.
dlt prend un chemin radicalement différent. C’est une librairie Python qu’on installe avec pip. Pas d’UI, pas de containers, pas de serveurs d’orchestration. On écrit des scripts Python qui définissent les pipelines, et ces scripts tournent partout où Python tourne : votre poste de travail, un DAG Airflow, une Cloud Function ou une GitHub Action. La librairie gère les parties complexes (inférence de schéma, chargement incrémental, conversion de types) pendant que vous gardez le contrôle total sur le code.
Tarification : le sujet qui fâche
Le modèle MAR de Fivetran
Fivetran facture sur la base des Monthly Active Rows (MAR). Le changement de mars 2025 est passé d’un décompte MAR global à un décompte par connecteur, supprimant les remises sur volume dont bénéficiaient beaucoup de clients.
Les plans vont de Free (500K MAR/mois) à Business Critical (~1 067 $ par million de MAR). Il faut aussi compter 5 $ de frais de base par connexion standard et un contrat annuel minimum de 12 000 $.
Les retours de la communauté sont sévères. Des utilisateurs Reddit rapportent des « augmentations de 4 à 8x » et une « hausse de 70 % pour les entreprises avec beaucoup de connexions ». Les données marketing sont particulièrement touchées : les données au niveau des annonces génèrent une fréquence de mise à jour élevée, ce qui fait exploser les compteurs MAR.
La tarification par capacité d’Airbyte
Airbyte a introduit une tarification par capacité en février 2025. Le Core open source reste gratuit. Cloud Standard coûte 10 $/mois de base plus des frais au volume : 15 $ par million de lignes pour les sources API, 10 $ par Go pour les sources bases de données et fichiers.
Pour une charge de 50 millions de lignes API plus 50 Go de données de base de données, la facture serait d’environ 1 250 $ sur Airbyte contre environ 4 445 $ avec un modèle MAR.
dlt : uniquement les coûts d’infrastructure
dlt lui-même ne coûte rien. C’est de l’open source sous licence Apache 2.0. Les seuls coûts sont l’infrastructure choisie pour l’exécution et le data warehouse de destination. En serverless sur Cloud Functions ou Lambda, cela peut représenter quelques dollars par mois pour des charges modérées.
En contrepartie : c’est vous qui gérez le déploiement, le monitoring et la maintenance. dltHub prévoit une offre plateforme en 2026 avec des fonctionnalités entreprise, mais la librairie reste gratuite.
Couverture et qualité des connecteurs
| Outil | Total connecteurs | Couverture marketing | Notes qualité |
|---|---|---|---|
| Fivetran | 700+ | Complète | Maintenance professionnelle, détection de schéma automatique |
| Airbyte | 600+ (350+ officiels) | Bonne couverture | Mix officiel et communautaire, fiabilité variable |
| dlt | 60+ vérifiés | En croissance | REST API builder génère des pipelines depuis n’importe quelle doc API |
Les trois outils prennent en charge les principales sources marketing : Google Ads, Meta/Facebook Ads, GA4, HubSpot et Shopify. Là où ils diffèrent, c’est sur la qualité des connecteurs et les cas limites.
Les connecteurs Fivetran sont leur produit. Ils sont maintenus par des ingénieurs dédiés qui réagissent rapidement aux changements d’API. Quand Google Ads publie une nouvelle version d’API, Fivetran met à jour son connecteur.
La qualité des connecteurs Airbyte varie. Les connecteurs officiels sont généralement solides, mais ceux de la communauté peuvent prendre du retard sur les évolutions d’API.
dlt adopte une approche de constructeur. Les 60+ sources vérifiées couvrent les cas courants, et le REST API builder couvre le reste. On le pointe vers la documentation d’une API (ou on laisse un LLM l’analyser), et on obtient un pipeline fonctionnel pour pratiquement n’importe quelle API REST. Les utilisateurs ont créé plus de 50 000 connecteurs personnalisés rien qu’en septembre 2024.
Le compromis du self-hosting
Les coûts d’infrastructure cachés d’Airbyte
Self-hoster Airbyte nécessite un cluster Kubernetes (EKS, GKE ou AKS) avec minimum 2 cœurs et 8 Go de RAM par nœud, 30 Go d’espace disque, un PostgreSQL externe et du stockage S3/GCS pour les logs.
La mauvaise surprise arrive souvent après. Des praticiens rapportent que les coûts de NAT Gateway (0,045 $/heure plus 0,045 $/Go) peuvent représenter 80 % des coûts d’infrastructure totaux. Un utilisateur a noté que « les coûts de NAT gateway et EC2 dépasseront largement tout le reste ». Il faut aussi une expertise Kubernetes pour la maintenance courante, les mises à jour de Helm charts et la gestion des images de connecteurs.
La flexibilité de déploiement de dlt
dlt tourne partout où Python tourne. Les équipes le déploient sur GitHub Actions pour des pipelines planifiés, sur Cloud Functions ou Lambda en serverless, ou en complément d’Airflow et Dagster pour s’intégrer à une orchestration existante. Le développement et les tests se font directement sur votre poste.
L’empreinte infrastructure est minimale. Une Cloud Function exécutant un pipeline dlt peut coûter quelques centimes par exécution.
Quand le managé a du sens
Le self-hosting n’est pas toujours moins cher quand on inclut le temps d’ingénierie. Si votre équipe n’a pas d’expérience Kubernetes ou si vous privilégiez la fiabilité par rapport au coût, l’approche entièrement managée de Fivetran a une vraie valeur. Le SLA de 99,9 % de disponibilité et les mises à jour automatiques allègent la charge opérationnelle de vos data engineers.
Opérations au quotidien
Monitoring et maintenance
Fivetran fournit un dashboard de monitoring intégré, des mises à jour automatiques et des alertes prêtes à l’emploi. La maintenance quasi nulle est leur argument principal.
Airbyte Cloud a un faible overhead de maintenance. En self-hosted, il faut surveiller le cluster Kubernetes, gérer les versions de connecteurs et traiter les erreurs. L’interface web offre de la visibilité, mais vous êtes responsable de l’infrastructure en dessous.
dlt nécessite une observabilité externe. Si vous utilisez Dagster ou Airflow, vous bénéficiez de leurs interfaces. Sinon, il faudra mettre en place du logging, des alertes et du monitoring personnalisés. Certaines équipes y voient un avantage (contrôle total), d’autres une charge supplémentaire.
Gestion des changements de schéma
Les trois outils gèrent l’évolution de schéma, mais avec des approches différentes :
Fivetran propage automatiquement les changements de schéma. Les colonnes supprimées sont soft-deleted, les changements de type de données créent de nouvelles colonnes. On peut configurer le comportement en Allow All, Allow Columns ou Block All.
Airbyte propose une propagation de schéma configurable avec sélection de colonnes.
dlt fournit une évolution de schéma intégrée via les options schema_contract. Le mode evolve adapte automatiquement le schéma de destination, tandis que freeze stocke les changements en JSON sans modifier les tables du data warehouse.
Fréquence de synchronisation
Fivetran propose des syncs toutes les 5 minutes minimum sur le tier Enterprise. Airbyte offre la même chose sur Enterprise Flex, mais les plans Standard et Plus sont limités à des syncs horaires. dlt tourne selon le planning défini par votre orchestrateur.
Considérations entreprise
| Fonctionnalité | Fivetran | Airbyte | dlt |
|---|---|---|---|
| SOC 2 Type II | Oui | Oui | Hérité de l’infrastructure |
| HIPAA | Oui | Enterprise uniquement | Hérité de l’infrastructure |
| RBAC | Oui | Pro et au-dessus | Implémentation personnalisée |
| SSO | SAML 2.0 | Enterprise uniquement | Implémentation personnalisée |
| Logs d’audit | Oui | Enterprise uniquement | Implémentation personnalisée |
Fivetran et Airbyte Cloud fournissent directement les certifications de conformité. Avec dlt, on hérite de la conformité de l’infrastructure utilisée. Sur GCP avec une configuration correcte, on obtient la couverture SOC 2 et HIPAA via les certifications de Google, mais c’est à vous de prouver que votre implémentation respecte les exigences.
Ce que disent les praticiens
Les retours de la communauté sur Reddit (r/dataengineering), le Slack dbt et les blogs de praticiens racontent une histoire contrastée.
Les utilisateurs Fivetran reviennent constamment sur la tarification. « Pricing already strained » et « MAR pricing is deadly for marketing data » sont des refrains courants sur Reddit. Cela dit, la fiabilité reste l’argument le plus fort de Fivetran : quand on a besoin que la synchronisation de multiples outils SaaS fonctionne sans y penser, Fivetran livre.
Airbyte est apprécié pour ses coûts plus bas, mais les inquiétudes sur la fiabilité des connecteurs reviennent souvent. Un utilisateur Reddit écrivait : « I have lost credibility with clients… regularly had data not being retrieved. » La lenteur du support client est une autre plainte récurrente.
dlt reçoit des éloges pour sa documentation et sa communauté. « Documentation is clear, Slack community support is outstanding » est représentatif du sentiment général. Les utilisateurs soulignent la standardisation des scripts d’ingestion et la légèreté du déploiement. Une équipe a rapporté une réduction des coûts ETL de 182x et des syncs 10x plus rapides après migration depuis Fivetran.
Grille de décision
Choisir Fivetran quand :
- Votre équipe data est petite et veut zéro charge de maintenance
- Vous avez un budget entreprise (12 000 $/an minimum)
- Vos exigences de conformité imposent des certifications fournisseur
- La fiabilité compte plus que le coût
- Vous ne chargez pas de données marketing à haut volume (les coûts MAR montent vite)
Choisir Airbyte quand :
- Vous avez de solides compétences en ingénierie ou DevOps
- Vous êtes sensible aux coûts mais prêt à investir dans le setup et la maintenance
- Vous avez besoin de connecteurs personnalisés et les compétences pour les construire
- Votre équipe a une expérience Kubernetes
- Vous voulez des coûts inférieurs à Fivetran avec plus de fonctionnalités que dlt
Comme le résumait un commentateur Reddit, Airbyte convient aux « technical teams who see limitations as challenges to overcome ».
Choisir dlt quand :
- Votre équipe maîtrise Python
- Vous voulez ne payer que l’infrastructure (coût total de possession le plus bas)
- Vous avez besoin de prototypage rapide et de déploiements serverless
- Vous voulez un contrôle maximal sur le code de vos pipelines
- Vous partez de zéro et pouvez construire vos pratiques autour d’une ingestion code-first
dlt convient surtout aux projets greenfield où vous êtes prêt à échanger le confort opérationnel contre des économies et du contrôle. Pour le tester, mon guide pratique de dlt vous accompagne dans la création d’un premier pipeline.
Vue d’ensemble
Le marché de l’ingestion de données se consolide. La fusion Fivetran-dbt indique que les éditeurs voient de la valeur à posséder une part plus large de la stack data. Pour les équipes qui surveillent leur budget, cette consolidation et les changements tarifaires qui l’ont précédée justifient de revisiter le calcul build versus buy.
La plupart des équipes finiront par adopter une approche hybride. Des connecteurs managés pour les sources stables et critiques où la fiabilité justifie le coût. Des pipelines custom avec dlt ou Airbyte pour les sources où vous avez besoin de contrôle, des exigences spécifiques, ou un budget qui ne supporte pas les tarifs MAR.
Ce qui a changé en 2026, ce n’est pas qu’un outil est définitivement meilleur. C’est que le coût des solutions managées a suffisamment augmenté pour que construire soi-même ne soit plus un mauvais choix par défaut. Avec des librairies Python comme dlt et des assistants de codage IA qui réduisent le temps de développement, le point d’équilibre s’est déplacé.
Choisissez en fonction des compétences de votre équipe, de vos contraintes budgétaires et de votre tolérance à la charge opérationnelle. Et revisitez peut-être la décision chaque année, car ce marché n’a pas fini d’évoluer.