Notes sur la conception, l’implémentation et l’optimisation d’un data lake basé sur BigQuery. Couvre les types de tables, le pattern de lakehouse en médaillon sur GCP, la stratégie de catalogue, les caractéristiques de performance et les erreurs courantes. Dérivé de les patterns data lake BigQuery et Cloud Storage.
Prérequis
- Architecture BigQuery pour les analytics engineers — comprendre comment Dremel, Colossus et les slots fonctionnent avant de prendre des décisions sur les types de tables
- Modèle de coûts BigQuery — le modèle de coûts oriente chaque choix d’architecture ici
Ordre de Lecture
1. BigQuery Table Types — tables BigQuery natives, tables externes BigLake et tables BigLake Iceberg : ce que fait chaque type et un cadre de décision pour choisir entre eux.
2. Caractéristiques de performance de BigLake — cache de métadonnées, où l’écart de performance résiduel entre les tables externes et natives compte, et où il ne compte pas.
3. Medallion Lakehouse on GCP — l’architecture bronze-silver-gold sur BigQuery : Iceberg à la couche bronze, transformations dbt à la couche silver, tables natives à la couche gold. Inclut des exemples de code.
4. BigLake Metastore et stratégie de catalogue — BigLake Metastore et Dataplex Universal Catalog comme couche de gouvernance à travers les formats de tables.
5. Cloud Storage Tiering for BigQuery — optimisation des coûts à travers les niveaux de stockage, facturation physique et sélection du modèle de tarification. Réduire les coûts de stockage de 60 à 80 % nécessite de coordonner les trois.
6. Erreurs courantes dans les data lakes BigQuery — cache de métadonnées manquant, filtres de partition non protégés, et architectures sur-ingéniérisées.