Caractéristiques de performance de BigLake

Les tables BigLake externes étaient historiquement 3 à 5 fois plus lentes que les tables BigQuery natives pour les workloads analytiques typiques. Cet écart s’est réduit grâce aux améliorations du cache de métadonnées. Cette note couvre là où l’écart de performance résiduel compte et là où il ne compte pas, pour orienter la sélection du type de table.

Le Cache de Métadonnées Change Tout

La configuration la plus impactante pour les performances des tables BigLake est le cache de métadonnées. Sans lui, chaque requête scanne Cloud Storage pour découvrir les statistiques de fichiers — tailles de fichiers, comptages de lignes, valeurs min/max des colonnes. Cette étape de découverte ajoute de la latence avant même que la requête commence à lire les données.

Avec le cache de métadonnées activé, BigQuery met en cache ces statistiques de fichiers et les utilise pour la planification des requêtes. Le résultat est spectaculaire : les benchmarks TPC-DS montrent une amélioration de 4x du temps d’exécution quand le cache de métadonnées s’active. L’amélioration provient principalement d’une planification de requêtes optimisée qui utilise les statistiques de fichiers mises en cache pour l’élagage de partitions et le predicate pushdown.

-- Activer le cache de métadonnées sur une table BigLake
ALTER TABLE `project.dataset.external_table`
SET OPTIONS (
  metadata_cache_mode = 'AUTOMATIC',
  max_staleness = INTERVAL '4' HOUR
);

Le paramètre max_staleness contrôle la fréquence à laquelle BigQuery rafraîchit les métadonnées mises en cache. Pour les tables avec des écritures fréquentes (streaming ou micro-batch), définissez-le à 30-60 minutes. Pour les tables avec des chargements batch quotidiens, 4-8 heures convient. Le compromis est entre fraîcheur et coût de rafraîchissement — chaque rafraîchissement de métadonnées nécessite un scan de Cloud Storage pour découvrir les modifications.

Cette modification de configuration prend quelques minutes. C’est l’omission la plus courante dans les implémentations de data lake BigQuery — vérifiez-la en premier quand les tables BigLake sont plus lentes que prévu.

L’Écart de Performance Résiduel

Avec le cache de métadonnées activé, les tables BigLake atteignent des performances dans un écart de 20 à 30 % des tables BigQuery natives pour la plupart des patterns analytiques. C’est une amélioration significative par rapport à l’écart historique de 3 à 5x, et pour beaucoup de workloads, la différence est imperceptible.

Une requête qui s’exécute en 3 secondes sur une table native pourrait s’exécuter en 4 secondes sur une table BigLake équivalente. Pour le reporting batch, l’analyse ad-hoc et l’exploration data science, cette différence affecte rarement l’expérience utilisateur. Les analystes ne travaillent pas différemment quand une requête prend 4 secondes au lieu de 3.

Mais l’écart résiduel compte pour des patterns de workload spécifiques :

Dashboards à Haute Concurrence

Quand des centaines d’utilisateurs simultanés accèdent au même dataset, la surcharge par requête se cumule. Une augmentation de latence de 30 % par requête, multipliée sur des centaines de requêtes concurrentes, peut faire passer les temps de réponse de l’acceptable au frustrant. Les tables natives gèrent les workloads BI à haute concurrence de façon plus prévisible.

C’est pourquoi le pattern de lakehouse en médaillon place les tables de dashboards de la couche gold dans BigQuery natif. Les tables qui font face aux utilisateurs les plus concurrents bénéficient des meilleures caractéristiques de performance.

Exigences de Latence Sous la Seconde

Les dashboards d’analytics opérationnel et de supervision en temps réel nécessitent souvent des requêtes qui répondent en moins d’une seconde. À cette échelle, la surcharge de lecture depuis Cloud Storage (même avec le caching) représente un pourcentage plus élevé du temps d’exécution total. Les tables natives avec leur moteur de stockage étroitement intégré gèrent les workloads sous la seconde de façon plus fiable.

Jointures Multi-Tables Complexes

Quand les requêtes joignent de nombreuses grandes tables, chaque milliseconde de surcharge par table se cumule. Une requête joignant 8 tables où chacune a 200 ms de surcharge ajoute 1,6 seconde par rapport au natif. Pour les modèles analytiques complexes, cela s’accumule.

Performance en Streaming

L’écart de performance est plus significatif pour les workloads de streaming que pour les requêtes batch.

Les tables BigQuery natives acceptent les insertions en streaming avec une latence sous la seconde et sans surcharge de batching. L’API Storage Write gère l’ingestion à haut débit avec une sémantique exactly-once. Pour les dashboards opérationnels en temps réel ou les systèmes d’alertes, les tables natives sont clairement le bon choix.

Les tables BigLake Iceberg prennent en charge le streaming à haut débit, mais les mécanismes diffèrent. Les données arrivent sous forme de nouveaux fichiers de données Iceberg dans Cloud Storage, et les métadonnées BigQuery doivent être mises à jour pour refléter les nouveaux fichiers. Cela crée une latence par enregistrement plus élevée comparée aux insertions en streaming natif. Pour la plupart des cas d’usage analytiques, cette latence convient — vous regardez des données âgées de quelques secondes à quelques minutes plutôt que de quelques millisecondes. Pour les alertes critiques en temps, ce n’est peut-être pas suffisamment rapide.

Le seuil pratique : si vos dashboards se rafraîchissent toutes les 5 minutes, le streaming BigLake Iceberg est parfaitement adéquat. Si vous avez besoin d’une fraîcheur de données sous la seconde pour des décisions opérationnelles, utilisez des tables natives pour ce cas d’usage spécifique.

Leviers d’Optimisation

Au-delà du cache de métadonnées, plusieurs configurations affectent les performances des tables BigLake :

Organisation des Fichiers

L’organisation sous-jacente des fichiers dans Cloud Storage impacte directement la vitesse des requêtes. Des fichiers plus petits signifient plus de surcharge d’ouverture de fichiers. Des fichiers plus grands signifient moins de parallélisme. La plage idéale pour les fichiers Parquet est typiquement de 256 Mo à 1 Go par fichier.

Pour les tables BigLake Iceberg, BigQuery gère automatiquement la compaction — il fusionne les petits fichiers en fichiers plus grands en arrière-plan. Pour les tables BigLake standard lisant des fichiers Parquet gérés par l’utilisateur, vous êtes responsable du maintien de tailles de fichiers optimales. Les jobs Spark qui produisent des milliers de petits fichiers créeront des requêtes BigLake lentes jusqu’à ce que vous les compactiez.

Élagage de Partitions

Les tables BigLake prennent en charge le partitionnement de style Hive, et l’élagage de partitions fonctionne de la même façon qu’avec les tables natives. Les requêtes qui filtrent sur les colonnes de partition ignorent complètement les fichiers non pertinents. Les mêmes anti-patterns s’appliquent : les fonctions sur les colonnes de partition déjouent l’élagage, les sous-requêtes dans les filtres de partition déjouent l’élagage, et l’absence de paramètres require_partition_filter laisse les analystes scanner accidentellement tout.

Pour les tables BigLake Iceberg, l’élagage de partition propre à Iceberg fonctionne en tandem avec le planificateur de requêtes BigQuery. Iceberg suit les statistiques de partition dans ses fichiers de métadonnées, et BigQuery les utilise pendant la planification des requêtes pour ignorer des partitions entières sans scanner Cloud Storage.

Clustering

Le clustering trie les données dans les partitions selon jusqu’à quatre colonnes, permettant un élagage au niveau des blocs. Cela fonctionne à la fois pour les tables natives et BigLake Iceberg. Comme pour les tables natives, les bénéfices du clustering n’apparaissent pas dans les estimations de dry-run — vérifiez les octets réellement facturés dans INFORMATION_SCHEMA.JOBS.

Quand Accepter l’Écart de Performance

Les tables natives sont plus performantes pour des workloads spécifiques ; la flexibilité des formats ouverts est le compromis pour tout le reste.

Accepter l’écart de performance quand :

La table alimente des pipelines batch, pas des dashboards orientés utilisateurs
L’accès multi-moteur est une exigence actuelle ou planifiée
La portabilité long terme compte (actifs de données fondamentaux qui dépassent votre architecture actuelle)
La différence de performance absolue se mesure en secondes, pas en ordres de grandeur

Éviter l’écart quand :

La table sert des workloads BI à haute concurrence avec de nombreux utilisateurs simultanés
La latence de requête sous la seconde est une exigence stricte
La table est un mart de couche gold que les analystes interrogent des centaines de fois par jour
La fraîcheur du streaming avec une latence sous la seconde est critique

Le cadre de décision du type de table intègre ces caractéristiques de performance avec la gouvernance, les coûts et les considérations de portabilité. La performance est un facteur, pas le seul.