ServicesÀ proposNotesContact Me contacter →
EN FR
Note

Hub de sessionisation GA4

Hub connectant tous les concepts impliqués dans la construction de tables de session à partir des données d'événements BigQuery de GA4.

Planté
ga4bigquerydbtdata modelinganalytics

La sessionisation est le processus d’ajout de contexte de session aux données d’événements brutes de GA4. Contrairement à Universal Analytics, qui fournissait des tables de session pré-agrégées, GA4 exporte des événements sans structure au niveau session. La définition de session doit être construite dans la couche de transformation.

Ce hub connecte les concepts impliqués dans la construction d’une table d’événements sessionisée à partir des exports BigQuery de GA4.

Concepts fondamentaux

Sessionisation à grain événement — La philosophie de conception : enrichir les événements avec le contexte de session plutôt que d’agréger les événements en sessions. Préserve les détails au niveau événement tout en rendant l’analyse de session triviale. Le pattern central pour le modèle d’événements sessionisés.

Construction de la clé de session GA4 — Pourquoi ga_session_id seul échoue comme identifiant de session et comment construire la clé composite correcte à partir de user_pseudo_id + ga_session_id. Cas limites : rejet du consentement, Measurement Protocol, limitations multi-appareils.

GA4 Event Ordering with Batch Fields — Séquençage déterministe des événements avec batch_event_index, batch_ordering_id et batch_page_id. Résout les égalités de timestamp pour que les analyses d’entonnoir et de chemin produisent des résultats fiables.

Champs de source de trafic GA4 — Les quatre emplacements de source de trafic dans l’export (traffic_source, collected_traffic_source, session_traffic_source_last_click, clés legacy event_params), leurs portées, et quand utiliser chacun. Inclut le pattern de correction gclid pour Google Ads.

Concepts complémentaires

GA4 Event Data Structure — Le modèle d’événement sous-jacent : schémas imbriqués, extraction de paramètres, passage de l’architecture centrée sur les sessions d’UA à l’architecture centrée sur les événements de GA4. Connaissance préalable pour les travaux de sessionisation.

Patterns de fonctions de fenêtrage pour le SQL analytique — La boîte à outils SQL pour la sessionisation : FIRST_VALUE pour la propagation de l’attribution, ROW_NUMBER pour le séquençage des événements, fenêtres nommées pour la performance. Ces patterns sont le mécanisme d’implémentation de la sessionisation à grain événement.

Patterns de sessionisation personnalisée — Construire des définitions de session from scratch avec le pattern LAG + SUM cumulatif lorsque le délai d’expiration de 30 minutes de GA4 ne correspond pas à vos besoins métier. Une alternative à l’utilisation de ga_session_id.

Patterns d’implémentation

Modèles incrémentiels dans dbt — Le modèle d’événements sessionisés est généralement un modèle dbt incrémentiel utilisant insert_overwrite avec partitionnement par date. Les fenêtres de lookback gèrent les données arrivant en retard et garantissent que les fonctions de fenêtrage se recalculent correctement pour les sessions chevauchant les frontières de partition.

Patterns de couche intermédiaire dbt — Le modèle d’événements sessionisés se situe dans la couche intermédiaire : il préserve le grain événement tout en ajoutant le contexte de session. Les marts de session en aval agrègent cela pour les tableaux de bord.

Patterns de couche mart dbt — Les marts au grain session dérivent de la table d’événements sessionisés avec un simple GROUP BY. Une source de vérité (la table d’événements enrichis), plusieurs formes de sortie.

Patterns d’élagage de partitions BigQuery — Partitionner par event_date et clusteriser par session_key pour des performances optimales des requêtes et des fonctions de fenêtrage. Toujours filtrer sur _TABLE_SUFFIX dans les modèles de base pour éviter les scans de l’historique complet.

Limitations connues

GA4 BigQuery Number Discrepancies — Pourquoi les chiffres BigQuery diffèrent de l’interface GA4 de 1 à 5 % : comptage probabiliste HyperLogLog++, modélisation comportementale du Consent Mode, déduplication inter-appareils de Google Signals, et délais de traitement des données.

Article source

Ces notes ont été décomposées depuis Construction de tables de session à partir des données d’événements GA4, qui fournit l’implémentation complète de bout en bout incluant le modèle SQL complet, la configuration dbt, les tests de schéma et le pattern de dérivation du mart de session.