Identité utilisateur GA4

GA4 exporte des données d’événements brutes vers BigQuery avec deux identifiants utilisateur : user_pseudo_id (le cookie de l’appareil, toujours présent) et user_id (votre identifiant métier, présent uniquement lorsque vous l’implémentez). Lorsque les utilisateurs naviguent anonymement puis s’authentifient, l’interface de GA4 applique automatiquement la résolution d’identité — mais aucune de cette logique n’atteint BigQuery. Construire votre propre pipeline de réconciliation est le seul moyen de connecter le parcours utilisateur complet dans l’entrepôt.

Cette carte de contenu couvre l’ensemble du problème de résolution d’identité : pourquoi il existe, les patterns SQL pour le résoudre, les cas limites qui brisent les implémentations naïves, et l’infrastructure en production pour le maintenir fiable.

Fondation

GA4 Event Data Structure — Les fondamentaux du schéma : ce que sont user_pseudo_id et user_id, comment ils apparaissent dans l’export au niveau événement, et pourquoi BigQuery nécessite un modèle mental différent de l’interface GA4.

Modes d’identité de reporting GA4 — Comment les modes de reporting Combiné/Observé/Basé sur l’appareil de GA4 appliquent la résolution d’identité dans l’interface, et pourquoi aucun de ce traitement ne se reporte dans les exports BigQuery. Explique la source structurelle des divergences de comptage d’utilisateurs entre GA4 et BigQuery.

Qualité des données avant la réconciliation

Qualité des données user_id GA4 — Les bugs d’implémentation qui corrompent les données d’identité avant qu’elles n’atteignent votre pipeline : le bug du null sous forme de chaîne à la déconnexion, les IIP dans les champs user_id, les ID temporaires recyclés, et le trafic employés/test. Exécutez ces vérifications avant de construire toute table de correspondance.

Techniques de réconciliation

Techniques de réconciliation d’identité GA4 — Les quatre approches SQL : dernier contact (fonction de fenêtrage), rétrocouture complète (table de correspondance), premier contact et réconciliation à portée de session. Inclut un cadre de décision pour choisir entre elles selon la portée, le risque et le cas d’usage.

Rétrocouture utilisateur GA4 — Plongée en profondeur dans le pattern de rétrocouture complète : l’approche en deux étapes lookup-puis-jointure, la gestion des appareils partagés, où cela s’intègre dans le DAG dbt, et quand cela apporte le plus de valeur.

Résolution inter-appareils

Graphe d’identité GA4 dans BigQuery — Construction du graphe d’identité en production : le schéma tableau STRUCT centré sur l’utilisateur, la correspondance inverse centrée sur l’appareil, la gestion de plusieurs valeurs user_id par appareil, la détection des appareils partagés, et le suivi de la fragmentation des cookies.

Limites de la correspondance probabiliste dans GA4 — Pourquoi le fingerprinting échoue avec les données GA4 : les signaux que GA4 exclut intentionnellement (IP, user agent, empreintes canvas), les données grossières qui restent, et le coût cumulatif des faux positifs dans les profils fusionnés. L’argument pour accepter un taux de correspondance déterministe plus faible.

Consentement et confidentialité

Impact du Consent Mode sur la résolution d’identité — Comment le Consent Mode V2 modifie vos données BigQuery : pings sans cookie avec des identifiants nuls en mode Avancé, la nuance de rétrocouture dans la même page, le filtrage des événements consentis pour votre pipeline de réconciliation, et l’exigence architecturale de séparer les chemins de données consentis et non consentis.

Contraintes de confidentialité pour les données analytiques liées — Les implications RGPD du lien entre les cookies GA4 et les enregistrements CRM, l’exemption de consentement CNIL qui disparaît lorsque vous construisez des modèles liés à l’identité, et la cascade de suppression à travers votre graphe d’identité lors d’exercice du droit à l’effacement.

Infrastructure en production

Pipeline de résolution d’identité dbt — Le DAG dbt en production : le modèle de correspondance d’identité (merge incrémentiel), le modèle d’événements réconciliés (insert_overwrite incrémentiel), les tests de schéma incluant le garde sur le comptage d’appareils, et pourquoi chaque modèle utilise une stratégie incrémentielle différente.

Monitoring de la résolution d’identité — Métriques de santé quotidiennes (taux de réconciliation, taux de consolidation, exposition aux appareils partagés) et détection d’anomalies semaine après semaine. Ce que chaque changement de métrique signale et comment connecter le monitoring à votre infrastructure de tests dbt globale.

Article source

Réconciliation des utilisateurs GA4 : gestion des utilisateurs anonymes vers connus — La présentation complète de l’implémentation, incluant le code complet des modèles dbt, les patterns de cas limites, et la matrice de décision pour choisir entre les techniques. Partie 4 de la série GA4 + BigQuery ; la série complète est couverte par le Hub de sessionisation GA4.