L’interface de GA4 applique une logique de résolution utilisateur que BigQuery ne voit jamais. C’est l’une des sources de l’écart numérique entre GA4 et BigQuery, aux côtés des estimations HyperLogLog et de la modélisation du consentement.
Les trois modes
L’interface de GA4 propose trois paramètres d’« Identité de reporting », disponibles dans Administration → Paramètres de propriété :
| Mode | Ordre de résolution |
|---|---|
| Combiné | User ID → ID de l’appareil → Modélisation |
| Observé | User ID → ID de l’appareil |
| Basé sur l’appareil | ID de l’appareil uniquement |
Combiné est le mode par défaut pour la plupart des propriétés. Il tente d’utiliser votre user_id lorsqu’il est disponible, bascule sur user_pseudo_id dans le cas contraire, et comble les lacunes restantes avec la modélisation comportementale — estimant ce que les utilisateurs anonymes ont probablement fait sur la base des patterns des utilisateurs identifiés. C’est le mode qui produit l’écart le plus large avec BigQuery.
Observé n’utilise que des signaux déterministes (sans modélisation), mais applique toujours la résolution inter-appareils de GA4 lorsqu’un utilisateur est connecté à Google sur des appareils via Google Signals. Si la même personne connectée à Google navigue sur son téléphone et son ordinateur portable, GA4 les voit comme un seul utilisateur. BigQuery non.
Basé sur l’appareil est le mode le plus honnête vis-à-vis de BigQuery — il n’utilise que user_pseudo_id, pas de logique inter-appareils, pas de modélisation. L’écart avec BigQuery se réduit considérablement, bien que HLL et le Consent Mode contribuent toujours à des divergences.
Pourquoi rien de cela n’atteint BigQuery
L’export BigQuery est un flux brut au niveau événement. GA4 exporte les identifiants présents au moment de la collecte : la valeur du cookie user_pseudo_id et le user_id que vous avez envoyé (ou null si vous ne l’avez pas envoyé). Aucune logique de résolution n’est appliquée lors de l’export.
Cela signifie :
- Les données de modélisation comportementale n’apparaissent jamais dans BigQuery. Les utilisateurs estimés par le mode Combiné de GA4 n’apparaissent pas comme des lignes. Ils n’existent que dans l’interface en tant qu’ajouts modélisés à vos métriques.
- La déduplication inter-appareils de Google Signals ne s’applique pas. Dans BigQuery, la même personne sur deux appareils apparaît comme deux valeurs
user_pseudo_iddistinctes. Il n’y a pas de connexion entre elles, à moins qu’elles ne s’authentifient dans votre application et que vous capturiezuser_idsur les deux appareils. - La réconciliation d’identité propre à GA4 ne se transfère pas. Même si l’interface de GA4 a résolu qu’un
user_pseudo_iddonné appartient à unuser_idconnu, cette résolution n’est pas reflétée dans les lignes d’export. Chaque événement ne porte que les identifiants présents lors de sa collecte.
La conséquence pratique
Lorsque vous comparez les comptages d’utilisateurs entre GA4 et BigQuery, vous comparez deux choses différentes. Le mode Combiné de GA4 rapporte « notre meilleure estimation d’individus uniques, y compris les utilisateurs modélisés ». BigQuery rapporte « identifiants d’appareils distincts provenant d’événements où le tracking analytics était activé ».
BigQuery est une source de vérité pour une analyse auditable et reproductible. Il montre moins que l’interface par conception : l’interface inclut des utilisateurs modélisés et la déduplication inter-appareils que l’export ne transporte pas. L’analyse inter-sessions et inter-appareils nécessite la construction d’une couche de réconciliation d’identité séparée dans l’entrepôt.
Ce que le paramètre d’identité de reporting vous indique
Le paramètre vous donne tout de même un signal utile : si une propriété est configurée en mode Basé sur l’appareil, quelqu’un a fait un choix délibéré de ne pas utiliser user_id du tout, ou ne l’a pas implémenté. L’interface et BigQuery s’accorderont plus étroitement, mais vous ne bénéficiez pas non plus des signaux d’identité authentifiée.
S’il est configuré en Combiné et que vous observez des écarts importants entre GA4 et BigQuery sur les propriétés européennes, le rejet du consentement est probablement la cause dominante — GA4 modélise la population non consentante, et ces estimations n’atteignent jamais BigQuery. Voir Consent Mode de base vs avancé pour comprendre le fonctionnement de la modélisation et GA4 BigQuery Number Discrepancies pour savoir comment formuler cela auprès des parties prenantes.
Le mode d’identité de reporting est une préoccupation d’interface. Construire des analyses utilisateur fiables dans l’entrepôt nécessite de construire une logique de résolution à partir des identifiants bruts que l’export fournit, et non de ce que GA4 a résolu dans l’interface.