Les tests d'incrémentalité pour l'attribution

Les modèles d’attribution attribuent du crédit aux points de contact en fonction de leur position, de leur timing ou de patterns statistiques, mais la présence dans un parcours ne prouve pas la causalité. Une annonce de reciblage montrée à quelqu’un qui était déjà sur le point de convertir reçoit le plein crédit avec l’attribution last-touch, même si la conversion aurait eu lieu sans elle.

Les tests d’incrémentalité mesurent la contribution causale : si ce canal était désactivé, combien de conversions seraient perdues ? Pour les canaux où les modèles sont en désaccord significatif, les tests d’incrémentalité fournissent la vérité terrain la plus proche disponible.

Tests de holdout

La forme la plus directe de test d’incrémentalité. Diviser aléatoirement votre audience en deux groupes :

Groupe exposé (90 %) : Voit les annonces sur le canal testé.
Groupe holdout (10 %) : Ne voit pas les annonces sur le canal. Il peut voir une annonce d’intérêt public (PSA) ou rien.

Comparer les taux de conversion entre les deux groupes. La différence est la contribution incrémentale du canal.

Taux de conversion groupe exposé :  4,2 %
Taux de conversion groupe holdout : 3,1 %
Lift incrémental :                  1,1 point de pourcentage (26 % de lift relatif)

Dans cet exemple, 3,1 % des conversions se seraient produites de toute façon. La vraie contribution incrémentale du canal est de 1,1 point de pourcentage — environ un quart des conversions qu’il revendiquerait avec l’attribution last-touch.

Considérations de conception

La taille de l’échantillon est importante. Le groupe holdout doit être suffisamment grand pour détecter le lift attendu avec une signification statistique. Pour un canal générant un taux de conversion de 5 % avec un lift attendu de 20 %, vous avez besoin d’environ 5 000 à 10 000 utilisateurs par groupe. Des tests sous-dimensionnés produisent des résultats bruités qui ne résolvent pas la question.

La durée est importante. Exécuter le test pendant au moins un cycle d’achat complet. Si votre délai moyen entre le premier contact et la conversion est de 14 jours, un test de 7 jours manquera les conversions que la conception du holdout a retardées plutôt qu’empêchées. Deux à quatre semaines est typique pour la plupart des produits B2C ; le B2B peut nécessiter 8 à 12 semaines.

Risque de contamination. Les utilisateurs du groupe holdout peuvent toujours être exposés au canal via des appareils partagés, un comportement cross-device ou des rencontres organiques avec la marque. Cette « fuite » biaise les résultats vers zéro, faisant paraître le canal moins incrémental qu’il ne l’est réellement. Reconnaître cette limitation lors du reporting des résultats.

Coût d’opportunité. Supprimer les annonces pour 10 % de votre audience signifie perdre des conversions potentielles pendant la période de test. Dimensionner le holdout pour équilibrer la puissance statistique avec le risque de revenu. Pour les canaux à forte dépense, même un petit holdout peut être coûteux, c’est pourquoi vous ciblez les tests sur les canaux où le score de désaccord est le plus élevé — ce sont les canaux où la valeur de l’information justifie le coût.

Tests géographiques

Pour les canaux qui ne peuvent pas être ciblés par utilisateur — TV, radio, panneaux d’affichage, sponsoring de podcasts — ou lorsque les holdouts au niveau utilisateur ne sont pas techniquement faisables, exécuter le test géographiquement.

Configuration. Sélectionner des paires de marchés appariés : villes ou régions avec des démographies similaires, des patterns d’achat et des performances historiques. Désactiver (ou amplifier) le canal dans les marchés de test. Laisser les marchés de contrôle inchangés.

Marchés de test (canal désactivé) :    Austin, Portland, Nashville
Marchés de contrôle (pas de changement) : Denver, Raleigh, Salt Lake City
Durée :                                  4 semaines actives, 2 semaines post-période

Comparer les taux de conversion, le revenu ou tout autre KPI mesuré entre les marchés de test et de contrôle. La différence, ajustée pour les tendances préexistantes, estime l’impact incrémental du canal.

Bien apparier les marchés

Un mauvais appariement des marchés est le mode d’échec le plus courant. Les marchés doivent être similaires sur :

Taux de conversion de base (dans une variance historique de 10 %)
Patterns de saisonnalité (les deux marchés culminent et baissent aux mêmes moments)
Démographies de la population pertinentes pour votre produit
Paysage concurrentiel (un concurrent lançant dans un marché mais pas l’autre fausse les résultats)

Utiliser au moins 4 semaines de données pré-test pour valider que vos marchés appariés évoluent de manière similaire. S’ils divergent significativement avant le début du test, le couplage est incorrect.

Limitations des tests géographiques

Les tests géographiques sont des instruments plus grossiers que les holdouts au niveau utilisateur. Ils ne peuvent pas contrôler les effets de débordement (quelqu’un dans un marché de test voit une publicité TV dans un marché de contrôle), et les tailles d’échantillon sont intrinsèquement plus petites (marchés, pas utilisateurs). Ils fonctionnent mieux pour répondre à des questions d’ensemble : « La TV génère-t-elle un lift incrémental significatif ? » plutôt que « Quel est le CPA incrémental précis de notre sponsoring de podcast ? »

Études de lift des plateformes

Meta (Conversion Lift), Google (Conversion Lift, Brand Lift) et TikTok proposent tous des outils d’expérimentation intégrés qui gèrent la mécanique du holdout pour vous. La plateforme supprime aléatoirement les annonces auprès d’un groupe de contrôle et mesure la différence.

Avantages :

Pas de travail d’ingénierie pour configurer les groupes holdout
La plateforme gère la randomisation et la mesure
Les résultats incluent des intervalles de confiance et une signification statistique
Certaines plateformes offrent un tracking cross-device dans leur écosystème

Compromis :

Vous faites confiance à la plateforme pour mesurer l’efficacité de son propre canal — le même problème d’incitation qui rend l’attribution des plateformes biaisée s’applique ici, bien que dans une moindre mesure
La plateforme ne peut mesurer le lift que dans son propre écosystème — elle ne peut pas informer sur les interactions cross-canal
La disponibilité et la qualité des études de lift varient selon la plateforme ; les plateformes plus petites peuvent ne pas en proposer
Les résultats sont agrégés, pas au niveau utilisateur, limitant la profondeur de l’analyse post-hoc

Les études de lift des plateformes sont le plus utiles comme validation directionnelle. Si le Conversion Lift de Meta indique que leurs annonces génèrent 15 % de lift incrémental et que votre propre test de holdout montre 12 %, vous avez une convergence raisonnable. Si Meta dit 40 % et votre test montre 5 %, investiguer l’écart.

Utiliser l’incrémentalité pour calibrer l’attribution

Les résultats d’incrémentalité ne remplacent pas les modèles d’attribution — ils les calibrent. Le flux de travail :

Exécuter les modèles d’attribution en parallèle en utilisant le pattern de comparaison.
Identifier les canaux avec des scores de désaccord élevés — ce sont là où les tests d’incrémentalité ont la plus haute valeur informationnelle.
Exécuter des tests d’incrémentalité sur les canaux à fort désaccord.
Comparer les résultats incrémentaux à l’estimation de chaque modèle d’attribution.
Ajuster l’interprétation (pas le modèle lui-même) en fonction de ce que vous apprenez.

Par exemple : l’attribution par chaîne de Markov indique que l’email génère 15 % des conversions. Un test de holdout montre 8 % de lift incrémental. Cela ne signifie pas que le modèle Markov est faux — cela signifie que l’email est présent dans 15 % des parcours convertissants mais n’est causalement responsable que de 8 % d’entre eux. Les 7 % restants se seraient convertis de toute façon ; l’email faisait partie du parcours mais n’était pas le catalyseur.

Cette calibration est qualitative, pas mécanique. Les pondérations du modèle Markov ne sont pas ajustées par un facteur de correction. À la place, les équipes développent une intuition canal par canal : « Nos modèles d’attribution ont tendance à surcrééditer l’email d’environ 2x par rapport à l’incrémentalité. Quand le modèle indique que l’email génère 100 K€, la valeur incrémentale est probablement plus proche de 50 K€. »

Cette intuition rend les sorties d’attribution plus utiles dans le temps, même sans tests d’incrémentalité continus. L’objectif est de savoir quels canaux un modèle donné sur-crédite et sous-crédite, et d’appliquer cette connaissance aux décisions budgétaires.

Construire un programme de tests d’incrémentalité

La plupart des équipes ne peuvent pas se permettre de tester chaque canal en continu. Un cadence de test pratique :

Trimestrielle. Tester les 2 à 3 canaux avec les scores de désaccord les plus élevés ou les plus grandes allocations budgétaires. Faire tourner à travers votre mix de canaux sur le cours d’une année.

Événementielle. Retester un canal quand :

Vous êtes sur le point d’effectuer un changement budgétaire majeur (doubler un canal ou le réduire significativement)
Vos modèles d’attribution montrent un changement significatif dans la contribution d’un canal
Une plateforme change sa méthodologie de ciblage ou de mesure (changements de confidentialité iOS, phases de dépréciation des cookies)

Annuelle. Réexécuter le test de votre canal à la plus forte dépense même si le désaccord est faible. Les conditions de marché changent, et un canal qui était réellement incrémental l’an dernier peut avoir atteint sa saturation.

Ce que l’incrémentalité ne peut pas vous dire

Les tests d’incrémentalité ont leurs propres angles morts :

Ils mesurent le lift à court terme, pas la construction de marque à long terme. Un test de holdout de 4 semaines ne capturera pas l’effet cumulatif de la publicité de marque sur des mois ou des années. Les canaux qui construisent la notoriété lentement (marketing de contenu, sponsoring de podcasts, engagement communautaire) sous-performeront dans les tests d’incrémentalité courts même s’ils sont réellement précieux sur des horizons temporels plus longs.

C’est coûteux. Chaque utilisateur en holdout est une conversion potentiellement perdue. Les canaux à forte dépense peuvent coûter des milliers d’euros par test en conversions supprimées. C’est pourquoi cibler les tests sur les canaux à fort désaccord est important — vous voulez la valeur informationnelle la plus élevée par euro de coût d’opportunité.

Cela suppose que le reste de votre mix marketing reste constant. Si vous exécutez un test de holdout sur les annonces display tout en augmentant simultanément la recherche payante, les effets d’interaction rendent plus difficile l’isolation de la vraie contribution du display. Minimiser les changements de canal simultanés pendant les périodes de test.

Cela ne s’adapte pas à tous les canaux simultanément. Tester le canal A pendant que tout le reste fonctionne normalement vous renseigne sur le canal A dans le contexte de votre mix actuel. Cela ne vous dit pas l’allocation optimale entre tous les canaux. Pour cela, vous avez besoin du Media Mix Modeling (MMM), qui est une discipline entièrement différente.

Malgré ces limitations, les tests d’incrémentalité restent la chose la plus proche de la vérité terrain en mesure marketing. Les modèles d’attribution mesurent la présence dans un parcours convertissant. Les tests d’incrémentalité mesurent la contribution causale.