Stratégie de Regroupement des Canaux d'Attribution

Les décisions de regroupement des canaux ont un impact disproportionné sur les résultats de l’attribution data-driven. Le choix entre « Paid Social » comme un seul canal versus « Facebook Ads » et « LinkedIn Ads » comme canaux séparés modifie vos matrices de transition Markov, vos coalitions de valeurs Shapley et, in fine, les recommandations budgétaires que votre modèle produit.

Un regroupement trop granulaire produit des matrices creuses avec des probabilités peu fiables ; un regroupement trop agrégé cache des différences significatives entre canaux.

Commencer large, ajouter de la granularité ensuite

Débutez avec 5 à 10 groupes de canaux de haut niveau. Trop de canaux produit des matrices de transition creuses où beaucoup de valeurs de cellules sont nulles ou basées sur une poignée d’observations. Une probabilité de transition calculée à partir de 3 observations est du bruit, pas un signal.

Un point de départ raisonnable :

Groupe de canaux	Inclut
Référencement payant	Google Ads search, Bing Ads search
Social payant	Facebook/Instagram Ads, LinkedIn Ads, TikTok Ads
Référencement naturel	Google organique, Bing organique
Social organique	Facebook organique, LinkedIn organique, Twitter/X organique
E-mail	Toutes les campagnes et automatisations e-mail
Direct	Trafic direct/aucun
Référent	Trafic référent non-social
Display	Annonces display, programmatique
Affiliation	Canaux d’affiliation/partenariat

Une fois que vous avez validé la stabilité du modèle à ce niveau, vous pouvez augmenter la granularité là où les données le permettent. Si le Social payant génère un volume significatif, séparer Meta Ads et LinkedIn Ads pourrait révéler des différences significatives dans la façon dont ces canaux contribuent aux conversions. Mais faites-le de manière incrémentale et vérifiez que les matrices de transition résultantes restent stables.

La règle des 2% pour les canaux à faible volume

Regroupez les canaux à faible volume — ceux contribuant moins de 2% du total des touchpoints — dans une catégorie « Autres ». Ces canaux n’ont pas suffisamment de données pour produire des probabilités de transition fiables ou des contributions marginales Shapley.

Ce n’est pas permanent. À mesure que les données s’accumulent, un canal qui était « Autres » le trimestre dernier pourrait franchir le seuil des 2% ce trimestre et mériter son propre groupe. Révisez vos regroupements de canaux trimestriellement à mesure que les patterns de trafic évoluent.

Le seuil de 2% est une directive pratique, pas une règle absolue. Le vrai critère est de savoir si un canal a suffisamment de transitions pour estimer les probabilités de manière fiable. Avec 10 000 touchpoints au total, un canal à 2% a 200 touchpoints — probablement suffisant pour un modèle Markov du premier ordre. Avec 1 000 touchpoints au total, un canal à 2% a 20 touchpoints — insuffisant.

Les décisions de regroupement modifient les résultats du modèle

Considérez un exemple concret. Vous exécutez une attribution Markov avec « Paid Social » comme un seul canal et il obtient un effet de suppression de 15%. Puis vous le divisez en « Facebook Ads » (effet de suppression 12%) et « LinkedIn Ads » (effet de suppression 8%).

Les résultats divisés ne s’additionnent pas pour donner l’agrégat. C’est attendu — l’effet de suppression du canal combiné tient compte de la substitution entre Facebook et LinkedIn. Quand vous supprimez l’intégralité du Paid Social, les utilisateurs ne peuvent pas passer de Facebook à LinkedIn ; les deux ont disparu. Quand vous supprimez uniquement Facebook, certains de ces utilisateurs rencontrent encore LinkedIn.

Cela signifie que votre regroupement de canaux n’est pas juste une décision cosmétique. Il modifie l’interprétation de l’interdépendance entre canaux par le modèle. Choisissez des regroupements qui correspondent au niveau auquel vous prenez des décisions budgétaires. Si vous allouez le budget Paid Social comme une seule ligne budgétaire, modélisez-le comme un seul canal. Si Facebook et LinkedIn ont des budgets séparés et des équipes séparées, modélisez-les séparément — mais assurez-vous que chacun a suffisamment de données.

Impact sur le calcul des valeurs de Shapley

Le regroupement des canaux est encore plus important pour les valeurs de Shapley que pour les chaînes de Markov. Chaque canal supplémentaire double le nombre de coalitions : passer de 8 canaux (256 coalitions) à 12 canaux (4 096 coalitions) multiplie le calcul par 16.

Cela crée un plafond pratique sur la granularité. Avec les valeurs de Shapley, vous êtes incité à maintenir un nombre faible de canaux non seulement pour la qualité des données mais aussi pour la faisabilité computationnelle. L’approximation Monte Carlo aide, mais plus de canaux signifie toujours plus d’échantillons nécessaires pour la convergence.

Si vous avez besoin à la fois de granularité et des garanties d’équité de Shapley, envisagez une approche hiérarchique : exécutez les valeurs de Shapley au niveau des groupes de canaux (Paid Social, Organique, E-mail, etc.), puis utilisez un modèle plus simple comme l’attribution linéaire ou basée sur la position pour distribuer la part de chaque groupe entre ses sous-canaux.

Cohérence entre les modèles

Quel que soit le regroupement de canaux choisi, appliquez-le de manière cohérente à tous les modèles de votre comparaison d’attribution. Si votre modèle Markov utilise 8 canaux et votre modèle basé sur la position en utilise 12, vous ne pouvez pas comparer leurs sorties de manière significative.

La macro de regroupement de canaux dans votre projet dbt est le bon endroit pour l’appliquer. Une macro unique qui mappe les paires source/medium aux groupes de canaux garantit que chaque modèle en aval — heuristique et data-driven — utilise la même taxonomie.

Associez cela à la standardisation des UTMs pour s’assurer que les données brutes alimentant votre logique de regroupement sont propres. Des paramètres UTM incohérents (utm_medium=cpc vs. utm_medium=paid vs. utm_medium=CPC) produisent des touchpoints mal classifiés qui corrompent vos matrices de transition avant même que le modèle ne s’exécute.

Cadence d’Itération

Révisez et ajustez les regroupements de canaux trimestriellement :

Vérifiez la distribution des volumes. Des canaux « Autres » ont-ils franchi le seuil des 2% ? Des canaux nommés sont-ils tombés en dessous ?
Vérifiez la stabilité des transitions. Les probabilités de transition sont-elles stables d’un mois sur l’autre, ou fluctuent-elles fortement ? De fortes fluctuations suggèrent que le canal n’a pas suffisamment de données pour son niveau de granularité actuel.
Vérifiez l’alignement métier. L’équipe marketing a-t-elle commencé à gérer séparément un canal qui était auparavant regroupé ? Leur structure budgétaire devrait informer votre structure de canaux.
Validez par rapport aux résultats d’incrémentalité. Si un test d’incrémentalité révèle que les sous-canaux d’un groupe de canaux ont des lifts incrémentaux très différents, c’est un signal pour diviser le groupe.

Les regroupements de canaux doivent être suffisamment stables pour produire une attribution fiable, suffisamment granulaires pour éclairer les décisions budgétaires et alignés sur la façon dont l’équipe marketing gère les dépenses.