Attribution par valeurs de Shapley

Les valeurs de Shapley proviennent de la théorie des jeux coopératifs, initialement conçues pour répartir équitablement les profits entre les joueurs d’une coalition. Pour l’attribution, les canaux sont les joueurs et les conversions sont la valeur à répartir. Là où les chaînes de Markov modélisent les parcours comme des transitions d’états, les valeurs de Shapley traitent les canaux comme des membres de coalition et calculent la contribution marginale moyenne de chacun.

Le calcul fondamental

La valeur de Shapley pour un canal est égale à sa contribution marginale moyenne sur tous les ordres possibles de canaux. Mathématiquement :

phi_i = SUM [|S|!(n-|S|-1)!/n!] * [v(S + {i}) - v(S)]

En termes simples : pour chaque sous-ensemble possible de canaux S, calculez de combien l’ajout du canal i augmente la probabilité de conversion. Pondérez ces contributions par la probabilité d’occurrence de ce sous-ensemble, puis faites la somme.

La fonction v(S) représente la probabilité de conversion quand seuls les canaux du sous-ensemble S sont présents. v(S + {i}) - v(S) est la contribution marginale du canal i à ce sous-ensemble — de combien la probabilité de conversion augmente-t-elle quand vous ajoutez le canal i au mix ?

C’est l’inverse de l’effet de suppression. Au lieu de demander « que perdons-nous sans ce canal ? », Shapley demande « que gagnons-nous en l’ajoutant ? » Les réponses convergent vers le même insight par des chemins mathématiques différents.

Les axiomes d’équité

Les valeurs de Shapley satisfont quatre propriétés mathématiques qui les rendent prouvablement équitables. Aucune autre méthode d’attribution ne satisfait les quatre :

Efficience — les conversions attribuées totalisent exactement les conversions totales. Aucun crédit n’est perdu ou créé. C’est la même propriété que l’étape de normalisation dans l’attribution de Markov atteint, mais les valeurs de Shapley l’obtiennent gratuitement — c’est intégré dans les mathématiques.
Symétrie — les canaux avec une contribution égale reçoivent un crédit égal. Si Email et SMS produisent des améliorations identiques de probabilité de conversion dans tout sous-ensemble possible, ils reçoivent une attribution identique. Pas de biais de modèle en faveur de l’un sur l’autre.
Joueur fictif — les canaux qui n’apportent aucune valeur reçoivent zéro crédit. Si l’ajout de Display à n’importe quelle combinaison de canaux n’augmente jamais la probabilité de conversion, Display reçoit exactement zéro conversion attribuée. Les modèles heuristiques comme l’attribution linéaire donneraient quand même à Display un crédit égal juste parce qu’il est présent dans le parcours.
Additivité — l’attribution de deux analyses séparées peut être combinée. Si vous calculez les valeurs de Shapley pour janvier et février séparément, la somme est égale aux valeurs de Shapley pour la période combinée. Cette propriété permet le calcul incrémental sur des fenêtres temporelles.

Ces axiomes comptent au-delà de l’élégance mathématique. Dans les industries réglementées ou quand les parties prenantes exigent une méthodologie transparente et défendable, les valeurs de Shapley fournissent des garanties qu’aucun modèle heuristique ne peut égaler.

Le coût computationnel

L’élégance théorique a un prix pratique. Calculer les valeurs de Shapley exactes nécessite d’évaluer 2^n coalitions où n est votre nombre de canaux.

Canaux	Coalitions	Faisabilité
5	32	Triviale
10	1 024	Secondes
15	32 768	Minutes
20	1 048 576	Heures
25	33 554 432	Impraticable

Avec 10 canaux, le calcul exact est rapide. Avec 20, il devient coûteux. Avec 25+, c’est impraticable sans approximation.

L’échantillonnage Monte Carlo rend les valeurs de Shapley faisables à grande échelle. Au lieu d’évaluer toutes les coalitions possibles, vous échantillonnez des ordres aléatoires de canaux et calculez les contributions marginales pour chacun. Avec suffisamment d’échantillons (généralement 1 000 à 10 000 itérations), l’approximation converge vers les valeurs exactes. Le compromis est la précision : vous obtenez des estimations avec des intervalles de confiance plutôt que des chiffres exacts.

Shapley vs Markov : quand utiliser lequel

Les chaînes de Markov et les valeurs de Shapley mesurent toutes deux la contribution des canaux via une analyse contrefactuelle. Elles diffèrent dans la façon dont elles modélisent le problème :

Les chaînes de Markov excellent quand la séquence du parcours compte. La probabilité de transition de Paid Search vers Email peut différer significativement d’Email vers Paid Search. Les modèles de Markov capturent ces asymétries directionnelles car ils modélisent explicitement les transitions. Si l’ordre dans lequel les canaux apparaissent dans le parcours importe pour votre activité — et c’est généralement le cas en e-commerce et en SaaS — les chaînes de Markov préservent cette information.

Les valeurs de Shapley traitent les canaux comme des membres de coalition interchangeables sans ordre inhérent. Elles répondent à « ce canal contribue-t-il ? » plutôt qu’à « ce canal contribue-t-il à ce point du parcours ? » Cela a du sens quand vous vous souciez plus de quels canaux apparaissent que de l’ordre dans lequel ils apparaissent.

En pratique, les chaînes de Markov sont plus courantes pour trois raisons :

Coût computationnel inférieur — opérations matricielles vs évaluations de 2^n coalitions
Interprétation intuitive — les probabilités de transition correspondent à un comportement client réel que les parties prenantes peuvent comprendre et valider
Bonne performance empirique — les effets de suppression produisent des valorisations de canaux qui s’alignent bien avec les résultats des tests d’incrémentalité

Les valeurs de Shapley brillent dans des scénarios spécifiques :

Les exigences réglementaires demandent une méthodologie prouvable avec des garanties d’équité documentées
La confiance des parties prenantes nécessite une preuve mathématique que l’attribution n’est pas biaisée
Le nombre de canaux est gérable (moins de 15), rendant le calcul exact faisable
Les effets de coalition comptent plus que les effets de séquence — vous avez besoin de comprendre comment les canaux interagissent en groupes, pas seulement en séquences

Approche d’implémentation

Contrairement à l’implémentation SQL de l’attribution de Markov, où SQL gère l’extraction des parcours et Python gère les opérations matricielles, le calcul des valeurs de Shapley est presque entièrement en Python. La partie SQL est plus simple — vous avez besoin de données de conversion segmentées par les canaux présents dans chaque parcours, mais vous n’avez pas besoin des informations de parcours séquentiel.

-- Pour chaque conversion, quels canaux étaient présents ?
SELECT
  conversion_id,
  ARRAY_AGG(DISTINCT channel) AS channels_present,
  revenue
FROM {{ ref('int__touchpoints') }}
GROUP BY conversion_id, revenue

Python ensuite :

Identifie tous les canaux uniques
Génère des coalitions (tous les sous-ensembles, ou des échantillons Monte Carlo pour un grand nombre de canaux)
Calcule la probabilité de conversion pour chaque coalition
Calcule les contributions marginales
Pondère et fait la somme pour produire les valeurs de Shapley

Les bibliothèques comme shap (initialement conçue pour l’explication de modèles ML) et les implémentations personnalisées gèrent cela. Le package Python marketing-attribution-models inclut l’attribution Shapley aux côtés des chaînes de Markov.

Considérations pratiques

Le regroupement des canaux compte encore plus pour les valeurs de Shapley que pour les chaînes de Markov. Chaque canal supplémentaire double le nombre de coalitions. Regrouper « Facebook Ads » et « Instagram Ads » en « Meta Ads » n’est pas qu’une question de sparsité des données — c’est une question de faisabilité computationnelle.

Exécuter à la fois Markov et Shapley sur les mêmes données fournit une vérification croisée utile. Quand les deux méthodes classent les canaux de manière similaire, la confiance est haute. Quand elles divergent, cherchez si le désaccord est dû à des effets de séquence (que Markov capture mais Shapley ignore) ou des effets de coalition (que Shapley capture plus rigoureusement). Cela alimente le cadre plus large du désaccord comme signal.

Aucun modèle d’attribution ne capture la vérité parfaite — les décisions des clients sont influencées par des facteurs qu’aucun modèle ne peut mesurer (bouche-à-oreille, actions des concurrents, circonstances de vie). Les valeurs de Shapley fournissent une distribution prouvablement équitable du crédit entre les canaux mesurés. Le compromis est le coût computationnel supplémentaire par rapport aux approches heuristiques.