Attribution par chaîne de Markov

Une chaîne de Markov modélise les parcours clients comme une séquence d’états dans laquelle la probabilité de passer à l’état suivant dépend uniquement de l’état actuel. C’est ce qu’on appelle la « propriété markovienne » ou l’absence de mémoire — le modèle ne se préoccupe pas de la façon dont vous êtes arrivé à votre état actuel, seulement de l’endroit où vous vous trouvez maintenant.

Pour l’attribution, cela signifie que vous cessez de deviner quelles positions de point de contact importent (c’est ce que font les modèles heuristiques) et commencez à mesurer quels canaux génèrent réellement des conversions en calculant ce qui se passe lorsque vous les supprimez.

États et transitions

Dans une chaîne de Markov d’attribution, les états sont des canaux marketing plus trois états spéciaux :

START — le début de chaque parcours
CONVERSION — le parcours se termine par un résultat positif
NULL — le parcours se termine sans conversion

Chaque parcours client observé contribue aux probabilités de transition entre états. Si vous observez 1 000 parcours et que 400 d’entre eux vont de START à Paid Search, la probabilité de transition de START à Paid Search est de 40 %.

Considérons un exemple simple avec trois canaux : Paid Search, Email et Direct. D’après les données historiques, vous pourriez observer :

40 % des utilisateurs qui démarrent vont vers Paid Search
30 % des utilisateurs en Paid Search passent à Email
50 % des utilisateurs en Email convertissent

Ces probabilités forment une matrice de transition — un tableau où les lignes représentent les états « de départ » et les colonnes les états « d’arrivée ». Chaque cellule contient la probabilité de cette transition basée sur vos données de parcours historiques.

Pourquoi la matrice de transition est importante

La puissance de cette représentation est que vous pouvez calculer la probabilité globale d’atteindre CONVERSION depuis START en suivant tous les chemins possibles à travers la matrice. Un client peut suivre START -> Paid Search -> CONVERSION, ou START -> Email -> Direct -> CONVERSION, ou toute autre combinaison. La matrice encode simultanément toutes ces possibilités.

Plus important encore, vous pouvez recalculer cette probabilité de conversion totale après avoir supprimé entièrement un canal. Lorsque vous supprimez Paid Search de la matrice, toutes les transitions vers et depuis Paid Search disparaissent. Les utilisateurs qui auraient transité par Paid Search sont contraints d’emprunter d’autres chemins — certains menant à la conversion, d’autres à NULL.

La différence entre la probabilité de conversion totale avec tous les canaux et la probabilité sans un canal spécifique est l’effet de suppression, qui constitue le fondement de l’attribution par chaîne de Markov.

La propriété markovienne en pratique

L’hypothèse d’absence de mémoire — que l’état suivant ne dépend que de l’état actuel — est une simplification. En réalité, un utilisateur arrivé à Email depuis Paid Search se comporte probablement différemment d’un utilisateur arrivé à Email depuis Organic. Leur intention, leur niveau de sensibilisation et leur probabilité de conversion diffèrent selon leur historique.

Cette simplification est ce qui rend les chaînes de Markov computationnellement réalisables. Un modèle Markov de premier ordre (où l’état suivant ne dépend que de l’état actuel) nécessite de suivre les transitions entre N états, vous donnant une matrice N x N. Un modèle de second ordre (où l’état suivant dépend de l’état actuel plus l’état précédent) nécessite N² x N transitions — exponentiellement plus de données pour une estimation fiable.

Les modèles de premier ordre fonctionnent bien pour la plupart des cas d’usage d’attribution. La perte de précision due à l’ignorance de l’historique du parcours est généralement faible par rapport au gain obtenu en dépassant les hypothèses heuristiques basées sur la position. Si vous disposez de suffisamment de données, les modèles d’ordre supérieur peuvent capturer les effets de séquence, mais les exigences en données augmentent rapidement.

Markov vs. modèles heuristiques

Les modèles basés sur la position supposent que les premières et dernières touches méritent davantage de crédit. Les modèles linéaires supposent que toutes les touches contribuent également. Les modèles de décroissance temporelle supposent que la récence est corrélée à l’influence. Ces hypothèses ne sont pas validées par les données observées.

L’attribution par chaîne de Markov calcule l’effet de suppression à partir des données de parcours réelles : si un canal est supprimé, comment la probabilité de conversion globale change-t-elle ? Un canal qui apparaît fréquemment dans les parcours convertissants mais qui ne modifie pas la probabilité de conversion lorsqu’il est supprimé a une contribution réelle inférieure à ce que le crédit basé sur la position suggère.

Quand les chaînes de Markov sont le bon choix

Les chaînes de Markov excellent lorsque la nature séquentielle des parcours est importante pour votre activité. La probabilité de transition de Paid Search à Email peut différer significativement de Email à Paid Search. Les modèles Markov capturent ces asymétries car ils modélisent explicitement la direction et la probabilité de chaque transition.

En pratique, les chaînes de Markov sont l’approche d’attribution data-driven la plus courante pour trois raisons :

Coût computationnel inférieur à l’attribution par valeur de Shapley — vous avez besoin d’opérations matricielles plutôt que d’évaluer 2^n coalitions de canaux
Interprétation intuitive — les probabilités de transition correspondent à des comportements clients réels que les parties prenantes peuvent comprendre
Bonne performance empirique — l’effet de suppression produit des valorisations de canaux qui s’alignent bien avec les résultats des tests d’incrémentalité

L’exigence principale est le volume de données. Vous avez besoin d’assez de parcours observés pour estimer les probabilités de transition de manière fiable. Visez environ 10 fois plus de transitions que de types de transitions uniques. Avec 10 canaux (plus START, CONVERSION, NULL), vous avez jusqu’à 13 x 13 = 169 transitions possibles, soit au moins 1 690 transitions de parcours totales — généralement réalisables avec quelques centaines de conversions.

Relation avec les autres approches

Les chaînes de Markov et les valeurs de Shapley mesurent toutes deux la contribution des canaux par analyse contrefactuelle — ce qui se passe lorsque vous supprimez un canal. Elles diffèrent dans la manière de calculer le contrefactuel : les chaînes de Markov utilisent les effets de suppression dérivés des probabilités de transition, tandis que les valeurs de Shapley utilisent les contributions marginales à travers toutes les sous-ensembles possibles de canaux.

Exécuter l’attribution Markov parallèlement à votre comparaison de modèles heuristiques renforce la confiance des parties prenantes. Lorsque les modèles divergent, le résultat Markov apporte une perspective data-driven à la conversation. Lorsque tous les modèles convergent, la confiance est élevée quelle que soit la méthodologie.

L’implémentation SQL gère l’extraction des parcours et le comptage des transitions dans votre entrepôt, les opérations matricielles passant généralement à Python pour le calcul de l’effet de suppression.