Précision des LLM avec les couches sémantiques

Des recherches provenant de plusieurs sources indépendantes montrent que les LLMs atteignent environ 17% de précision sur les questions de données d’entreprise sans contexte sémantique. Avec une couche sémantique fournissant ce contexte, la précision s’étend de 54% à 92% selon le benchmark et l’outil.

Le benchmark data.world

L’étude la plus rigoureuse vient de data.world, évaluée par des pairs et publiée sur arXiv. Leur benchmark a testé la performance des LLM sur des questions de niveau entreprise avec et sans contexte sémantique provenant de graphes de connaissances.

Les chiffres clés :

Sans contexte sémantique : 16,7% de précision
Avec des graphes de connaissances fournissant un contexte sémantique : 54,2% de précision

Pour les questions intensives en schéma — celles impliquant des métriques, des KPIs et de la planification stratégique — les LLMs sans contexte sémantique ont atteint 0% de précision. Les chercheurs ont décrit cela comme un effet « zéro-à-un » pour les questions à haute complexité.

C’est intuitivement logique. Les recherches simples (« combien de commandes le mois dernier ? ») sont faciles parce que l’IA peut deviner la bonne table et colonne. Les questions complexes (« quelle est notre valeur vie client par canal d’acquisition, ajustée pour le churn ? ») nécessitent de comprendre comment plusieurs métriques sont définies, quelles tables les alimentent, quels filtres s’appliquent et comment les dimensions se rapportent. Sans un vocabulaire gouverné fournissant ces définitions, le LLM doit inférer tout cela à partir des noms de colonnes et des structures de tables. Il ne peut pas.

Des recherches complémentaires ont montré que la combinaison de représentation sémantique avec des mécanismes de réparation automatisés a réduit les taux d’erreur de 83,3% à 19,44%. Le mécanisme de réparation capture la première tentative de l’IA, la valide par rapport au modèle sémantique et régénère quand la requête n’est pas conforme aux définitions de métriques connues. C’est une architecture pratique pour les systèmes de production — pas « faire confiance à l’IA pour avoir raison » mais « donner à l’IA des garde-fous et une boucle de correction ».

Le benchmark Spider 2.0

Spider 2.0 est un benchmark plus récent spécifiquement conçu pour la complexité de niveau entreprise. Publié en 2024, il teste la performance des LLM sur le type de schémas que l’on trouve réellement dans les entrepôts de données de production — pas des bases de données jouet avec cinq tables, mais de vrais schémas d’entreprise avec des centaines de tables, des noms de colonnes ambigus et de la logique métier enfouie dans la structure.

Le modèle le plus performant n’a atteint que 17,1% de précision sur ces schémas complexes. Ce chiffre est un contexte important pour quiconque évalue des outils d’analytics alimentés par l’IA. Les affirmations marketing disent « posez des questions en langage naturel et obtenez des réponses instantanées ». Le benchmark dit que l’IA obtient la bonne réponse une fois sur six pour les questions de niveau entreprise, sans contexte sémantique.

La contribution de Spider 2.0 à la conversation est d’établir que le problème de précision ne concerne pas la capacité des modèles. GPT-4, Claude et d’autres modèles frontier se battent tous avec la même classe d’erreurs. Le goulot d’étranglement est le contexte, pas l’intelligence. Les modèles sont assez intelligents pour générer du SQL correct s’ils savent ce que les colonnes signifient, comment les tables se rapportent et quelles règles métier s’appliquent. Sans ce contexte, ils devinent.

La réplication de dbt Labs

dbt Labs a répliqué le benchmark data.world en utilisant leur propre Semantic Layer et a rapporté 83% de précision sur les questions à haute complexité. C’est un point de données significatif, bien qu’il vienne avec des mises en garde.

Le chiffre de 83% est basé sur une réplication partielle du benchmark, pas une étude entièrement indépendante. dbt Labs a effectué le test sur leur propre outil avec leur propre configuration. Il n’a pas été validé indépendamment par un tiers utilisant la même méthodologie. Cela ne veut pas dire qu’il est faux — cela signifie qu’il devrait être pondéré comme une preuve de confiance moyenne plutôt que comme une vérité évaluée par des pairs.

De même, AtScale a rapporté 92,5% de précision dans ses propres tests de produit. Encore une fois, c’est le benchmark d’un fournisseur, pas une évaluation indépendante.

La revendication directionnelle — qu’une couche sémantique correctement configurée améliore dramatiquement la précision des LLM — est fortement soutenue par toutes ces études. Les pourcentages spécifiques varient selon le benchmark, le modèle et les conditions de test. Mais la plage d’amélioration de 3-4x semble cohérente quel que soit l’outil du fournisseur testé et quel que soit le LLM qui effectue les requêtes.

Pourquoi la couche sémantique aide

Le mécanisme est simple. Quand un utilisateur demande « quel était le chiffre d’affaires du dernier trimestre ? », le LLM doit résoudre plusieurs ambiguïtés :

Quelle table contient les données de chiffre d’affaires
Quelle colonne représente le montant
Quels filtres définissent le « chiffre d’affaires » (commandes complétées uniquement ? hors remboursements ?)
Ce que « dernier trimestre » signifie (fiscal ? calendaire ? quel fuseau horaire ?)

Sans couche sémantique, l’IA fait des suppositions qui semblent raisonnables pour chacune d’elles. Elle choisit une colonne plausible, applique des filtres plausibles, génère du SQL qui compile et s’exécute. Le résultat semble autoritaire — un chiffre propre sans messages d’erreur. Et il est faux, parce que le « chiffre d’affaires » dans cette organisation signifie le chiffre d’affaires net après remboursements, pas les totaux bruts de commandes, et l’IA a choisi la colonne brute parce qu’elle s’appelait revenue.

Une couche sémantique contraint le vocabulaire. Ce sont les métriques. Ce sont les dimensions valides. Ce sont les filtres autorisés. La tâche de l’IA passe de « comprendre ce que signifie le chiffre d’affaires à partir de l’inspection du schéma brut » à « traduire la question de l’utilisateur en une requête sur des définitions de métriques connues ». C’est un problème fondamentalement plus facile, et les benchmarks le reflètent.

C’est aussi pourquoi la qualité de la documentation importe tellement pour l’analytics alimenté par l’IA. La couche sémantique est la forme la plus structurée de documentation — elle ne décrit pas seulement ce que signifie le chiffre d’affaires, elle encode la définition dans un format lisible par machine que l’IA peut utiliser directement. Les descriptions de colonnes aident. Les métriques définies dans le code aident davantage. Une couche sémantique complète avec des entités, des dimensions et des définitions de métriques gouvernées aide le plus.

Implications pour le self-service

Gartner prédit que d’ici 2026, 90% des consommateurs actuels de contenu d’analytics deviendront des créateurs de contenu, rendus capables par l’IA. Sans couche sémantique, la précision de base de 17% signifie que cinq requêtes sur six en langage naturel retournent de mauvaises réponses. Les utilisateurs métier qui ne peuvent pas vérifier la sortie SQL n’ont aucun moyen fiable de détecter les erreurs avant d’agir dessus.

Avec une couche sémantique, la précision atteint la plage où le self-service alimenté par l’IA devient pratique. À 83%, environ une requête sur cinq nécessite encore une correction, mais l’IA peut gérer les questions routinières et faire remonter les questions complexes aux analystes. À 17%, le taux d’erreur est trop élevé pour une utilisation non supervisée.