Articles de blog / Pourquoi l'érosion du contexte nuit à la fiabilité de l’IA en santé
Points de vue
Nos solutions

Pourquoi l'érosion du contexte nuit à la fiabilité de l’IA en santé

Clinia
Écrit par Clinia
Publié 2026-02-10
Pourquoi l'érosion du contexte nuit à la fiabilité de l’IA en santé

Les grands modèles de langue ont considérablement facilité le prototypage d’expériences cliniques basées sur l’IA, comme la synthèse de dossiers, la revue de dossiers médicaux ou la recherche, souvent en injectant simplement le contexte patient dans une requête (« prompt ») pour générer une réponse.

Cela fonctionne bien lorsqu’on présente une démo. Mais dans les environnements de soins réels, ces approches ponctuelles et sans mémoire atteignent très vite leurs limites.

Le raisonnement clinique ne consiste pas à répondre à une question isolée. Il repose sur la compréhension de la trajectoire d’un patient dans le temps : ses consultations, ses examens, ses traitements, son évolution. Or, lorsque chaque appel à l’IA traite cet historique comme une nouvelle requête indépendante, toute notion de continuité disparait. Pour un médecin, la signification d’une toux change si le patient a commencé un inhibiteur de l’ECA la semaine d’avant; l’IA peut, elle, ne pas tenir compte de cette information.

Les données des patients sont éclatées entre notes cliniques, résultats de laboratoire, rapports d’imagerie, PDF, dossiers externes et téléchargements ponctuels. Tenter de « réparer » cette fragmentation en empilant toujours plus de contexte dans un seul appel à un grand modèle de langue ne fait qu’augmenter les risques en matière de performance et de gouvernance.

Même la génération augmentée par la récupération d’information (RAG), qui enrichit les modèles avec des sources externes, peut passer à côté du récit longitudinal sur lequel les cliniciens s’appuient pour comprendre un parcours de soins. En pratique, elle devient souvent une tentative fragile d’optimiser la gestion du contexte plutôt qu’une véritable solution à la compréhension dans le temps.

Un nouveau problème émerge : l'érosion du contexte (« context rot »).

Qu’est-ce que l'érosion du contexte ?

Les développeurs ont posé un nom: « context rot » sur l’une des limites majeures de la création de requêtes naïves, qui survient lorsque l’ajout d’informations supplémentaires dans une requête fait baisser la performance du modèle, même lorsque les éléments pertinents sont bien présents dans les données d’entrée.

Autrement dit, davantage de contexte n’entraine pas forcément une meilleure compréhension. À mesure que la requête s’allonge, le bruit peut noyer les faits essentiels. Les mécanismes d’attention peinent à hiérarchiser les dépendances à long terme, et la capacité du modèle à relier des informations réparties sur plusieurs segments de texte s’affaiblit [1,2].

Ce phénomène est particulièrement critique en médecine, où un bon résumé et un raisonnement fiable exigent de relier, dans la durée, des tendances cliniques, des évènements ponctuels, des changements de traitement et des résultats observés au fil du temps.

Cette détérioration du contexte a donc des effets très concrets sur la performance des systèmes d’IA en santé.

Les limites des modèles d’IA « one-shot » et à long contexte en santé

1) Dégradation des performances avec des contextes longs

En pratique, les modèles peuvent rater des liens importants (par exemple, entre une variation de résultats de laboratoire et une intervention antérieure), non pas parce que les données manquent, mais parce qu’ils peinent à raisonner efficacement sur de longues séquences de texte. Se contenter d’agrandir les fenêtres de contexte n’améliore pas de façon fiable le raisonnement, surtout pour des tâches sémantiques ou impliquant plusieurs étapes [3].

2) Hausse des coûts et des risques opérationnels

Les jetons (« tokens ») d'entrée sont peut-être moins coûteux qu'auparavant, mais les flux de travail à l'échelle de l'entreprise dans le domaine de la santé ne peuvent pas se contenter d'un bourrage de contexte, qui augmente la charge de calcul et la mémoire, et accroit la latence [4].

  • Les données de sortie incohérentes et les hallucinations deviennent plus fréquentes à mesure que le contexte s’allonge, ce qui favorise une altération des faits même lorsque des informations pertinentes sont présentes [5].

  • La gouvernance et la traçabilité se compliquent. Des requêtes plus longues rendent difficile l’identification des éléments précis qui ont influencé la réponse, ce qui pose un problème majeur dans des environnements règlementés comme les soins de santé [6].

Pourquoi la génération augmentée par la récupération (RAG) seule ne suffit pas

La génération augmentée par la récupération d’information améliore les requêtes naïves en récupérant des extraits pertinents à partir de sources externes avant la génération, ce qui aide les modèles à se concentrer sur les informations pertinentes. Mais les antécédents cliniques réels sont des récits complexes, et non des cibles de recherche isolées. Si des informations clés sont enfouies ou mal classées, les modèles peuvent encore les sous-évaluer ou perdre leur cohérence [3].

Une revue systématique de la RAG dans le domaine des soins de santé souligne que, si elle réduit les hallucinations et favorise l'ancrage factuel, son efficacité dépend fortement de la qualité et du classement des documents récupérés. Si la récupération est imparfaite, comme c'est souvent le cas dans les contextes cliniques réels où les dossiers sont bruités et se chevauchent, le modèle génératif peut encore produire des réponses incomplètes ou trompeuses [7].

Conclusion et perspectives

Les implémentations « one-shot » de grands modèles de langue et les pipelines RAG naïfs sont excellents pour les prototypes, mais ils ne répondent pas aux exigences de fiabilité, d'évolutivité et de continuité narrative requises pour les soins de santé en entreprise. Le simple fait d'ajouter davantage de jetons (« tokens ») ne résout pas les limites sous-jacentes et peut exacerber les risques liés aux performances et à la gouvernance.

L'IA appliquée aux soins de santé doit aller au-delà des requêtes sans état pour évoluer vers des modèles qui comprennent les patients comme des histoires en constante évolution, en intégrant des données structurées et non structurées dans le temps avec continuité et traçabilité.

Clinia remédie à ces limites en conservant un contexte patient structuré et persistant. Cette approche permet des processus IA plus précis, plus rentables et mieux adaptés à la façon de penser des cliniciens. (Nous explorerons la solution de Clinia en détail dans notre prochain article.)

Références

[1] Timothy B. Lee. “Context rot: the emerging challenge that could hold back LLM progress.” Understanding AI, Nov 10, 2025.

[2] Du Y, Tian M, Ronanki S, Rongali S, Bodapati S, Galstyan A, Wells A, Schwartz R, Huerta EA, Peng H. Context Length Alone Hurts LLM Performance Despite Perfect Retrieval. arXiv [preprint]. 2025. Available from: https://arxiv.org/abs/2510.05381

[3] Zhang G, Xu Z, Jin Q, et al. Leveraging long context in retrieval augmented language models for medical question answering. NPJ Digit Med. 2025;8:239. https://www.nature.com/articles/s41746-025-01651-w

[4] Alla CVK, Gaddam HN, Kommi M. BudgetMem: Learning Selective Memory Policies for Cost-Efficient Long-Context Processing in Language Models. arXiv [preprint]. 2025. Available from: https://arxiv.org/abs/2511.04919

[5] Liu S, Halder K, Qi Z, Xiao W, Pappas N, Htut PM, John NA, Benajiba Y, Roth D. Towards Long Context Hallucination Detection. arXiv [preprint]. 2025. Available from: https://arxiv.org/abs/2504.19457

[6] Asgari, E., Montaña-Brown, N., Dubois, M. et al. A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation. npj Digit. Med. 8, 274 (2025). https://www.nature.com/articles/s41746-025-01670-7

[7] Neha F, Bhati D, Shukla DK. Retrieval-Augmented Generation (RAG) in Healthcare: A Comprehensive Review. AI. 2025; 6(9):226. https://www.mdpi.com/2673-2688/6/9/226

Abonnez-vous à notre newsletter

Recevez des informations clés pour relever les défis liés aux données de santé et faire évoluer des solutions d’intelligence en santé.