Ce que The Pitt saisit sur l'IA médicale




Dans le deuxième épisode de la saison 2 de The Pitt, une scène nous a interpellés. La Dre Al-Hashimi présente à son équipe une nouvelle application d'IA, rapide, efficace et impressionnante, pour la création de dossiers médicaux, jusqu'à ce qu'un résident remarque quelque chose d'inquiétant. L'application d'IA a prescrit le mauvais médicament à un patient.
« IA... intelligence approximative » (AI, almost intelligent), plaisante une étudiante en médecine.
La médecin traitante balaye cette remarque d'un revers de main : « L'IA générative est actuellement précise à 98 %. » Elle ajoute ensuite : « Vous devez toujours relire vos documents. »
Difficile à accepter quand une seule vérification manquée peut coûter la vie à un patient.
La scène est fictive, mais les risques ne le sont pas. Les erreurs de l'IA dans le domaine de la santé ressemblent rarement à des défaillances spectaculaires. Elles se manifestent le plus souvent de manière discrète : des critères de référence flous, des modèles utilisés en dehors de leur domaine, un contexte dégradé ou une infrastructure fragile.
La série illustre involontairement plusieurs écueils bien documentés dans la recherche et le déploiement de l'IA en santé. Voici quatre d'entre eux que nous nous efforçons de résoudre chez Clinia.
Plusieurs de ces questions sont abordées plus en détail sur notre blogue, où nous publions des articles techniques sur l'IA dans le domaine de la santé sur les thèmes suivants : méthodes d'évaluation, critères de référence, sécurité des modèles et défis liés au déploiement clinique.
La Dre Al-Hashimi cite un taux de précision de 98 %. Cependant, nous ne disposons d'aucune information sur ce qui a été testé, sur quels patients ou dans quelles conditions. Ce chiffre pourrait provenir d'un test de performance générique ayant peu de rapport avec la tâche clinique pour laquelle le modèle est réellement utilisé.
Dans le domaine de l'apprentissage automatique, la « précision » peut faire référence à de nombreux indicateurs différents selon la tâche. Un modèle peut obtenir de bons résultats lors d'un test de classification tout en passant à côté d'une information importante pour un patient.
Cela revêt une importance particulière dans la recherche d'informations médicales.
Les mesures de recherche standard donnent la priorité au classement : elles affichent le meilleur résultat en tête de liste. Mais dans un contexte clinique, les informations cachées peuvent être tout aussi cruciales. Une note concernant une réaction allergique passée à la pénicilline peut apparaître tout au bas du dossier, mais son omission pourrait avoir une incidence directe sur les prises de décision thérapeutiques.
Dans ce cas, le problème principal n'est pas le classement, mais le rappel : s'assurer que les informations essentielles ne sont pas omises. Les indicateurs de performance n'ont d'importance que s'ils reflètent une utilisation clinique réelle.
→ Pour en savoir plus sur les indicateurs d'évaluation dans la recherche médicale : Mesurer la qualité de la recherche d’information en santé
Dans la série, l'application d'IA confond neurologie et urologie, hallucine des détails sur les patients, tels qu'une appendicectomie, et présente des informations incorrectes avec la même assurance que des informations correctes.
C'est ce qui se passe lorsqu'un modèle polyvalent est déployé dans un domaine pour lequel il n'a pas été conçu.
La terminologie médicale est particulièrement dense et précise. Un même concept peut apparaître sous forme de jargon clinique, d'abréviations ou de langage simple destiné aux patients. Un modèle doit être capable de les interpréter correctement, souvent dans des contextes où de petites différences ont leur importance.
Par exemple, des abréviations telles que SM peuvent désigner le syndrome métabolique, la sténose mitrale ou le sulfate de morphine, selon le contexte clinique. Une formation et une évaluation spécifiques au domaine font ici une différence significative.
Chez Clinia, nos modèles de qualité médicale sont formés à partir de la littérature biomédicale et de données cliniques, puis validés par des experts médicaux dans plus de 70 spécialités. Lorsqu'il est testé sur le benchmark CURE, notre Knowledge Embedder V2 affiche un écart de performance mesurable par rapport aux modèles à usage général.
Dans le domaine de la santé, cette différence peut avoir une incidence sur la disponibilité des informations pertinentes au moment où les cliniciens en ont le plus besoin.
Pour aller plus loin:
→ heMTEB, un benchmark open source pour la recherche d'informations sur la santé
→ Créer une IA plus fiable en collaborant avec des experts
La série suggère aussi un risque plus subtil : plus les cliniciens adoptent les outils d'IA, plus il leur devient difficile de travailler sans eux. Mais cette dépendance n'est pas le seul problème : quelque chose de plus insidieux peut se produire au sein de l'IA elle-même. Et une dépendance aveugle envers un système qui se dégrade pourrait bien constituer le risque le plus dangereux de tous.
À mesure que davantage d'informations transitent par le système, l'IA peut commencer à perdre de vue ce qui est important. Le contexte antérieur est enfoui et des détails essentiels peuvent être omis.
C'est ce que nous appelons l’érosion du contexte : la dégradation progressive de la qualité des résultats de l'IA à mesure que les conversations s'allongent et que les informations s'accumulent, comme un tableau blanc sur lequel on continue d'écrire sans jamais effacer. Les premières notes ne disparaissent pas, mais elles deviennent plus difficiles à lire et plus faciles à négliger.
Par exemple, une note antérieure concernant une allergie médicamenteuse peut ne plus influencer les réponses ultérieures si elle se trouve en dehors de la fenêtre contextuelle effective du modèle ou si elle est diluée parmi les informations plus récentes.
Des fenêtres contextuelles plus grandes ou de meilleures requêtes (prompts) ne suffisent pas à résoudre ce problème. Cela nécessite une évaluation continue : des moyens structurés pour détecter quand les réponses commencent à dévier avant qu'elles ne causent du tort.
Pour plus de détails:
→ Les standards d'évaluation de Clinia pour les réponses génératives
Plus tard dans la saison, The Pitt aborde un autre type de menace, qui dépasse le cadre de l'IA elle-même.
Après qu'une cyberattaque a frappé un établissement voisin, l'hôpital ferme préventivement son infrastructure électronique. Plus aucun dossier, plus aucune donnée patient, plus aucune IA. L'équipe se retrouve à devoir se débrouiller avec des stylos et du papier, incapable d'accéder aux informations critiques sur les patients déjà pris en charge.
C'est un scénario dramatique, mais la vulnérabilité sous-jacente est bien réelle. Les systèmes d'IA utilisés dans le domaine de la santé traitent certaines des données personnelles les plus sensibles qui soient. Une violation expose non seulement des informations privées, mais perturbe également les soins à un moment où les cliniciens ont le plus besoin de systèmes fiables.
C'est pourquoi la vérification par un tiers est importante. Une certification SOC 2 Type II, par exemple, signifie qu'un auditeur indépendant a vérifié en continu que les contrôles de sécurité fonctionnent comme prévu. Chez Clinia, nous nous conformons à cette norme.
→ Clinia obtient à nouveau l’attestation SOC 2 Type II
The Pitt suggère que les cliniciens devraient simplement « relire » les productions d'IA.
Mais dans le domaine de la santé, la sécurité ne peut pas reposer uniquement sur la détection des erreurs à postériori. L'objectif est de créer des systèmes dans lesquels les erreurs critiques sont moins susceptibles de se produire.
Y remédier demande bien plus que d'affiner les requêtes ou d'agrandir les modèles. Cela suppose :
des tests de performance qui reflètent les processus cliniques réels ;
des modèles spécifiques au domaine, formés pour les soins de santé ;
une évaluation continue du comportement des modèles ;
une infrastructure qui protège les données sensibles
et une supervision humaine à chaque étape.
La série ne répond pas à la question de savoir si l'IA a sa place dans le domaine des soins de santé. En réalité, cette question a déjà été tranchée. Le véritable défi consiste à créer des systèmes d'IA sur lesquels les cliniciens peuvent compter, et pas seulement à réviser les réponses proposées. Car dans le domaine des soins de santé, une précision de 98 % n'est pas rassurante si vous faites peut-être partie des 2 % restants.