Les standards d'évaluation de Clinia pour les réponses génératives

Lorsque nous posons une question à un système d’IA, il donne parfois une réponse qui paraît convaincante sans pour autant être fondée sur des sources pertinentes. Si cela n’a pas toujours d’incidence dans la vie quotidienne, les enjeux sont beaucoup plus élevés en santé, où la précision et la confiance sont essentielles.
La génération augmentée par recherche (Retrieval-Augmented Generation ou RAG) est une approche prometteuse pour réduire ce risque. Au lieu de se fier uniquement à ce qu’il a mémorisé pendant son entraînement, un système RAG commence par rechercher dans des sources fiables (comme des recommandations médicales ou des articles scientifiques) puis utilise ces informations pour générer sa réponse.
Cette approche confère au RAG une valeur particulière dans le domaine de la santé, où les connaissances évoluent sans cesse et où chaque réponse doit être à la fois précise et fiable. Elle souligne aussi l’importance d’une évaluation rigoureuse: il ne suffit pas que le système retrouve des sources, il doit identifier les bonnes, les interpréter correctement et transmettre ses conclusions de manière à inspirer la confiance des professionnels de santé. Dans ce contexte, évaluer des réponses générées ne se limite donc pas à mesurer la performance d’un système: il s’agit de vérifier que la technologie contribue réellement à de meilleures décisions et, ultimement, à de meilleurs soins.
La plupart des méthodes d’évaluation standards en IA viennent des recherches plus anciennes en traitement automatique des langues naturelles. Des métriques comme BLEU ou ROUGE comparent la réponse de l’IA à une réponse de référence en comptant les recoupements de mots. Cela fonctionne assez bien pour des tâches comme la traduction ou le résumé, mais montre vite ses limites pour l’IA générative en santé (Novikova et coll., 2017).
Ces métriques ne mesurent que le recouvrement de mots, et non si la réponse est correcte ou pertinente.
Elles ne peuvent pas détecter si l’IA hallucine des informations, adopte un ton inapproprié, produit un texte peu clair ou génère même des conseils potentiellement dangereux.
Elles tendent aussi à pénaliser des réponses correctes, mais formulées différemment.
Et, surtout, elles n’ont jamais été conçues pour des contenus médicaux à haut risque, où l’exactitude, la clarté et la sécurité de chaque réponse comptent davantage que la similarité de mots.
C’est pourquoi nous avons besoin d’une approche différente. Chez Clinia, nous avons conçu notre propre ensemble de critères médicaux et linguistiques pour évaluer les réponses, à la fois du point de vue du contenu (l’information est-elle correcte, complète et sûre ?) et de la forme (est-elle claire, respectueuse et utile au lecteur ?).
Ces recommandations visent à préserver la cohérence sémantique et la rigueur scientifique des réponses générées, conditions essentielles pour instaurer la confiance dans l’IA appliquée à la santé.
En santé, même un contenu légèrement hors sujet peut faire perdre du temps ou induire en erreur. Les réponses doivent donc répondre directement à la question de l’utilisateur. Nous évaluons la pertinence sur une échelle graduée:
✅ Réponse pertinente – Répond pleinement et précisément à la question. 🟡 Liée au contexte – En rapport avec le sujet, mais ne répond pas exactement à la question. ❌ Hors sujet – Contenu non pertinent ou trompeur.
Prenons un exemple avec la question Qu’est-ce que la stimulation du nerf hypoglosse ? et trois réponses proposées:
✅ La stimulation du nerf hypoglosse est un traitement médical utilisé pour l’apnée obstructive du sommeil (AOS). Il implique un dispositif implanté qui stimule le nerf hypoglosse, lequel contrôle les mouvements de la langue. En stimulant ce nerf pendant le sommeil, le dispositif aide à maintenir les voies respiratoires ouvertes, réduisant ainsi les apnées et améliorant la respiration. 🟡 L’apnée obstructive du sommeil est une condition où les voies respiratoires se bloquent durant le sommeil, entraînant des interruptions de la respiration. Plusieurs traitements existent, dont les changements de mode de vie, la stimulation du nerf hypoglosse, les appareils CPAP et les options chirurgicales ❌ L’amygdale est un petit amas en forme d’amande de noyaux situés profondément dans les lobes temporaux du cerveau.
Cet exemple montre que la pertinence ne se limite pas à la justesse: elle concerne aussi l’utilité en contexte. Une réponse qui va droit au but permet une prise de décision plus rapide et plus sûre, tandis qu’un contenu tangentiel ou hors sujet détourne l’utilisateur de ce qui est vraiment utile.
Lorsqu’on pose des questions similaires, un modèle doit fournir des réponses cohérentes entre elles et proposer les mêmes conseils médicaux. Par exemple:
Quels sont les effets secondaires des bêtabloquants ?
Quels sont les risques liés à l’utilisation des bêtabloquants ?
Les deux questions doivent mener à des informations fiables, cohérentes et similaires, sans contradictions.
Allégations corroborées: Toutes les affirmations factuelles doivent être vérifiables dans plusieurs sources de confiance. On évite la dépendance à une seule source, sauf si le sujet est rare ou émergent. Une incertitude doit être explicitement signalée lorsqu’il n’y a pas de consensus.
Prévention des hallucinations: Les modèles doivent s’appuyer sur des informations factuelles, avec des références précises au niveau de la phrase. Les réponses dépourvues de sources vérifiables sont systématiquement rejetées. Au-delà de l’absence de références, nous filtrons également les détails inventés, les associations trompeuses ou les affirmations trop assurées dépassant les preuves disponibles, par exemple, l’invention de fausses interactions médicamenteuses, la présentation de résultats d’études fictifs, ou la généralisation à partir de sources limitées. La règle est simple: toute information non vérifiable est supprimée.
Tous les passages contenant des informations cliniquement pertinentes, comme l’étiologie, les résultats, le pronostic ou les traitements potentiels, doivent être soutenus par des références aux articles consultés. La crédibilité de ces références est essentielle. Dans un contexte clinique, citer un blog ou un site générique est inacceptable: les professionnels de santé ont besoin de preuves primaires ou de sources secondaires reconnues. Cela permet d’assurer:
des conseils médicaux à jour (ex. protocoles COVID-19, rappels de médicaments);
de la transparence, afin que les utilisateurs puissent évaluer la pertinence temporelle de chaque affirmation.
Pour rendre les réponses lisibles et fiables, nous veillons à ce qu’elles suivent une structure claire et cohérente. Toutes les réponses doivent respecter un format prévisible, comprenant:
une explication ou recommandation principale;
des explications alternatives ou cas particuliers;
un résumé (si pertinent);
un avertissement (si nécessaire);
des références.
La façon dont une réponse est rédigée compte autant que l’information elle-même. Le texte doit être clair, fluide et grammaticalement correct. Il doit éviter les tournures maladroites, les fautes d’orthographe et de typographie, qui peuvent miner la confiance dans la réponse.
Les réponses doivent rester concises, sans répétitions inutiles ni explications trop longues. Des réponses claires et ciblées aident les utilisateurs à trouver rapidement l’information dont ils ont besoin, ce qui est crucial pour les professionnels de santé qui prennent des décisions dans l’urgence. Prenons l’exemple d’une question portant sur les symptômes courants du rhume:
✅ Les symptômes courants d’un rhume incluent la rhinorrhée, la pharyngite, la toux et les éternuements.
❌Les symptômes courants du rhume, aussi appelé infection des voies respiratoires supérieures, incluent généralement la rhinorrhée, qui est le terme médical pour un écoulement nasal, et la pharyngite, qui correspond à une irritation de la gorge. Les patients présentent souvent une toux, réflexe visant à dégager les voies respiratoires, et des éternuements, qui sont une expulsion involontaire d’air par le nez et la bouche. Ces symptômes sont généralement liés à des infections virales et peuvent varier d’une forme légère à plus prononcée.
La comparaison entre ces deux réponses démontre comment une réponse bien structurée, comme la première, transmet les mêmes informations, mais de manière plus efficace, facilitant une compréhension et une action plus rapides.
Le contenu doit trouver le juste équilibre entre prudence et clarté. Cela signifie éviter un ton trop autoritaire ou prescriptif, tout en fournissant des informations utiles et exploitables. Par exemple:
❌ Nous recommandons un traitement immédiat par stéroïdes. ✅ Une corticothérapie à forte dose peut être envisagée, mais doit être discutée avec un clinicien.
La seconde formulation guide le lecteur sans outrepasser son rôle, en combinant prudence et clarté.
Comme notre produit s’adresse à la fois aux patients et aux professionnels de la santé, nos réponses doivent correspondre au niveau de complexité attendu par l’utilisateur.
Pour un patient, il est mieux d’utiliser des termes simples et de fournir des définitions accessibles.
Pour un clinicien, l’usage de la terminologie médicale et la référence à des études et métriques est attendu.
Voyons un exemple avec la question Quels sont les effets secondaires possibles des bêtabloquants ?.
Pour un patient: Les bêtabloquants peuvent vous fatiguer, vous donner des étourdissements, ralentir votre rythme cardiaque, causer des nausées ou rendre vos mains et vos pieds plus froids.
Pour un expert médical: Les bêtabloquants peuvent entraîner des effets secondaires tels que la bradycardie, l’hypotension et la fatigue. Certains patients peuvent présenter un bronchospasme, notamment en cas d’antécédents d’asthme ou de BPCO. On observe aussi parfois des troubles gastro-intestinaux comme des nausées, ainsi qu’une vasoconstriction périphérique provoquant des extrémités froides.
Adapter la réponse à l’utilisateur consiste également à tenir compte des variations régionales. Les variations régionales (ou diatopiques) sont des différences linguistiques qui apparaissent selon un contexte géographique ou culturel. Pour rester cohérente, la variante régionale de la réponse doit correspondre à celle de la question, autrement dit, elle doit être alignée avec la localisation de l’utilisateur.
Par exemple:
Anglais britannique: The patient is scheduled for an operation tomorrow and will need to be monitored in theatre. Make sure he has his blood group checked and has been fitted with a cannula.
Anglais américain: The patient is scheduled for surgery tomorrow and will need to be monitored in the operating room. Make sure his blood type is checked and he has been fitted with an IV.
Évaluer l’IA générative en santé va bien au-delà des métriques traditionnelles fondées sur le recouvrement de mots. Chez Clinia, nous nous concentrons à la fois sur ce que l’IA dit et comment elle le dit, afin que les réponses soient précises, sûres, claires et adaptées aux besoins de l’utilisateur. En combinant l’attention à la clarté et au ton, et l’adaptabilité aux différents publics, notre approche contribue à faire de l’IA un partenaire fiable dans la décision clinique.
Why We Need New Evaluation Metrics for NLG (Novikova et al., EMNLP 2017)
Découvrez nos solutions Knowledge Search