Les GPT-3.5 et 4 sont caractérisés par la pensée clinique

Dans une étude récente publiée dans npj Médecine NumériqueLes chercheurs ont développé des invites de raisonnement diagnostique pour déterminer si les grands modèles linguistiques (LLM) peuvent simuler le raisonnement clinique diagnostique.

Le médecin est assis devant l'ordinateur portable avec une projection futuriste représentant l'intelligence artificielle — *Étude: Les invites de raisonnement diagnostique démontrent le potentiel d’interprétabilité des grands modèles de langage en médecine. Crédit photo : chayanuphol/Shutterstock.com*

Les LLM, des systèmes basés sur l’intelligence artificielle formés à l’aide d’énormes quantités de données textuelles, sont connus pour simuler les performances humaines dans des tâches telles que la rédaction de notes cliniques et la réussite d’examens médicaux. Cependant, comprendre leurs capacités de raisonnement diagnostique clinique est essentiel à leur intégration dans les soins cliniques.

Des études récentes se sont concentrées sur des questions cliniques ouvertes et indiquent que des modèles innovants en grand langage tels que GPT-4 ont le potentiel d’identifier des patients complexes. Prompt Engineering a commencé à résoudre ce problème, car les performances du LLM varient en fonction du type d’invites et de questions.

À propos de l’étude

Dans la présente étude, les chercheurs ont évalué le raisonnement diagnostique à l’aide de GPT-3.5 et GPT-4 pour des questions cliniques ouvertes et ont émis l’hypothèse que les modèles GPT pourraient surpasser les invites de raisonnement diagnostique traditionnelles en chaîne de pensée (CoT).

L’équipe a utilisé l’ensemble de données révisé de l’examen de licence médicale des États-Unis MedQA (USMLE) et la série de cas du New England Journal of Medicine (NEJM) pour comparer les invites de chaîne de pensée traditionnelles avec diverses invites de logique diagnostique modélisées d’après les procédures cognitives utilisées pour former des diagnostics différentiels. pensée analytique, raisonnement bayésien et pensée intuitive.

Ils ont examiné si des modèles en langage large pouvaient imiter le raisonnement clinique à l’aide d’invites spécialisées, combinant l’expertise clinique et des techniques d’incitation avancées.

L’équipe a utilisé l’ingénierie rapide pour générer des invites de raisonnement diagnostique et convertir les questions en questions à réponse libre en éliminant les choix multiples. Ils comprenaient uniquement des questions de niveaux II et III de l’ensemble de données USMLE et des questions évaluant le diagnostic du patient.

Chaque cycle d’ingénierie rapide comprenait une évaluation de la précision GPT 3.5 à l’aide de l’ensemble de formation MEDQA. Les ensembles de formation et de test, qui contenaient respectivement 95 et 518 questions, étaient réservés à l’évaluation.

Les chercheurs ont également évalué les performances du GPT-4 sur 310 cas récemment publiés dans la revue NEJM. Ils ont exclu 10 personnes qui n’avaient pas de diagnostic définitif définitif ou qui dépassaient la durée maximale du contexte pour GPT-4. Ils ont comparé l’invite CoT conventionnelle avec les invites CoT les plus performantes pour le raisonnement diagnostique clinique (justification du diagnostic différentiel) dans l’ensemble de données MedQA.

Chaque invite consistait en deux exemples de questions accompagnées de justifications utilisant des techniques d’inférence cible ou un apprentissage en quelques étapes. Les évaluations des études ont utilisé des questions à réponse libre des séries de rapports de cas USMLE et NEJM pour permettre une comparaison approfondie entre les stratégies d’incitation.

Les auteurs, les médecins traitants et un résident en médecine interne ont évalué les réponses du modèle linguistique, chaque question étant évaluée par deux médecins en aveugle. Un troisième chercheur a résolu le désaccord. Les médecins vérifiaient l’exactitude des réponses à l’aide d’un logiciel si nécessaire.

Résultats

L’étude montre que les invites GPT-4 pourraient imiter le raisonnement clinique des médecins sans compromettre l’exactitude du diagnostic, ce qui est essentiel pour évaluer l’exactitude des réponses LLM, augmentant ainsi leur fiabilité dans les soins aux patients. Cette approche peut aider à surmonter les limites de la boîte noire des LLM et à les rapprocher d’une utilisation sûre et efficace en médecine.

GPT-3.5 a répondu avec précision à 46 % des questions d’évaluation via des invites CoT standard et à 31 % via des invites zéro-shot sans chaîne de pensée. Parmi les invites liées au raisonnement diagnostique clinique, GPT-3.5 a obtenu les meilleurs résultats avec un raisonnement intuitif (48 % contre 46 %).

Par rapport au courant de pensée classique, GPT-3.5 a obtenu des résultats nettement moins bons en matière d’incitation à la pensée analytique (40 %) et d’élaboration de diagnostics différentiels (38 %), tandis que les inférences bayésiennes n’étaient pas significatives (42 %). L’équipe a observé un consensus inter-examinateurs de 97 % pour les évaluations GPT 3.5 des données MedQA.

L’API GPT-4 a renvoyé des erreurs sur 20 questions de test, limitant la taille de l’ensemble de données de test à 498. GPT-4 a montré une précision supérieure à GPT-3.5. GPT-4 a démontré une précision de 76 %, 77 %, 78 %, 78 % et 72 % sur le raisonnement classique, le raisonnement intuitif, le raisonnement diagnostique différentiel, les invites de raisonnement analytique et le raisonnement bayésien, respectivement. Le consensus inter-évaluateurs était de 99 % pour les scores GPT-4 MedQA.

Quant à l’ensemble de données NEJM, GPT-4 a atteint une précision de 38 % dans le CoT conventionnel, contre 34 % dans la formulation de diagnostics différentiels (une différence de 4,2 %). Le consensus inter-évaluateurs pour le score GPT-4 NEJM était de 97 %. Réponses et justifications GPT-4 pour l’ensemble de données NEJM. Les invites qui favorisent une réflexion étape par étape et se concentrent sur une seule stratégie de raisonnement diagnostique ont donné de meilleurs résultats que celles qui combinent plusieurs stratégies.

Dans l’ensemble, les résultats de l’étude ont montré que GPT-3.5 et GPT-4 amélioraient les capacités de raisonnement mais manquaient de précision. GPT-4 a fonctionné de manière similaire sur les invites de chaîne de raisonnement conventionnelles et intuitives, mais était moins bon sur les invites de diagnostic analytique et différentiel. L’inférence bayésienne et les invites de chaîne de pensée ont également montré de moins bonnes performances que le CoT classique.

Les auteurs suggèrent trois explications à cette différence : les mécanismes de raisonnement de GPT-4 peuvent être fondamentalement différents de ceux des prestataires humains ; il pourrait expliquer les évaluations diagnostiques post hoc dans les formats d’argumentation souhaités ; ou une précision maximale pourrait être obtenue avec les données de vignette fournies.

Source