Dans une étude récemment publiée dans Ouverture du réseau JAMA, Les chercheurs ont évalué l’exactitude et la sécurité des grands modèles de langage (LLM) pour répondre aux questions d’oncologie médicale.

Étude : Performance de grands modèles de langage sur des questions d'examen d'oncologie médicale.  Source de l'image : GARÇON ANTHONY/Shutterstock.comÉtude: Performance de grands modèles de langage sur les questions d’examen d’oncologie médicale. Source de l’image : GARÇON ANTHONY/Shutterstock.com

arrière-plan

Les LLM ont le potentiel de révolutionner les soins de santé en aidant les médecins dans leurs tâches et en interagissant avec les patients. Ces modèles, formés sur de grands corpus de textes, peuvent être personnalisés pour répondre aux questions avec des réponses de type humain.

Les LLM codent des connaissances médicales approfondies et ont démontré leur capacité à réussir l’examen d’autorisation médicale des États-Unis tout en démontrant leur compréhension et leur raisonnement. Cependant, leurs performances varient selon la spécialité médicale.

Compte tenu de l’évolution rapide des connaissances et du volume élevé de publications, l’oncologie médicale représente un défi unique.

Des recherches supplémentaires sont nécessaires pour garantir que les LLM peuvent appliquer leurs connaissances médicales de manière fiable et sûre dans des domaines dynamiques et spécialisés tels que l’oncologie médicale et améliorer le soutien des médecins et les soins aux patients.

À propos de l’étude

La présente étude, menée du 28 mai au 11 octobre 2023, a suivi les directives de renforcement des rapports sur les études observationnelles en épidémiologie (STROBE) et n’a pas nécessité l’approbation du comité d’éthique ni le consentement éclairé en raison du manque de participants humains.

La banque de questions accessible au public de l’American Society of Clinical Oncology (ASCO) contenait 52 questions à choix multiples, chacune avec une réponse correcte et des références explicatives. De même, les questions d’examen de la Société européenne d’oncologie médicale (ESMO) de 2021 et 2022 comprenaient 75 questions après exclusion des questions basées sur l’image, avec des réponses élaborées par des oncologues.

Pour garantir un examen impartial, 20 questions originales ont été créées par des oncologues sous forme de choix multiples.

Pour répondre à ces questions, Chat Generative Pre-trained Transformer (ChatGPT)-3.5 et ChatGPT-4 ont été utilisés, qui ont été uniformément étiquetés à des fins de comparaison. Six LLM open source, dont le domaine biomédical Mistral-7B adapté pour la récupération et l’évaluation (BioMistral-7B DARE), adaptés aux domaines biomédicaux, ont également été évalués.

Les réponses ont été enregistrées avec des explications et notées sur une échelle d’erreur de quatre points. L’analyse statistique effectuée dans la version R 4.3.0 a testé la précision, la distribution des erreurs et l’accord entre les oncologues.

L’étude a utilisé la distribution binomiale, le test de McNemar, le test de Fisher, le κ pondéré et le test de somme des rangs de Wilcoxon avec une valeur P bilatérale de 0,05, indiquant une signification statistique.

Résultats de l’étude

L’évaluation des LLM à l’aide de 147 questions d’examen comprenait 52 de l’ASCO, 75 de l’ESMO et 20 questions originales. L’hématologie était la catégorie la plus courante (15,0 %), mais les questions couvraient une variété de sujets.

Les questions de l’ESMO étaient plus générales et abordaient les mécanismes et les effets toxiques des thérapies systémiques. Notamment, 27,9 % des questions nécessitaient des connaissances tirées de preuves publiées à partir de 2018. Les LLM ont fourni des réponses claires à toutes les questions, le LLM 2 exclusif nécessitant des réponses spécifiques dans 22,4 % des cas.

Une question sélectionnée de l’ASCO concernait une femme de 62 ans. cancer du sein métastatique Présentez des symptômes d’embolie pulmonaire. Le LLM 2 exclusif a correctement identifié le meilleur traitement comme une héparine de bas poids moléculaire ou un anticoagulant oral direct, en tenant compte du cancer du patient et de ses antécédents de voyage.

Une autre question de l’ASCO décrivait une femme de 61 ans atteinte d’un cancer du côlon métastatique qui souffrait de neuropathie due à sa chimiothérapie. Le LLM a recommandé de passer à un traitement ciblé par l’encorafenib et le cétuximab étant donné la présence d’une mutation V600E du proto-oncogène sérine/thréonine kinase (BRAF) B-Raf et ses effets secondaires.

Le LLM 2 exclusif a démontré la plus grande précision, répondant correctement à 85,0 % des questions (125 sur 147), surpassant largement les réponses aléatoires et les autres modèles. Les performances étaient constantes dans les questions ASCO (80,8 %), ESMO (88,0 %) et originales (85,0 %).

Lors de la deuxième tentative, 54,5 % des réponses incorrectes initiales ont été corrigées. Le LLM 1 propriétaire et le meilleur LLM open source, Mixture of Mistral-8x7B version 0.1 (Mixtral-8x7B-v0.1), avaient des précisions inférieures de 60,5 % et 59,2 %, respectivement. BioMistral-7B DARE, adapté aux domaines biomédicaux, avait une précision de 33,6 %.

L’analyse qualitative des réponses en prose par les cliniciens a révélé que le LLM 2 exclusif fournissait des réponses correctes et sans erreur pour 83,7 % des questions.

Les réponses incorrectes étaient plus fréquentes lorsque les questions nécessitaient la connaissance de publications récentes, avec des erreurs notées dans le rappel des connaissances, le raisonnement et la compréhension écrite.

Les médecins ont classé 63,6 % des erreurs comme ayant une probabilité moyenne de causer un préjudice et une probabilité élevée dans 18,2 % des cas. Aucune hallucination n’a été observée dans les réponses LLM.

Conclusions

Dans cette étude, les LLM ont obtenu des résultats exceptionnellement bons aux questions de type examen d’oncologie médicale destinées aux stagiaires sur le point d’entrer dans la pratique clinique. Le LLM 2 exclusif a répondu correctement à 85,0 % des questions à choix multiples et a fourni des explications précises, démontrant ses connaissances approfondies en oncologie médicale et ses capacités de raisonnement.

Cependant, les réponses incorrectes, notamment celles liées à des publications récentes, soulevaient d’importants problèmes de sécurité. Le LLM 2 propriétaire a surpassé son prédécesseur, le LLM 1 propriétaire, et a démontré une précision supérieure par rapport aux autres LLM.

L’étude a révélé que même si les compétences des LLM s’améliorent, les erreurs dans la recherche d’informations, en particulier avec les connaissances les plus récentes, présentent des risques. Une formation accrue et des mises à jour fréquentes sont essentielles au maintien des connaissances actuelles en oncologie médicale dans les LLM.



Source