Dans une étude récente publiée dans La santé numérique du LancetUn groupe de chercheurs a développé et évalué une solution d’apprentissage fédéré évolutive et respectueuse de la vie privée utilisant des micro-ordinateurs bon marché pour le dépistage de la maladie à coronavirus 2019 (COVID-19) dans les hôpitaux du Royaume-Uni (Royaume-Uni).

Étude : Une solution d'apprentissage fédérée évolutive pour les soins secondaires utilisant la micro-informatique à faible coût : Développement et évaluation d'un test de dépistage du COVID-19 préservant la confidentialité dans les hôpitaux britanniques.  Crédit photo : PopTika/Shutterstock.com
Étude: Une solution d’apprentissage fédéré évolutive pour les soins secondaires utilisant la micro-informatique à faible coût : développement et évaluation d’un test de dépistage du COVID-19 préservant la confidentialité dans les hôpitaux britanniques. Crédit photo : PopTika/Shutterstock.com

arrière-plan

L’utilisation des données des patients dans la recherche sur l’intelligence artificielle (IA) médicale se heurte à des défis éthiques, juridiques et techniques, notamment des risques d’utilisation abusive et de violations de données. Federated Learning propose une approche de la confidentialité en permettant le développement de modèles d’IA sans partager de données en dehors des organisations. Contrairement à la formation centralisée traditionnelle, elle permet une formation locale sur les données.

Cette méthode, en particulier l’apprentissage fédéré client-serveur, implique le partage des poids du modèle plutôt que des données des patients pour le développement d’un modèle global. Les implémentations hospitalières réelles sont rares et nécessitent souvent une expertise technique et une séparation des données des systèmes cliniques.

Des recherches supplémentaires sont nécessaires pour affiner et valider l’approche d’apprentissage fédéré dans divers contextes de soins de santé et relever les défis de mise en œuvre en vue d’une adoption plus large dans des contextes cliniques réels.

À propos de l’étude

La présente étude impliquait un processus détaillé pour développer et tester une solution d’apprentissage partagée pour le dépistage du COVID-19 dans les hôpitaux britanniques. Les chercheurs ont sélectionné quatre groupes hospitaliers du National Health Service (NHS) – les hôpitaux universitaires d’Oxford (OUH), les hôpitaux universitaires de Birmingham (UHB), les hôpitaux du Bedfordshire (BH) et l’université des hôpitaux de Portsmouth (PUH) – et ont utilisé les appareils Raspberry Pi 4 modèle B pour une utilisation complète. empiler l’apprentissage fédéré. Cette configuration a permis à chaque hôpital de former, de calibrer et d’évaluer localement des modèles d’IA à l’aide de données anonymisées sur les patients, garantissant ainsi la protection des données.

Des critères d’inclusion et d’exclusion pour l’extraction de données à partir des dossiers de santé électroniques ont été fournis aux fiducies du NHS. L’anonymisation des données a été réalisée strictement par des équipes cliniques ou des informaticiens du NHS. L’étude a utilisé une cohorte de contrôle prépandémique et une cohorte positive au COVID-19 pour la formation, avec des données telles que les signes vitaux, les données démographiques et les résultats des tests sanguins. Des extraits de données ont été chargés sur les appareils clients pour une formation, un étalonnage et une évaluation collaboratifs.

La formation fédérée a utilisé la régression logistique et des classificateurs de réseaux neuronaux profonds. Les caractéristiques ont été prétraitées dans un format commun et les données manquantes ont été imputées à l’aide des médianes locales. L’algorithme FedAvg a facilité la formation inter-hôpitaux en demandant aux clients de soumettre les paramètres du modèle au serveur central pour agrégation. Calibrage de modèles locaux visant un seuil de sensibilité spécifié, avec des résultats d’évaluation agrégés par le serveur.

L’évaluation fédérée impliquait l’utilisation de cohortes potentielles de différents hôpitaux. Les stratégies de calage et d’imputation variaient selon que les sites participaient à la fois à la formation et à l’évaluation ou à l’évaluation uniquement. L’optimisation du modèle spécifique au site a testé l’adaptabilité du modèle global, et l’évaluation centralisée côté serveur a vérifié l’exactitude de l’évaluation fédérée. L’étude a également examiné l’influence de caractéristiques individuelles sur les prédictions du modèle.

L’analyse statistique s’est concentrée sur la comparaison des performances du modèle dans différentes configurations et méthodes de formation à l’aide de mesures telles que l’AUROC, la sensibilité et la spécificité.

Résultats de l’étude

Dans l’étude, la comparaison a montré une augmentation significative de l’AUROC du modèle de régression logistique. Par exemple, l’OUH a vu l’AUROC augmenter de 0,685 à 0,829 et le PUH une augmentation de 0,731 à 0,865. De même, les modèles de réseaux neuronaux profonds ont montré des améliorations encore plus significatives : les valeurs AUROC sont passées de 0,574 à 0,872 pour OUH et de 0,622 à 0,876 pour PUH.

Trois fiducies du NHS – OUH, UHB et PUH – ont participé à cette formation collaborative et ont contribué aux données d’une vaste cohorte de patients. L’analyse collaborative comprenait des données provenant de patients admis pendant la deuxième vague de la pandémie, avec différents taux de prévalence du COVID-19 et âges moyens dans les sites participants.

Lors de l’évaluation externe des modèles globaux finaux, les modèles de régression logistique et de réseau neuronal profond ont démontré des performances de classification élevées. L’étalonnage fédéré a atteint des sensibilités impressionnantes, avec le modèle de régression logistique à 83,4 % et le modèle de réseau neuronal profond à 89,7 %.

Les performances de ces modèles sont restées stables dans les différents sites d’évaluation. En particulier, le modèle de réseau neuronal profond a montré une amélioration plus significative par fédération que le modèle de régression logistique, atteignant un plateau de performances après environ 75 à 100 tours.

Le réglage spécifique au site des modèles globaux a conduit à une légère amélioration du modèle de réseau neuronal profond au PUH. Néanmoins, aucune amélioration significative n’a pu être observée pour le modèle de régression logistique. Cela indique un degré élevé de généralisabilité des modèles globaux et des changements minimes dans la distribution des prédicteurs entre les sites.

L’analyse du modèle de régression logistique globale a mis en évidence plusieurs prédicteurs importants tels que : Le nombre de granulocytes de B. et les concentrations d’albumine étaient cohérents avec les études précédentes soulignant leur rôle dans la réponse inflammatoire. L’analyse approfondie du modèle de réseau neuronal utilisant les explications additives de Shapley a révélé que le nombre d’éosinophiles est un prédicteur très influent.



Source