Dans une étude récente publiée dans Méthodes et protocoles biologiquesLes chercheurs ont développé des modèles d’apprentissage automatique binaires et multiclasses pour distinguer le cancer des échantillons de tissus non cancéreux.

Détection et diagnostic précoces du cancer à l’aide d’un apprentissage automatique interprétable pour découvrir des modèles de méthylation de l’ADN spécifiques au cancer.  Source de l’image : Chinnapong/Shutterstock.com
Étude: Détection et diagnostic précoces du cancer à l’aide d’un apprentissage automatique interprétable pour découvrir des modèles de méthylation de l’ADN spécifiques au cancer. Source de l’image : Chinnapong/Shutterstock.com

arrière-plan

Le cancer, un problème de santé mondial, est déterminé par l’âge, les toxines environnementales et les choix de mode de vie. La détection précoce est cruciale pour un traitement efficace et la survie. La nature complexe du cancer et ses interactions avec le microenvironnement tissulaire et le système immunitaire compliquent le développement d’interventions.

Les tumeurs malignes métastatiques représentent la plupart des décès liés au cancer en raison de leur diagnostic à un stade avancé. La détection et le diagnostic précoces, associés aux médicaments modernes, ont un impact significatif sur la survie et le traitement du cancer. Les approches informatiques peuvent faciliter la détection précoce, le diagnostic et le dépistage de modèles complexes de méthylation néoplasique.

À propos de l’étude

Dans la présente étude, les chercheurs ont utilisé l’apprentissage automatique et l’analyse de méthylation basée sur des puces à ADN pour classer 13 types de cancer et leurs tissus normaux associés.

Les chercheurs ont obtenu des données de micropuces à méthylome du portail de données Cancer Genome Atlas (TCGA) de GDC et ont examiné 13 cancers humains avec au moins 15 échantillons non cancéreux. Ils ont également analysé les données de recherches indépendantes pour évaluer le modèle.

Lors du prétraitement des données, ils ont supprimé les sondes potentiellement bruyantes et celles avec plus de 5,0 % de valeurs manquantes et ont maintenu l’attribution des sondes aux chromosomes autosomiques et aux chromosomes sexuels. Pour les informations multiclasses, ils ont créé des caractéristiques en croisant les caractéristiques des types de cancer avec des classes non cancéreuses obtenues à partir d’échantillons non cancéreux regroupés de tous les types de tissus.

Au cours du prétraitement des ensembles de données, les chercheurs ont analysé les comptes non méthylés et méthylés à l’aide des fonctionnalités de données TCGA pour dériver les valeurs bêta. Ils ont utilisé des modèles d’apprentissage automatique binaires et multiclasses pour distinguer les tissus cancéreux des tissus normaux. Chaque modèle binaire évaluait un seul type de tissu et identifiait le cancer du non-cancer, tandis que les modèles multiclasses utilisaient les 13 types de tissus et les données non cancéreuses.

Ils ont divisé les données d’entrée en ensembles de formation et de test, les ensembles de test représentant 25 % des échantillons. Ils ont utilisé deux méthodes de catégorisation de base : les régressions logistiques et les machines à vecteurs de support (SVM).

Les chercheurs ont développé un modèle XGBoost utilisant des arbres de décision à amplification de gradient et ont fourni 450 estimateurs avec une profondeur de 10 et un taux d’apprentissage de 0,2. Ils ont construit EmethylNET, un réseau neuronal à réaction multiclasse avec des fonctionnalités d’entrée avec des valeurs de signification supérieures à zéro (3 388 fonctionnalités).

Ils ont créé des modèles de méthylome pan-cancer qui combinent les mécanismes moléculaires des voies du cancer avec les voies du cancer (humain) à partir des bases de données Ingenuity Route Analysis (IPA) et de l’Encyclopédie de Kyoto des gènes et des génomes (KEGG). Ils ont étiqueté les caractéristiques de méthylation multiclasses associées aux gènes sous forme de nœuds bleus ou en violet s’ils étaient répertoriés comme gènes du cancer dans OncoKB ou dans le recensement des gènes du cancer cosmique.

Les chercheurs ont analysé et comparé de longs acides ribonucléiques non codants (lncRNA) avec des lncRNA du cancer à l’aide de deux bases de données de lncRNA du cancer, Lnc2Cancer 3.0 et CRlncRNA, et du Cancer LncRNA Census (CLC). Après la normalisation des gènes, ils ont divisé les données en ensembles de trains et de tests stratifiés, en utilisant trois modèles de régression à risques proportionnels de Cox pour estimer le risque dans l’ensemble de tests.

Résultats

Le modèle a classé 13 tissus cancéreux et non cancéreux sur la base des méthylomes d’acide désoxyribonucléique (ADN) avec une précision de 98 %. Les sites génomiques liés à la méthylation identifiés par le classificateur modèle ont été liés à des voies, réseaux et gènes liés au cancer, fournissant ainsi un aperçu des voies de régulation épigénomique de la carcinogenèse.

L’approche de classification multiclasse a donné de meilleurs résultats que la catégorisation binaire de la méthylation de l’ADN dans des tumeurs individuelles et des tissus normaux. Le modèle de régression logistique multiclasse a atteint un coefficient de corrélation de Mathews (MCC) moyen de 0,96 ; Cependant, il est efficacité varie selon le type de cancer.

Les expériences ont examiné 13 gènes, dont quatre chevauchaient les gènes multiclasses. L’équipe a découvert l’enrichissement des voies de signalisation associées aux caractéristiques du cancer, notamment les voies du cancer, les voies métaboliques et les voies de transduction du signal. Plusieurs voies liées au cancer comportaient des gènes multiclasses classés en types de cancer spécifiques, mort et survie cellulaires, microenvironnement tissulaire, signalisation, métabolisme et système immunitaire.

L’étude a montré que les modèles XGBoost peuvent détecter le cancer lorsqu’ils sont entrés dans EmethylNET, un réseau neuronal profond multi-classe. Cependant, il y avait deux valeurs aberrantes dans les performances des modèles : l’ensemble de données indépendant pour le cancer colorectal (COAD) et l’ensemble de données indépendant pour le carcinome épidermoïde de la tête et du cou (HNSC). Par rapport aux recherches connexes sur la classification du cancer, EmethylNET a obtenu des résultats similaires, voire meilleurs, par rapport aux données des ensembles de tests.

L’étude a montré que les modèles XGBoost peuvent classer différents types de cancer à l’aide des données de méthylation de l’ADN. Les chercheurs ont également créé le modèle EmethylNET, qui pourrait être généralisé aux ensembles de données les plus indépendants.

La cartographie génétique a révélé des gènes présentant des traits fonctionnels et des voies associés à la cancérogenèse. Cette technologie peut identifier des centaines de cancers et peut potentiellement être étendue aux ensembles de données de méthylation de l’acide désoxyribonucléique à partir de l’acide désoxyribonucléique acellulaire pour un diagnostic précoce à l’aide de techniques de biopsie liquide. L’utilisation pratique de cette technologie consiste à dépister des cancers spécifiques d’origine inconnue, ce qui n’est peut-être pas possible avec les modèles actuels d’apprentissage automatique.

Références des magazines :

  • Izzy Newsham, Marcin Sendera, Sri Ganesh Jammula et Shamith A. Samarajiwa. Détection et diagnostic précoces du cancer grâce à un apprentissage automatique interprétable pour découvrir les modèles de méthylation de l’ADN spécifiques au cancer, Méthodes et protocoles biologiquesVolume 9, Numéro 1, 2024, bpae028, est ce que je: https://doi.org/10.1093/biomethods/bpae028ème



Source