Un nouvel outil statistique développé par des chercheurs de l’Université de Chicago améliore la capacité de trouver des variantes génétiques responsables de maladies. L’outil est décrit dans un nouvel article publié le 26 janvier 2024 Génétique naturellecombine les données des études d’association pangénomiques (GWAS) et les prédictions de l’expression génétique pour limiter le nombre de faux positifs et identifier plus précisément les gènes responsables et les variantes d’une maladie.

GWAS est une approche couramment utilisée pour identifier les gènes associés à une gamme de traits humains, y compris les maladies les plus courantes. Par exemple, les chercheurs comparent les séquences du génome d’un grand groupe de personnes atteintes d’une maladie particulière avec un autre ensemble de séquences provenant d’individus en bonne santé. Les différences trouvées dans le groupe de maladies pourraient indiquer des variantes génétiques qui augmentent le risque de cette maladie et nécessitent des investigations plus approfondies.

Cependant, la plupart des maladies humaines ne sont pas causées par une seule variation génétique. Au lieu de cela, ils sont le résultat d’une interaction complexe de plusieurs gènes, de facteurs environnementaux et de diverses autres variables. En conséquence, GWAS identifie souvent de nombreuses variantes dans de nombreuses régions du génome associées à une maladie. Cependant, la limite de GWAS est qu’il identifie uniquement les associations et non la causalité. Dans une région génomique typique, de nombreuses variantes sont fortement corrélées les unes aux autres en raison d’un phénomène appelé déséquilibre de liaison. En effet, l’ADN est transmis d’une génération à l’autre par blocs entiers plutôt que par gènes individuels, de sorte que les variantes proches les unes des autres ont tendance à être corrélées.

“Il peut y avoir de nombreuses variantes génétiques dans un bloc qui sont toutes en corrélation avec le risque de maladie, mais on ne sait pas laquelle est réellement la variante causale”, a déclaré Xin He, PhD, professeur agrégé de génétique humaine et auteur principal de la nouvelle étude. « C’est le défi fondamental de GWAS : comment passer de l’association à la causalité. »

Pour aggraver les choses, la plupart des variantes génétiques se trouvent dans des génomes non codants, ce qui rend difficile l’interprétation de leurs effets. Une stratégie courante pour relever ces défis consiste à utiliser les niveaux d’expression des gènes. Les loci de traits quantitatifs d’expression ou eQTL sont des variantes génétiques associées à l’expression des gènes.

La raison pour laquelle on utilise les données eQTL est que si un variant associé à une maladie est un eQTL d’un gène X, alors X peut être le lien entre le variant et la maladie. Cependant, le problème de ce raisonnement est que les variants voisins et les eQTL d’autres gènes peuvent être corrélés avec l’eQTL du gène X tout en affectant directement la maladie, ce qui entraîne un résultat faussement positif. De nombreuses méthodes ont été développées pour désigner les gènes à risque de GWAS à l’aide des données eQTL, mais elles souffrent toutes du problème fondamental de confusion par les associations voisines. En fait, les méthodes existantes peuvent produire des gènes faussement positifs dans plus de 50 % du temps.

Dans la nouvelle étude, le professeur He et Matthew Stephens, PhD, professeur Ralph W. Gerard et directeur des départements de statistiques et professeur de génétique humaine, ont développé une nouvelle méthode appelée études d’association causale-transcriptome-large (cTWAS). utilise des techniques statistiques avancées pour réduire le taux de faux positifs. Au lieu de se concentrer sur un gène à la fois, le nouveau modèle cTWAS prend en compte plusieurs gènes et variantes. Un modèle de régression multiple bayésien peut être utilisé pour éliminer les gènes et les variantes déroutants.

“Si vous les examinez un par un, vous obtiendrez des faux positifs, mais si vous examinez ensemble tous les gènes et variantes voisins, vous avez beaucoup plus de chances de trouver le gène responsable”, a-t-il déclaré.

L’article démontre l’utilité de cette nouvelle technique en étudiant la génétique des taux de cholestérol LDL. À titre d’exemple, les méthodes eQTL existantes citent un gène impliqué dans la réparation de l’ADN, mais la nouvelle approche cTWAS a mis en évidence une variante différente du gène cible de la statine, un médicament couramment utilisé pour traiter l’hypercholestérolémie. Au total, cTWAS a identifié 35 gènes responsables putatifs du LDL, dont plus de la moitié n’ont pas été décrits auparavant. Ces résultats suggèrent de nouvelles voies biologiques et des cibles potentielles de traitement pour les LDL.

Le logiciel cTWAS est désormais disponible en téléchargement sur le site Web de He’s Laboratory. Il espère continuer à travailler pour étendre ses capacités afin d’inclure d’autres types de données omiques telles que l’épissage et l’épigénétique, ainsi que l’utilisation d’eQTL provenant de plusieurs types de tissus.

« Le logiciel permettra aux gens d’effectuer des analyses reliant les variations génétiques aux phénotypes. C’est véritablement le plus grand défi auquel est confrontée toute la région », a-t-il déclaré. “Nous disposons désormais d’un bien meilleur outil pour établir ces liens.”



Source