Clear Sky Science · fr
Pré-entraîner un modèle linguistique génomique avec des variants pour mieux modéliser la génomique fonctionnelle
Apprendre aux ordinateurs à lire le langage de l’ADN
L’ADN de chaque individu porte des millions de petites différences, ou variants, qui contribuent à façonner tout, de la taille au risque de maladie. Les scientifiques savent que beaucoup de ces variants influencent l’intensité d’activation des gènes, mais relier les lettres d’ADN à l’activité génique est resté difficile. Cette étude présente de nouveaux modèles d’intelligence artificielle qui traitent l’ADN comme une langue, en exploitant les motifs de variants observés chez plusieurs centaines de milliers de personnes pour mieux prédire le comportement des gènes dans des cellules et des individus spécifiques.

Pourquoi l’ADN peut être traité comme un langage humain
De la même manière que le sens d’un mot dépend de la phrase qui l’entoure, les segments d’ADN peuvent jouer des rôles différents selon leur « contexte » génomique. Les régions régulatrices peuvent se trouver loin des gènes qu’elles contrôlent, et un même fragment d’ADN peut contribuer à plusieurs fonctions biologiques. Les auteurs s’appuient sur l’idée que ces motifs à longue portée ressemblent à la polysémie et à la dépendance contextuelle observées dans les langues naturelles. En utilisant des architectures neuronales développées à l’origine pour le texte, ils cherchent à apprendre comment la « grammaire » de l’ADN et la variation génétique humaine façonnent ensemble la fonction et l’expression des gènes.
Construire un modèle linguistique génomique à partir de la variation humaine réelle
Les chercheurs ont créé UKBioBERT, un modèle linguistique de l’ADN entraîné à la fois sur le génome de référence humain et sur plus de 13 millions de variants provenant d’environ 300 000 participants de l’UK Biobank. Pendant l’entraînement, le modèle voit des séquences d’ADN modifiées où certaines bases sont masquées et doivent être devinées à partir du contexte, à la manière de remplir des mots manquants dans une phrase. Ce processus auto-supervisé force le modèle à internaliser les motifs de séquence qui ont tendance à coexister et la façon dont les variants modifient ces motifs. L’équipe teste ensuite les représentations internes du modèle en vérifiant si les séquences issues de gènes aux fonctions connues similaires se retrouvent proches dans cet espace appris. Selon plusieurs mesures de clustering, UKBioBERT sépare les fonctions géniques plus clairement que les modèles génomiques précédents, sans jamais être informé de ces fonctions lors de l’entraînement.
Des motifs de séquence à l’activité génique dans les cellules et chez les individus
Apprendre le « langage » de l’ADN n’est utile que si cela aide à expliquer la biologie réelle, en particulier l’expression génique — le niveau d’activation des gènes selon les types cellulaires et les individus. Les auteurs injectent les embeddings de séquence de UKBioBERT dans des cadres d’apprentissage profond existants qui prédisent l’activité génique à partir de l’ADN. Au niveau des lignées cellulaires, ils améliorent une architecture appelée EPInformer, qui combine déjà séquences de promoteurs et d’enhancers avec des signaux épigénétiques. L’ajout des embeddings d’ADN de UKBioBERT et de descriptions textuelles séparées de la fonction génique conduit à des prédictions d’expression génique plus précises dans plusieurs lignées cellulaires humaines, avec des corrélations plus élevées entre valeurs prédites et mesurées et une performance plus stable entre les partitions de validation croisée.
Prédictions personnalisées et facteurs de prédictibilité d’un gène
L’équipe aborde ensuite une tâche plus difficile : prédire l’expression génique pour des individus sur la seule base de leur génome complet. Ils utilisent d’abord les embeddings UKBioBERT avec une méthode statistique traditionnelle pour prédire l’expression de 41 gènes représentatifs dans la cohorte GTEx. Les performances rivalisent avec, ou sont légèrement en retrait par rapport à, de fortes méthodes de référence qui utilisent des caractéristiques génétiques conçues manuellement, et dépassent largement un modèle de séquence non affiné. Fait intéressant, les gènes diffèrent fortement quant à la facilité de prédiction de leur expression. Cette variation n’est pas bien expliquée par des mesures standards comme l’héritabilité. À la place, les gènes dont les niveaux d’expression forment naturellement des clusters plus nets entre individus — des motifs que les embeddings de UKBioBERT peuvent capter — ont tendance à être plus prévisibles. Les gènes impliqués dans de nombreuses fonctions biologiques sont plus difficiles à prédire à partir de la seule séquence.

Fusionner les modèles pour de meilleures prédictions au niveau individuel
Pour pousser plus loin la prédiction personnalisée, les auteurs fusionnent UKBioBERT avec de puissants modèles séquence→fonction tels qu’Enformer et Borzoi, créant UKBioFormer et UKBioZoi. Ces hybrides combinent la modélisation de longue portée des séquences avec des embeddings sensibles aux variants et sont ajustés efficacement en utilisant des techniques d’économie de paramètres. Sur le même ensemble de gènes, UKBioFormer surpasse souvent à la fois le meilleur modèle profond précédent (Performer) et les approches statistiques standard pour les gènes dont l’expression est raisonnablement prévisible. Il montre aussi une meilleure généralisation lorsque des modèles entraînés sur des personnes d’ascendance européenne sont appliqués à des individus afro-américains, ce qui suggère que l’apprentissage à partir de séquences brutes et de variants de population capture une logique régulatrice partagée entre les groupes.
Voir comment des variants uniques modifient l’activité génique
Parce que UKBioFormer est un réseau neuronal, il peut être sondé pour révéler comment des variants individuels influencent ses prédictions. Les auteurs utilisent des méthodes basées sur les gradients et des expériences de mutation in-silico pour estimer comment le changement de bases spécifiques altère l’expression prédite. Pour plusieurs gènes, y compris un appelé JUP, le modèle infère correctement la direction et l’ordre de grandeur des effets pour une majorité de variants régulateurs connus (eQTLs), y compris certains rares. Il met également en évidence des motifs de séquence locaux autour de ces variants qui correspondent aux profils de liaison connus de protéines régulatrices. Cela montre que le modèle ne se contente pas d’ajuster les niveaux globaux d’expression, mais apprend des liens mécanistiques entre motifs de séquence, variants et régulation génique.
Ce que ce travail signifie pour la génomique et la médecine
Cette étude démontre que l’entraînement de modèles linguistiques génomiques directement sur de larges collections de variants humains produit des représentations d’ADN plus riches qui améliorent la prédiction de l’expression génique et l’interprétation des variants. Bien que tous les gènes ne soient pas prévisibles à partir de la seule séquence, le cadre combiné UKBioBERT–UKBioFormer fonctionne particulièrement bien pour les gènes dont les schémas d’expression sont structurés et guidés par les variants. Il offre aussi une manière pratique d’explorer quels variants sont les plus susceptibles d’altérer l’activité génique avant de lancer des expériences coûteuses. À mesure que les jeux de données deviennent plus diversifiés et que les méthodes d’entraînement multi-géniques s’améliorent, de tels modèles pourraient devenir des outils importants pour relier les génomes personnels aux traits moléculaires et, en fin de compte, pour orienter la recherche sur les maladies influencées génétiquement.
Citation: Liu, T., Zhang, X., Lin, J. et al. Pre-training genomic language model with variants for better modeling functional genomics. npj Artif. Intell. 2, 46 (2026). https://doi.org/10.1038/s44387-026-00103-4
Mots-clés: modèles linguistiques génomiques, prédiction de l'expression génique, variants génétiques, génomique fonctionnelle, UK Biobank