Clear Sky Science · it

EPInformer: previsione scalabile e integrativa dell'espressione genica a partire da sequenze promotore-enhancer con profili epigenomici multimodali

· Torna all'indice

Perché è importante prevedere l'attività genica

Ogni cellula del corpo contiene essenzialmente lo stesso DNA, eppure cellule cerebrali, ematiche e epatiche si comportano in modo molto diverso. Ciò che le distingue è quali geni sono attivati o disattivati. Essere in grado di prevedere questa attività genica direttamente dal DNA e dai segnali correlati aiuterebbe gli scienziati a comprendere come le cellule si sviluppano, rispondono all'ambiente e, talvolta, si alterano nelle malattie. Questo articolo presenta EPInformer, un nuovo strumento computazionale che sfrutta i recenti progressi dell'intelligenza artificiale per prevedere l'attività genica in modo più accurato ed efficiente rispetto ai metodi precedenti.

Figure 1
Figura 1.

Come interruttori di DNA distanti controllano i geni

I geni non sono controllati solo dal breve tratto di DNA in cui inizia la loro lettura (il promotore). Sono influenzati anche da porzioni di DNA lontane chiamate enhancer che funzionano come interruttori remoti. Questi interruttori possono trovarsi a decine o persino centinaia di migliaia di basi di distanza da un gene, avvolgendosi nello spazio tridimensionale per toccare il promotore. Oltre alla sequenza di DNA grezza, marcatori chimici e proteici lungo il DNA — insieme definiti segnali epigenomici — indicano quali interruttori sono attivi in un dato tipo cellulare. I modelli computazionali tradizionali hanno faticato a integrare tutte queste informazioni, in particolare l'effetto di interruttori molto distanti, per prevedere quanto intensamente un gene venga espresso.

Un modello AI compatto che legge molti segnali insieme

EPInformer è costruito su un'architettura AI moderna nota come trasformatore, adattata dai modelli linguistici. Invece di leggere frasi, legge segmenti di DNA intorno a un gene e ai suoi potenziali interruttori. Il modello converte prima ogni sequenza di promotore e degli enhancer vicini in un "embedding" numerico che cattura pattern rilevanti. Può anche aggiungere canali extra che rappresentano marcature chimiche locali sul DNA, l'apertura della cromatina e misure di quanto spesso regioni di DNA si toccano in 3D. Un meccanismo di attenzione speciale si concentra su come ciascun potenziale interruttore interagisce con il promotore, ignorando intenzionalmente le interazioni tra gli stessi interruttori. Un passaggio finale di previsione combina questa rappresentazione appresa con proprietà di base dell'RNA del gene per produrre il livello di attività atteso.

Migliori previsioni con minori risorse di calcolo

Per testare EPInformer, gli autori lo hanno addestrato e valutato su grandi dataset pubblici che profilano l'accessibilità del DNA, le marcature chimiche, i contatti 3D e l'attività genica in diverse linee cellulari umane. Hanno confrontato diverse versioni del modello che usavano solo sequenza e distanza, che aggiungevano segnali epigenomici o che includevano inoltre mappe di contatto 3D. Sia con il sequenziamento RNA standard sia con un saggio focalizzato sul promotore chiamato CAGE, EPInformer ha costantemente superato i metodi di punta, inclusi grandi modelli basati solo sulla sequenza che scandagliano porzioni molto estese di DNA. È significativo che lo facesse con una frazione minima dei parametri — circa 0,4 milioni contro centinaia di milioni — permettendo l'addestramento su una singola GPU in circa un'ora. Questo rende la modellazione accurata dell'attività genica accessibile a molti laboratori senza gigantesche infrastrutture di calcolo.

Figure 2
Figura 2.

Trovare gli interruttori chiave e le loro parole di controllo

Poiché il meccanismo di attenzione di EPInformer valuta quanto ciascun enhancer candidato influenza un gene, può anche aiutare a individuare gli interruttori più importanti in un dato tipo cellulare. Gli autori hanno dimostrato che questi punteggi di attenzione recuperano con maggiore precisione coppie enhancer–gene confermate sperimentalmente rispetto a un metodo di scoring ampiamente usato basato solo su attività e contatto, soprattutto per interruttori distanti. Hanno inoltre usato strumenti di interpretazione per concentrarsi sulle sequenze di DNA degli enhancer con punteggio più alto e identificare brevi motivi ricorrenti che corrispondono a siti di legame noti di fattori di trascrizione — proteine che agiscono come parole di controllo nel genoma. Nelle cellule del sangue, ad esempio, EPInformer ha riscoperto motivi per regolatori principali dello sviluppo degli eritrociti, suggerendo che ha appreso regole biologicamente significative piuttosto che limitarsi a memorizzare i dati.

Cosa significa per la biologia e la medicina future

In termini semplici, EPInformer offre ai ricercatori una lente più nitida e più economica su come i geni vengono accesi e spenti in diversi tipi cellulari combinando sequenza del DNA, marcatori chimici e ripiegamento 3D del genoma. La sua capacità di evidenziare quali interruttori distanti contano per un gene specifico e quali parole di controllo contengono può guidare esperimenti che testano come mutazioni o modifiche mirate influenzano l'attività genica. Man mano che l'approccio viene esteso a più tipi cellulari e a diverse varianti geniche, potrebbe aiutare a spiegare come cambiamenti non codificanti nel genoma contribuiscono a tratti complessi e malattie, e informare la progettazione di terapie genetiche più precise.

Citazione: Lin, J., Li, Z., Zhao, Y. et al. EPInformer: scalable and integrative prediction of gene expression from promoter-enhancer sequences with multimodal epigenomic profiles. Nat Commun 17, 3975 (2026). https://doi.org/10.1038/s41467-026-70535-8

Parole chiave: predizione dell'espressione genica, interazioni enhancer-promotore, epigenomica, deep learning in genomica, architettura della cromatina