Clear Sky Science · pl
Wstępne trenowanie modelu języka genomowego z wariantami dla lepszego modelowania genomiki funkcjonalnej
Nauka komputerów „czytania” języka DNA
DNA każdego człowieka zawiera miliony drobnych różnic, czyli wariantów, które wpływają na wszystko — od wzrostu po ryzyko chorób. Naukowcy wiedzą, że wiele z tych wariantów wpływa na to, jak silnie geny są włączane lub wyłączane, ale powiązanie liter DNA z aktywnością genów było dotąd trudne. W tej pracy przedstawiono nowe modele sztucznej inteligencji, które traktują DNA jak język, wykorzystując wzorce wariantów zaobserwowane u setek tysięcy osób, aby lepiej przewidywać, jak geny zachowują się w konkretnych komórkach i u poszczególnych osób.

Dlaczego DNA można traktować jak język ludzki
Podobnie jak słowa zmieniają swoje znaczenie w zależności od otaczającego zdania, odcinki DNA mogą pełnić różne role zależnie od ich „kontekstu” genomowego. Regiony regulacyjne mogą znajdować się daleko od genów, które kontrolują, a ten sam fragment DNA może uczestniczyć w kilku funkcjach biologicznych. Autorzy opierają się na idei, że te długozasięgowe wzorce przypominają wieloznaczność i zależność kontekstową znane z języka naturalnego. Korzystając z architektur sieci neuronowych opracowanych pierwotnie do tekstu, dążą do nauczenia się, jak „gramatyka” DNA i ludzka zmienność genetyczna wspólnie kształtują funkcję i ekspresję genów.
Budowa modelu języka genomowego na podstawie rzeczywistej zmienności ludzkiej
Badacze stworzyli UKBioBERT — model języka DNA trenowany zarówno na referencyjnym genomie ludzkim, jak i na ponad 13 milionach wariantów od około 300 000 uczestników UK Biobank. Podczas treningu modelowi pokazuje się zmodyfikowane sekwencje DNA, w których niektóre nukleotydy są ukryte i muszą być odgadnięte z kontekstu, podobnie jak wypełnianie brakujących słów w zdaniu. Ten samonadzorowany proces zmusza model do internalizacji, które wzorce sekwencji współwystępują i w jaki sposób warianty je zmieniają. Zespół następnie testuje wewnętrzne reprezentacje modelu, sprawdzając, czy sekwencje pochodzące z genów o podobnych znanych funkcjach kończą blisko siebie w tej nauczonej przestrzeni. Według kilku miar klasteryzacji UKBioBERT wyraźniej rozdziela funkcje genów niż wcześniejsze modele genomowe, mimo że podczas treningu nie podawano mu tych funkcji.
Od wzorców sekwencji do aktywności genów w komórkach i u ludzi
Nauka „języka” DNA ma sens tylko wtedy, gdy pomaga wyjaśniać rzeczywistą biologię, zwłaszcza ekspresję genów — poziom, na którym geny są włączane w różnych typach komórek i u poszczególnych osób. Autorzy podłączają osadzenia (embeddings) sekwencji z UKBioBERT do istniejących ram głębokiego uczenia, które przewidują aktywność genów na podstawie DNA. Na poziomie linii komórkowych ulepszają architekturę zwaną EPInformer, która już łączy sekwencje promotorów i enhancerów z sygnałami epigenetycznymi. Dodanie osadzeń DNA z UKBioBERT i oddzielnych opisów funkcji genów w formie tekstowej prowadzi do bardziej dokładnych predykcji ekspresji genów w kilku liniach komórkowych ludzkich, z wyższymi korelacjami między wartościami przewidzianymi a zmierzonymi oraz bardziej stabilną wydajnością w przekrojowej walidacji.
Spersonalizowane przewidywania i co sprawia, że gen jest przewidywalny
Zespół przechodzi następnie do trudniejszego zadania: przewidywania ekspresji genów dla pojedynczych osób wyłącznie na podstawie ich sekwencji całego genomu. Najpierw wykorzystują osadzenia UKBioBERT z tradycyjną metodą statystyczną, aby przewidzieć ekspresję dla 41 reprezentatywnych genów w kohorcie GTEx. Wyniki rywalizują z silnymi punktami odniesienia opartymi na ręcznie opracowanych cechach genetycznych lub je nieznacznie ustępują, i zdecydowanie przewyższają model sekwencyjny bez dostrojenia. Co ciekawe, geny bardzo różnią się pod względem przewidywalności ekspresji. Ta zmienność nie jest dobrze wyjaśniona standardowymi miarami, takimi jak dziedziczność. Zamiast tego geny, których poziomy ekspresji naturalnie grupują się w wyraźniejsze klastry wśród osób — wzorce, które osadzenia UKBioBERT potrafią uchwycić — mają zwykle większą przewidywalność. Geny zaangażowane w wiele różnych funkcji biologicznych są trudniejsze do przewidzenia na podstawie samej sekwencji.

Fuzja modeli dla silniejszych przewidywań na poziomie indywidualnym
Aby przesunąć granice spersonalizowanej predykcji, autorzy łączą UKBioBERT z potężnymi modelami sekwencja→funkcja Enformer i Borzoi, tworząc UKBioFormer i UKBioZoi. Te hybrydy łączą modelowanie długozasięgowe sekwencji z osadzeniami świadomymi wariantów i są efektywnie dostrajane przy użyciu technik oszczędzających parametry. W tej samej grupie genów UKBioFormer często przewyższa zarówno poprzednio najlepszy model głęboki (Performer), jak i standardowe podejścia statystyczne dla genów, których ekspresja jest stosunkowo przewidywalna. Pokazuje też lepszą generalizację, gdy modele trenowane na osobach pochodzenia europejskiego są stosowane wobec osób afrykańsko-amerykańskich, co sugeruje, że uczenie się z surowej sekwencji plus wariantów populacyjnych uchwyca pewną wspólną logikę regulacyjną między grupami.
Widzenie, jak pojedyncze warianty zmieniają aktywność genów
Ponieważ UKBioFormer to sieć neuronowa, można ją badać, aby ujawnić, jak pojedyncze warianty wpływają na jej przewidywania. Autorzy używają metod opartych na gradientach i eksperymentów in-silico z mutacjami, aby oszacować, jak zmiana konkretnych zasad wpływa na przewidywaną ekspresję. Dla kilku genów, w tym genu o nazwie JUP, model poprawnie wnioskuje kierunek i przybliżoną wielkość efektów dla większości znanych wariantów regulacyjnych (eQTL), także niektórych rzadkich. Wyróżnia też lokalne motywy sekwencyjne wokół tych wariantów, które odpowiadają znanym wzorcom wiązania białek regulatorowych. To pokazuje, że model nie tylko dopasowuje ogólne poziomy ekspresji, lecz uczy się mechanistycznych powiązań między motywami sekwencyjnymi, wariantami i regulacją genów.
Co ta praca oznacza dla genomiki i medycyny
Badanie pokazuje, że trenowanie modeli języka genomowego bezpośrednio na dużych zbiorach ludzkich wariantów daje bogatsze reprezentacje DNA, które poprawiają przewidywanie ekspresji genów i interpretację wariantów. Choć nie każdy gen jest przewidywalny na podstawie samej sekwencji, zintegrowany system UKBioBERT–UKBioFormer wypada szczególnie dobrze dla genów, których wzorce ekspresji są uporządkowane i napędzane wariantami. Daje on też praktyczny sposób na zbadanie, które warianty najprawdopodobniej zmienią aktywność genów przed przeprowadzeniem kosztownych eksperymentów. W miarę jak zbiory danych staną się bardziej zróżnicowane, a metody treningu wielogenowego się usprawnią, tego typu modele mogą stać się ważnymi narzędziami łączącymi osobiste genomy z cechami molekularnymi i w końcu wspierać badania nad chorobami o podłożu genetycznym.
Cytowanie: Liu, T., Zhang, X., Lin, J. et al. Pre-training genomic language model with variants for better modeling functional genomics. npj Artif. Intell. 2, 46 (2026). https://doi.org/10.1038/s44387-026-00103-4
Słowa kluczowe: modele języka genomowego, predykcja ekspresji genów, warianty genetyczne, genomika funkcjonalna, UK Biobank