Clear Sky Science · pl
Adnotacja 200 genomów owadów za pomocą BRAKER dla spójnych porównań międzygatunkowych
Dlaczego genomy owadów mają znaczenie
Owady kształtują nasz świat: zapylają uprawy, przenoszą choroby, przetwarzają składniki odżywcze i inspirują nowe materiały oraz technologie. Dziś potrafimy odczytać DNA tysięcy gatunków owadów, ale samo posiadanie genomów to za mało. Potrzebna jest też jasna mapa, gdzie znajduje się każdy gen i jaka jest jego prawdopodobna funkcja. Artykuł opisuje duże, ustandaryzowane przedsięwzięcie polegające na adnotacji genów 200 gatunków owadów przy użyciu zautomatyzowanego przepływu pracy VARUS-BRAKER, co znacznie ułatwia naukowcom porównywanie gatunków i odkrywanie, jak owady wykształciły swoją niezwykłą różnorodność.
Problem niekompletnych map genetycznych
W ciągu ostatnich dwóch dekad sekwencjonowanie genomów owadów eksplodowało z około dwudziestu gatunków do ponad czterech tysięcy. Tymczasem tylko około jedna na dziesięć z tych sekwencji ma prawidłową adnotację genów w publicznych bazach danych. Nawet gdy adnotacje istnieją, wiele powstało lata temu przy użyciu starszych metod i ograniczonych danych. Różne zespoły badawcze często używały różnych programów i dowodów, co może stworzyć sztuczne różnice: gen może wydawać się brakować lub mieć dziwny kształt u jednego gatunku tylko dlatego, że adnotowano go innym narzędziem. Ta mozaika metod utrudnia wyciąganie wiarygodnych wniosków o rzeczywistych różnicach genów między gatunkami owadów.

Przepływ pracy "jednym przyciskiem" dla wielu gatunków
Autorzy rozwiązują ten wąski gardłowy punkt, budując zautomatyzowany przepływ pracy oparty na pipelineie do predykcji genów BRAKER3. Ich system VARUS-BRAKER zaprojektowano tak, że w najprostszej wersji użytkownik musi podać jedynie nazwę naukową gatunku. Przepływ automatycznie pobiera najlepszy dostępny genom z archiwów publicznych, zbiera pasujące dane z sekwencjonowania RNA pokazujące, które geny są aktywne, oraz pobiera informacje o białkach od spokrewnionych gatunków. Maskuje powtarzające się sekwencje DNA, wyrównuje odczyty RNA do genomu i łączy „wskazówki” z RNA i białek, by nauczyć modele, gdzie geny prawdopodobnie zaczynają się, kończą i są splicingowane. Kontrole jakości, takie jak BUSCO i OMArk, oceniają następnie, jak kompletny i czysty jest uzyskany zestaw genów.
Szeroka podróż przez drzewo owadów
Przy użyciu tego systemu zespół zaadnotował 200 genomów owadów wybranych tak, by objąć główne gałęzie drzewa filogenetycznego owadów, koncentrując się na owadach holometabolicznych — tych przechodzących pełną metamorfozę od larwy, przez poczwarkę, do dorosłego osobnika — oraz na różnorodnym zestawie krewnych. Próbka obejmuje 77 rodzin i 14 rzędów, w tym muchy, motyle, chrząszcze, pszczoły, mrówki, mszyce, karaluchy i inne. Dla 85 z tych gatunków nie istniała wcześniejsza adnotacja w GenBank. Dla każdego gatunku przepływ przewidział geny kodujące białka, co dało ponad 4,2 miliona sekwencji białkowych. Większość genomów i przewidzianych proteomów przeszła rygorystyczne testy kompletności, zwykle osiągając co najmniej 85–95% pokrycia oczekiwanych genów rdzeniowych, co wskazuje, że podejście zautomatyzowane daje wyniki wysokiej jakości.

Od list genów do znaczenia biologicznego
Wypisanie genów to tylko część historii; badaczom potrzebne są także wskazówki co do funkcji tych genów. W tym celu autorzy zastosowali pipeline adnotacji funkcjonalnej o nazwie FANTASIA, który używa nowoczesnych modeli języka białkowego do przypisywania terminów Gene Ontology (GO) — standardowych etykiet ról biologicznych — do każdego białka. W porównaniu z powszechnie używanym narzędziem InterProScan, FANTASIA zaadnotowała około 1,6 razy więcej białek, przy czym tam, gdzie oba narzędzia dokonywały predykcji, wyniki były ze sobą zbliżone. Zespół pogrupował też spokrewnione geny w „orthogroups”, czyli zbiory genów dzielących wspólnego przodka, i użył ich do zbudowania drzewa ewolucyjnego 200 gatunków. Ta rama umożliwia badanie, które geny są współdzielone, utracone lub powiększone w różnych liniach owadów oraz łączenie repertuarów genów z cechami, takimi jak metamorfoza czy zachowanie larw.
Reużywalne zasoby dla przyszłych odkryć
Wszystkie dane z tego projektu — w tym struktury genów, sekwencje białek, etykiety funkcjonalne, orthogroups, drzewa gatunków i przewidywania tRNA — są dostępne bezpłatnie w repozytoriach publicznych. Autorzy publikują także pełen przepływ VARUS-BRAKER jako kod open source, aby inni naukowcy mogli adnotować nowe genomy owadów, a nawet innych zwierząt i roślin w spójny sposób. Dla osób niebędących specjalistami kluczowy wniosek jest taki, że praca ta przekształca rozproszony zbiór sekwencji DNA w spójny, porównywalny atlas genów owadów. Dzięki tym ustandaryzowanym mapom przyszłe badania będą mogły bardziej wiarygodnie odkrywać, jak owady wyewoluowały lot, metamorfozę i sukces ekologiczny, oraz lepiej ukierunkowywać geny istotne dla rolnictwa, ochrony przyrody i kontroli chorób.
Cytowanie: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0
Słowa kluczowe: genomika owadów, adnotacja genomu, genomika porównawcza, biologia ewolucyjna, bioinformatyka