Clear Sky Science · pl

Przyspieszanie odkrywania produktów naturalnych dzięki połączeniu spektrometrii mas z genomiką oraz modelami językowymi/transformerowymi

· Powrót do spisu

Dlaczego nowe leki ukrywają się na widoku

Wiele z naszych najważniejszych leków, w tym antybiotyki i środki przeciwnowotworowe, pochodzi od drobnych mikroorganizmów wytwarzających złożone związki naturalne. Jednak znalezienie nowych cząsteczek w tej ukrytej aptece jest powolne i kosztowne, ponieważ naukowcy muszą przeszukiwać ogromne biblioteki mikroorganizmów i zgadywać, które z nich warto testować. W artykule pokazano, że połączenie zaawansowanej sztucznej inteligencji z nowoczesnymi pomiarami laboratoryjnymi może znacznie przyspieszyć poszukiwania, pomagając badaczom zawęzić pole do najbardziej obiecujących szczepów zanim podejmą pracochłonne eksperymenty.

Figure 1
Figure 1.

Przekształcanie DNA mikroorganizmów w przeszukiwalną mapę

Pierwsza część podejścia analizuje genetyczne „plany” mikroorganizmów. Zamiast polegać wyłącznie na tradycyjnym dopasowywaniu DNA, zespół stosuje potężne modele językowe białek — systemy AI, które wyuczyły się wzorców na milionach sekwencji białkowych. Modele te przekształcają każde białko biosyntetyczne w wysokowymiarowy numeryczny odcisk palca. Dzięki temu naukowcy mogą wykrywać odległych funkcjonalnych krewnych nawet wtedy, gdy podstawowe DNA zmieniło się znacznie lub jest rozdzielone na fragmenty, co jest częstym problemem przy szkicowych genomach. Następnie badacze oceniają każdy mikroorganizm na podstawie liczby jego białek przypominających te z znanej ścieżki syntezy docelowej cząsteczki oraz siły tej ogólnej podobieństwa. Ten złożony wynik wyróżnia szczepy, których zestaw białek wygląda, jakby mógł zbudować pożądany związek, jednocześnie odrzucając mikroorganizmy posiadające tylko jedno lub dwa powszechne, niespecjalistyczne enzymy.

Odczytywanie złożonych mieszanin chemicznych za pomocą AI

Druga część koncentruje się na tym, co mikroorganizmy faktycznie produkują w laboratorium. Przy użyciu chromatografii cieczowej i tandemowej spektrometrii mas naukowcy rejestrują szczegółowe „odciski palców” cząsteczek w bulionach fermentacyjnych. Autorski Workflow for Intelligent Structural Elucidation (WISE) oczyszcza te sygnały, rozdziela nakładające się piki, a następnie wykorzystuje modele AI wytrenowane na milionach struktur podobnych do produktów naturalnych, aby odgadnąć, które kształty molekularne najlepiej pasują do każdego widma. Model oparty na transformerze przewiduje, jak powinny wyglądać widma kandydatów, a zintegrowany wynik ocenia, jak dobrze obserwowane i przewidywane wzorce się zgadzają, wliczając w to szczegóły takie jak wzory izotopowe i dokładna masa. Analizując rozkład tych wyników na standardowym zestawie odniesienia, zespół identyfikuje progi oddzielające prawdopodobne prawdziwe dopasowania od szumu lub pozornie podobnych podróbek, co pozwala oznaczać niektóre przypuszczenia strukturalne jako wysokiego zaufania i odfiltrowywać oczywiste błędy.

Łączenie genów i chemii

Prawdziwa siła metody wynika z połączenia tych dwóch strumieni informacji. Dla dowolnej cząsteczki zainteresowania mikroorganizm przesuwa się na szczyt listy tylko wtedy, gdy wykazuje zarówno potencjał genetyczny — jego białka przypominają te z znanej ścieżki — jak i dowód chemiczny — produkuje cechy widmowe pasujące do oczekiwanej struktury. Takie wzajemne sprawdzanie redukuje fałszywe tropy, które wydają się przekonujące tylko w jednym typie danych. Autorzy przetestowali swoje ramy na dużej kolekcji szczepów i mutantów aktinobakterii, koncentrując się na trzech bardzo różnych związkach o aktywności przeciwdrobnoustrojowej: walinomycynie, surfaktynie i antybiotyku neomycynie B. Zamiast polegać na perfekcyjnych genomach lub kompletnych bibliotekach widm, system działa dobrze nawet gdy dane są chaotyczne lub niekompletne — co jest powszechną rzeczywistością w kampaniach odkrywania na wczesnym etapie.

Figure 2
Figure 2.

Testowanie ram w praktyce

W studium przypadku neomycyny B AI najpierw wyszukiwała mikroorganizmy, których białka przypominały te z poznanej ścieżki neomycyny, a następnie sprawdzała, czy ich widma mas sugerują obecność molekuł podobnych do neomycyny. Cztery szczepy przeszły oba filtry; trzy z nich zostały eksperymentalnie potwierdzone jako produkujące neomycynę B, w tym dwóch wcześniej nieznanych producentów. Dla walinomycyny i surfaktyny ramy również precyzyjnie wskazały producentów, podczas gdy test kontrolny z losowo przemieszanymi wynikami wypadł znacznie gorzej. Wyniki te pokazują, że model uchwytuje rzeczywiste związki biologiczne, a nie tylko przypadkowe zbiegi danych, i że może skutecznie kierować badaczy ku najbardziej prawdopodobnym trafieniom w zatłoczonym polu poszukiwań.

Co to oznacza dla przyszłego odkrywania leków

Mówiąc wprost, autorzy zbudowali inteligentny silnik rekomendacji dla odkrywania produktów naturalnych. Zamiast testować każdy mikroorganizm i każdy sygnał chemiczny metodą siłową, naukowcy mogą teraz skupić się na krótkiej liście szczepów, gdzie potencjał genetyczny i wynik chemiczny się zgadzają. To znacznie ogranicza zmarnowany wysiłek, a jednocześnie zostawia przestrzeń na odkrywanie nieoczekiwanych cząsteczek, które jeszcze nie znajdują się w żadnym podręczniku. W miarę jak modele AI i zbiory danych będą się poprawiać, tego rodzaju zintegrowane rozumowanie genomowe i metabolomiczne może otworzyć rozległe, wciąż nieodkryte obszary chemii mikrobiologicznej, potencjalnie ujawniając nowe antybiotyki i inne użyteczne związki w momencie, gdy społeczeństwo najbardziej ich potrzebuje.

Cytowanie: Tay, D.W.P., Koh, W., Ang, S.J. et al. Accelerating natural product discovery with linked MS-genomics and language/transformer-based models. npj Antimicrob Resist 4, 31 (2026). https://doi.org/10.1038/s44259-026-00206-7

Słowa kluczowe: odkrywanie produktów naturalnych, metabolity mikroorganizmów, spektrometria mas, modele językowe białek, Sztuczna inteligencja w odkrywaniu leków