Clear Sky Science · pl

Nauka bez nadzoru ujawnia nowe białka związane z chorobami w wysokowymiarowych ludzkich danych proteomicznych

· Powrót do spisu

Ślady we krwi widoczne na pierwszy rzut oka

Nasza krew jest pełna białek, które cicho odzwierciedlają to, co dzieje się w naszym organizmie na długo przed tym, jak poczujemy się źle. Lekarze już wykorzystują garstkę takich białek jako testy, ale współczesna technologia pozwala mierzyć ich teraz tysiące naraz. W tym badaniu postawiono proste pytanie o dalekosiężnych konsekwencjach: jeśli pozwolimy komputerowi swobodnie badać te olbrzymie mapy białek krwi bez wskazywania, czego szukać, czy może on odkryć nowe powiązania z chorobami, o których nawet nie pomyśleliśmy?

Puszczenie danych, by przemówiły same za siebie

Większość medycznych algorytmów jest trenowana na wyraźnych etykietach, takich jak „zdrowy” czy „ma nadciśnienie”. To podejście jest potężne, ale może przegapić niespodziewane wzorce, zwłaszcza gdy mamy do czynienia z tysiącami pomiarów na osobę. Tutaj badacze wybrali drogę przeciwną: zastosowali uczenie „bez nadzoru”, które grupuje ludzi wyłącznie według podobieństwa ich wzorców białkowych we krwi, bez wiedzy o tym, kto ma jaką chorobę. Zespół pracował na ogromnym zasobie, UK Biobank, koncentrując się na prawie 53 000 uczestnikach, których krew przebadano pod kątem 2 923 różnych białek. Celem było sprawdzenie, czy naturalne grupowania w tym oceanie liczb pokryją się z rzeczywistymi schorzeniami i ujawnią nowe podejrzane białka.

Figure 1
Figure 1.

Dwie ścieżki do znalezienia ukrytych grup

Praca z tak bogatymi danymi wiąże się z praktycznymi trudnościami: pomiary bywają niekompletne, a ogromna liczba białek może zagłuszyć sygnały. Aby to rozwiązać, autorzy zbudowali dwutorowe ramy, które nazwali DIRAM/COD. Jeden tor (DIRAM) dzieli dane, by uniknąć braków, redukuje złożoność do dwóch wymiarów, a następnie szuka gęstych „wysp” podobnych osób. Drugi tor (DIRCOD) najpierw uzupełnia brakujące wartości starannymi estymacjami, a potem wykorzystuje metodę wykrywania społeczności zapożyczoną z nauki o sieciach do identyfikacji grup. Oba tory są wielokrotnie udoskonalane, co ostatecznie dało 55 odrębnych klastrów uczestników, których białkowe odciski różnią się w istotny sposób.

Klastry odzwierciedlające rzeczywiste choroby

Gdy klastry zostały zdefiniowane, zespół sprawdził, jak rozkładają się w nich wiek, płeć i—co kluczowe—rozpoznania medyczne. Pewne klastry były wzbogacone w poważne schorzenia, takie jak niewydolność narządów, przeszczepy i nowotwory, co sugeruje, że ich sygnatury białkowe uchwyciły biologię bardzo chorych pacjentów. Autorzy przyjrzeli się następnie trzem stanom: celiakii, nadciśnieniu i białaczce. Zbadali, które białka miały tendencję do bycia wyjątkowo wysokimi lub niskimi w klastrach, gdzie te choroby były częstsze. „Odtwarzając” grupy bogate w daną chorobę przy użyciu tylko tych białek i prostych progów, pokazali, że te wzorce białkowe silnie korelują z prawdopodobieństwem choroby—nawet gdy łączy się uczestników z całego badania.

Nowi podejrzani wśród białek i zmieniające się relacje

To podejście zrobiło więcej niż potwierdziło znane czynniki; wyeksponowało nowe kandydatury. W przypadku nadciśnienia wyróżniły się białka takie jak UBE2L6, HNRNPUL1 i BECN1, wszystkie wcześniej powiązane z problemami naczyń krwionośnych lub serca w innych badaniach. W celiakii szczególnie istotne okazało się IGF2BP3, co pasuje do wcześniejszych wskazówek, że pomaga utrzymać barierę jelitową, wraz z innymi obiecującymi białkami, takimi jak NRXN3 i CACNB1. W klastrach związanych z białaczką kilka białek, w tym LRCH4, WDR46, SERPINB1 i NUB1, wykazało zmienione zachowanie. Nie tylko ich poziomy były inne, ale zmienił się też sposób, w jaki współwzrastają i opadają razem, co sugeruje przestrojenie wewnętrznych systemów kontrolnych organizmu w przebiegu nowotworu i chorób autoimmunologicznych.

Figure 2
Figure 2.

Od map krwi do medycyny przyszłości

Aby zrozumieć wiele białek naraz, badacze skompresowali je także do pojedynczej „osi”, podsumowującej ogólne zmiany wzorców. Wzdłuż tej osi szanse na wystąpienie nadciśnienia czy celiakii rosły stopniowo, a trend ten utrzymał się nawet po rozszerzeniu analizy na wszystkich uczestników badania. Dla osoby niezwiązanej z dziedziną wniosek jest prosty: pozwalając algorytmom swobodnie sortować ludzi na podstawie tysięcy białek we krwi, możemy znaleźć naturalne grupy związane ze zdrowiem, potwierdzić znane markery chorób i odkryć nowe. W miarę jak biobanki będą rosnąć do setek tysięcy osób i jeszcze większej liczby mierzonych białek, tego rodzaju eksploracja bez nadzoru może pomóc lekarzom wykrywać choroby wcześniej, zrozumieć, dlaczego niektórzy chorują, a inni nie, i wskazać nowe cele dla przyszłych terapii.

Cytowanie: Bernard, E., Wang, Y., Chen, M. et al. Unsupervised learning reveals novel disease-associated proteins in high-dimensional human proteomic data. Sci Rep 16, 10185 (2026). https://doi.org/10.1038/s41598-026-41385-7

Słowa kluczowe: białka krwi, uczenie bez nadzoru, biomarkery, medycyna precyzyjna, ryzyko choroby