Clear Sky Science · pl
Uczenie głębokie dla molekuł na krańcu przestrzeni chemicznej
Dlaczego ważne są lepsze prognozy leków
Nowoczesne odkrywanie leków coraz częściej opiera się na sztucznej inteligencji, aby przesiać ogromne biblioteki związków i wskazać obiecujących kandydatów. Jest jednak haczyk: wiele modeli uczenia maszynowego dobrze działa tylko na molekułach podobnych do tych, które widziały wcześniej. Gdy proszone są o ocenę bardziej nietypowych związków — tych, które mogą dać leki pierwszej klasy — modele mogą stawać się nadmiernie pewne siebie i błędne. W tym badaniu przedstawiono nowy sposób wykrywania, kiedy model znajduje się na kruchym gruncie, pomagając badaczom bezpiecznie penetrować nieznane obszary przestrzeni chemicznej.
Kiedy mapa się kończy
W wczesnych etapach odkrywania leków naukowcy szukają „trafień”: małych cząsteczek wpływających na biologiczny cel, np. białko powiązane z chorobą. Ponieważ przeprowadzenie eksperymentów laboratoryjnych na miliardach możliwych molekuł jest niemożliwe, modele uczone są na kilkuset lub kilku tysiącach znanych związków i następnie używane do przewidywania, które nowe warto testować. Jednak te modele mają tendencję do zawodzenia w odniesieniu do molekuł różniących się od danych treningowych — problem znany jako przesunięcie dystrybucji. Istniejące zabezpieczenia albo wyznaczają twardą granicę wokół znanego obszaru, blokując bardziej awanturnicze związki, albo szacują niepewność prognozy w sposób, który nadal może wprowadzać w błąd, gdy model spotka coś naprawdę nowego.

Nowe wyczucie nieznanego
Autorzy proponują inną strategię opartą na typie systemu głębokiego uczenia zwanego autoenkoderem. Ich „wspólny model molekularny” uczy się jednocześnie dwóch zadań: przewidywania, czy molekuła jest aktywna względem celu, oraz odtwarzania molekuły z jej skompresowanego wewnętrznego kodu. Jeśli model ma trudność z dokładnym odbudowaniem danej molekuły, uznaje ją za „nieznaną”. Zespół przekształca ten błąd rekonstrukcji w wartość liczbową, zwaną nieznajomością (unfamiliarity), która odzwierciedla, jak daleko molekuła leży od wzorców chemicznych, które model faktycznie opanował. Istotne jest to, że ta miara opiera się na własnym rozumieniu chemii przez model, a nie na prostych, ręcznie tworzonych miarach podobieństwa.
Testowanie krańca przestrzeni chemicznej
Aby sprawdzić, jak dobrze nieznajomość wykrywa moment, gdy model jest poza swoją głębią, badacze zebrali 33 zestawy danych obejmujące różne cele biologiczne i właściwości. Użyli metod klasteryzacji, aby podzielić każdy zbiór na typowe przykłady i strukturalnie bardziej nietypowe, naśladując różnicę między dobrze zbadanymi a nowymi molekułami. W tych benchmarkach molekuły oznaczone jako poza dystrybucją konsekwentnie miały wyższe wartości nieznajomości. Efektu tego nie dało się wyjaśnić trywialnymi cechami, takimi jak wielkość czy złożoność molekuły. Zamiast tego nieznajomość ściśle korelowała z odległością rdzenia strukturalnego molekuły od rdzeni związków treningowych, potwierdzając, że model skutecznie wyczuwał, jak bardzo molekuła jest „poza mapą”.
Co może przeoczyć sama niepewność
Zespół porównał następnie nieznajomość z kilkoma popularnymi sposobami oceny wiarygodności prognoz, w tym z niepewnością modelu i różnymi miarami podobieństwa chemicznego. Zarówno nieznajomość, jak i niepewność wiązały się z wydajnością klasyfikatora: gdy którakolwiek z tych miar była wysoka, prognozy zwykle były mniej dokładne. Jednak oba sygnały były w dużej mierze niezależne. Nieznajomość uchwyciła zarówno odległość strukturalną, jak i spadek wydajności, podczas gdy sama niepewność słabo odzwierciedlała strukturę, szczególnie gdy molekuły pochodziły z zupełnie innej dystrybucji. W masywnych screeningach wirtualnych obejmujących ponad milion komercyjnych molekuł, nieznajomość wyraźnie oddzielała rutynowe związki od autentycznie nowych, podczas gdy niepewność sugerowała niewielkie różnice między tymi grupami.

Z ekranu komputera do laboratorium mokrego
Aby wykazać praktyczny wpływ, badacze przeprowadzili prospektywny screening około 180 000 dostępnych handlowo molekuł, poszukując inhibitorów dwóch enzymów istotnych chorobowo: PIM1 i CDK1. Wyszkolili swój wspólny model na umiarkowanych, istniejących zestawach danych, a następnie uporządkowali nowe związki, wykorzystując jednocześnie trzy składniki: przewidywaną aktywność, niepewność modelu i nieznajomość. Po zakupie i przetestowaniu zaledwie 60 molekuł w testach biochemicznych odkryli siedem o sile w niskim mikromolarnym zakresie, wszystkie strukturalnie różne od związków treningowych i typowych inhibitorów kinaz. Strategie faworyzujące niską nieznajomość — przy zachowaniu pewnej niepewności — miały tendencję do przynoszenia najsilniejszych trafień, co sugeruje, że uwzględnianie nieznajomości może kierować eksploracją ku obiecującej, lecz nie w pełni obcej chemii.
Co to oznacza dla przyszłych leków
W codziennych słowach, miara nieznajomości daje modelom uczenia maszynowego dla chemii wbudowane wyczucie, kiedy zbytnio ekstrapolują poza to, co znają. Poprzez powiązanie tego wyczucia z umiejętnością modelu do rekonstrukcji molekuł, podejście równocześnie odzwierciedla podobieństwo chemiczne i wiarygodność prognozy. Badanie pokazuje, że ta metryka może ujawniać przesunięcia dystrybucji, które umykają standardowym metodom, poprawiać priorytetyzację w screeningach wirtualnych i pomagać odkrywać nowe materie chemiczne w rzeczywistych eksperymentach. W miarę jak poszukiwacze leków coraz częściej zapuszczają się w ogromne, w dużej mierze niezbadane obszary przestrzeni chemicznej, nieznajomość oferuje zasadniczy kompas pomagający zdecydować, którym odważnym prognozom warto ufać — i które warto przetestować w laboratorium.
Cytowanie: van Tilborg, D., Rossen, L. & Grisoni, F. Molecular deep learning at the edge of chemical space. Nat Mach Intell 8, 575–587 (2026). https://doi.org/10.1038/s42256-026-01216-w
Słowa kluczowe: molekularne uczenie maszynowe, odkrywanie leków, przestrzeń chemiczna, poza dystrybucją, screening wirtualny