Clear Sky Science · nl
Moleculair deep learning aan de rand van de chemische ruimte
Waarom slimmer voorspellen van geneesmiddelen ertoe doet
Moderne geneesmiddelenontwikkeling leunt steeds meer op kunstmatige intelligentie om enorme bibliotheken met chemicaliën te doorzoeken en veelbelovende kandidaat-geneesmiddelen te signaleren. Er is echter een probleempunt: veel machine-learningmodellen werken alleen goed voor moleculen die sterk lijken op de voorbeelden die ze eerder hebben gezien. Wanneer ze gevraagd worden om meer ongewone verbindingen te beoordelen—juist diegenen die mogelijk eerst-in-klasse medicijnen worden—kunnen deze modellen overmoedig en foutief worden. Deze studie introduceert een nieuwe manier om te beoordelen wanneer een model op onzeker terrein opereert, waardoor onderzoekers veilig dieper in onontgonnen delen van de chemische ruimte kunnen doordringen.
Wanneer de kaart ophoudt
In de vroege fase van geneesmiddelenonderzoek zoeken wetenschappers naar “hits”: kleine moleculen die een biologisch doelwit zoals een ziektegerelateerd eiwit beïnvloeden. Omdat het uitvoeren van laboratoriumexperimenten op miljarden mogelijke moleculen onmogelijk is, worden machine-learningmodellen getraind op enkele honderden of duizenden bekende verbindingen en vervolgens gebruikt om te voorspellen welke nieuwe exemplaren het waard zijn om te testen. Deze modellen haken echter vaak af bij moleculen die niet op die in de trainingsdata lijken—een probleem dat bekendstaat als distribution shift. Bestaande waarborgen trekken ofwel een strikte grens rond het bekende gebied, waardoor avontuurlijkere moleculen worden geblokkeerd, of schatten de onzekerheid van voorspellingen op manieren die nog steeds misleidend kunnen zijn wanneer het model iets echt nieuws tegenkomt.

Een nieuw gevoel voor onbekendheid
De auteurs stellen een andere strategie voor, gebaseerd op een type deep-learningsysteem dat een autoencoder heet. Hun “gezamenlijke moleculaire model” leert twee taken tegelijk: voorspellen of een molecuul actief is op een target en het molecuul reconstrueren vanuit een gecomprimeerde interne code. Als het model moeite heeft om een bepaald molecuul nauwkeurig te herbouwen, wordt dat molecuul als “onbekend” beschouwd. Het team zet deze reconstructiefout om in een numerieke score, genaamd onbekendheid, die aangeeft hoe ver een molecuul afligt van de chemische patronen die het model daadwerkelijk heeft geleerd. Cruciaal is dat deze score wordt gedreven door het eigen begrip van de chemie door het model, in plaats van door eenvoudige, handgemaakte gelijkenismaten.
De rand van de chemische ruimte testen
Om te onderzoeken hoe goed onbekendheid detecteert wanneer een model buiten zijn competentiegebied opereert, stelden de onderzoekers 33 datasets samen die verschillende biologische targets en eigenschappen bestrijken. Ze gebruikten clusteringmethoden om elke dataset op te splitsen in typische voorbeelden en meer structureel ongewone exemplaren, waarmee het verschil tussen goed bestudeerde en nieuwe moleculen werd nagebootst. In deze benchmarks hadden moleculen die als out-of-distribution werden aangemerkt consequent hogere onbekendheidsscores. Dit effect kon niet worden verklaard door triviale kenmerken zoals grootte of complexiteit van het molecuul. In plaats daarvan volgde onbekendheid nauwkeurig hoe ver de structurele kern van een molecuul van die van de trainingsverbindingen lag, wat bevestigt dat het model effectief aanvoelde hoe “van de kaart” een molecuul was.
Zien wat onzekerheid alleen kan missen
Het team vergeleek vervolgens onbekendheid met verschillende gebruikelijke manieren om de betrouwbaarheid van voorspellingen te beoordelen, waaronder modelonzekerheid en diverse maten van chemische gelijkenis. Zowel onbekendheid als onzekerheid waren gekoppeld aan de prestaties van de classifier: wanneer een van beide metrics hoog was, waren voorspellingen meestal minder accuraat. Toch waren de twee signalen grotendeels onafhankelijk. Onbekendheid ving zowel structurele afstand als prestatieverlies op, terwijl onzekerheid op zichzelf de structuur niet goed weerspiegelde, vooral wanneer moleculen uit een zeer andere distributie kwamen. In enorme virtuele screenings van meer dan een miljoen commerciële moleculen scheidde onbekendheid routinematige verbindingen scherp van echt nieuwe, terwijl onzekerheid weinig verschil tussen die twee groepen aangaf.

Van computerscherm naar nat lab
Om praktische impact aan te tonen voerden de onderzoekers een prospectieve screening uit op ongeveer 180.000 koopbare moleculen, op zoek naar remmers van twee ziektegerelateerde enzymen, PIM1 en CDK1. Ze trainden hun gezamenlijke model op bescheiden bestaande datasets en rangschikten daarna nieuwe verbindingen met drie ingrediënten tegelijk: voorspelde activiteit, modelonzekerheid en onbekendheid. Na het aanschaffen en testen van slechts 60 moleculen in biochemische assays ontdekten ze zeven met lage micromolaire potentie, allemaal structureel verschillend van de trainingsverbindingen en van typische kinase-remmers. Strategieën die de voorkeur gaven aan lage onbekendheid—terwijl onzekerheid nog steeds werd toegestaan—leidden doorgaans tot de sterkste hits, wat suggereert dat aandacht voor onbekendheid verkenning kan sturen naar veelbelovende maar niet volledig vreemde chemie.
Wat dit betekent voor toekomstige medicijnen
In alledaagse bewoordingen geeft de onbekendheidsscore machine-learningmodellen voor chemie een ingebouwd gevoel van wanneer ze te ver extrapoleren buiten wat ze kennen. Door dit gevoel te koppelen aan het vermogen van het model om moleculen te reconstrueren, weerspiegelt de aanpak gelijktijdig chemische gelijkenis en de betrouwbaarheid van voorspellingen. De studie toont aan dat deze maat distributieschuiven kan blootleggen die standaardmethoden missen, de prioritering in virtuele screenings kan verbeteren en kan helpen bij het ontdekken van nieuw chemisch materiaal in echte experimenten. Nu geneesmiddelenjagers steeds vaker het uitgestrekte, grotendeels onontgonnen deel van de chemische ruimte betreden, biedt onbekendheid een principiële kompas voor het beslissen welke gedurfde voorspellingen het waard zijn om te vertrouwen—en in het laboratorium te testen.
Bronvermelding: van Tilborg, D., Rossen, L. & Grisoni, F. Molecular deep learning at the edge of chemical space. Nat Mach Intell 8, 575–587 (2026). https://doi.org/10.1038/s42256-026-01216-w
Trefwoorden: moleculaire machine learning, geneesmiddelenontwikkeling, chemische ruimte, out-of-distribution, virtuele screening