Clear Sky Science · nl
Kwantificeren van onzekerheid in eiwitrepresentaties over modellen en taken heen
Waarom betrouwbaarheid in eiwit-AI ertoe doet
Kunstmatige intelligentie is uitgegroeid tot een krachtig vergrootglas voor de onzichtbare wereld van eiwitten. Moderne "eiwitta(al)modellen" kunnen op basis van alleen de sequentie van bouwstenen raden hoe een eiwit er in 3D uitziet en hoe het zich mogelijk gedraagt. Deze modellen helpen al bij het ontwerpen van nieuwe geneesmiddelen en het begrijpen van ziekmakende mutaties. Er is echter een verborgen probleem: ze vertellen zelden hoeveel vertrouwen we in de interne representaties mogen stellen. Dit artikel pakt die leemte aan door een eenvoudige vraag met grote gevolgen te stellen: wanneer een model een eiwit omzet in een wolk van getallen, hoe kunnen we bepalen of die wolk echte biologie weerspiegelt of slechts ruis?

Van zinnen naar eiwitten
Taalmodellen werden oorspronkelijk ontwikkeld voor menselijke tekst: ze leren hoe woorden zich tot elkaar verhouden en voorspellen wat er daarna in een zin komt. Dezelfde ideeën drijven nu modellen die eiwit- en DNA-sequenties lezen alsof het lange woorden zijn. Voor elk eiwit produceert het model een "embedding"—een punt in een hoog-dimensionale ruimte dat samenvat wat het model over dat eiwit weet. Deze embeddings worden gebruikt voor veel downstream-taken, zoals het voorspellen van structuur, functie en het effect van mutaties. In tegenstelling tot bekende predictiescores of betrouwbaarheidsmaten worden embeddings echter meestal klakkeloos geaccepteerd: als het model een vector uitspuugt, vertrouwen gebruikers die vaak, zelfs in delen van eiwitruimte die het model nauwelijks tijdens training heeft gezien.
Herkennen wanneer het model raadt
De auteurs stellen een praktische manier voor om in te schatten hoe betrouwbaar een embedding is, zonder het onderliggende model te veranderen. Hun kernidee is het model een set opzettelijk gehusselde eiwitsequenties voor te leggen die dezelfde basiscompositie behouden maar alle betekenisvolle biologische patronen verliezen. Deze synthetische sequenties fungeren als een "vuilnisbelt"—een referentie voor wat het model produceert wanneer er geen echt signaal te leren valt. Voor elk echt eiwit controleert de methode hoeveel van zijn dichtstbijzijnde buren in de interne ruimte van het model tot deze vuilnisbelt behoren. Als veel nabije punten van gehusselde sequenties afkomstig zijn, is de representatie van het eiwit waarschijnlijk onder-geleerd of dubbelzinnig. De auteurs noemen dit aandeel vuilnisbelt-buren de Random Neighbor Score (RNS).
Verbinden van onzekerheid met prestaties in de echte wereld
Om te bepalen of RNS daadwerkelijk iets biologisch relevants weerspiegelt, analyseerde het team grote verzamelingen eiwitstructuren en sequenties met behulp van verschillende state-of-the-art modellen, waaronder ESM-2 en ProtT5. Ze vonden dat eiwitten waarvan de structuren nauwkeurig werden voorspeld doorgaans lage RNS-waarden hadden—wat betekent dat hun embeddings ver verwijderd waren van de vuilnisbelt. Daarentegen bevonden eiwitten met slechte structurele voorspellingen zich in regio’s waar echte en gehusselde sequenties overlappen. Dit patroon hield stand over verschillende modellen en taken heen. Bij meer toegepaste problemen, zoals het voorspellen welke aminozuurresiduen in 3D contact maken of het toewijzen van secundaire structuur, zagen ze een duidelijke afname in nauwkeurigheid naarmate RNS toenam. Met andere woorden: hoe onzekerder de embedding (hogere RNS), hoe minder betrouwbaar de downstream-voorspelling.

Blinde vlekken in eiwitruimte
RNS bracht ook systematische blinde vlekken aan het licht in hoe modellen verschillende delen van het eiwituniversum representeren. Intrinsiek gedesordende regio’s—flexibele stukken zonder stabiele structuur—hadden consequent hogere RNS dan goed-gestructureerde domeinen, wat aantoont dat modellen meer worstelen met deze glibberige sequenties. Zelfs binnen het goed bestudeerde humane proteoom had een substantieel deel van de eiwitten een niet-nul RNS, wat aangeeft dat ze niet goed worden vastgelegd door populaire modellen. Verrassend genoeg waren grotere modellen niet altijd beter: een groot, op structuur gericht model kon voor veel menselijke eiwitten onzekerder zijn dan een kleiner, algemener model. Voor nieuw ontdekte metagenomische eiwitten en zelfs door computers ontworpen "hallucinerende" eiwitten die realistisch moesten lijken, suggereerde een lage RNS dat modellen zelfverzekerd kunnen generaliseren buiten hun trainingsgegevens wanneer patronen coherent zijn.
Betere filters voor beter biologisch inzicht
De auteurs testten vervolgens hoe RNS-gebaseerde screening een klinisch relevante taak beïnvloedt: voorspellen of een verandering van één letter in een humaan eiwit waarschijnlijk de functie verstoort of ziekte veroorzaakt. Wanneer zij de analyse beperkten tot eiwitten met lage RNS—waar embeddings betrouwbaar leken—verbeterde de modelprestaties aanzienlijk, vaak met sterke discriminatie tussen schadelijke en neutrale varianten. Voor eiwitten met hoge RNS daalden de voorspellingen naar ongeveer kans-niveau. Dit ondersteunt de opvatting dat onbetrouwbare embeddings stilzwijgend de maximale nauwkeurigheid begrenzen van elk downstream-instrument dat erop is gebouwd, ongeacht slimme trainingstrucs.
Wat dit betekent voor het gebruik van AI in de biologie
Voor niet-specialisten is de conclusie dat niet alle door AI afgeleide eiwitrepresentaties even betrouwbaar zijn, en dat die betrouwbaarheid nu gekwantificeerd kan worden. De Random Neighbor Score fungeert als een eenvoudige, model-agnostische gezondheidscheck voor embeddings: lage scores geven aan dat een eiwit zich tussen andere biologisch betekenisvolle sequenties bevindt, terwijl hoge scores suggereren dat het afdrijft naar een vuilnisbelt van willekeurige gelijken. Door eiwitten te filteren of te wegen op basis van RNS voordat structurele voorspellingen worden gedaan, functies worden geannoteerd of ziektevarianten worden geprioriteerd, kunnen onderzoekers zich concentreren op regio’s waar het model de data echt "begrijpt". Net zoals geen enkele wetenschapper een wazige microscoop zou gebruiken zonder het te merken, pleit dit werk ervoor dat elk eiwittaamodel wordt geleverd met een ingebouwde manier om de scherpte van zijn interne blik op de biologie te beoordelen.
Bronvermelding: Prabakaran, R., Bromberg, Y. Quantifying uncertainty in protein representations across models and tasks. Nat Methods 23, 796–804 (2026). https://doi.org/10.1038/s41592-026-03028-7
Trefwoorden: eiwittaalmodellen, betrouwbaarheid van embeddings, representatieonzekerheid, voorspelling van varianteffecten, intrinsiek ongeordende eiwitten