Clear Sky Science · sv

JanusDDG: ett fysikinformerat neuralt nätverk för sekvensbaserad proteinstabilitet via tvåfronts-uppmärksamhet

· Tillbaka till index

Varför den här forskningen är viktig

Proteiner är de små maskinerna som håller våra celler vid liv, och även en enda förändring i deras byggstenar kan göra att de fungerar bättre, sämre eller inte alls. Att kunna förutsäga hur sådana förändringar påverkar ett proteins stabilitet är avgörande för att förstå genetiska sjukdomar och för att utforma bättre läkemedel och industriella enzymer. Denna artikel introducerar JanusDDG, en ny artificiell intelligensmodell som förutsäger hur mutationer förändrar proteinstabilitet med enbart proteinsekvensen, samtidigt som den följer de grundläggande fysikaliska lagarna som styr hur proteiner veckas.

Problemet med sköra proteinmaskiner

När ett protein veckar sig till sin tredimensionella form balanserar det många krafter, ungefär som ett tält som hålls uppe av många rep. Mutationer kan dra åt vissa rep eller göra andra lossare, vilket gör strukturen mer eller mindre stabil. Experimentella tester av dessa effekter är långsamma och dyra, så forskare förlitar sig i hög grad på datorbaserade modeller för att uppskatta förändringar i stabilitet, kända som ΔΔG. Befintliga verktyg fungerar ofta bäst när de har tillgång till detaljerade 3D-strukturer, och de kan tyst bryta termodynamikens regler, vilket leder till förutsägelser som ser korrekta ut på papper men är fysiskt inkonsekventa eller svåra att lita på för nya proteiner.

Figure 1
Figure 1.

En ny metod för att läsa proteinsekvenser

JanusDDG angriper denna utmaning genom att utgå från protein-language-modeller, en klass stora neurala nätverk tränade på miljontals proteinsekvenser, ungefär som språkmodeller lär sig från text. Dessa modeller omvandlar varje aminosyra till en rik numerisk representation som fångar mönster från evolution och typiskt veckningsbeteende. JanusDDG tar sekvensen för originalproteinet och sekvensen för dess mutant, jämför deras inlärda representationer och använder en specialiserad uppmärksamhetsmekanism som fokuserar på hur mutationer rubbar den omgivande kontexten. Eftersom den bara behöver sekvenser kan JanusDDG tillämpas på proteiner vars 3D-strukturer är okända eller svåra att bestämma.

Att bygga in fysik i artificiell intelligens

En viktig innovation i JanusDDG är att modellen är utformad för att respektera grundläggande fysiska principer. Författarna fokuserar på två egenskaper hos Gibbs fria energi, storheten som ligger till grund för proteinstabilitet. För det första innebär antisymmetri att om övergången från en variant till en annan förändrar stabiliteten med en viss mängd, måste den omvända förändringen upphäva den effekten. För det andra innebär transitivitet att den totala effekten av att gå från en variant till en andra och sedan till en tredje måste motsvara direktövergången från första till tredje. JanusDDG:s arkitektur tvingar fram antisymmetri genom att köra två spegelvända kopior av nätverket på bytta indata och kombinera deras utdata så att framåt- och bakåtprediktioner blir exakta motsatser. Transitivitet uppmuntras under träningen genom att lägga till en särskild förlustterm som pressar modellen att göra konsekventa prediktioner när muteringsvägar bryts upp i steg.

Figure 2
Figure 2.

Testning av prestanda för många typer av mutationer

Forskarna tränade JanusDDG på en kurerad datamängd med tusentals mutationer med uppmätta stabilitetsförändringar och testade den sedan på flera oberoende riktmärken där sekvensöverlapet med träningsdata hölls mycket lågt. Denna noggranna design minskar risken att modellen enbart memorerar bekanta proteiner. I tre allmänt använda samlingar av enkelmutationen motsvarade eller överträffade JanusDDG både andra sekvensbaserade verktyg och många metoder som förlitar sig på 3D-strukturer. Den hanterade också flera samtidiga mutationer, ett svårare scenario där interaktioner mellan förändringar kan vara icke-additiva. Anmärkningsvärt nog minskade inte dess noggrannhet för par av mutationer som ligger nära varandra i rummet, där tidigare modeller ofta haft problem.

Från siffror till användbara stabilitetsklassningar

I praktiska tillämpningar vill forskare ofta veta inte bara hur stor en stabilitetsförändring är, utan om en mutation tydligt stabiliserar eller destabiliserar. Författarna testade JanusDDG på en datamängd inriktad på att skilja stabiliserande från destabiliserande varianter. Medan modellen nådde solida resultat kvarstod denna uppgift som svårare än att förutsäga rena numeriska värden, särskilt nära gränsen mellan kategorier där experimentellt brus och biologisk tvetydighet är som störst. Ändå stod sig JanusDDG väl i jämförelse med andra toppmetoder, vilket tyder på att dess fysikmedvetna design och användning av rika sekvensinbäddningar hjälper modellen att navigera denna osäkerhet bättre än många konkurrenter.

Vad detta betyder för framtida proteindesign

Sammantaget visar JanusDDG att det är möjligt att kombinera styrkorna hos modern sekvensbaserad AI med fasta begränsningar från fysikens lagar. Genom att behandla proteiner som sekvenser som kan läsas som språk, men ändå kräva att prediktioner följer antisymmetri och transitivitet, producerar modellen stabilitetsuppskattningar som är både exakta och termodynamiskt konsekventa. För icke-specialister är slutsatsen att vi kommer närmare tillförlitliga, strukturfria verktyg som kan skanna igenom otaliga möjliga mutationer, lyfta fram dem som mest sannolikt stabiliserar ett protein eller flagga riskfyllda förändringar kopplade till sjukdom, samtidigt som de håller sig förankrade i fysikens regler istället för blotta statistiska genvägar.

Citering: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9

Nyckelord: proteinstabilitet, genetiska mutationer, proteindesign, maskininlärning, termodynamik