Clear Sky Science · de

JanusDDG: ein physik-informiertes neuronales Netz zur sequenzbasierten Vorhersage der Proteinstabilität mittels zweiseitiger Aufmerksamkeit

· Zurück zur Übersicht

Warum diese Forschung wichtig ist

Proteine sind die winzigen Maschinen, die unsere Zellen am Leben erhalten, und bereits eine einzige Veränderung ihrer Bausteine kann dafür sorgen, dass sie besser, schlechter oder gar nicht mehr funktionieren. Die Fähigkeit vorherzusagen, wie solche Veränderungen die Stabilität eines Proteins beeinflussen, ist entscheidend, um genetische Krankheiten zu verstehen und bessere Medikamente sowie industrielle Enzyme zu entwickeln. Dieses Paper stellt JanusDDG vor, ein neues KI-Modell, das vorhersagt, wie Mutationen die Proteinstabilität verändern, allein auf Basis der Sequenz, und dabei grundlegende physikalische Regeln beachtet, die das Falten von Proteinen bestimmen.

Das Problem empfindlicher Proteinmaschinen

Wenn ein Protein in seine dreidimensionale Gestalt faltet, balanciert es viele Kräfte aus, vergleichbar mit einem Zelt, das von mehreren Seilen gehalten wird. Mutationen können manche Seile anziehen oder andere lockern und so die Struktur mehr oder weniger stabil machen. Experimentelle Tests dieser Effekte sind langsam und teuer, weshalb Forschende stark auf Computermodelle angewiesen sind, um Änderungen der Stabilität, bekannt als ΔΔG, abzuschätzen. Bestehende Werkzeuge funktionieren oft am besten, wenn detaillierte 3D-Strukturen verfügbar sind, und sie können stillschweigend thermodynamische Regeln verletzen, sodass Vorhersagen auf dem Papier zwar genau aussehen, aber physikalisch inkonsistent oder für neue Proteine schwer vertrauenswürdig sind.

Figure 1
Figure 1.

Eine neue Art, Proteinsequenzen zu lesen

JanusDDG geht dieses Problem an, indem es bei Protein-Sprachmodellen ansetzt, einer Klasse großer neuronaler Netze, die auf Millionen von Proteinsequenzen trainiert wurden, ähnlich wie Sprachmodelle aus Text lernen. Diese Modelle wandeln jede Aminosäure in eine reichhaltige numerische Repräsentation um, die Muster aus der Evolution und typisches Faltverhalten einfängt. JanusDDG nimmt die Sequenz des Originals und die des Mutanten, vergleicht deren gelernte Repräsentationen und nutzt einen spezialisierten Aufmerksamkeitsmechanismus, der fokussiert darauf schaut, wie die Mutation den umgebenden Kontext stört. Weil es nur Sequenzen benötigt, lässt sich JanusDDG auf Proteine anwenden, deren 3D-Struktur unbekannt oder schwer zu bestimmen ist.

Physik in die künstliche Intelligenz einbauen

Eine zentrale Neuerung von JanusDDG ist, dass es so entwickelt wurde, dass es fundamentale physikalische Prinzipien respektiert. Die Autoren konzentrieren sich auf zwei Eigenschaften der Gibbs’schen freien Energie, der Größe, die der Proteinstabilität zugrunde liegt. Erstens bedeutet Antisymmetrie, dass, wenn ein Übergang von einer Variante zu einer anderen die Stabilität um einen bestimmten Betrag verändert, die umgekehrte Änderung diesen Effekt wieder aufheben muss. Zweitens bedeutet Transitivität, dass die Gesamtauswirkung eines Übergangs von Variante eins zu zwei und dann zu drei dem direkten Sprung von eins zu drei entsprechen muss. Die Architektur von JanusDDG erzwingt Antisymmetrie, indem zwei gespiegelte Kopien des Netzwerks mit vertauschten Eingaben laufen und ihre Ausgaben so kombiniert werden, dass Vorwärts- und Rückwärtsvorhersagen exakte Gegensätze sind. Transitivität wird während des Trainings durch das Hinzufügen eines speziellen Loss-Terms gefördert, der das Modell dazu drängt, konsistente Vorhersagen zu machen, wenn mutationale Pfade in Schritte zerlegt werden.

Figure 2
Figure 2.

Test der Leistung bei vielen Mutationsarten

Die Forschenden trainierten JanusDDG auf einem kuratierten Datensatz von tausenden Mutationen mit gemessenen Stabilitätsänderungen und testeten es dann auf mehreren unabhängigen Benchmarks, bei denen die Sequenzüberlappung mit den Trainingsdaten sehr gering gehalten wurde. Dieses sorgfältige Design reduziert das Risiko, dass das Modell einfach vertraute Proteine auswendig lernt. Über drei weithin genutzte Sammlungen einzelner Mutationen hinweg erreichte JanusDDG Ergebnisse, die anderen sequenzbasierten Werkzeugen sowie vielen methoden mit 3D-Strukturen ebenbürtig waren oder diese übertrafen. Es bewältigte auch mehrere gleichzeitige Mutationen, ein schwierigeres Szenario, in dem Interaktionen zwischen Veränderungen nicht additiv sein können. Bemerkenswert war, dass seine Genauigkeit nicht für Mutationspaare abnahm, die räumlich nahe beieinander liegen, ein Bereich, in dem frühere Modelle oft Probleme hatten.

Von Zahlen zu nützlichen Stabilitätskategorien

In praktischen Anwendungen wollen Forschende oft nicht nur wissen, wie groß eine Stabilitätsänderung ist, sondern ob eine Mutation eindeutig stabilisierend oder destabilisierend ist. Die Autoren testeten JanusDDG an einem Datensatz, der darauf ausgerichtet war, stabilisierende von destabilisierenden Varianten zu unterscheiden. Während das Modell solide Leistungen erreichte, blieb diese Aufgabe schwieriger als die Vorhersage roher numerischer Werte, insbesondere nahe der Grenze zwischen den Kategorien, wo experimentelles Rauschen und biologische Unschärfe am größten sind. Dennoch schnitt JanusDDG im Vergleich mit anderen Spitzenmethoden vorteilhaft ab, was darauf hindeutet, dass sein physikbewusstes Design und die Nutzung reichhaltiger Sequenz-Embeddings ihm helfen, mit dieser Unsicherheit besser zurechtzukommen als viele Konkurrenten.

Was das für zukünftiges Protein-Design bedeutet

Insgesamt zeigt JanusDDG, dass sich die Stärken moderner sequenzbasierter KI mit den festen Zwängen physikalischer Gesetze verbinden lassen. Indem Proteine als Sequenzen behandelt werden, die sich wie Sprache lesen lassen, und gleichzeitig darauf bestanden wird, dass Vorhersagen Antisymmetrie und Transitivität einhalten, liefert das Modell Stabilitätsschätzungen, die sowohl genau als auch thermodynamisch konsistent sind. Für Nichtfachleute lautet die Quintessenz: Wir kommen der Entwicklung verlässlicher, strukturunabhängiger Werkzeuge näher, die unzählige mögliche Mutationen durchsuchen können, jene hervorheben, die ein Protein wahrscheinlich stabilisieren, oder risikoreiche Veränderungen mit Krankheitsbezug markieren — und das alles, während sie sich an die Regeln der Physik und nicht nur an statistische Abkürzungen halten.

Zitation: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9

Schlüsselwörter: Proteinstabilität, genetische Mutationen, Protein-Design, maschinelles Lernen, Thermodynamik