Clear Sky Science · de
Vergleichende Leistung von LLMs und maschinellem Lernen bei der Vorhersage von Komplikationen nach perkutaner Kyphoplastie bei osteoporotischen Wirbelkörperkompressionsfrakturen
Warum das für Menschen mit fragiler Wirbelsäule wichtig ist
Da immer mehr Menschen ein hohes Alter erreichen, werden schmerzhafte Wirbelfrakturen durch dünner werdende Knochen häufiger. Eine weit verbreitete Behandlung, die perkutane Kyphoplastie, kann rasch Schmerzen lindern, birgt aber auch unerwünschte Nebenwirkungen. Diese Studie untersucht, ob moderne Werkzeuge der künstlichen Intelligenz, darunter große Sprachmodelle ähnlich populären Chatbots, Ärzten dabei helfen können, vorherzusagen, welche Patienten nach der Behandlung mit einer höheren Wahrscheinlichkeit Komplikationen entwickeln.

Das Rückenproblem und seine übliche Lösung
Osteoporotische Wirbelkörperkompressionsfrakturen treten auf, wenn geschwächte Knochen in der Wirbelsäule zusammenbrechen, oft nach einem kleinen Sturz oder sogar bei alltäglichen Aktivitäten. Ziel der perkutanen Kyphoplastie ist es, diese gebrochenen Wirbel zu stabilisieren, indem ein Ballon eingesetzt und der Raum mit Knochenzement gefüllt wird; das reduziert normalerweise Schmerzen und stellt teilweise die Höhe des zusammengedrückten Wirbels wieder her. Allerdings kann Zement manchmal aus dem Knochen auslaufen, und Monate später können an anderen Wirbelsäulenabschnitten neue Frakturen auftreten. Diese Komplikationen können schwerwiegende Folgen haben, darunter Nervenschäden, Lungenprobleme und anhaltende Schmerzen, sodass Ärzte Werkzeuge suchen, die Hochrisikopatienten vor der Operation identifizieren.
Althergebrachte Computermodelle und menschliches Urteil
Vor dem Aufkommen großer Sprachmodelle entwickelten Forscher klassische Systeme des maschinellen Lernens, die Muster aus Patientenakten und Bildgebung lernten. Diese Systeme können die Wahrscheinlichkeit eines Zementlecks oder neuer Frakturen abschätzen, indem sie viele Details kombinieren, etwa Alter, Knochendichte, Frakturform und die Verteilung des Zements. Gleichzeitig bilden erfahrene Wirbelsäulenchirurgen nach Sichtung derselben Informationen eigene Einschätzungen. Während diese älteren Computermodelle oft gute Leistungen erbringen, erfordern sie sorgfältiges Training, technisches Fachwissen und Rechenressourcen, was ihren Einsatz in normalen Kliniken einschränken kann.
Chatbots auf die Probe stellen
In dieser Studie sammelten die Forschenden Daten von mehr als tausend Patienten, die in einem großen Krankenhaus in Peking mit Kyphoplastie behandelt wurden. Für jeden Patienten wurden standardisierte klinische und bildgebende Informationen dokumentiert; dann baten sie zwei große Sprachmodelle, eine Reihe klassischer maschineller Lernmodelle und zwei Wirbelsäulenchirurgen, vorherzusagen, ob Knochenzement auslaufen würde und ob später neue Frakturen auftreten würden. Die Chatbots wurden auf zwei Arten getestet. In einem Zero‑Shot‑Setting erhielten sie lediglich die Falldetails und wurden um eine Vorhersage gebeten. In einem Few‑Shot‑Setting wurden ihnen zunächst eine kleine Anzahl von Beispielfällen mit bekannten Ergebnissen gezeigt, um zu prüfen, ob das Lernen an diesen Beispielen die Antworten verbessern würde.

Was Computer und Chirurgen richtig und falsch machten
Bei der Vorhersage von Zementlecks kurz nach der Operation schnitten die großen Sprachmodelle verhältnismäßig gut ab. Ihre Ergebnisse waren ähnlich denen der besten traditionellen Computermodelle und etwas besser als die der Chirurgen allein. Bei der Vorhersage neuer Frakturen Monate später hatten die Chatbots jedoch Probleme. Ihre ersten Versuche waren schlecht und wiesen eine starke Verzerrung zugunsten der Annahme auf, dass nahezu jeder eine neue Fraktur erleiden würde. Das Bereitstellen von Beispielfällen half etwas, aber das traditionelle maschinelle Lernen, insbesondere ein Modell namens Support Vector Machine, lieferte weiterhin zuverlässigere Ergebnisse. Die Chatbots scheiterten auch, wenn sie gebeten wurden, spezifische Subtypen von Komplikationen zu identifizieren, etwa genau zu benennen, wo der Zement ausgelaufen war oder welcher Wirbel als nächstes brechen würde.
Hilfe für Ärzte, aber noch kein eigenständiges Werkzeug
Eine interessante Beobachtung war, dass Chirurgen manchmal davon profitierten, die Erklärungen der Chatbots zu sehen, jedoch nur in Aufgaben, bei denen die Modelle bereits relativ gut abschnitten. Wenn die zugrunde liegenden Vorhersagen schwach waren, etwa bei langfristigen Frakturen, verbesserten die Erklärungen die Entscheidungen der Ärzte nicht. Insgesamt zeigt die Studie, dass aktuelle große Sprachmodelle für bestimmte kurzfristige Risiken nach einer Kyphoplastie nützliche Unterstützung bieten können, aber noch nicht zuverlässig genug sind, um bestehende Computermodelle oder Expertenurteile zu ersetzen. Vorläufig sollten sie als frühe Hilfsmittel betrachtet werden, die noch Feinschliff, bessere medizinische Trainingsdaten und engere Integration mit Bildgebungswerkzeugen benötigen, bevor sie die reale Wirbelsäulenversorgung sicher leiten können.
Zitation: Wang, T., Chen, R., Liang, M. et al. Comparative performance of LLMs and machine learning in predicting complications after percutaneous kyphoplasty for osteoporotic vertebral compression fractures. npj Digit. Med. 9, 401 (2026). https://doi.org/10.1038/s41746-026-02588-4
Schlüsselwörter: osteoporotische Wirbelfrakturen, perkutanen Kyphoplastie, große Sprachmodelle, maschinelles Lernen in der Medizin, chirurgische Risikoabschätzung