Clear Sky Science · de

CancerLLM: ein großes Sprachmodell im Bereich Krebs

· Zurück zur Übersicht

Warum das für Patientinnen, Patienten und Ärztinnen und Ärzte wichtig ist

Krebsversorgung beruht darauf, große Mengen an Text zu verstehen – von Arztberichten bis zu Laborbefunden. Die meisten Systeme der künstlichen Intelligenz, die solche Texte lesen, sind Generalisten und keine Krebsexperten; zudem sind sie oft sehr groß, teuer und schwer in Kliniken einzusetzen. Dieses Paper stellt CancerLLM vor, ein kleineres Sprachmodell, das speziell an Krebsakten trainiert wurde und verspricht, bei der Interpretation von Patientendaten genauer zu helfen und dabei deutlich weniger Rechenressourcen zu benötigen.

Figure 1
Figure 1.

Ein neuer digitaler Assistent mit Fokus auf Krebs

Die Forschenden hatten das Ziel, ein Sprachmodell zu entwickeln, das „in der Sprache der Onkologie denkt“. Anstatt das offene Web abzusuchen, trainierten sie CancerLLM mit 2,7 Millionen klinischen Krebsnotizen und über einer halben Million Pathologieberichten von mehr als 30.000 Patientinnen und Patienten mit 17 Krebsarten, darunter Brust-, Lungen‑, Darmkrebs und Leukämie. Ausgehend von einer bestehenden Architektur mit 7 Milliarden Parametern setzten sie das Training auf diesem krebsreichen Material fort und folgten dann einer zweiten Phase, in der das Modell darin geschult wurde, aufgabenähnlichen Anweisungen zu folgen – ähnlich wie ein Arzt eine Anfrage an einen digitalen Assistenten stellen würde.

Wichtige Details aus komplexen Befunden extrahieren

Eine Hauptaufgabe von CancerLLM ist die „Phänotyp‑Extraktion“: das Herausziehen spezifischer Krebsmerkmale aus Freitextberichten. Dazu gehören Lage des Tumors, Größe, Grad und Stadium sowie der Status von Hormonrezeptoren, die die Behandlung steuern. Traditionelle Systeme behandeln dies als Token‑für‑Token‑Markierungsproblem; die Autoren wandelten es stattdessen in eine Frage‑Antwort‑Aufgabe. Für jeden Satz im Bericht wird das Modell einfache Fragen gestellt wie „Wie groß ist der Tumor?“ oder „Welches Stadium hat der Krebs?“ und soll mit dem relevanten Satzteil antworten oder angeben, dass die Frage nicht zutrifft. Bei dieser Aufgabe erreichte CancerLLM bei sehr hoher Genauigkeit gleiche oder bessere Ergebnisse als viele größere allgemeine medizinische Modelle, blieb dabei aber kompakt genug für den klinischen Einsatz.

Von verstreuten Notizen zu einer klaren Diagnose

Die zweite zentrale Aufgabe ist die Generierung von Diagnosen. Hier erhält das Modell einen realistischen Auszug aus einer Krebsvisite: Gründe für den Klinikbesuch, Behandlungsort, Symptome, Beobachtungen der Pflege, körperliche Befunde und Testergebnisse. Anschließend muss es die richtige Krebsdiagnose ausgeben, etwa Lungenkrebs oder Non‑Hodgkin‑Lymphom. In einem großen Benchmark schnitt CancerLLM deutlich besser ab als bekannte medizinische Modelle mit bis zu zehnmal so vielen Parametern und steigerte einen kombinierten Genauigkeitswert im Mittel um über neun Prozentpunkte. In einem separaten Test an einer unabhängigen Gruppe von 2.000 Patientinnen und Patienten, die das Modell zuvor nie „gesehen“ hatte, lag CancerLLM erneut vorn, was darauf hindeutet, dass es auf neue Fälle generalisieren kann und nicht nur frühere Fälle auswendig lernt.

Figure 2
Figure 2.

Robustheit gegen unordentliche Real‑World‑Daten testen

Reale klinische Unterlagen sind nicht sauber: Sie enthalten Tippfehler, Abkürzungen und gelegentlich fehlerhafte Beschriftungen. Das Team baute zwei spezielle Testumgebungen, um zu prüfen, wie anfällig oder robust das Modell gegenüber solcher Störung ist. In einer wurde absichtlich falsche Beschriftung während des Trainings eingemischt, um falsch gelabelte Daten zu simulieren; dabei zeigte sich, dass CancerLLM ebenso gut oder besser durchhielt als vergleichbare Modelle, vor allem bei sehr hohen Fehlerquoten. In einer anderen wurden Rechtschreibfehler wie „cnacer“ statt „cancer" in unterschiedlicher Häufigkeit hinzugefügt. Sowohl CancerLLM als auch ein starkes Vergleichsmodell zeigten Leistungsabfälle mit steigender Fehlerzahl, was unterstreicht, dass selbst fortgeschrittene KI empfindlich auf unordentlichen Text reagiert und sorgfältige Dateneingabe und Vorverarbeitung weiterhin entscheidend sind.

Geschwindigkeit, Effizienz und derzeitige Grenzen

Da die Hardwarebudgets in Krankenhäusern begrenzt sind, verglichen die Forschenden auch Rechenzeit und Speicherbedarf. Große Modelle mit 70 Milliarden Parametern erzielten in einigen Extraktionsaufgaben leicht bessere Ergebnisse, benötigten aber mehrere Male mehr Speicher und deutlich längere Verarbeitungszeiten. CancerLLM hingegen lieferte führende oder nahezu führende Genauigkeit bei Extraktion und Diagnose und lief auf einer einzelnen leistungsfähigen Grafikkarte mit moderatem Speicherbedarf. Fehleranalysen zeigten, dass das Modell bei sehr feinen Unterscheidungen noch Probleme hat, etwa bei subtilen Krebsuntertypen, vollständigen Staging‑Details und starkem Einsatz von Kurzschreibweisen oder Tippfehlern in Notizen, was Bereiche aufzeigt, in denen mehr Datenbereinigung und künftige Modellverfeinerung nötig sind.

Was das für die Zukunft der Krebs‑KI bedeutet

Alltäglich ausgedrückt ist CancerLLM wie ein kompakter, krebsversierter Textleser, der kritische Details aus medizinischen Unterlagen schnell destillieren und wahrscheinliche Krebsdiagnosen vorschlagen kann – und das unter realistischen Voraussetzungen für den Einsatz in Kliniken. Es ersetzt keine Onkologinnen und Onkologen, könnte ihnen aber Zeit sparen, Forschungsstudien unterstützen und übersehene Details in komplexen Akten reduzieren. Durch die Veröffentlichung sowohl des Modellrahmens als auch synthetischer Datensätze wollen die Autoren weitere Arbeiten an vertrauenswürdigen, effizienten KI‑Werkzeugen anstoßen, die auf bestimmte medizinische Fachgebiete zugeschnitten sind, statt auf Einheitslösungen.

Zitation: Li, M., Zhan, Z., Huang, J. et al. CancerLLM: a large language model in cancer domain. npj Digit. Med. 9, 266 (2026). https://doi.org/10.1038/s41746-026-02441-8

Schlüsselwörter: Krebs KI, klinische Textanalyse, Unterstützung bei Diagnosen, medizinische Sprachmodelle, Onkologie‑Informatik