Clear Sky Science · de

Proteogenomische Datenmodellierung mit maschinellem Lernen identifiziert zirkulierende Plasma-Biomarker zur Früherkennung von Lungenkrebs

· Zurück zur Übersicht

Warum diese Forschung wichtig ist

Lungenkrebs tötet weltweit mehr Menschen als jede andere Krebsart, vor allem weil er meist zu spät entdeckt wird. Die heutigen Screening-Methoden richten sich hauptsächlich an starke Raucher und basieren auf bildgebenden Verfahren, die frühe Krankheitsstadien übersehen können. Diese Studie stellt eine einfache, aber kraftvolle Frage: Kann eine Routine-Blutprobe, die Jahre vor dem Auftreten von Symptomen entnommen wurde, verraten, wer sich still und leise einem Lungenkrebs annähert? Indem die Forschenden genetische Daten mit tausenden Bluteiweißen und modernem maschinellen Lernen kombinieren, suchen sie nach Frühwarnsignalen, die eines Tages das Screening verbreitern und Leben retten könnten.

Auf der Suche nach Hinweisen in Genen und Blut

Das Team untersuchte zunächst die DNA von Hunderttausenden Menschen in großen Bevölkerungsbiobanken im Vereinigten Königreich und in Finnland. Sie verglichen die genetischen Codes von Personen, die Lungenkrebs entwickelten, mit denen, die gesund blieben, und identifizierten DNA-Abschnitte, die mit einem erhöhten Risiko verbunden sind. Anschließend prüften sie, ob dieselben genetischen Veränderungen mit Unterschieden bestimmter im Blut zirkulierender Proteine zusammenhängen. Proteine sind die Arbeitspferde des Körpers, und Veränderungen ihrer Konzentration können frühe biologische Belastungen anzeigen, lange bevor ein Tumor im Bild sichtbar wird. Durch die Verbindung von Risikogenen mit Blutproteinspiegeln begannen die Forschenden zu kartieren, wie vererbte Anfälligkeit die innere Chemie des Körpers auf dem Weg zum Lungenkrebs subtil verändern könnte.

Figure 1
Figure 1.

Blutsignale Jahre vor der Diagnose verfolgen

Der zweite, ergänzende Teil der Studie konzentrierte sich direkt auf Blutproteine als mögliche frühe Krankheitssignale. Mit einer Hochdurchsatz-Plattform maßen die Wissenschaftler nahezu 3.000 verschiedene Proteine in Blutproben von mehr als 26.000 Freiwilligen aus der UK Biobank. Einige Personen hatten bereits bei der Blutentnahme eine Lungenkrebsdiagnose, viele andere entwickelten die Krankheit jedoch erst Jahre später. Die Forschenden gruppierten diese „zukünftigen Patienten“ nach dem Zeitpunkt ihrer Diagnose: innerhalb von 0–4 Jahren, 5–9 Jahren oder irgendwo innerhalb von 0–9 Jahren nach der Blutabnahme. Dann verglichen sie die Proteinspiegel jeder Gruppe mit denen krebsfreier Teilnehmender, um Proteine zu finden, die bereits lange vor der Diagnose konstant abwichen.

Computern beibringen, Hochrisikoprofile zu erkennen

Da kein einzelnes Protein die ganze Geschichte erzählte, wandte sich das Team dem maschinellen Lernen zu, um komplexe Muster über hunderte Marker hinweg zu interpretieren. Sie trainierten verschiedene Algorithmentypen – darunter Random Forests und neuronale Netze – darauf, Menschen zu unterscheiden, die später Lungenkrebs entwickelten, von denen, die krebsfrei blieben, und verwendeten dabei ausschließlich ihre Blutproteinprofile. Die Modelle erzielten gute Leistungen und erreichten Genauigkeitswerte (AUCs) von etwa 0,8–0,88, selbst bei Proben, die bis zu neun Jahre vor der Diagnose entnommen wurden. Bemerkenswert ist, dass Modelle, die auf Proteindaten basierten, diejenigen übertrafen, die nur auf Standard-Risikofaktoren wie Alter, Geschlecht und Raucheranamnese beruhten, was zeigt, dass die Blutsignale zusätzlich sinnvolle Informationen liefern, die Ärztinnen und Ärzte bislang nicht hatten.

Figure 2
Figure 2.

Was die Schlüsselproteine verraten

Über die verschiedenen Zeitfenster hinweg identifizierten die Forschenden wiederholt einen Kernsatz von 22 Proteinen, deren Spiegel stark mit zukünftigem Lungenkrebs verbunden waren. Vierzehn dieser Proteine standen bereits zuvor im Zusammenhang mit Lungenkrebs, während acht als neue Kandidaten auftauchten. Viele der Proteine sind an Immunantworten, Entzündungen und Vernarbungsprozessen im Lungengewebe beteiligt, was nahelegt, dass sich früher Lungenkrebs lange vor der Sichtbarkeit in Bildgebungen auf die Abwehrsysteme des Körpers auswirken kann. Bei Personen, deren Blut 5–9 Jahre vor der Diagnose entnommen wurde, gingen höhere Spiegel mehrerer Proteine außerdem mit einer schlechteren Überlebensprognose nach Auftreten des Krebses einher, was darauf hindeutet, dass dieselben frühen Marker Informationen über die mögliche Aggressivität eines zukünftigen Tumors enthalten könnten.

Was das für Patientinnen und Patienten bedeutet

Diese Arbeit liefert noch keinen sofort einsatzbereiten Bluttest und beweist nicht, dass diese Proteine Lungenkrebs verursachen. Sie bietet jedoch eine detaillierte Karte dafür, wie sich Gene und Blutchemie in den Jahren vor einer Diagnose verändern, und hebt spezifische zirkulierende Proteine hervor, die als Frühwarnmarker vertieft untersucht werden sollten. Wenn künftige Forschung diese Befunde bestätigt und verfeinert, könnte eine einfache Blutabnahme eines Tages helfen, Personen mit hohem Risiko – einschließlich einiger lebenslanger Nichtraucher – Jahre vor dem Auftreten von Symptomen zu identifizieren, womit gezieltere Bildgebung, engmaschigere Überwachung und letztlich mehr gerettete Leben möglich würden.

Zitation: Johnson, M.A., Nieves-Rodriguez, S., Hou, L. et al. Machine learning-based proteogenomic data modeling identifies circulating plasma biomarkers for early detection of lung cancer. Commun Med 6, 253 (2026). https://doi.org/10.1038/s43856-026-01500-1

Schlüsselwörter: Lungenkrebs, Blut-Biomarker, Proteomik, genetisches Risiko, Früherkennung