Clear Sky Science · de

Ein Multi‑Task‑Learning‑Ansatz, der Regressions‑ und Klassifikationsaufgaben für gemeinsame Merkmalsermittlung kombiniert

· Zurück zur Übersicht

Warum dieses neue Datenwerkzeug wichtig ist

Die moderne Medizin sammelt riesige Mengen an Informationen zu jedem Patienten – von Laborwerten und Vitalzeichen bis hin zu detaillierten Gehirn‑ und Genmessungen. Ärztinnen, Ärzte und Forscher möchten häufig mehrere Vorhersagen zugleich treffen, etwa eine Diagnose und die Werte wichtiger Blutmarker, und zugleich herausfinden, welche Messgrößen wirklich entscheidend sind. Dieses Papier stellt ein neues statistisches Werkzeug vor, genannt MTLComb, das beides gleichzeitig fairer und verlässlicher ermöglicht, insbesondere wenn die unterschiedlichen Vorhersagen nicht vom gleichen Typ sind.

Figure 1
Figure 1.

Verschiedene Fragestellungen, ein gemeinsames Problem

Viele Machine‑Learning‑Systeme werden darauf trainiert, nur einen Fragetyp zu beantworten, etwa eine Zahl vorherzusagen (zum Beispiel Alter oder Blutdruck) oder ein Ja/Nein‑Ergebnis (zum Beispiel Vorhandensein einer Erkrankung). In realen medizinischen Studien treten diese Fragen jedoch oft gemeinsam auf und werden von überlappenden biologischen Ursachen angetrieben. Idealerweise würde ein System alle Fragen gleichzeitig bearbeiten und die Messungen hervorheben, die allgemeine Bedeutung haben – potenzielle Biomarker, die über mehrere Ergebnisse hinweg relevant sind. Bestehende Methoden des sogenannten Multi‑Task‑Learnings schaffen das, wenn alle Aufgaben denselben Typ haben, tun sich aber schwer, wenn zahlenbasierte und Ja/Nein‑Vorhersagen gemischt sind. Ein Aufgabentyp neigt dazu, das Training zu dominieren, sodass wichtige gemeinsame Signale übersehen werden können.

Die Waage im Algorithmus ausbalancieren

Der Kern von MTLComb ist eine einfache, aber sorgfältig hergeleitete Regel, um auszugleichen, wie verschiedene Vorhersageaufgaben das Lernen beeinflussen. Die Autoren zeigen, dass die Verlustfunktionen für zahlenbasierte und Ja/Nein‑Vorhersagen naturgemäß auf unterschiedlichen Skalen operieren und Gradienten unterschiedlicher Stärke haben. Werden sie naiv kombiniert, beginnen Modelle für kontinuierliche Ergebnisse viele Merkmale auszuwählen, während Modelle für Ja/Nein‑Ergebnisse bei gleichem Strafniveau möglicherweise keine auswählen, was die gemeinsame Merkmalsliste verzerrt. Durch die Analyse des Verhaltens dieser Gradienten identifizieren die Forschenden einen festen Satz von Gewichten, der die Lernkurven – sogenannte Regularisierungspfade – der beiden Aufgabentypen in Einklang bringt. Das bedeutet, dass Modelle beim strenger oder weniger streng werden Merkmal‑Hinzu‑ und -Wegnahmen koordiniert durchführen, wodurch die resultierende Biomarker‑Liste ausgewogener und besser interpretierbar wird.

Figure 2
Figure 2.

Methodentest in kontrollierten Simulationen

Um zu verstehen, wann MTLComb den größten Nutzen bringt, führten die Forschenden zunächst umfangreiche Simulationsstudien durch. Sie erzeugten Datensätze, in denen die Anzahl der Messgrößen deutlich größer war als die Anzahl der Patienten – eine typische Situation in der Genetik und der Intensivmedizin. Sie variierten, wie ausgeprägt dieses Ungleichgewicht war, wie viele Vorhersageaufgaben eingeschlossen wurden und wie unausgewogen die Ja/Nein‑Labels waren. In all diesen Szenarien sagte MTLComb nicht nur zukünftige Daten genauer voraus als konkurrierende Methoden, es war auch besser darin, die in den Simulationen wirklich relevanten Merkmale wiederzufinden. Sein Vorteil war besonders ausgeprägt, wenn die Daten sehr hochdimensional waren oder wenn eine Ergebnisgruppe deutlich seltener war als die andere – beides Szenarien, die in der medizinischen Forschung als besonders schwierig gelten.

Prüfung an realen Fällen: Sepsis und Schizophrenie

Die Autoren wandten MTLComb anschließend auf zwei anspruchsvolle klinische Probleme an. Bei der Sepsis, einer lebensbedrohlichen Reaktion auf eine Infektion, trainierten sie die Methode mit routinemäßig erhobenen Intensivdaten, um sowohl das Vorliegen einer Sepsis als auch mehrere Blutmarker für Stoffwechsel- und Nierenfunktion vorherzusagen. MTLComb erreichte Vorhersagegenauigkeiten, die mit starken Single‑Task‑Methoden vergleichbar sind, aber die gewählten Merkmale waren über zwei unabhängige Patientenkohorten hinweg stabiler und stärker mit bekannten klinischen Scores korreliert, die die Schwere der Erkrankung zusammenfassen. Bei der Schizophrenie kombinierten sie Altersvorhersage mit Krankheitsdiagnose auf Basis von Genexpressionsdaten aus dem Gehirn. Hier fand MTLComb Genmengen, die sich sowohl für Alter als auch für Krankheitsstatus konsistent verhielten; diese Gene waren in Signalwegen des Gehirns angereichert, die bereits mit Schizophrenie und Alterungsprozessen in Verbindung gebracht wurden, was auf eine gemeinsame biologische Route hinweist, die synaptische Plastizität betreffen könnte.

Was das für die Zukunft bedeutet

Für Nicht‑Spezialisten ist die Kernbotschaft, dass MTLComb eine Möglichkeit bietet, mehrere medizinische Fragen gleichzeitig zu stellen und dabei jede Frage fair zu behandeln. Anstatt einen Vorhersagetyp die anderen übertönen zu lassen, balanciert es sie so aus, dass die informativsten Messgrößen beständig an die Spitze gelangen. Die Methode ist auf Effizienz ausgelegt, funktioniert gut, wenn es viel mehr Messungen als Patienten gibt, und beruht nicht auf krankheitsspezifischen Annahmen. Damit bietet sie Forschenden ein klareres Fenster auf gemeinsame Risikomarker – sei es bei Sepsis, Schizophrenie oder ganz anderen Feldern mit gemischten Vorhersageproblemen – und kann helfen, komplexe, mehrschichtige Daten in verlässlichere Hinweise für Diagnose, Prognose und Behandlung zu verwandeln.

Zitation: Cao, H., Rajan, S., Hahn, B. et al. A multi-task learning approach combining regression and classification tasks for joint feature selection. Sci Rep 16, 12699 (2026). https://doi.org/10.1038/s41598-026-43551-3

Schlüsselwörter: Multi‑Task‑Learning, Biomarker, Sepsis, Schizophrenie, medizinische KI