Clear Sky Science · sv

En multitaskinlärningsmetod som kombinerar regressions- och klassificeringsuppgifter för gemensamt urval av egenskaper

· Tillbaka till index

Varför detta nya verktyg för data spelar roll

Modern medicin samlar in stora mängder information om varje patient, från laboratorievärden och vitala tecken till detaljerade hjärn- och genetiska mätningar. Läkare och forskare vill ofta förutsäga flera saker samtidigt — till exempel sjukdomsdiagnos och nivåer av viktiga blodmarkörer — samtidigt som de vill ta reda på vilka mätvärden som verkligen är viktigast. Denna artikel presenterar ett nytt statistiskt verktyg, kallat MTLComb, som hjälper till att göra båda uppgifterna samtidigt på ett mer rättvist och tillförlitligt sätt, särskilt när de olika förutsägelserna inte är av samma typ.

Figure 1
Figure 1.

Olika frågor, ett gemensamt problem

Många maskininlärningssystem tränas för att svara på bara en typ av fråga, till exempel att förutsäga ett tal (till exempel ålder eller blodtryck) eller att förutsäga ett ja/nej-resultat (till exempel om en sjukdom är närvarande eller inte). I verkliga medicinska studier förekommer dessa frågor ofta tillsammans, och de drivs av överlappande biologiska orsaker. I idealfallet skulle ett inlärningssystem hantera alla dessa frågor samtidigt och lyfta fram de mätningar som spelar roll över hela linjen — potentiella biomarkörer som gäller flera utfall. Befintliga metoder för så kallad multitaskinlärning kan göra detta när varje uppgift är av samma typ, men de får problem när numeriska och ja/nej-förutsägelser blandas. En uppgiftstyp tenderar att dominera träningsprocessen, och viktiga delade signaler kan gå förlorade.

Att balansera vågskålarna inne i algoritmen

Kärnan i MTLComb är en enkel men noggrant härledd regel för att ombalansera hur de olika förutsägelseuppgifterna påverkar inlärningen. Författarna visar att förlustfunktionerna som används för numeriska och ja/nej-förutsägelser naturligt verkar på olika skalor och har gradienter med olika styrka. Om dessa kombineras naivt kommer modeller för kontinuerliga utfall att börja välja många funktioner, medan modeller för ja/nej-utfall kanske inte väljer några vid samma nivå av straff, vilket snedvrider den delade funktionslistan. Genom att analysera hur dessa gradienter beter sig identifierar forskarna en fast uppsättning vikter som för inlärningskurvorna — kallade regulariseringsvägar — för de två uppgiftstyperna i linje med varandra. Det innebär att när modellen blir mer eller mindre selektiv lägger båda typerna av uppgifter till och tar bort funktioner på ett koordinerat sätt, vilket gör den resulterande biomarköruppsättningen mer balanserad och tolkbar.

Figure 2
Figure 2.

Testning av metoden i kontrollerade simuleringar

För att förstå när MTLComb ger störst nytta genomförde teamet först omfattande simuleringsstudier. De skapade datamängder där antalet mätningar var mycket större än antalet patienter, en vanlig situation inom genetik och intensivvårdsforskning. De varierade hur extrem denna obalans var, hur många förutsägelseuppgifter som ingick och hur ojämna ja/nej-etiketterna var. I dessa scenarier förutsade MTLComb inte bara framtida data mer exakt än konkurrerande metoder, det var också bättre på att återfinna de verkligt relevanta funktioner som planterats i simuleringarna. Dess fördel var särskilt tydlig när data var mycket högdimensionella eller när en utfallsklass var mycket ovanligare än den andra — båda situationer som är notoriska utmaningar i medicinsk forskning.

Tester i verkliga världen: sepsis och schizofreni

Författarna tillämpade sedan MTLComb på två utmanande kliniska problem. Vid sepsis, en livshotande reaktion på infektion, tränade de metoden på rutinmässigt insamlade intensivvårdsdata för att förutsäga både närvaro av sepsis och flera blodmarkörer för ämnesomsättning och njurfunktion. MTLComb uppnådde förutsägelseprecision likvärdig med starka singeluppgiftsmetoder, men dess valda funktioner var mer stabila över två oberoende patientkohorter och mer tydligt kopplade till kända kliniska poäng som sammanfattar patientens svårighetsgrad. I schizofreni kombinerade de åldersförutsägelse med sjukdomsdiagnos baserat på hjärnans genuttrycksdata. Här avslöjade MTLComb uppsättningar av gener som uppträdde konsekvent för både ålder och sjukdomsstatus, och dessa gener var berikade i hjärnans signalvägar som redan kopplats till schizofreni och åldrande, vilket tyder på en delad biologisk bana som involverar synaptisk plasticitet.

Vad detta betyder framöver

För en icke-specialist är huvudbudskapet att MTLComb är ett sätt att ställa flera medicinska frågor samtidigt samtidigt som svaret behandlar varje fråga rättvist. Istället för att låta en typ av förutsägelse dränka de andra balanserar den dem noggrant så att de mest informativa mätningarna konsekvent lyfts fram. Metoden är utformad för att vara effektiv, fungerar bra när det finns långt fler mätningar än patienter och är inte beroende av antaganden som är specifika för någon enskild sjukdom. Som sådan ger den forskare en klarare inblick i delade riskmarkörer — vare sig det gäller sepsis, schizofreni eller helt andra områden där blandade förutsägelseproblem uppstår — och kan hjälpa till att omvandla komplexa, flerskiktade data till mer tillförlitliga ledtrådar för diagnostik, prognos och behandling.

Citering: Cao, H., Rajan, S., Hahn, B. et al. A multi-task learning approach combining regression and classification tasks for joint feature selection. Sci Rep 16, 12699 (2026). https://doi.org/10.1038/s41598-026-43551-3

Nyckelord: multitaskinlärning, biomarkörer, sepsis, schizofreni, medicinsk AI