Clear Sky Science · sv

Bedömning av hjärthälsa i olika scenarier och på flera enheter med en multimodal foundation‑modell förtränad på data från 1,7 miljoner individer

2026-02-24 · Tillbaka till index

Varför dina hjärtslagsdata är viktiga

Från hjärtmonitorer på sjukhus till smartklockor spåras allt mer av våra liv genom små elektriska och optiska signaler från hjärtat. Dessa inspelningar kan upptäcka farliga rytmrubbningar, uppskatta blodtryck utan manschett och till och med antyda framtida hjärtrisker. Men eftersom enheter och miljöer skiljer sig så mycket fungerar dagens algoritmer ofta bra endast i de snäva situationer de tränats för. Denna studie introducerar en ny typ av "foundation"‑modell för hjärtsignaler som syftar till att förstå hjärthälsa över många enheter, länder och användningsfall samtidigt.

Många sätt att lyssna på hjärtat

Läkare och enheter kan lyssna på hjärtat på flera sätt. Det klassiska sjukhustestet är 12‑ledars elektrodiagram (EKG), där elektroder fästs över bröstkorgen och extremiteterna för att fånga hjärtats elektriska aktivitet från olika vinklar. Intensivvårdsavdelningar använder ofta färre ledningar plus en optisk sensor kallad fotopletysmogram (PPG), som lyser in i huden för att spåra blodpulser i kärlen. Hemma kan smartklockor och plåster spela in bara en enda EKG‑kanal eller endast PPG. Var och en av dessa uppsättningar ger signaler med olika former, längder och antal kanaler, vilket har gjort det svårt att bygga en modell som fungerar överallt. Traditionella angreppssätt tränar vanligtvis separata, skräddarsydda algoritmer för varje enhet och uppgift, och de får problem när de flyttas till nya miljöer eller populationer.

En enda hjärna för många hjärtsignaler

Forskarna designade en cardiac sensing foundation‑modell, eller CSFM, för att fungera som ett gemensamt tänkande för alla dessa signaler. Istället för att lära av en enda prydlig datamängd tränades CSFM på en massiv och rörig samling: cirka 1,7 miljoner hjärtinspelningar från flera sjukhus och länder, inklusive både EKG‑ och PPG‑vågor samt de textjournaler som läkare eller maskiner skrev om dem. Modellen delar upp signalerna i korta segment, förvandlar både signaler och ord till token‑representationer och matar dem in i en transformer, en typ av djupinlärningsarkitektur som drivit senare framsteg inom språk- och bildförståelse. Under träningen döljdes stora delar av tokenen medvetet, och modellen lärde sig att rekonstruera de saknade bitarna. Denna "maskerade" träning tvingar CSFM att fånga de väsentliga mönstren som delas mellan olika enheter, elektroder och språk i beskrivningarna.

Från diagnostik till blodtryck och vidare

När CSFM väl var tränad kunde den anpassas till många konkreta uppgifter med relativt små uppmärkta dataset. Teamet testade den på klassificering av hjärtrytm och hjärtsjukdom med standardiserade 12‑ledars EKG, bärbara enkelledars‑EKG och PPG från smartklockor. Den matchade inte bara utan överträffade ofta starka, uppgiftsspecifika djupa nätverk. CSFM hjälpte också till att uppskatta ålder, kön och body mass index direkt från korta EKG‑ och PPG‑segment, vilket visar att den hade fångat subtila ledtrådar om personen, inte bara hjärtslaget. I ett annat experiment omvandlade modellen EKG och PPG till kontinuerliga blodtrycksvågor och sedan till systoliska och diastoliska värden, och producerade mer exakta blodtrycksuppskattningar utan manschett än konkurrerande metoder.

Fungerar över enheter och fyller i luckor

Ett särskilt viktigt test var om CSFM kunde hantera situationer där endast en del av den vanliga informationen fanns tillgänglig. Forskarna visade att modeller finjusterade från CSFM fungerade väl oavsett om de såg alla 12 EKG‑ledningar, sex ledningar, två vanliga ledningar eller till och med en enda ledning. De testade också kombinationer av endast EKG, endast PPG och EKG plus PPG‑inmatningar. I dessa konfigurationer höll CSFM‑baserade system en jämn hög prestanda medan konventionella modeller försämrades snabbare. Modellens interna representationer kunde till och med användas som färdiga funktioner för enklare verktyg som gradient‑boostade träd, vilket ofta nådde prestanda liknande fullt finjusterade djupa nätverk. Slutligen, genom att lägga till ett regressionshuvud, kunde CSFM generera en typ av signal från en annan — till exempel producera ett realistiskt EKG från en PPG‑kurva eller rekonstruera ett fullständigt 12‑ledars‑EKG från en enda ledning — vilket öppnar för dataaugmentering och förbättrad analys när ideala inspelningar saknas.

Vad detta kan innebära för patienter

För icke‑experter är kärnbudskapet att en enda, allmän modell nu kan tolka mycket olika hjärtinspelningar och ändå ge exakta, kliniskt användbara svar. Istället för att bygga en skör algoritm per enhet och sjukhus erbjuder CSFM en gemensam grund som kan anpassas lätt till lokala behov, från att upptäcka farliga rytmer på en smartklocka till att förutsäga vilka patienter som har högre risk att avlida inom ett år. Författarna erkänner öppna frågor, såsom att göra modellens beslut lättare för kliniker att tolka och att minska dess beräkningsbehov. Ändå tyder deras resultat på att foundation‑modeller för hjärtsignaler kan hjälpa till att föra avancerad hjärtövervakning och riskbedömning till fler människor, på fler platser, med de enheter de redan har.

Citering: Gu, X., Tang, W., Han, J. et al. Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals. Nat Mach Intell 8, 220–233 (2026). https://doi.org/10.1038/s42256-026-01180-5

Nyckelord: hjärt‑foundationmodell, elektrokardiogram, fotopletysmografi, digital kardiologi, bärbar hjärtövervakning