Clear Sky Science · sv

InterFeat: ett system för att hitta intressanta vetenskapliga egenskaper

· Tillbaka till index

Varför dolda mönster i medicinska data spelar roll

Modern medicin samlar in enorma mängder information om vår hälsa, från blodprov och avbildningar till livsstilsenkäter och genetiska utskrifter. Dolda i dessa data kan finnas tidiga ledtrådar om vilka personer som kommer att utveckla vissa sjukdomar och varför, men att upptäcka de verkligt viktiga mönstren är svårt och brukar förlita sig på mänsklig intuition. Denna artikel presenterar InterFeat, ett datoriserat arbetsflöde utformat för att hjälpa forskare att automatiskt sålla igenom omfattande hälsodatamängder och lyfta fram en kort lista med verkligt intressanta riskfaktorer som kan antyda nya medicinska insikter.

Figure 1
Figure 1.

Från röriga journaler till lovande ledtrådar

Forskarna byggde och testade InterFeat med hjälp av UK Biobank, en långsiktig studie som följer mer än 370 000 vuxna med tusentals registrerade mätvärden per person. Varje mätning – en blodmarkör, ett läkemedel, en tidigare diagnos, en livsstilsvana – behandlas som en möjlig ”feature” som kan relatera till en framtida sjukdom, såsom hjärtinfarkt, depression, gallsten eller cancer. Istället för att enbart fråga vilka variabler som förutsäger en sjukdom bra, ställer InterFeat en mer krävande fråga: vilka egenskaper är både prediktiva och potentiellt avslöjande av ny kunskap, snarare än att upprepa vad läkare redan vet?

Vad som gör en upptäckt verkligen intressant

För att formalisera idén delar författarna upp ”intressanthet” i tre komponenter. Först nyhet: en koppling mellan variabel och sjukdom bör inte redan vara väl etablerad i medicinsk litteratur eller standardreferenser. För det andra nytta: variabeln bör faktiskt hjälpa till att förutsäga vem som utvecklar sjukdomen, inte bara korrelera svagt av en slump. För det tredje plausibilitet: det bör finnas en rimlig förklaring, förankrad i aktuell biologi eller medicin, till varför denna egenskap kan påverka risken. Denna trefaldiga syn är viktig eftersom många iögonfallande statistiska samband visar sig vara tillfälligheter eller speglingar av dolda konfounders snarare än tecken på ny biologi.

Figure 2
Figure 2.

Hur InterFeat-arbetsflödet fungerar

InterFeat bearbetar tusentals variabler i flera steg. Först tillämpar det statistiska och maskininlärningsbaserade kontroller för att behålla endast de variabler som verkligen hjälper till att förutsäga en sjukdom, med mått som mutual information och modellbaserade viktpoäng. Därefter kontrollerar det om variabel–sjukdomspar redan är kända: det kopplar variabeln och sjukdomen till en stor biomedicinsk kunskapsgraf byggd från miljontals forskningsartiklar och söker också i PubMed för att se hur ofta de förekommer tillsammans. Variabler som redan är starkt länkade till sjukdomen tas bort som ”otrevliga” överraskningar, vilket lämnar en pool av underutforskade kandidater.

Att använda språkmodeller som litteraturkunniga assistenter

De återstående kandidaterna skickas sedan vidare till en stor språkmodell, behandlad som en slags superladdad läsare av biomedicinsk litteratur. För varje kandidatpar hämtar systemet automatiskt relevanta vetenskapliga abstrakt och referenstexter, och språkmodellen använder dem för att bedöma hur ny och hur biologiskt rimlig kopplingen verkar vara. Den skriver också en kort förklaring av möjliga mekanismer, såsom delade inflammatoriska vägar eller effekter av vissa läkemedel. Dessa poäng kombineras till en övergripande ”intressanthet”-bedömning, och forskare får en rankad, lättläst lista med hypoteser att undersöka vidare.

Testning av systemet på verkliga sjukdomar

Teamet utvärderade InterFeat över åtta större sjukdomar, inklusive ovanliga tillstånd som avflödesstörning i näthinnans vener (retinal vein occlusion) och vanliga som depression. Med utgångspunkt i ungefär 3 700 variabler per sjukdom smalnade arbetsflödet oftast ned fältet till färre än 80 kandidater – under 2 % av ursprungslistan. När de simulerade att metoden kördes 2011 och sedan följde hur kunskapsgrafen utvecklades, dokumenterades upp till 21 % av de funktioner som InterFeat flaggade först i litteraturen flera år senare, vilket antyder att systemet kan lyfta fram verkliga samband i förväg. I ett separat test granskade fyra erfarna läkare 137 datorvalda variabler för fyra sjukdomar. De bedömde 28 % som intressanta, och bland de högst rankade kandidaterna från InterFeat ansågs 40–53 % intressanta, betydligt bättre än enkla baslinjer som bara sorterade efter statistisk betydelse.

Vad detta betyder för framtida medicinsk upptäckt

InterFeat påstår inte att bevisa orsakssamband, och det ersätter inte expertbedömning. Istället fungerar det som ett intelligent filter som förvandlar tusentals möjliga signaler till en hanterbar kortlista berikad med idéer som är nya, användbara för prediktion och biologiskt rimliga. Exempel inkluderar samband mellan långtidsanvändning av antibiotika under barndomen och hjärtattacker i vuxen ålder, eller att genetiska riskscorer för andra tillstånd visar oväntade kopplingar till esofaguscancer och gallsten. Genom att kombinera statistiska tester, stora kunskapsgrafer, litteratursökning och språkmodeller i ett konfigurerbart arbetsflöde erbjuder InterFeat forskare inom medicin – och potentiellt andra dataintensiva fält – ett skalbart sätt att rikta sin uppmärksamhet mot de mest lovande ledtrådarna som döljer sig i komplexa datamängder.

Citering: Ofer, D., Linial, M. & Shahaf, D. InterFeat: a pipeline for finding interesting scientific features. Sci Rep 16, 13980 (2026). https://doi.org/10.1038/s41598-026-43169-5

Nyckelord: biomedicinsk datamining, sjukdomsriskfaktorer, kunskapsgrafer, maskininlärning inom medicin, hypotesskapande