Clear Sky Science · it
La modellizzazione proteogenomica basata sul machine learning identifica biomarcatori plasmatici circolanti per la diagnosi precoce del cancro del polmone
Perché questa ricerca è importante
Il cancro del polmone uccide più persone nel mondo rispetto a qualsiasi altro tumore, in gran parte perché viene spesso scoperto troppo tardi. Gli attuali strumenti di screening si concentrano principalmente sui forti fumatori e si basano su esami di imaging che possono non rilevare la malattia nelle fasi iniziali. Questo studio pone una domanda semplice ma potente: un prelievo ematico di routine, raccolto anni prima della comparsa dei sintomi, può rivelare chi sta silenziosamente avviandosi verso un cancro del polmone? Combinando dati genetici con migliaia di proteine plasmatiche e il moderno machine learning, i ricercatori cercano segnali d’allarme precoci che un giorno potrebbero ampliare lo screening e salvare vite.
Cercare indizi nei geni e nel sangue
Il team ha prima esaminato il DNA di centinaia di migliaia di persone in grandi biobanche di popolazione nel Regno Unito e in Finlandia. Hanno confrontato i codici genetici di chi ha sviluppato il cancro del polmone con quelli di chi non l’ha sviluppato, individuando porzioni di DNA associate a un rischio maggiore. Successivamente hanno verificato se quegli stessi cambiamenti genetici erano correlati a differenze in specifiche proteine circolanti nel sangue. Le proteine sono le molecole che svolgono la maggior parte delle funzioni dell’organismo, e le variazioni nei loro livelli possono rivelare stress biologico precoce molto prima che un tumore compaia in una scansione. Collegando geni di rischio ai livelli proteici plasmatici, i ricercatori hanno iniziato a mappare come la suscettibilità ereditaria possa rimodellare sottilmente la chimica interna del corpo nel percorso verso il cancro del polmone.

Seguire i segnali nel sangue anni prima della diagnosi
La seconda parte, complementare, dello studio si è concentrata direttamente sulle proteine plasmatiche come possibili segnali precoci di malattia. Utilizzando una piattaforma ad alto rendimento, gli scienziati hanno misurato quasi 3.000 proteine diverse in campioni di sangue di oltre 26.000 volontari nella UK Biobank. Alcune persone erano già state diagnosticate con cancro del polmone al momento del prelievo, ma molte altre hanno sviluppato la malattia solo anni dopo. I ricercatori hanno raggruppato questi “futuri pazienti” in base al momento della diagnosi: entro 0–4 anni, 5–9 anni, o in qualunque momento entro 0–9 anni dopo il prelievo. Hanno poi confrontato i livelli proteici di ciascun gruppo con quelli dei partecipanti senza cancro per trovare proteine che differivano in modo consistente molto prima della diagnosi.
Insegnare ai computer a riconoscere profili ad alto rischio
Poiché nessuna singola proteina raccontava l’intera storia, il team si è rivolto al machine learning per interpretare pattern complessi attraverso centinaia di marcatori contemporaneamente. Hanno addestrato diversi tipi di algoritmi — tra cui random forest e reti neurali — per distinguere le persone che avrebbero poi sviluppato il cancro del polmone da quelle rimaste senza cancro, usando solo i loro profili proteici plasmatici. I modelli hanno ottenuto buone prestazioni, raggiungendo punteggi di accuratezza (AUC) intorno a 0,8–0,88, anche impiegando campioni prelevati fino a nove anni prima della diagnosi. È importante notare che i modelli costruiti sui dati proteici hanno chiaramente superato quelli basati soltanto sui fattori di rischio standard, come età, sesso e storia di fumo, mostrando che i segnali ematici aggiungono informazioni rilevanti oltre a quelle già note ai medici.

Ciò che rivelano le proteine chiave
Tra le diverse finestre temporali, i ricercatori hanno identificato ripetutamente un nucleo centrale di 22 proteine i cui livelli erano fortemente associati al futuro cancro del polmone. Quattordici di queste erano già state collegate al cancro polmonare in studi precedenti, mentre otto sono emerse come nuove candidate. Molte delle proteine sono coinvolte nelle risposte immunitarie, nell’infiammazione e nei processi di cicatrizzazione del tessuto polmonare, suggerendo che il cancro del polmone precoce possa rimodellare i sistemi di difesa del corpo molto prima di poter essere visto con l’imaging. Nelle persone il cui sangue è stato prelevato 5–9 anni prima della diagnosi, livelli più alti di diverse proteine sono stati anche associati a una sopravvivenza peggiore una volta comparso il cancro, suggerendo che gli stessi marcatori precoci potrebbero contenere informazioni sull’aggressività che un futuro tumore potrebbe avere.
Cosa significa per i pazienti
Questo lavoro non fornisce ancora un test ematico pronto all’uso, e non dimostra che queste proteine causino il cancro del polmone. Offre invece una mappa dettagliata di come geni e chimica del sangue cambiano negli anni che precedono la diagnosi e mette in evidenza proteine circolanti specifiche che meritano studi più approfonditi come segnali d’allarme precoci. Se ricerche future confermeranno e raffineranno questi risultati, un semplice prelievo di sangue potrebbe un giorno aiutare a identificare individui ad alto rischio — inclusi alcuni non fumatori per tutta la vita — anni prima della comparsa dei sintomi, indirizzando a scansioni più tempestive, a un monitoraggio più attento e, in ultima istanza, a un maggior numero di vite salvate.
Citazione: Johnson, M.A., Nieves-Rodriguez, S., Hou, L. et al. Machine learning-based proteogenomic data modeling identifies circulating plasma biomarkers for early detection of lung cancer. Commun Med 6, 253 (2026). https://doi.org/10.1038/s43856-026-01500-1
Parole chiave: cancro del polmone, biomarcatori nel sangue, proteomica, rischio genetico, diagnosi precoce