Clear Sky Science · it

ResNet18-ThunderSVM: intelligenza ibrida per il riconoscimento delle cifre manoscritte fondendo caratteristiche spaziali profonde e classificazione ad alte prestazioni

2026-02-07 · Torna all'indice

Perché insegnare ai computer a leggere la scrittura è importante

Ogni volta che una banca elabora un assegno, un insegnante corregge un test scansionato o il tuo telefono trasforma scarabocchi in testo digitale, un sistema nascosto deve interpretare correttamente la scrittura a mano, spesso disordinata. Far fare questo compito alle macchine in modo rapido e accurato fa risparmiare tempo, riduce i costi e limita gli errori umani. Questo articolo presenta un nuovo metodo per riconoscere le cifre manoscritte che punta a essere sia molto accurato sia sufficientemente veloce per l’uso reale, anche su dispositivi con risorse di calcolo limitate.

Fondere due punti di forza in un sistema più intelligente

I ricercatori combinano due diversi tipi di intelligenza artificiale in un unico modello “ibrido” che chiamano ResNet18-ThunderSVM. La prima parte, ResNet18, è una rete neurale profonda molto efficace nell’individuare automaticamente pattern nelle immagini, come tratti, curve e forme nei numeri manoscritti. La seconda parte, ThunderSVM, è una versione accelerata su GPU di un metodo classico di machine learning noto per decisioni solide e stabili una volta che sono disponibili buone caratteristiche. Lasciando a ResNet18 il lavoro pesante della scoperta delle feature e passando poi le informazioni essenziali a ThunderSVM per la decisione finale, il sistema mira a ottenere il meglio di entrambi i mondi: una comprensione ricca delle immagini e una classificazione efficiente e affidabile.

Dai pixel grezzi a decisioni affidabili

Le cifre manoscritte in questo studio provengono da quattro collezioni di immagini popolari: MNIST, EMNIST, USPS e Fashion-MNIST. Questi dataset includono cifre semplici, lettere, scritture in stile postale e piccole immagini di capi di abbigliamento, offrendo una gamma di difficoltà. Tutte le immagini vengono ridimensionate e normalizzate così che la loro luminosità rientri in un intervallo stabile, aiutando la rete neurale ad apprendere in modo più regolare. ResNet18, messo a punto con fine-tuning anziché lasciato congelato, trasforma progressivamente ogni immagine 2D in una compatta impronta di 512 numeri che cattura i dettagli visivi più importanti. Questa impronta viene poi scalata con attenzione per mantenere valori ben comportati e alimentata a ThunderSVM, che impara a separare le diverse cifre usando regole matematiche efficienti chiamate kernel.

Come si confronta il nuovo approccio

Gli autori confrontano il loro modello ibrido sia con metodi tradizionali sia con numerosi sistemi di deep learning sul noto dataset MNIST. Approcci più vecchi come alberi decisionali, random forest e SVM di base funzionano ragionevolmente su problemi piccoli ma risultano insufficienti quando le cifre variano nello stile o quando la scala dei dati cresce. Reti profonde pure come modelli convoluzionali standard, VGG16 e MobileNet ottengono prestazioni molto migliori ma possono richiedere più tempo di addestramento o molti più parametri interni. ResNet18-ThunderSVM raggiunge circa il 99,3% di accuratezza—vicino ai livelli più alti—pur utilizzando un numero moderato di parametri e mantenendo alta la velocità di elaborazione. Converge più rapidamente rispetto a un classificatore ResNet18 standalone e supera nettamente un ThunderSVM basato solo su feature progettate a mano.

Resistenza al rumore e a nuove condizioni

La scrittura a mano nel mondo reale è spesso sbavata, inclinata o eseguita in stili non familiari. Per simulare queste sfide, il team testa il proprio modello su dataset con abitudini di scrittura diverse e aggiunge “rumore” artificiale ad alcune immagini. Su EMNIST letters, USPS e Fashion-MNIST, il modello ibrido supera costantemente sia il ThunderSVM puro sia un ibrido basato su CNN molto performante. La sua accuratezza diminuisce meno quando viene introdotto rumore, mostrando una maggiore robustezza. I ricercatori misurano anche quanto tempo richiede ogni parte del sistema e quanta memoria utilizza. ResNet18-ThunderSVM è più lento e più pesante rispetto alle reti più leggere, ma molto più efficiente dei modelli molto profondi, trovando un equilibrio pratico tra velocità, dimensione e accuratezza.

Cosa significa per la tecnologia di tutti i giorni

Per un non specialista, il messaggio principale è che l’abbinamento attento del deep learning moderno con il machine learning classico può rendere i computer migliori e più efficienti nel leggere immagini simili alla scrittura. Anziché progettare a mano feature o affidarsi a enormi reti end-to-end, questa pipeline ibrida permette a un front-end di visione intelligente di alimentare un motore decisionale snello ma potente. Il risultato è un sistema che legge le cifre in modo estremamente accurato, si adatta meglio a dati nuovi o rumorosi e resta adatto a dispositivi che non possono permettersi modelli massicci. Questo approccio potrebbe essere esteso oltre le cifre a scansioni mediche, scene del traffico e altri compiti visivi dove è necessario bilanciare accuratezza, velocità e risorse di calcolo limitate.

Citazione: Zhang, C., Tu, C., Wang, Z. et al. ResNet18-ThunderSVM: Hybrid intelligence for handwritten digit recognition by fusing deep spatial features and high-performance classification. Sci Rep 16, 7701 (2026). https://doi.org/10.1038/s41598-026-38258-4

Parole chiave: riconoscimento cifre manoscritte, apprendimento profondo, macchine a vettori di supporto, modelli ibridi, classificazione di immagini