Clear Sky Science · tr

ResNet18-ThunderSVM: Derin mekânsal özelliklerle yüksek performanslı sınıflandırmanın kaynaştırılmasıyla el yazısı rakam tanıma için hibrit zekâ

2026-02-07 · Dizine geri dön

Bilgisayarlara el yazısını öğretmenin önemi

Bir banka her çek işlediğinde, bir öğretmen taranmış bir sınavı değerlendirirken veya telefonunuz karalamaları dijital metne dönüştürürken, arkada doğru şekilde dağınık insan el yazısını okumak zorunda olan görünmez bir sistem çalışır. Bu işi makinelerin hızlı ve doğru yapabilmesi zaman tasarrufu sağlar, maliyeti düşürür ve insan hatasını azaltır. Bu makale, hem yüksek doğruluk hem de gerçek dünyada, sınırlı hesaplama gücü olan cihazlarda bile yeterince hızlı çalışmayı hedefleyen yeni bir el yazısı rakam tanıma yöntemi sunar.

İki gücü tek, daha akıllı bir sistemde birleştirmek

Araştırmacılar, ResNet18-ThunderSVM adını verdikleri tek bir “hibrit” modelde iki farklı yapay zekâ türünü birleştirirler. İlk bölüm olan ResNet18, otomatik olarak görüntülerdeki desenleri —el yazısı rakamlardaki çizgiler, eğriler ve şekiller gibi— keşfetmede çok başarılı olan derin bir sinir ağıdır. İkinci bölüm olan ThunderSVM ise, iyi özellikler mevcut olduğunda güçlü ve kararlı kararlar vermesiyle bilinen klasik bir makine öğrenmesi yönteminin hızlı, GPU hızlandırmalı bir versiyonudur. ResNet18’e özellik keşfinin ağır yükünü verirken, ortaya çıkan yoğunlaştırılmış bilgiyi nihai karar için ThunderSVM’ye ileterek sistem, görüntülerin zengin bir şekilde anlaşılması ile verimli ve güvenilir sınıflandırmayı bir arada sunmayı amaçlar.

Ham piksellerden emin kararlara

Bu çalışmadaki el yazısı rakamlar MNIST, EMNIST, USPS ve Fashion-MNIST olmak üzere dört popüler görüntü koleksiyonundan gelir. Bu veri setleri basit rakamlar, harfler, posta tarzı yazılar ve kıyafet öğelerinin küçük resimlerini içerir; zorluk açısından çeşit sunarlar. Tüm görüntüler yeniden boyutlandırılır ve parlaklıkları kararlı bir aralığa getirilerek sinir ağının daha düzgün öğrenmesi sağlanır. Donuk bırakılmak yerine ince ayar yapılan ResNet18, her 2B görüntüyü en önemli görsel ayrıntıları yakalayan kompakt bir 512 sayılık parmak izine dönüştürür. Bu parmak izi daha iyi davranması için hafifçe ölçeklendirilir ve ThunderSVM’ye verilir; ThunderSVM farklı rakamları ayırmayı çekirdek adı verilen verimli matematiksel kurallarla öğrenir.

Yeni yaklaşım nasıl karşılaştırılıyor

Yazarlar hibrit modellerini hem geleneksel yöntemlerle hem de iyi bilinen MNIST rakam veri kümesi üzerinde birçok derin öğrenme sistemiyle karşılaştırır. Karar ağaçları, rastgele ormanlar ve temel SVM’ler gibi eski yaklaşımlar küçük problemler için makul performans gösterir ancak yazı stilindeki çeşitlilik arttığında veya veri ölçeği büyüdüğünde yetersiz kalır. Standart konvolüsyonel modeller, VGG16 ve MobileNet gibi saf derin ağlar çok daha iyi performans gösterir ancak daha fazla eğitim süresi veya çok daha fazla iç parametre gerektirebilir. ResNet18-ThunderSVM yaklaşık %99,3 doğruluğa ulaşır—en üst seviyelere yakın—ve orta düzeyde bir parametre sayısı kullanırken işlem hızını yüksek tutar. Tek başına bir ResNet18 sınıflandırıcısına göre daha hızlı yakınsar ve yalnızca el yapımı özelliklere dayanan ThunderSVM’den açıkça daha iyi performans sergiler.

Gürültü ve yeni koşullar altında dayanıklılık

Gerçek dünya el yazısı sıklıkla bulaşmış, eğik veya alışılmadık stillerde olur. Bu zorlukları taklit etmek için ekip, modellerini farklı yazı alışkanlıklarına sahip veri setlerinde test eder ve bazı görüntülere yapay “gürültü” ekler. EMNIST harfleri, USPS posta rakamları ve Fashion-MNIST kıyafet öğeleri genelinde hibrit model, hem sade ThunderSVM’yi hem de güçlü bir CNN tabanlı hibriti tutarlı şekilde geride bırakır. Gürültü eklendiğinde doğruluğu daha az düşer; bu da daha güçlü bir dayanıklılık gösterir. Araştırmacılar ayrıca sistemin her bir bölümünün ne kadar süre aldığı ve ne kadar bellek kullandığını ölçerler. ResNet18-ThunderSVM en hafif ağlardan daha yavaş ve daha ağırdır ama çok derin modellerden çok daha verimlidir; hız, boyut ve doğruluk arasında pratik bir denge kurar.

Günlük teknoloji için anlamı

Uzman olmayan bir okuyucu için ana mesaj şudur: modern derin öğrenme ile klasik makine öğrenmesini dikkatli şekilde eşleştirmek, bilgisayarların el yazısı benzeri görüntüleri daha iyi ve daha verimli okumasını sağlayabilir. Özellikleri elle tasarlamak veya devasa uçtan uca ağlara dayanmak yerine bu hibrit iş akışı, akıllı bir görsel ön uçun sade ama güçlü bir karar motoruna besleme yapmasına izin verir. Sonuç, rakamları son derece iyi okuyan, yeni veya gürültülü verilere daha iyi uyum sağlayan ve büyük modelleri kaldıracak kapasiteye sahip olmayan cihazlar için uygun kalan bir sistemdir. Bu yaklaşım, doğruluk, hız ve sınırlı hesaplama kaynaklarının dengelenmesi gereken tıbbi taramalar, trafik sahneleri ve diğer görsel görevler gibi rakamların ötesindeki alanlara da genişletilebilir.

Atıf: Zhang, C., Tu, C., Wang, Z. et al. ResNet18-ThunderSVM: Hybrid intelligence for handwritten digit recognition by fusing deep spatial features and high-performance classification. Sci Rep 16, 7701 (2026). https://doi.org/10.1038/s41598-026-38258-4

Anahtar kelimeler: el yazısı rakam tanıma, derin öğrenme, destek vektör makineleri, hibrit modeller, görüntü sınıflandırma