Clear Sky Science · tr

Gerçek zamanlı uç zekası için halüsinasyon farkındalıklı öğrenme ve gecikme optimizasyonlu dönüştürücü (HALL-OPT)

· Dizine geri dön

Neden Daha Hızlı, Daha Güvenilir Yapay Zekâ Önemli

Günlük cihazlar sessizce daha akıllı hâle geliyor; fabrika sensörlerinden hastane monitörlerine, otomobillerden ev gereçlerine kadar. Bu sistemlerin birçoğu, talimatları okumak, soruları yanıtlamak veya raporları özetlemek için modern sohbet robotlarının arkasındaki aynı tür dil modellerine dayanıyor. Ancak iki sorun buna engel oluyor: bu modeller yavaş ve enerji tüketimi yüksek olabiliyor ve bazen inandırıcı ama yanlış ifadeler “halüsinasyon” şeklinde üretebiliyorlar. Bu makale, dönüştürücü tabanlı dil modellerinin yeniden tasarımı olan HALL-OPT’u tanıtıyor; amacı bu modelleri hem daha hızlı hem de daha güvenilir kılmak, böylece uzak veri merkezleri yerine küçük, düşük güçlü uç cihazlarda güvenle çalıştırılabilmelerini sağlamak.

Figure 1
Figure 1.

Uçta Akıllı Cihazların Zorluğu

Yüksek performanslı dil modellerinin çoğu bulutta çalışır ve büyük miktarda hesaplama gücüne erişir. Bu, özerk araçlar, endüstriyel robotlar veya yatak başı tıbbi cihazlar gibi hızlı kararların hayati olduğu ve ağ bağlantılarının yetersiz veya maliyetli olduğu yerlerde kullanımını zorlaştırır. Bu sistemler verileri buluta gönderip yanıt beklediğinde, birkaç yüz milisaniyelik gecikmeler kabul edilemez olabilir. Aynı zamanda uç cihazlara sığan daha hafif modeller genellikle daha hızlı yanıt verir, fakat gerçekleri uydurma veya bilgiyi yanlış yorumlama olasılıkları daha yüksektir. Çalışma, bunun bir ödünleşme yarattığını gösteriyor: düşük halüsinasyon genellikle yüksek gecikme ile gelirken, düşük gecikme çoğunlukla daha fazla halüsinasyon anlamına geliyor; bu da gerçek zamanlı, güvenilir uç zekâsı için bir boşluk bırakıyor.

Ayrı Onarımlar Yerine Birleşik Tasarım

Mevcut araştırmalar genellikle güvenilirlik ve verimliliği iki ayrı hedef olarak ele alır. Bazı yöntemler, yanıtları dış veri tabanlarına karşı kontrol ederek veya modeli birden çok kez çalıştırarak halüsinasyonları yakalamaya odaklanır; bu da ek zaman ve enerji tüketimi getirir. Diğer yöntemler ise budama, kuantizasyon veya bilgi damıtma ile modelleri küçültür; bunlar hızı artırsa da bazen doğruluk ve güvenilirlikten ödün verebilir. HALL-OPT farklı bir yol izler: halüsinasyon farkındalığını modelin iç işleyişine doğrudan örer ve aynı bilgiyi ne hesaplanacağına neyin atlanacağına karar vermek için kullanır. Ek kontroller takmak veya ağı körü körüne budamak yerine, uç donanımı için uyarlanmış tek bir çerçevede hem güvenilirliği hem de hızı koordine eder.

Sistemin Riskli İçeriği Nasıl Elemesi

HALL-OPT’un özünde, modelin kelimeler arasındaki odak dağılımını ve tahminlerindeki güvenirliği izleyen halüsinasyon farkındalıklı bir dikkat modülü vardır. Dikkat dağıldığında, güven düşük olduğunda veya bir tokenin anlamı çevresel bağlamla çeliştiğinde, o token daha yüksek bir “risk” puanı alır. İkili akışlı bir dedektör sonra bu riskli parçaları potansiyel halüsinasyonlar olarak işaretler. Model bu sinyalleri dinamik bir budama aşamasını yönlendirmek için kullanır: hem değeri düşük hem de riski yüksek olan tokenler çıkarılırken, önemli ve güvenilir tokenler tutulur. Bu, her katmanda işlenmesi gereken öğe sayısını azaltır ve dikkat mekanizmasının ağır, kuadratik maliyetini metnin temel anlamını kaybetmeden düşürür.

Büyük Bir Modeli Küçük, Verimli Bir Modele Sığdırmak

Güçlü davranışı daha küçük bir pakete sığdırmak için HALL-OPT bilgi damıtımı uygular; burada büyük bir “öğretmen” model, kompakt bir “öğrenci” modeli eğitir. Standart damıtmadan farklı olarak, öğrenci yalnızca öğretmenin cevaplarını eşlemeyi öğrenmez; aynı zamanda çıktıların yanlış olma eğilimini de taklit etmeyi öğrenir. Ek eğitim, öğrenciyi aşırı kendinden emin ve halüsinasyona yatkın tahminlerden kaçınmaya iter. Son olarak, bir uç optimizasyon katmanı modelin düşük hassasiyetli aritmetiğe hazırlanmasını sağlar; ağırlıkları 8-bit değerlere dönüştürür ve hesaplamayı NVIDIA Jetson kartları ve Google Coral TPU gibi gerçek uç cihazlara uyacak şekilde yeniden yapılandırır. Bu kombinasyon, orijinal doğruluğun çoğunu korurken bellek kullanımı, enerji tüketimi ve yanıt süresini önemli ölçüde azaltır.

Figure 2
Figure 2.

Hız, Enerji ve Güvenlik Üzerindeki Gerçek Dünya Etkisi

Hileli yanıtsız sorular içeren bir soru-cevap kıyaslaması ve haber özetleme için bir diğer zorlu kıyaslama olmak üzere iki zorlu benchmark üzerinde yapılan testler, HALL-OPT’un halüsinasyonları yaklaşık %94 doğrulukla tespit ettiğini ve görev performansını standart bir BERT modeline yakın tuttuğunu gösteriyor. Aynı zamanda çıkarım gecikmesini yaklaşık üçte iki oranında azaltıyor ve gerçekçi iş yükleri ortalaması alındığında enerji kullanımını yaklaşık %40 veya daha fazla düşürüyor. Uç cihazlarda genellikle 50 milisaniyenin altında yanıt veriyor ve önemli ölçüde daha az bellek kullanıyor. Akıllı fabrikalardan sağlık izleme cihazlarına kadar birçok platform ve endüstriyel tarz senaryo boyunca yapılan stres testleri, sistemin öngörülebilir zamanlamayı ve avantajlı bir “watt başına çıkarım” oranını koruduğunu doğruluyor; bu da sürekli, gerçek zamanlı kullanım için uygun olduğunu gösteriyor.

Günlük Yapay Zekâ İçin Anlamı

Uzman olmayanlar için ana mesaj şudur: küçük cihazlarda hızlı yapay zekâ ile güvenilir yapay zekâ arasında seçim yapmak zorunda değiliz. Modele kendi zayıf noktalarını tanımayı öğreterek ve bu farkındalığın ne kadar hesaplama yapılacağını yönlendirmesine izin vererek, HALL-OPT hem hızlı hem de uydurma olma olasılığı daha düşük yanıtlar sunar. Bu, hatalı yanıtların veya yavaş tepkilerin ciddi sonuçlara yol açabileceği bir aracı yönlendirmek, endüstriyel makineleri kontrol etmek veya bir hastanın durumundaki kritik değişiklikleri işaretlemek gibi geleceğin uç uygulamaları için umut verici bir temel oluşturur.

Atıf: Algawiaz, D. Hallucination-aware learning and latency optimization transformer (HALL-OPT) for real-time edge intelligence. Sci Rep 16, 12245 (2026). https://doi.org/10.1038/s41598-026-42981-3

Anahtar kelimeler: uç AI, halüsinasyon tespiti, dönüştürücü modeller, gerçek zamanlı çıkarım, enerji verimli hesaplama