Clear Sky Science · tr
Öz yönlendirmeli optimizasyon için hiyerarşik özellik öğrenmesi ile çok görevli optimizasyon ve yakınsama kararlılığı
Aynı Anda Birçok Görevi Yürütebilen Daha Akıllı Yapay Zeka
Günümüz uygulamaları giderek daha fazla, aynı anda birden çok işi yapması gereken yapay zekâya dayanıyor — örneğin görüntü ve metni birlikte anlamak, tıbbi kararları desteklemek veya araçların yolu algılamasına yardımcı olmak. Ancak tek bir model çok fazla beceriyi aynı anda öğrenmeye çalıştığında, eğitimi kararsızlaşabilir ve beceriler birbirine müdahale edebilir. Bu makale, farklı veri türlerinden öğrenip birçok görevi çözmesine rağmen karışmayan veya kararsızlaşmayan tek bir modelin eğitilmesine olanak tanıyan Birleştirilmiş Çok Görevli ve Çok Görünümlü Derin Mimari (UMDA) adlı yeni bir derin öğrenme çerçevesi tanıtıyor.
Neden Bugünün Çok Yönlü Yapay Zekâsı Sıkça Zorlanıyor
Çoklu görev öğrenen (multitask learning) veya görüntü ve metin gibi birden çok veri türünü birleştiren (multiview learning) çoğu güncel sistem üç büyük sorundan muzdarip. Birincisi, farklı görevler eğitim sırasında birbirleriyle çatışabilir: bir görevin performansını iyileştirmek sessizce başka birine zarar verebilir; buna negatif transfer denir. İkincisi, farklı veri kaynaklarından gelen bilgiyi basitçe üst üste koymak veya ortalamak, aralarındaki ince ama önemli ilişkileri kaybetmeye yol açar. Üçüncüsü, eğitim süreci kendisi sallantılı hale gelebilir; model parametrelerinin güncelleme yönünde büyük oynamalar olur. Bu sorunlar, verinin karmaşık ve kararların güvenilir olması gereken tıp teşhisi veya endüstriyel denetim gibi gerçek dünya uygulamalarında özellikle ciddi sonuçlar doğurur.

İşbirlikçi Öğrenme için Dört Bölümlük Bir Plan
UMDA, öğrenme sürecini bilgiyi kontrollü biçimde paylaşan dört sıkı bağlı parçaya bölerek bu zayıflıkları ele alıyor. Birinci bölüm, Hibrit Çapraz-Görünüm Dikkati (Hybrid Cross-View Attention), aynı verinin—örneğin bir filmi betimleyen metin ve görüntülerin—farklı görünümlerine bakar ve her adımda hangi görünümün diğerini etkilemesi gerektiğini öğrenir. Modelin tek bir görünüme fazla bağımlı olmasını engelleyen, her görünümü ayırt edici tutarken aynı zamanda genel bir uyum sağlayan matematiksel araçlar kullanır. Basitçe söylemek gerekirse, modele tüm “duyularını” dinlemeyi, bunların birinin diğerlerini boğmasına izin vermemeyi öğretir.
Görevleri Ayrık Tutup Yine de İşbirliğini Sağlamak
İkinci bölüm, Uyum Sağlayan Göreve Özgü Dallanma (Adaptive Task-Specific Branching), birçok görevin paylaştığı genel bilgiyi her görevin kendine özgü ihtiyaçlarından ayırır. Tüm görevleri aynı özellikleri kullanmaya zorlamak yerine, UMDA her görev için ayrı “dallar” kurar; bu dallar yine de dikkatle ağırlıklandırılmış bağlantılar aracılığıyla birbirleriyle iletişim kurabilir. Eğitim hedefine eklenen cezalandırma terimleri bu dalları uzmanlaşacak kadar farklı, ancak işbirliğini kaybettirecek kadar uzaklaşmayacak şekilde zorlar. Bu denge, görevler arasındaki zararlı müdahaleyi azaltırken birbirlerinden öğrenmenin faydalarını korur.
Örnek Koleksiyonlarında Yapıyı Görmek
Birçok gerçek veri kümesi ilişkili öğe koleksiyonları şeklinde gelir — örneğin tek bir tıbbi slayttan alınan birden çok görüntü yaması veya bir videodan birçok kare. UMDA’nın üçüncü bölümü olan Graf Tabanlı Çoklu Örnek Havuzlama (Graph-Based Multi-Instance Pooling), bu öğeleri bir ağın düğümleri olarak ele alarak aralarındaki ilişkileri açıkça modeler. Benzer öğeleri birbirine bağlar, bu bağlantılar boyunca bilgi akışına izin verir ve ardından tüm koleksiyonu tek, sıkıştırılmış bir temsile özetler. Ek düzenleme (regularization), yakın öğelerin birbirine uyum sağlamasını teşvik ederken yeterli çeşitliliği korur; böylece basit ortalamanın kaçıracağı yapısal örüntüleri yakalar.

Sürekli Ayarlanan Eğitim ile Kararlı İlerleme
Son bölüm, Öz-Yönlendirmeli Öğrenme (Self-Guided Learning), modelin iç yapısından çok eğitimin nasıl yapıldığına odaklanır. Her görev için eğitim sinyallerinin ne kadar güçlü ve ne kadar benzer olduğunu sürekli ölçer ve ardından her görevin öğrenme hızını otomatik olarak ayarlar. Ayrıca gradyanları — modelin nasıl değişeceğini söyleyen sinyalleri — düzleştirir ve yeniden ağırlıklandırır; böylece benzer hedefleri olan görevler birbirini güçlendirirken çok farklı yönlere çeken görevler eğitimi kararsızlaştırmaz. Film özetleri ve posterlerini karıştıran standart bir veri kümesinde yapılan testlerde UMDA, düzinelerce son teknoloji rakibine kıyasla daha yüksek ortalama doğruluk elde etti, görünümler arasındaki ilişkiyi daha tutarlı tuttu ve eğitim kararsızlığının önemli bir ölçüsünü yarıdan fazla azalttı.
Gerçek Dünyadaki Yapay Zekâ Sistemleri İçin Anlamı
Uzman olmayanlar için ana mesaj şudur: UMDA, farklı veri türleri ve hedefleri daha güvenilir şekilde işleyebilen tek modeller geliştirmek için bir yol sunuyor. Modele ne zaman bilgi paylaşıp ne zaman ayrı tutması gerektiğini öğreterek ve öğrenme sürecini otomatik olarak ayarlamasına izin vererek çerçeve daha iyi tahminler, daha tutarlı iç temsiller ve daha düzgün bir eğitim sağlar. Bu özellikler, yapay zekânın birçok sinyali aynı anda dengeli biçimde yorumlaması gereken tıp, otonom sürüş ve diğer karmaşık uygulamalar için UMDA’yı umut vadeden bir yapı taşı yapar.
Atıf: Mahmood, K., Althobaiti, M.M., Hassan, M.U. et al. Multitask optimization and convergence stability with hierarchical feature learning for self guided optimization. Sci Rep 16, 6414 (2026). https://doi.org/10.1038/s41598-026-36622-y
Anahtar kelimeler: çok görevli öğrenme, multimodal yapay zeka, derin öğrenme kararlılığı, dikkat ağları, graf sinir ağları