Clear Sky Science · tr

Öznitelikleri eksik heterojen grafikler için bir bozulma-kurtarma üreteçli otoenkoder

· Dizine geri dön

Ağlardaki dağınık verinin önemi

Film önerilerinden akademik arama motorlarına ve ilaç keşfine kadar birçok modern araç, farklı türde nesneleri birbirine bağlayan ağlara dayanır: insanlar, makaleler, işletmeler, filmler veya proteinler. Bu heterojen grafikler yalnızca kimin kiminle bağlantılı olduğunu kaydetmekle kalmaz, her düğüme bir filmin konusu veya bir restoranın etiketleri gibi tanımlayıcı bilgiler de ekler. Gerçekte, bu bilgilerin çoğu eksik veya gürültülüdür ve bu durum, bu ağlar üzerinde yapılan tahminlerin kalitesini sessizce düşürür. Bu makale, bu tür kusurlu grafiklerde modelleri eğitmenin yeni bir yolunu tanıtarak veri boşlukları ve hatalarıyla daha iyi başa çıkabilmeyi amaçlar.

Figure 1
Figure 1.

Çok çeşitli öğelerin ağları

Her düğümün bir kişi olduğu ve her bağlantının bir arkadaşlık olduğu basit sosyal ağların aksine, heterojen grafikler birden fazla düğüm ve bağlantı türünü harmanlar. Akademik bir grafik yazarları, makaleleri ve yayınevlerini birbirine bağlayabilir; bir inceleme sitesi grafiği kullanıcıları, işletmeleri ve incelemeleri ilişkilendirebilir. Her düğüm özniteliklere sahiptir: bir makalenin anahtar kelimeleri, bir kullanıcının tercihleri veya bir filmin özeti gibi. Bu öznitelikler eksik veya bozulmuşsa, standart grafik yöntemleri düğümlerin güvenilir iç temsilini öğrenmekte zorlanır. Bu da bir makalenin alanını sınıflandırma, benzer işletmeleri gruplayma veya film önerme gibi sonraki görevlere zarar verir. Önceki yaklaşımlar genellikle eksik öznitelikleri tek seferlik, sabit kurallarla tamamlamaya çalıştı ve ardından modelleri bu tek, temizlenmiş veri sürümü üzerinde eğitti.

Maskelenmeden kontrollü bozulmalara

Daha yeni yöntemler eksik bilgiyi bir eğitim meydan okuması olarak ele alır: düğüm özniteliklerinin parçalarını kasıtlı olarak gizler (maskelenme adı verilen bir işlem) ve modeli gizlenmiş parçaları yeniden oluşturması için eğitirler. Bu “maskelen-ve-kurtar” stratejisi modelin bağlamı anlamasına yardımcı olur, ancak mevcut tasarımların çoğu sabit veya basit rastgele maskelenme şemaları kullanır. Bu yaklaşımlar modele sadece dar bir eksik örüntü aralığı gösterir ve gerçek dünya verilerinin bozulma şeklini doğru biçimde taklit edemez. Daha da kötüsü, erken aşamalarda çok fazla bilgi gizlenirse eğitim dengesizleşebilir; çok az maskelenme ise dayanıklılık geliştirmez. Yazarlar, eksik özniteliklerin ağın çoklu tür yapısıyla etkileşime giren rastgele, bağlama bağımlı bozulmalar gibi davrandığını ve bunların daha esnek ve kontrol edilebilir bir şekilde modellenmesi gerektiğini savunuyor.

Eksik veriye bir bozuklaştır-ve-kurtar bakışı

Önerilen çerçeve HGGAE, eksik öznitelikleri özellikleri ve bağlantıları kasıtlı olarak bozarak ortaya çıkan bir bozulma sürecinin sonucu olarak ele alır ve ardından bu bozulmaları geri almayı öğrenir. HGGAE önce düğüm özniteliklerini seçici olarak değiştirerek veya yerlerine farklı değerler koyarak ve çeşitli tür yollar boyunca bağlantı örüntülerini hafifçe değiştirerek grafiğin “gürültülü görünümlerini” oluşturur. Eğitilebilir bir modül her düğüme bir önem puanı atar ve hangi düğümlerin ne kadar bozulacağını bu puara göre belirler. Erken eğitimde sistem çoğunlukla daha az önemli düğümleri bozar ve böylece daha kolay kurtarma görevleri sunar. Eğitim ilerledikçe zorluk kademeli olarak artırılır ve daha bilgi taşıyan düğümler bozulmaya başlar. Bu müfredat-benzeri zamanlama, modelin daha zor yeniden yapılandırma sorunlarıyla karşılaşmadan önce stabilize olmasına izin verirken, gerçek eksik verinin belirsiz ve düzensiz doğasını daha iyi yansıtır.

Modeli dürüst ve verimli tutmak

Sadece gürültü eklemek yeterli değildir; modelin gerçekçi örüntülerden çok uzaklaşmasının da önüne geçilmelidir. Bu nedenle HGGAE bir adversaryal bileşen içerir: ayrı bir ağ temiz girdilerden gelen temsilleri bozulma sonrası üretilenlerden ayırt etmeyi öğrenir. Ana model yalnızca öznitelikleri ve yapısal örüntüleri yeniden oluşturmakla kalmaz, aynı zamanda bu ayrıştırıcıyı yanıltmak için de eğitilir; bu sayede yoğun bozulma olduğunda bile iç temsillerini “gerçek” veri manifolduna doğru itmeye zorlanır. Büyük grafiklerde hesaplamayı yönetilebilir tutmak için yöntem, her eğitim adımında yalnızca gerçekten bozulan düğümler üzerinde yeniden yapılandırma hatalarını hesaplar; tüm düğümler üzerinde değil. Bu seyrek-hedefli tasarım öğrenimi en bilgilendirici konumlara odaklarken, genel maliyeti tam grafik üzerinde yapılan standart bir geçiş belirler.

Figure 2
Figure 2.

Gerçek kıyaslarda kazanımları kanıtlamak

HGGAE’yi test etmek için yazarlar akademik makaleler, yazarlar, filmler ve işletmeleri temsil eden ve kasıtlı olarak eksik özniteliklere sahip dört standart heterojen grafik veri seti kullanır. Etiketli veri miktarı değişen koşullar altında düğüm sınıflandırma (araştırma alanı veya işletme kategorisi gibi etiketleri tahmin etme) ve kümeleme (benzer düğümleri gruplayma) görevlerini değerlendirirler. Bu görevlerde HGGAE tutarlı şekilde güçlü temel yöntemlerle eşleşir veya onları geride bırakır. Kazançlar özellikle seyrek ve gürültülü bir film veri setinde büyüktür; burada bir önemli doğruluk skoru yaklaşık sekiz yüzde puanı iyileşir. Ek deneyler, hem müfredat-temelli bozulma zamanlamasının hem de bozul-ve-kurtar mekanizmasının kritik olduğunu gösterir: bunlar kaldırıldığında veya sabit maskelerle değiştirildiğinde performansta belirgin düşüşler görülür.

Günlük grafik uygulamaları için ne anlama geliyor

Okuyucular için ana çıkarım şudur: karmaşık ağlardaki eksik bilgiyi gizlemek veya kaba bir şekilde yamamak yerine, özniteliklerin nasıl bozulduğunu aktif olarak simüle etmek ve modelleri bunları kontrollü biçimde onarmaya eğitmek daha güçlü olabilir. Eksik veriyi aşamalı bir bozulma süreci olarak görmek ve yapısal ipuçlarıyla ile bir adversaryal denetimi rehberlik etmek suretiyle HGGAE, gerçek dünya grafiklerinin dağınık olduğu durumlarda bile güvenilir kalan düğüm temsilleri öğrenir. Bu da sosyal, akademik veya ticari ağlara dayanan sistemlerde daha iyi tahminler ve daha anlamlı gruplamalar anlamına gelir; bu tür ortamlarda eksik veri kural, istisna değildir.

Atıf: Wang, Q., Shao, X. & Huang, X. A perturbation-recovery generative autoencoder for heterogeneous graphs with attributes missing. Sci Rep 16, 13538 (2026). https://doi.org/10.1038/s41598-026-44190-4

Anahtar kelimeler: heterojen grafikler, eksik öznitelikler, graf otoenkoder, temsil öğrenimi, kendinden denetimli öğrenme