Clear Sky Science · tr
Multimodal yapay zeka için gizliliği koruyan çoklu kullanıcı sorgulama sistemi
Neden akıllı aramaların gizli tutulması önemli
Birçoğumuz artık fotoğraflarımızı, belgelerimizi ve hatta tıbbi taramalarımızı ayıklamak için bulut tabanlı yapay zekâya güveniyoruz. Bu sistemler hem görüntüleri hem de kelimeleri anlayabildikleri için güçlüdür, ancak zor bir soruyu da beraberinde getirir: en hassas verilerimizin anlamını uzak sunuculara teslim etmeden bu kolaylıktan nasıl yararlanabiliriz? Bu makale, birçok kullanıcının görüntü ve metin karışık koleksiyonlarda arama yapmasına izin verirken bilgilerini bu aramaları çalıştıran bulut makinelerinden gizlemeyi amaçlayan yeni bir sistem olan PMIRS’i tanıtıyor.

Görüntüleri ve metinleri anlamını açığa çıkarmadan aramak
Modern arama araçlarının merkezinde, bir fotoğrafın ya da cümlenin içeriğini bilgisayarın karşılaştırabilmesi için yakalayan sayısal parmak izleri olan “embedding”ler bulunur. Standart sistemler bu parmak izlerini doğrudan buluta gönderir; bu da analiz edilebilmelerine veya kötüye kullanılabilmelerine yol açar. PMIRS bu boru hattını yeniden düzenliyor. Kullanıcılar önce ham görüntü ve metinlerini, kompakt bir görsel-ve-dil modeli kullanarak yerel bir katmana gönderir ve burada parmak izlerine dönüştürülür. Kullanıcının tarafından hiçbir şey çıkmadan önce bu parmak izleri kontrollü bir şekilde karıştırılır ve ardından şifrelenir. Bulut yalnızca bu korunmuş parmak izlerini ve depolanan verilerin tamamen şifrelenmiş kopyalarını görür, ancak yine de eşleştirme yapabilir ve en iyi sonuçları döndürebilir.
Verileri birleştirmeden çok sayıda kullanıcıdan öğrenmek
İyi bir görüntü–metin modeli eğitmek normalde büyük miktarda etiketli örneği tek bir yerde toplamayı gerektirir—bu da açık bir gizlilik riski oluşturur. PMIRS bunun yerine federated learning kullanır. Bu düzenekte, CLIP mimarisinden uyarlanmış temel model birçok cihaza gönderilir. Her cihaz kendi özel görüntü–metin çiftleri üzerinde yerel olarak eğitim yapar ve yalnızca güncellenmiş model ağırlıklarını gönderir; bu ağırlıklar da şifrelenmiştir. Merkezi bir sunucu bu güncellemeleri ortalayarak paylaşılan modeli iyileştirir, hiçbir kullanıcının ham fotoğraflarını veya açıklamalarını görmeden. Yazarlar ayrıca gereksiz parçaları budayarak doğruluğu koruyan aşamalı bir “distilasyon” süreciyle modeli küçültüp ince ayar yaparak sistemi pratik dağıtıma uygun hafifliğe indiriyorlar.
Karıştırılmış parmak izlerinin içine anlamı gizlemek
PMIRS sorguları iki katmanlı bir kalkanla korur. Önce, her parmak izi bloklara bölünür ve her blok gizli bir matrisle dönüştürülür, ayrıca dikkatle tasarlanmış bir gürültü deseni eklenir. Bu karıştırma verinin orijinal yapısını gizler ancak, iki ilişkili öğe her ikisi de dönüştürüldüğünde benzerliklerinin korunacağı şekilde düzenlenir. İkinci olarak, sonuç yaygın olarak kullanılan AES yöntemiyle şifrelenir; anahtarlar ağ üzerinden açıkça gönderilmez. Bir kişinin başka bir kişinin verisinde arama yapması gerektiği durumlar—örneğin bir doktorun bir uzmana danışması gibi—için sistem, dinleyicilere maruz kalmadan paylaşılan sırları üzerinde anlaşabilmeleri amacıyla Diffie–Hellman anahtar değişimi protokolünü kullanır.

Sistemin pratikte ne kadar iyi performans gösterdiği
Bu korumaların çok büyük bir maliyete yol açıp açmadığını test etmek için araştırmacılar, günlük görüntüleri kısa doğal dil ifadeleriyle eşleştiren bir kıyas seti oluşturdular—insanların bir şeyi tek kelime etiketlerinden çok nasıl tanımladığına daha yakın. PMIRS’i standart CLIP tabanlı bir aramayla üç tema boyunca karşılaştırdılar: doğal sahneler, üretilmiş nesneler ve aktiviteler veya manzaralar. Çok sayıda depo boyutunda PMIRS, doğru sonuçların tamamını yakalamak (recall) ile yanlış eşleşmelerden kaçınmak (precision) arasındaki dengeyi tutarlı şekilde daha iyi yakaladı; bu da ortalama F1 skoru—birleştirilmiş bir doğruluk ölçüsü—baz modele göre yaklaşık %7,7 daha yüksek oldu. Önemli olarak, tepki süreleri etkileşimli kullanım için yeterince hızlı olan yaklaşık 180 milisaniyenin altında kaldı ve ek koruma adımlarına rağmen genellikle güvenli olmayan tabana kıyasla biraz daha hızlıydı.
Günlük kullanıcılar için bunun anlamı
Açıkçası PMIRS, görüntüleri ve metinleri iyi anlayan, aynı anda çok sayıda kullanıcıya hizmet verebilen ve yine de her kişinin verisinin anlamını bulut sağlayıcısının erişiminden uzak tutabilen bulut arama araçları inşa etmenin mümkün olduğunu gösteriyor. Yerel eğitim, parmak izlerinin akıllıca karıştırılması, güçlü şifreleme ve güvenli anahtar değişimi birleştirilerek sistem yalnızca tek bir aşamayı korumak yerine uçtan uca gizliliği koruyan bir boru hattı sunuyor. Henüz her tür saldırıyı kapsamadığı ve daha fazla iyileştirme ile gerçek dünya denemelerine ihtiyaç duyduğu doğru olsa da, bu çalışma tıbbi görüntü aramaları, müşteri destek botları veya kurumsal arşivler gibi hizmetler için insanların kişisel içeriklerinin ifşa veya kötüye kullanılmasından çok daha az endişe duyarak zengin, multimodal yapay zekâ aramalarından yararlanabileceği bir geleceğe işaret ediyor.
Atıf: Gao, Y., Luo, W., Wang, C. et al. A privacy-preserving multi-user retrieval system for multimodal artificial intelligence. Sci Rep 16, 10348 (2026). https://doi.org/10.1038/s41598-026-40734-w
Anahtar kelimeler: gizliliği koruyan yapay zeka, multimodal arama, federated learning, şifreli arama, güvenli bulut bilişim