Clear Sky Science · tr

Çoklu özellik parmak izleri ve makine öğrenimi kullanarak sağlam bir sıfır ses filigranı şeması

2026-03-14 · Dizine geri dön

Ses İçindeki Gizli İşaretlerin Önemi

Her gün şarkılar, podcast’ler ve kayıtlar internet üzerinden kopyalanıyor, yayınlanıyor ve paylaşılıyor. Bu kolay erişim dinleyiciler için harika, ancak içerik oluşturucuların ve şirketlerin sesin kendisine zarar vermeden mülkiyeti kanıtlamasını zorlaştırıyor. Burada anlatılan makale, orijinal sesi tamamen değiştirmeden, yoğun işleme sonrasında bile mülkiyeti kanıtlamaya izin veren yeni bir “işaretleme” yöntemi sunuyor.

Sesin Dokunmadan Korunması

Geleneksel dijital filigranlama, bir resme veya şarkıya hafifçe basılmış bir damga gibi çalışır: orijinal dosyaya ekstra veriler eklenir. Ancak ses söz konusu olduğunda, en ufak değişiklikler bile işitilebilir bozulmalara yol açabilir veya adli, tıbbi ya da arşiv kayıtları gibi kusursuz kalması gereken kayıtlar için hukuki sorunlar doğurabilir. Sıfır-filigranlama farklı bir yol izler. Sesi değiştirmek yerine, ses içinde zaten var olan benzersiz desenleri inceler ve bunlardan dışarıda saklanan bir “parmak izi” oluşturur. Bir uyuşmazlık durumunda, bu parmak izi şüpheli bir kayıtla karşılaştırılarak eşleşip eşleşmediği kontrol edilebilir—orijinal sinyale hiçbir düzenleme uygulanmaz.

Sesi Birden Çok Açıdan Dinlemek

Yazarlar, sesi aynı anda birden çok tamamlayıcı şekilde dinleyen bir sıfır-filigranlama sistemi öneriyor. Önce, ses kısa, örtüşmeyen parçalara, yani çerçevelere bölünür. Her çerçeve için sistem, sesin zaman içindeki davranışını, enerjisinin düşük ve yüksek tonlara nasıl dağıldığını ve örneklerin ilişkili bir ağ gibi ele alındığında yapısının nasıl göründüğünü tanımlayan dokuz farklı özellik ölçer. Bazı özellikler ani vuruşlar veya başlangıçlar gibi hızlı değişimleri yansıtır; diğerleri spektrumdaki enerji yoğunluğunun nerede olduğunu veya frekans aralığının ne kadar geniş olduğunu yakalar; bazıları ise sinyalin matematiksel dönüşümlerle elde edilen genel biçimini özetler. Birlikte, bu ölçümler sesin her anı için zengin bir portre çizer.

Zengin Ölçümlerden Kararlı Bir Parmak İzi Oluşturmak

Bir sesin tüm yönleri yoğun işleme altında eşit şekilde korunmaz. Sıkıştırma, filtreleme, yeniden örnekleme ve zaman veya perde değişiklikleri bazı özellikleri bozabilirken diğerlerini neredeyse dokunulmamış bırakabilir. Bunu aşmak için yöntem, dokuz özelliğin her birinin çeşitli simüle saldırılar altında nasıl davrandığını değerlendirir. Kararlı kalan özelliklere daha yüksek önem verilir, dalgalananlar ise önemsizleştirilir. Her çerçeve için ağırlıklı özellikler tek bir bileşik değerde birleştirilir. Komşu çerçevelerle kayan karşılaştırma, bu sürekli izi sıfırlar ve birler dizisine çevirir; tıpkı bir ses desenini barkoda dönüştürmek gibi. Bu ikili dizin, istenen filigranla (örneğin, bitlere dönüştürülmüş küçük bir logo görüntüsü) birleştirilerek o içeriğe özgü nihai ses parmak izini üretir.

Gürültü Arasından Okumayı Öğreten Bir Makine

Temel zorluk, ses saldırıya uğradıktan sonra aynı parmak izini tekrar elde edebilmektir—örneğin gürültü eklenmesi, MP3’e sıkıştırma veya hızın hafifçe değiştirilmesi gibi. Bunu çözmek için yazarlar, Rastgele Orman (Random Forest) adı verilen bir makine öğrenimi modeli eğitir. Eğitim sırasında sistem, aynı ses çerçevelerinin hem orijinal hem de farklı bozulmalar sonrası birçok örneğini ve her çerçeve için doğru ikili “etiketi” görür. Rastgele Orman, zaman, frekans ve yapısal özelliklerin hangi karışımlarının 0 veya 1’e karşılık geldiğini öğrenir. Daha sonra şüpheli bir kayıt analiz edildiğinde, çerçeveleri aynı şekilde işlenir ve eğitilmiş orman ikili diziyi tahmin eder. Bu tahmin edilen dizi saklı parmak iziyle birleştirilerek orijinal filigran yeniden oluşturulabilir ve gerçek olanla karşılaştırılabilir. Yazarlar ayrıca kararlı özelliklere vurgu yapmanın ve oylamaya dayalı bir sınıflandırıcı kullanmanın, güçlü saldırılar altında bile yeniden yapılandırma hatalarını düşük tutması gerektiğini gösteren matematiksel bir argüman sunar.

Yöntemin Ne Kadar Dayanıklı Olduğu

Sistemi test etmek için araştırmacılar, onu çeşitli türlerden 100 müzik klibine ve tanınmış herkese açık veri kümelerinden ek konuşma ve çevresel seslere uyguladılar. Ardından filigranlanmış içeriği geniş bir kötü muamele yelpazesine tabi tuttular: arka plan gürültüsü ekleme, yüksek ve düşük geçiren filtreler, MP3 sıkıştırması, yeniden örnekleme ve yeniden nicelendirme, çalma hızında küçük değişiklikler ve perde kaydırmaları. Ayrıca filigranlama şemalarını zorlamak üzere tasarlanmış zorlu bir test paketi olan Stirmark’ı kullandılar. Neredeyse tüm koşullarda, kurtarılan filigranlar orijinallerden yüzde dörtten daha az bit farkına sahipti ve benzerlik skorları çok yüksek kaldı; bu da filigran deseninin büyük ölçüde korunduğu anlamına geliyor. Birkaç son teknoloji sıfır-filigranlama yöntemiyle karşılaştırıldığında, yeni yaklaşım özellikle zaman ve perde değişiklikleri gibi zorlayıcı durumlarda genellikle eşit veya daha iyi dayanıklılık gösterdi ve sesin temiz kalmasını sağladı.

Günlük Ses İçin Anlamı

Basitçe söylemek gerekirse, bu çalışma bir şarkının veya kaydın tek bir örneğini bile değiştirmeden mülkiyetin kanıtlanabileceğini gösteriyor. Sinyale birçok farklı açıdan bakıp bozunmalar arasından okumayı sağlayan makine öğrenimini dikkatle birleştirerek, yöntem yaygın gerçek dünya işlemlerine dayanabilen sağlam bir parmak izi üretiyor. Bu, sesin dokunulmadan kalması gereken ancak kötüye kullanıma karşı güçlü biçimde korunması gereken plak şirketleri, yayın platformları, arşivler ve benzeri ortamlarda umut verici bir araç yapıyor.

Atıf: Khaleel, D.I., Mosleh, M., Al-nidawi, W.J.A. et al. A robust audio zero watermarking scheme using multi feature fingerprints and machine learning. Sci Rep 16, 13504 (2026). https://doi.org/10.1038/s41598-026-40419-4

Anahtar kelimeler: ses filigranlama, dijital telif hakkı, makine öğrenimi, sinyal işleme, içerik koruması