Clear Sky Science · tr

M6: çoklu-jeneratör, çoklu-alan, çok-dilli ve kültürel, çok-türlü, çok-enstrümanlı makine tarafından üretilen müzik tespiti veritabanları

· Dizine geri dön

Yapay zekâ üretimli müziğin yükselişi neden önemli

Müzik akış platformları, fark edilmeksizin insanlar tarafından değil algoritmalar tarafından yazılmış şarkılarla dolmaya başladı. Bu makine üretilmiş parçalar terapi, film müziği veya günlük çalma listeleri için kullanışlı araçlar olabilir; ancak insan yaratıcılığı ile otomatik üretim arasındaki çizgiyi belirsizleştirebilirler. Bu makale, araştırmacıların insan yapımı ve yapay zekâ yapımı müziği ayırt etmelerine ve aralarındaki farkları anlamalarına yardımcı olmak için oluşturulan büyük yeni bir müzik koleksiyonu olan M6’yı tanıtıyor. Amaç, sanatçılara adil kredi verilmesini desteklerken yapay zekânın müzik yaratımında yapıcı bir rol oynamasına imkan sağlamaktır.

Büyük bir müzik test ortamı oluşturmak

Yazarlar, yapay zekâ tarafından üretilen müziğin tespitinde ilerlemenin uygun veri eksikliği nedeniyle geride kaldığını savunuyor. Mevcut koleksiyonlar ya müziği metin açıklamalarına eşleştirmek gibi diğer görevlere odaklanıyor ya da yalnızca sınırlı bir müzik tarzı dilimini kapsıyor. M6 bu boşluğu doldurmak üzere tasarlandı. İnsanlar tarafından yapılmış binlerce parçayı çeşitli yapay zekâ sistemleri tarafından üretilmiş binlerce parça ile birleştiriyor ve bunları standart bir ses formatında paketliyor. Veri seti kasıtlı olarak geniş: birçok enstrüman, dil, kültür, tür, parça uzunluğu ve hem vokalli şarkılar hem de enstrümantal arka plan parçalarını kapsıyor. Bu zengin çeşitlilik, bilim insanlarının tespit yöntemlerinin gerçekçi ve sürekli değişen müzikal ortamlarda işe yarayıp yaramadığını test etmelerine olanak veriyor.

Figure 1
Şekil 1.

İnsanlardan ve makinelerden şarkılar toplamak

M6’nın insan tarafını bir araya getirmek için ekip, GTZAN (müzik türleri için), Free Music Archive, COSIAN (Japon vokal müziği) ve bireysel enstrüman sesleri veri seti gibi iyi bilinen açık koleksiyonlardan yararlandı. Ayrıca lisansların izin verdiği durumlarda akış platformlarından ek şarkılar örnekleyerek, yalnızca kısa geçişler yerine ana müzikal fikri açıkça sergileyen klipleri seçtiler. Makine tarafında ise açık araştırma modelleri ve ticari araçlar da dahil olmak üzere birkaç son teknoloji sistem kullanılarak yeni müzikler üretildi. Bazılarını bir dil modeli tarafından oluşturulan dikkatle tasarlanmış istemler (prompt) kullanarak bu sistemlerden belirli stillerde, tempolarda veya belirli enstrümanlarla müzik oluşturması istendi; böylece yapay zekâ parçaları insan müziğinin çeşitliliğini yansıtacak şekilde üretildi.

Kaliteyi kontrol etmek ve ince farkları tespit etmek

Müzikal kalite yargıları öznel olduğundan, yazarlar dinleyici görüşlerini nesnel ölçümlerle birleştirdiler. Her parça için ritimlerin ne kadar karmaşık olduğu, melodik aralığın genişliği, ses spektrumunun parlaklığı ve sinyalin taşıdığı enerji miktarı gibi yönleri yakalayan basit sayısal tanımlayıcılar hesapladılar. Ortalama olarak, yapay zekâ yapımı parçalar bu ölçümlerde insan yapımı parçalardan farklılık gösterdi—örneğin genellikle biraz daha dar perde aralıklarına veya daha düşük genel enerjiye sahip olabiliyorlardı—ancak farklar öyle küçüktü ki dikkatli karşılaştırma yapılmadan çoğu dinleyici farkı hissetmezdi. 50 gönüllü ile yapılan dinleme testlerinde insanlar bir kliğin insan yapımı mı yoksa yapay zekâ yapımı mı olduğunu ancak yaklaşık yarı yarıya doğru tespit edebildiler; yani madeni para atmak kadar iyi. Bu, yapay zekâ müziğinin sıradan dinleyicileri kolayca kandırabilecek bir olgunluğa ulaştığını gösteriyor.

Tespit yöntemlerini test etmek

M6 hazır olunca, araştırmacılar yapay zekâ tarafından üretilmiş müziği tespit etme konusunda çeşitli bilgisayar modellerini değerlendirdiler. Klasik makine öğreniminden, spektrogramları işleyen görüntü tarzı sinir ağlarına, transformer modellerine ve sahte konuşmayı tespit etmek için tasarlanmış modern ses sistemlerine kadar birçok yaklaşımı denediler. Modeller benzer türde müzik üzerinde eğitilip test edildiğinde, özellikle zaman-frekans yapısındaki desenlere odaklanan konvolüsyonel ağlar yüksek doğruluk sağladı. Bununla birlikte, modeller daha önce görmedikleri "alan dışı" müziklerle—tarzlar, diller veya jeneratörler—karşılaştıklarında performans keskin biçimde düştü. Çalışma ayrıca farklı yapay zekâ müzik sistemlerinin belirgin akustik "parmak izleri" bıraktığını ortaya koydu; bu bazı jeneratörleri tespit etmeyi kolaylaştırırken, tespit sistemlerinin makine yapımı müziğin daha derin özellikleri yerine belirli araçlara fazla uyum sağlama riski olduğunu da gündeme getiriyor.

Figure 2
Şekil 2.

Müzik ve yapay zekâ için bunun anlamı

M6 projesi, bilgisayarların tanıdık ortamlarda yapay zekâ üretimli müziği sıklıkla doğru şekilde işaretleyebildiğini, ancak vahşi doğada yani gerçek dünyada sağlam tespitin hâlâ büyük bir zorluk olduğunu gösteriyor. İnsan dinleyiciler zaten farkı ayırt etmekte zorlanıyor ve mevcut algoritmalar müzik türü, dil, uzunluk veya üretim yöntemi değiştiğinde başarısız oluyor. Yazarlar, büyük, çeşitli ve açıkça erişilebilir bir veri seti yayınlayarak daha güvenilir ve şeffaf tespit araçlarının geliştirilmesini teşvik etmeyi umuyor. Bu tür araçlar, dijital müzik platformlarında güvenin korunmasına, insan sanatçılara adil tanınma sağlanmasına ve gelecekteki yapay zekâ sistemlerinin müzisyenlerle işbirliği yapmayı sessiz bir şekilde yerlerinden etmek yerine tercih etmesine yardımcı olabilir.

Atıf: Li, Y., Li, H., Specia, L. et al. M6: multi-generator, multi-domain, multi-lingual and cultural, multi-genres, multi-instrument machine-generated music detection databases. Sci Rep 16, 9237 (2026). https://doi.org/10.1038/s41598-026-36044-w

Anahtar kelimeler: Yapay zeka tarafından üretilen müzik, derin sahte ses, müzik tespiti, makine öğrenimi, dijital yaratıcılık