Clear Sky Science · tr

Sıralı kademeli hibrit uyarlanabilir derin ağlar tabanlı şarkı sözleri metin sınıflandırması için optimizasyon yaklaşımı

· Dizine geri dön

Neden Daha Akıllı Şarkı Filtreleri Önemli?

Müzik neredeyse kesintisiz olarak hayatımıza akar ve duyduklarımızın büyük kısmı algoritmalar tarafından seçilir. Yine de bu sistemlerin birçoğu hâlâ basit bir sorunda zorlanır: bir şarkıdaki sözler tam olarak ne söylüyor ve kimler için uygun? Bu makale, şarkı sözlerini otomatik olarak okuyan ve ruh hâli, tür, duygu ve hatta icracı tipi gibi özelliklere göre sınıflandıran gelişmiş bir yapay zeka (YZ) modeli kurarak bu sorunu ele alıyor. Amaç, çocuklar için daha güvenli çalma listeleri oluşturmak, ruh hâline dayalı önerilerin doğruluğunu artırmak ve müzik araştırmacıları için daha iyi araçlar sağlamaktır.

Figure 1
Figure 1.

Şarkı Sözlerinde Gizli Zorluk

Sözler iyi veya kötü kelimeler listesinden çok daha karmaşıktır. Aynı ifade bir şarkıda yumuşak, başka birinde tehditkâr hissedilebilir ve dinleyiciler duyduklarına kendi deneyimlerini katar. Geleneksel filtreler genellikle sabit hakaret listelerine veya basit istatistiksel tekniklere dayanır. Bu yaklaşımlar bağlamı kaçırır, değişen argo kullanımını takip edemez ve sık sık şarkıları yanlış etiketler. Aynı zamanda dijital müziğin patlaması, milyonlarca parçanın analiz edilmesi gerektiği anlamına gelir; farklı dillerde ve stillerdeki bu içerikler elle etiketlemeyi ve eski algoritmaları zorlar.

Ham Sözleri Temizlemek

Yazarlar, birlikte yüz binlerce şarkıyı kapsayan, farklı tür ve dillerden üç açık veri kümesinden büyük söz koleksiyonları derleyerek işe başlıyor. Herhangi bir YZ’nin metinden öğrenebilmesi için önce sözler temizlenmelidir. Sistem noktalama işaretlerini, özel sembolleri ve yineleyen veya alakasız parçaları kaldırır, sonra ilişkili sözcük formlarını ortak bir köke indirger (örneğin “singing”, “sings” ve “sang” hepsi “sing” hâline gelir). Bu ön işleme adımı, biçimlendirme tuhaflıklarını veya yazım farklılıklarını değil, anlamı koruyarak gürültüyü uzaklaştırır; böylece sonraki aşamalar duygusal tonu ve konuyu analiz etmeye odaklanabilir.

Figure 2
Figure 2.

İnce Kulaklı Bir Dinleyici Gibi Okuyan Katmanlı YZ

Çalışmanın merkezinde Sıralı Kademeli Hibrit Uyarlanabilir Derin Ağ (SCHADNet) adlı yeni bir model bulunuyor. Bu model modern dil YZ’sinden üç güçlü fikri birleştirir. Birincisi, transformer tabanlı bir kodlayıcı, kelimelerin tüm bir söz boyunca birbirleriyle nasıl ilişkilendiğini, sadece yan yana duranları değil, yakalar. İkincisi, çift yönlü Uzun Kısa Süreli Bellek (LSTM) katmanı, sözleri hem ileri hem geri okuyarak sistemin daha önceki satırların sonraki satırların anlamını nasıl renklendirdiğini anlamasına yardımcı olur. Üçüncüsü, Gated Recurrent Unit (GRU) katmanı bu bilgiyi nihai kararlara uygun, kompakt bir özet haline getirir. Birlikte bu bileşenler, her biri şarkı sözünün farklı yönlerine odaklanan uzman okuyuculardan oluşan bir koro gibi çalışır.

Denizden Çalınan Bir Strateji

Derin öğrenme katmanlarını üst üste koymak tek başına yeterli değildir; iç ayarları—örneğin kaç nöron içerdiği ve ne kadar süre eğitildiği—performansı güçlü şekilde etkiler. Bu seçimleri elle ayarlamak yerine yazarlar, deniz yırtıcılarının avlanma desenlerinden esinlenen bir optimizasyon yaklaşımına başvurur. İyileştirilmiş Marine Predators Algoritması (IMPA) birçok olası parametre kombinasyonunu keşfeder ve en iyi sonuçları verenlere doğru istikrarlı bir şekilde yaklaşır. Orijinal algoritmanın bu ortamda işe yaramayan parçalarını budayarak yakınsama iyileştirilir; yani sistem iyi çözümlere daha hızlı ve daha güvenilir şekilde ulaşır.

Sistemin Performansı Ne Kadar İyi?

Araştırmacılar SCHADNet’i IMPA ile üç farklı şarkı sözü veri kümesinde test eder ve klasik makine öğrenmesi sınıflandırıcıları ile sade LSTM, yalnızca transformer sistemleri ve hibrit ağlar gibi popüler derin öğrenme modellerini içeren bir dizi yerleşik yöntemle karşılaştırır. Doğruluk, geri çağırma (gerçekten ilgili şarkıların ne kadarının bulunduğu) ve diğer kalite ölçümleri açısından yeni yaklaşım tutarlı biçimde öne çıkar. Büyük çokdilli bir veri kümesinde yaklaşık %93 doğrulukla sınıflandırma yapar ve özellikle yüksek negatif prediktif değer elde eder; bu, etiketlenmiş bir kategoriye ait olmayan sözleri tanımada çok iyi olduğunu gösterir—aşırı sansürlemeyi veya yanlış etiketlemeyi önlemek için kritik bir özellik.

Dinleyiciler ve Yaratıcılar İçin Anlamı

Bir uzman olmayan için sonuç açıktır: yazarlar şarkı sözleri için daha nüanslı ve güvenilir bir okuma aracı geliştirmiştir. Ham kelime listelerine güvenmek yerine sistem tüm ifadeleri, bağlamı ve geniş müzik koleksiyonlarındaki örüntüleri inceler; sonra otomatik olarak ruh hâli, stil veya genç dinleyiciler için uygunluk gibi etiketler atar. Model karmaşık ve hesaplama açısından maliyetli olsa da daha akıllı ebeveyn kontrolleri, zengin ruh hâline dayalı çalma listeleri ve popüler müzikteki eğilimleri incelemenin yeni yolları için kapıyı açar. Gelecek çalışmalar veri ihtiyacını azaltmayı ve eğitim süresini hızlandırmayı hedefliyor; yine de mevcut haliyle SCHADNet, müzik platformlarının sözleri dikkatli bir insan dinleyicisi kadar iyi anlamaya yaklaştığı bir geleceğe işaret ediyor.

Atıf: Jasmine, R.L., Mukherjee, S., Robin, C.R.R. et al. Serial cascaded hybrid adaptive deep networks-based lyrics text classification using optimization approach. Sci Rep 16, 8527 (2026). https://doi.org/10.1038/s41598-026-38813-z

Anahtar kelimeler: müzik önerisi, şarkı sözü analizi, metin sınıflandırma, derin öğrenme, içerik denetimi