Clear Sky Science · sv
En robust noll-vattenmärkningsmetod för ljud med multifunktionella fingeravtryck och maskininlärning
Varför dolda märken i ljud spelar roll
Varje dag kopieras, strömmas och delas låtar, poddar och inspelningar över internet. Denna enkla åtkomst är fantastisk för lyssnare, men gör det svårt för upphovspersoner och företag att bevisa äganderätt till sitt ljud utan att påverka ljudkvaliteten. Artikeln som beskrivs här presenterar ett nytt sätt att ”märka” ljud så att äganderätt kan styrkas även efter kraftig bearbetning — samtidigt som originalljudet förblir helt orört.

Skydda ljudet utan att röra det
Traditionell digital vattenmärkning fungerar lite som ett svagt stämpelmärke tryckt i en bild eller en låt: extra data läggs till i filen. Med ljud kan dock även små förändringar ge hörbara artefakter eller skapa juridiska problem, särskilt för forensiska, medicinska eller arkivinspelningar som måste förbli perfekta. Noll-vattenmärkning tar en annan väg. Istället för att ändra ljudet studerar den unika mönster som redan finns i inspelningen och använder dem för att skapa ett ”fingeravtryck” som lagras separat. Vid en tvist kan detta fingeravtryck jämföras med en misstänkt inspelning för att se om de matchar — inga modifieringar av originalsignalen behövs.
Lyssna på ljudet från många vinklar
Författarna föreslår ett noll-vattenmärkningssystem som analyserar ljudet på flera kompletterande sätt samtidigt. Först delas ljudet upp i korta, icke-överlappande segment eller ramar. För varje ram mäter systemet nio olika egenskaper som beskriver hur ljudet beter sig över tid, hur dess energi fördelas över låga och höga toner och hur dess struktur ser ut när den behandlas som ett nätverk av relaterade prover. Några egenskaper speglar snabba förändringar, som plötsliga slag eller anslag; andra fångar var största delen av energin ligger i spektrumet eller hur bred frekvensomfånget är; ytterligare andra destillerar den övergripande formen av signalen i matematiska transformeringar. Tillsammans målar dessa mätningar en rik bild av varje ögonblick i ljudet.
Från rika mätvärden till ett stabilt fingeravtryck
Alla aspekter av ett ljud överlever inte tuff bearbetning lika bra. Komprimering, filtrering, omprovtagning och förändringar i tid eller tonhöjd kan förvränga vissa egenskaper men lämna andra nästan opåverkade. För att hantera detta utvärderar metoden hur var och en av de nio egenskaperna beter sig under många olika simulerade angrepp. Egenskaper som förblir stabila ges högre vikt, medan de som varierar tonas ner. För varje ram blandas de viktade egenskaperna till ett enda sammansatt värde. En glidande jämförelse mot närliggande ramar förvandlar sedan denna kontinuerliga spårning till en sekvens av nollor och ettor, ungefär som att göra ett streckkodsliknande mönster av ljudets variationer. Denna binära sekvens kombineras sedan med den önskade vattenstämpeln (till exempel en liten logotypbild konverterad till bitar), vilket ger det slutliga ljudfingeravtrycket som unikt knyts till just det innehållet.

Lära en maskin att läsa genom bruset
Huvudutmaningen är att återvinna samma fingeravtryck efter att ljudet har utsatts för angrepp — exempelvis genom att lägga till brus, komprimera till MP3 eller förändra uppspelningshastigheten något. För att lösa detta tränar författarna en maskininlärningsmodell kallad Random Forest. Under träningen ser systemet många exempel på samma ljudramar både i originalform och efter olika förvrängningar, tillsammans med korrekt binär ”etikett” för varje ram. Random Forest lär sig vilka kombinationer av tids-, frekvens- och strukturella egenskaper som motsvarar en 0 eller en 1. Senare, när en misstänkt inspelning analyseras, bearbetas dess ramar på samma sätt och den tränade skogen förutsäger den binära sekvensen. Genom att kombinera denna förutsagda sekvens med det lagrade fingeravtrycket kan den ursprungliga vattenstämpeln rekonstrueras och jämföras med den verkliga. Författarna ger också ett matematisk resonemang som visar varför betoning av stabila egenskaper och användning av en röstningsbaserad klassificerare bör hålla rekonstruktionsfelen låga, även vid kraftiga angrepp.
Hur väl metoden håller
För att testa systemet tillämpade forskarna det på 100 musikklipp från flera genrer samt på tal- och miljöljud från välkända publika dataset. De utsatte sedan det vattenmärkta innehållet för en bred uppsättning påfrestningar: bakgrundsbrus, högt- och lågfiltning, MP3-komprimering, omprovtagning och omkvantisering, små förändringar i uppspelningshastighet och tonhöjdsskift. De använde också en krävande testsvit kallad Stirmark, speciellt utformad för att utmana vattenmärkningsmetoder. I nästan alla förhållanden skiljde sig de återvunna vattenmärkena från originalen i mindre än fyra procent av bitarna, och likhetspoängen förblev mycket höga, vilket betyder att vattenstämpelns mönster i stort sett bevarades. Jämfört med flera moderna noll-vattenmärkningsmetoder visade det nya tillvägagångssättet generellt lika bra eller bättre motståndskraft, särskilt vid knepiga tid- och tonhöjdsmodifikationer, samtidigt som ljudet förblev helt orört.
Vad detta betyder för vardagligt ljud
Enkelt uttryckt visar detta arbete att det är möjligt att bevisa äganderätten till en låt eller inspelning utan att ändra en enda provpunkt i det underliggande ljudet. Genom att omsorgsfullt kombinera många synsätt på ljudsignalen och använda maskininlärning för att läsa igenom förvrängningar producerar metoden ett robust fingeravtryck som överlever vanlig bearbetning i verkliga förhållanden. Det gör den till ett lovande verktyg för skivbolag, strömningstjänster, arkiv och alla sammanhang där ljud måste förbli orört men ändå vara starkt skyddat mot missbruk.
Citering: Khaleel, D.I., Mosleh, M., Al-nidawi, W.J.A. et al. A robust audio zero watermarking scheme using multi feature fingerprints and machine learning. Sci Rep 16, 13504 (2026). https://doi.org/10.1038/s41598-026-40419-4
Nyckelord: ljudvattenmärkning, digital upphovsrätt, maskininlärning, signalbehandling, innehållsskydd