Clear Sky Science · sv

Ett integritetsbevarande fleranvändar-söksystem för multimodal artificiell intelligens

· Tillbaka till index

Varför det är viktigt att hålla smarta sökningar privata

Många av oss förlitar oss idag på molnbaserad artificiell intelligens för att gå igenom våra foton, dokument och till och med medicinska avbildningar. Dessa system är kraftfulla eftersom de kan förstå både bilder och ord, men de väcker också en svår fråga: hur kan vi njuta av den här bekvämligheten utan att överlämna innebörden av våra mest känsliga data till avlägsna servrar? Denna artikel presenterar PMIRS, ett nytt system som syftar till att låta många användare söka i blandade bild- och textsamlingar samtidigt som deras information hålls dold för de molnmaskiner som möjliggör sökningarna.

Figure 1
Figure 1.

Söka i bilder och text utan att visa deras innebörd

I centrum för moderna sökverktyg finns ”embeddings” — numeriska fingeravtryck som fångar innehållet i ett foto eller en mening så att en dator kan jämföra dem. Vanliga system skickar dessa fingeravtryck direkt till molnet, där de kan analyseras eller till och med missbrukas. PMIRS omarrangerar denna pipeline. Användare skickar först sina råa bilder och texter till ett lokalt lager, som omvandlar dem till fingeravtryck med en kompakt vision-och-språk-modell. Innan något lämnar användarens sida skruvas fingeravtrycken till på ett kontrollerat sätt och krypteras sedan. Molnet ser endast dessa skyddade fingeravtryck och helt krypterade kopior av de lagrade uppgifterna, men kan ändå utföra matchningar och returnera de bästa träffarna.

Lära sig från många användare utan att samla deras data

Att träna en bra bild–text-modell kräver normalt att stora mängder märkta exempel samlas på ett ställe — en tydlig integritetsrisk. PMIRS använder istället federated learning. I denna uppställning skickas den underliggande modellen, anpassad från den välkända CLIP-arkitekturen, ut till många enheter. Var och en tränar lokalt på sina egna privata bild–text-par och skickar tillbaka endast uppdaterade modellvikter, som i sin tur är krypterade. En central server medelvärdesbildar dessa uppdateringar för att förbättra en delad modell utan att någonsin se någons råa foton eller beskrivningar. Författarna krymper och finjusterar dessutom modellen genom en stegvis »destillations«-process som tar bort onödiga delar samtidigt som noggrannheten bevaras, vilket gör systemet tillräckligt lättviktigt för praktisk utrullning.

Dölja innebörden i ihopskrivna fingeravtryck

PMIRS skyddar förfrågningar med ett tvålagersskydd. Först delas varje fingeravtryck upp i block och varje block transformeras av en hemlig matris, plus ett noggrant utformat brusmönster. Denna förvrängning döljer datans ursprungliga struktur men är konstruerad så att när två relaterade objekt båda transformeras, förblir deras likhet densamma. För det andra krypteras resultatet med den allmänt använda AES-metoden, med nycklar som aldrig skickas öppet över nätverket. För situationer där en person behöver söka i en annan persons data — till exempel en läkare som konsulterar en specialist — använder systemet ett Diffie–Hellman-nyckelutbytesprotokoll så att de kan komma överens om delade hemligheter utan att exponera dem för avlyssnare.

Figure 2
Figure 2.

Hur väl systemet presterar i praktiken

För att testa huruvida dessa skydd medför en för stor kostnad byggde forskarna ett riktmärke som parar vardagsbilder med korta naturligt formulerade fraser — närmare hur folk faktiskt beskriver saker än enstaka etiketter. De jämförde PMIRS med en standard CLIP-baserad sökning över tre teman: naturmiljöer, tillverkade föremål och aktiviteter eller landskap. Över många arkivstorlekar fann PMIRS konsekvent en bättre balans mellan att fånga alla rätta resultat (recall) och undvika falska träffar (precision), vilket ledde till ett genomsnittligt F1-värde — ett kombinerat mått på noggrannhet — ungefär 7,7 % högre än baslinjen. Viktigt är att svarstiderna höll sig under ungefär 180 millisekunder, tillräckligt snabbt för interaktiv användning, och ofta något snabbare än den osäkra baslinjen trots de extra skyddsstegen.

Vad detta betyder för vardagsanvändare

Enkelt uttryckt visar PMIRS att det är möjligt att bygga molnbaserade sökverktyg som förstår bilder och text väl, betjänar många användare samtidigt och ändå håller varje persons datainnehåll utom räckhåll för molnleverantören. Genom att kombinera lokal träning, smart förvrängning av fingeravtryck, stark kryptering och säker nyckelutväxling erbjuder systemet en end-to-end integritetsbevarande pipeline snarare än att skydda endast ett stadium. Även om det ännu inte täcker alla tänkbara attacker och behöver vidare finputsning och verkliga fälttester, pekar arbetet mot framtida tjänster — såsom uppslag i medicinska bilder, kundsupport-botar eller företagsarkiv — där människor kan använda rik multimodal AI-sökning med mycket mindre oro för att deras personliga innehåll ska avslöjas eller missbrukas.

Citering: Gao, Y., Luo, W., Wang, C. et al. A privacy-preserving multi-user retrieval system for multimodal artificial intelligence. Sci Rep 16, 10348 (2026). https://doi.org/10.1038/s41598-026-40734-w

Nyckelord: integritetsbevarande AI, multimodal sökning, federated learning, krypterad sökning, säker molndatabehandling