Clear Sky Science · he

מערכת שליפה מרובת משתמשים שמשמרת פרטיות עבור בינה מלאכותית מולטימודלית

· חזרה לאינדקס

מדוע חשוב לשמור על פרטיות בחיפושים חכמים

רבים מאיתנו מסתמכים כיום על בינה מלאכותית מבוססת ענן כדי למיין תמונות, מסמכים ואפילו סריקות רפואיות. מערכות אלה חזקות מכיוון שהן מבינות גם תמונות וגם טקסט, אך הן גם מעוררות שאלה קשה: איך נהנה מנזילות זו מבלי למסור לשרתים מרוחקים את משמעות הנתונים הרגישים שלנו? מאמר זה מציג את PMIRS, מערכת חדשה שמטרתה לאפשר למשתמשים רבים לבצע חיפושים על אוספי תמונות וטקסט מעורבים תוך שמירה על המידע שלהם מוסתר מהמכונות בענן שמבצעות את החיפושים.

Figure 1
Figure 1.

לחפש תמונות וטקסט בלי לחשוף את משמעותם

בלב כלי החיפוש המודרניים נמצאות "הטמעות"—טביעות אצבע מספריות שתופסות את התוכן של תמונה או משפט כדי שמחשב יוכל להשוות ביניהם. מערכות סטנדרטיות שולחות את טביעות האצבע האלה ישירות לענן, שם הן עלולות להיות מנותחות או אפילו מנוצלות לרעה. PMIRS משנה את צינור העבודה הזה. המשתמשים שולחים תחילה את התמונות והטקסט הגולמיים לשכבה מקומית, שממירה אותם לטביעות אצבע באמצעות מודל קומפקטי של ראייה ושפה. לפני שמשהו עוזב את צד המשתמש, טביעות האצבע מופרעות באופן מבוקר ואז מוצפנות. הענן רואה רק את טביעות האצבע המוגנות הללו והעותקים המוצפנים במלואם של הנתונים המאוחסנים, ועדיין יכול לבצע התאמות ולהחזיר את התוצאות הטובות ביותר.

ללמוד ממספר משתמשים בלי לאגד את הנתונים שלהם

אימון מודל תמונה–טקסט טוב בדרך כלל דורש איסוף כמות עצומה של דוגמאות מתויגות במקום אחד—סיכון פרטיות ברור. PMIRS משתמשת במקום זאת בלמידה פדרטיבית. בסידור זה, המודל הבסיסי, שמבוסס על ארכיטקטורת CLIP הידועה, נשלח לרבים מהמכשירים. כל מכשיר מאמן מקומית על זוגות תמונה–טקסט פרטיים ושולח בחזרה רק משקלי מודל מעודכנים, שגם הם מוצפנים. שרת מרכזי ממוצע את העדכונים הללו כדי לשפר מודל משותף מבלי לראות אף תמונה גולמית או תיאור של משתמש. המחברים מקטינים ומדייקים עוד יותר את המודל באמצעות תהליך "דיסטילציה" בשלבים שמקצץ חלקים מיותרים תוך שמירה על הדיוק, מה שהופך את המערכת לקלת-משקל מספיק לפריסה מעשית.

הסתרת המשמעות בתוך טביעות אצבע מופרעות

PMIRS מגנה על שאילתות באמצעות מגנון דו-שכבתי. ראשית, כל טביעת אצבע נחתכת לחסימות וכל חסימה מומרת על ידי מטריצה סודית בתוספת דפוס רעש מתוכנן בקפידה. הפרעת זו מסתירה את המבנה המקורי של הנתונים אך נערכה כך שכאשר שני פריטים קשורים עוברים את ההמרה, הדמיון ביניהם נותר זהה. שנית, התוצאה מוצפנת באמצעות שיטת AES המקובלת, עם מפתחות שלא נשלחים בגלוי ברשת. במצבים שבהם אדם צריך לחפש נתונים של אדם אחר—כמו רופא שמתייעץ עם מומחה—המערכת משתמשת בפרוטוקול החלפת מפתחות Diffie–Hellman כדי שיוכלו להסכים על סודות משותפים מבלי לחשוף אותם למאזינים.

Figure 2
Figure 2.

כיצד המערכת מתפקדת בפועל

כדי לבדוק האם ההגנות הללו גובות מחיר גבוה מדי, החוקרים בנו קנה מידה שמשדך תמונות יומיומיות עם ביטויים קצרים בשפה טבעית—קרוב יותר לאופן שבו אנשים באמת מתארים דברים מאשר תוויות של מילה אחת. הם השוו את PMIRS לחיפוש סטנדרטי מבוסס CLIP בשלושה תחומים: סצנות טבעיות, חפצים מיוצרים ופעילויות או נופים. בכל גדלי המאגר שנבדקו, PMIRS מצאה באופן עקבי איזון טוב יותר בין לכידת כל התוצאות הנכונות (recall) לבין הימנעות מהתאמות שגויות (precision), מה שהוביל לציון F1 ממוצע—מדד דיוק משולב—גבוה בכ־7.7% מהקו הבסיסי. חשוב לציין שזמני התגובה נשארו מתחת לכ־180 מילישניות, מהיר מספיק לשימוש אינטראקטיבי, ולרוב מעט מהירים יותר מהקו הבסיס הלא-מוגן אף על פי שלצעדי ההגנה הנוספים.

מה משמעות הדבר עבור משתמשים יומיומיים

במילים פשוטות, PMIRS מראה שניתן לבנות כלי חיפוש ענן שמבינים תמונות וטקסט היטב, משרתים משתמשים רבים בבת אחת ועדיין שומרים על משמעות הנתונים של כל אדם מחוץ להישג ידו של ספק הענן. בשילוב אימון מקומי, הפרעה חכמה של טביעות האצבע, הצפנה חזקה והחלפת מפתחות מאובטחת, המערכת מציעה צינור שלם ששומר על פרטיות במקום להגן רק על שלב אחד. אמנם היא עדיין לא מכסה כל מתקפה אפשרית ותזדקק לעוד שיפורים וניסויים בעולם האמיתי, אך העבודה מצביעה על שירותים עתידיים—כמו חיפוש תמונות רפואיות, בוטים לתמיכה בלקוחות או ארכיונים ארגוניים—שבהם אנשים יוכלו ליהנות מחיפוש בינה מלאכותית מולטימודלי עשיר עם דאגה מופחתת שמשתמשי תוכנם האישי ייחשפו או ינוצלו לרעה.

ציטוט: Gao, Y., Luo, W., Wang, C. et al. A privacy-preserving multi-user retrieval system for multimodal artificial intelligence. Sci Rep 16, 10348 (2026). https://doi.org/10.1038/s41598-026-40734-w

מילות מפתח: בינה מלאכותית השומרת על פרטיות, שליפה מולטימודלית, למידה פדרטיבית, חיפוש מוצפן, חישוב מאובטח בענן