Clear Sky Science · he
כימות אי־ודאות בייצוגי חלבון על פני מודלים ומשימות
מדוע אמינות ב-AI לחלבונים חשובה
בינה מלאכותית הפכה למיקרוסקופ רב עוצמה לעולם הבלתי־נראה של החלבונים. "מודלי שפה לחלבונים" מודרניים מסוגלים לשער כיצד חלבון עשוי להיראות בתלת־ממד וכיצד עשוי להתנהג, רק מתוך רצף אבני הבנייה שלו. מודלים אלה כבר מסייעים בעיצוב תרופות ובהבנת מוטציות הגורמות למחלה. אבל יש בעיה חבויה: הם לעיתים נדירות מיידעים אותנו עד כמה יש לסמוך על הייצוגים הפנימיים שהם יוצרים. המאמר מתמודד עם הפער הזה בשאלה פשוטה אך בעלת השלכות גדולות: כשהמודל ממיר חלבון לענן של מספרים, כיצד ניתן לדעת האם הענן הזה באמת משקף ביולוגיה ממשית או שהוא סתם רעש?

משפטים לחלבונים
מודלי שפה פותחו במקור לעיבוד טקסט אנושי, לומדים איך מילים קשורות זו לזו ולנבא מה יבוא אחרי במשפט. אותן רעיונות מספקות כעת את הכוח למודלים שקוראים רצפי חלבון ו-DNA כאילו היו מילים ארוכות. עבור כל חלבון, המודל מייצר "הטמעה" — נקודה במרחב ממדי גבוה שנועדה לסכם מה המודל יודע על אותו חלבון. הטמעות אלו מוזנות למשימות יורשות רבות, כגון חיזוי מבנה, פונקציה והשפעת מוטציות. עם זאת, בניגוד לציוני חיזוי או מדדי ביטחון מוכרים, ההטמעות נלקחות לרוב במובן המילולי: אם המודל מחזיר וקטור, המשתמשים נוטים לסמוך עליו, אפילו באזורים של מרחב החלבונים שהמודל כמעט ולא ראה במהלך האימון.
לזהות מתי המודל מהמר
המחברים מציעים שיטה מעשית להעריך עד כמה הטמעה מהימנה, ללא שינוי במודל הבסיסי. הרעיון המרכזי שלהם הוא לספק למודל קבוצה של רצפי חלבון שבורים במכוון השומרים על הרכב בסיסי דומה אך מאבדים את כל הדפוסים הביולוגיים המשמעותיים. רצפים סינתטיים אלה משמשים כ"חצר גזים"—התייחסות למה שהמודל מייצר כשאין אות אמיתי ללמוד ממנו. לכל חלבון אמיתי, השיטה בודקת כמה משכניו הקרובים במרחב הפנימי של המודל שייכים לחצר הגזים זו. אם נקודות רבות בסביבה הקרובה מגיעות מרצפים משובשים, הייצוג של החלבון ככל הנראה לוקה בלמידה או עמום. המחברים מכנים את השבר הזה של שכנים מהחצר הגזים "מדד השכן האקראי" (Random Neighbor Score, RNS).
לקשור אי־ודאות לביצועים בעולם האמיתי
כדי לבדוק האם RNS משקף משהו חשוב מבחינה ביולוגית, הצוות ניתח אוספים גדולים של מבני וחומצות אמינו בעזרת מספר מודלים מתקדמים, כולל ESM-2 ו-ProtT5. הם מצאו שחלבונים שמבניהם נחזו בדיוק גבוה נטו להראות RNS נמוך — כלומר ההטמעות שלהם רחוקות מהחצר הגזים. לעומת זאת, חלבונים עם חיזויי מבנה גרועים חיו באזורים שבהם רצפים אמיתיים ומשובשים חופפים. הדפוס הזה נשמר על פני מודלים ומשימות שונות. כאשר הם בחנו בעיות יישומיות יותר, כמו חיזוי אילו שיירי חומצות אמינו נמצאים במגע בתלת־ממד או הקצאת מבנה שניוני, הם הבחינו בירידה ברורה בדיוק ככל ש-RNS עלה. במילים אחרות, ככל שההטמעה פחות בטוחה (RNS גבוה יותר), כך החיזוי היורשתי פחות אמין.

נקודות עיוורון במרחב החלבונים
RNS חשף גם נקודות עיוורון שיטתיות באיך המודלים מייצגים חלקים שונים של יקום החלבונים. אזורים חסרי מבנה אינטרינזי — מקטעים גמישים שאין להם מבנה יציב — הפגינו RNS גבוה בעקביות יותר מאשר דומיינים בעלי מבנה יציב, מה שמראה שהמודלים מתקשים יותר עם רצפים חלקלקים אלה. אפילו בתוך הפרוטאום האנושי הנחקר היטב, חלק משמעותי מהחלבונים הראו RNS שונה מאפס, מה שמעיד שהם לא מתוארים היטב על ידי מודלים פופולריים. באופן מפתיע, מודלים גדולים לא תמיד היו טובים יותר: מודל גדול המתמקד במבנה יכול היה להיות פחות בטוח לגבי חלבונים אנושיים רבים ממודל קטן וכללי יותר. עבור חלבונים חדשים ממטאגנומיקה ואפילו חלבונים "מהוללנים" שנבנו במחשב במטרה להיראות ריאליסטיים, RNS נמוך רמז שהמודלים מסוגלים להכליל בבטחה מעבר לנתוני האימון כשהדפוסים קוהרנטיים.
מסננים טובים יותר לתובנות ביולוגיות טובות יותר
המחברים בדקו לאחר מכן כיצד סינון מבוסס RNS משפיע על משימה קלינית רלוונטית: חיזוי האם שינוי של אות אחת בחלבון אנושי צפוי לשבש את תפקידו או לגרום למחלה. כאשר הגבילו את הניתוח לחלבונים עם RNS נמוך — שבהם ההטמעות נראו מהימנות — ביצועי המודל השתפרו באופן בולט, לעיתים הגיעו להבחנה חזקה בין וריאנטים מזיקים לנייטרליים. עבור חלבונים עם RNS גבוה, החיזויים ירדו לרמת אקראיות. ממצא זה תומך בהתפיסה שהטמעות לא אמינות מטילות גבול שקט על הדיוק המיטבי של כל כלי יורש המבוסס עליהן, ללא תלות בטריקים חכמים באימון.
מה המשמעות לשימוש ב-AI בביו־מדעי
עבור לא־מומחים, המסקנה היא שלא כל הייצוגים הנגזרים מ-AI לחלבונים שווים באמינותם, וכי ניתן כעת לכמת אמינות זו. מדד השכן האקראי משמש כביקורת בריאות פשוטה ואגנוסטית־מודל על ההטמעות: ניקוד נמוך מעיד שחלבון יושב בין רצפים ביולוגיים משמעותיים אחרים, בעוד שניקוד גבוה מצביע שהוא נוטה אל חצר גזים של דומים אקראיים. על ידי סינון או משקלול חלבונים על בסיס RNS לפני ביצוע חיזויי מבנה, הנחתת פונקציות או תעדוף וריאנטים מחלתיים, חוקרים יכולים להתמקד באזורים שבהם המודל באמת "מבין" את הנתונים. בדומה לכך שאף מדען לא ישתמש במיקרוסקופ מטושטש ללא שמים לב, עבודה זו טוענת שכל מודל שפה לחלבונים צריך לכלול שיטה משולבת להעריך את חדות התצפית הפנימית שלו על הביולוגיה.
ציטוט: Prabakaran, R., Bromberg, Y. Quantifying uncertainty in protein representations across models and tasks. Nat Methods 23, 796–804 (2026). https://doi.org/10.1038/s41592-026-03028-7
מילות מפתח: מודלי שפה לחלבונים, אמינות הטמעה, אי־ודאות בייצוגים, חיזוי השפעת וריאנטים, חלבונים חסרי מבנה אינטרינזי