Clear Sky Science · he

יצירת דגימות בדיקה גבוליות לבודקי אקראיות באמצעות אופטימיזציה חכמה ואלגוריתמים אבולוציוניים

· חזרה לאינדקס

מדוע "כמעט אקראי" חשוב לביטחון היומיומי

בכל פעם שאתם קונים אונליין, פותחים את הטלפון או שולחים הודעה פרטית, קוברים מתמטיים בלתי נראה מתגלגלים כדי לשמור על המידע שלכם. קוברים אלה באים בצורת מחרוזות ארוכות של ביטים שלכאורה אקראיים, המשמשים כמפתחות קריפטוגרפיים. אם הביטים הללו פחות אקראיים ממה שצריך להיות, תוקפים נחושים עשויים לזהות דפוסים שניתן לנצל. מאמר זה בוחן שיטה חדשה לייצור רצפי בדיקה "כמעט אקראיים" — נתונים שנראים אקראיים מאוד אך מסתירים ליקויים זעירים — כדי למהנדסים תהיה דרך ממשית לבדוק בקפדנות את המכשירים ששומרים על חיינו הדיגיטליים.

כשמספרים אקראיים אינם אקראיים מספיק

מערכות אבטחה מודרניות מסתמכות על שני סוגים של מחוללי מספרים אקראיים. מחוללי מספרים אקראיים אמיתיים נשענים על תופעות פיזיקליות בלתי ניתנות לחיזוי, כמו רעש אלקטרוני או תזוזות קוונטיות, בעוד שמחוללים מדומה‑אקראיים משתמשים באלגוריתמים שממירים זרע קצר אקראי לרצפים ארוכים. בפועל, האיכות של שניהם תלויה בסופו של דבר במקור הפיזי של חוסר הוודאות, המכונה מקור אנטרופיה. לצערנו, מקורות אנטרופיה בעולם האמיתי הם שבירים: שינויים בטמפרטורה, הזדקנות חומרה או שגיאות תכנוניות יכולים להקטין בשקט את האקראיות. כדי לתפוס בעיות כאלה, גופים סטנדרטיים כמו NIST מגדירים חבילות בדיקות סטטיסטיות שבודקות האם הביטים הנפלטים נראים מספיק אקראיים. התקנים מטמיעים יותר ויותר "בודקי אקראיות בזמן אמת" שמנטרים את הפלט שלהם תוך כדי ריצה. עם זאת, לא הייתה דרך טובה לייצר מקרים כושלים מציאותיים שקשה לזהות, כדי לבדוק האם הבודקים המוטמעים אכן עובדים.

עיצוב רצפים שנכשלים בקושי בבדיקות אקראיות

מנקודת המבט של הבודק, כשלים טריוויאליים — כמו פלטים שמכילים אך ורק אפסים — קלים לגילוי. האתגר האמיתי הוא לזהות מקרים גבוליים: רצפים שקרובים מאוד לחוסר ההבחנה מול אקראיות אידיאלית אך כושלים רק בבדיקה סטטיסטית אחת או יותר. המחברים מתמקדים בחמש בדיקות קלאסיות שבוחנות היבטים שונים של דפוסי הביטים, כולל תדירות ההופעה של אפסים ואחדים, התנהגות של זוגות ביטים, התפלגות של תבניות קצרות מסוימות, קורלציה בין ביטים והעתקים משופשפים של עצמם, ואורך הרצפים של ביטים זהים. הם מגדירים "אזור גבול" לכל בדיקה: רצועה צרה שבה הנתונים סוטים במעט מהסף המקובל לקבלה. יצירת רצף ארוך שנמצא בתוך כל הרצועות הצרות האלה בו‑זמנית נדירה להפליא במקרה, משום שהבדיקות מתקשרות זו עם זו באופן מסובך ולא־ליניארי. כאן נכנסות האופטימיזציה והבינה המלאכותית לתמונה.

Figure 1
Figure 1.

תנו לאבולוציה ולמודלי שפה לתכנן יחד אקראיות לקויה

הצוות מציג מסגרת שנקראת APAM‑IGLLM שטורחת על יצירת רצפים כבעיה של אופטימיזציה בממד גבוה. כל רצף מועמד הוא מחרוזת של ביטים, ו"כושר" שלו מדוד לפי כמה הוא קרוב לאזורי הגבול של חמש הבדיקות. אלגוריתם גנטי משנה וממזג את הרצפים האלה שוב ושוב, ושומר את אלה שמתקרבים לאזור היעד. מעל זאת, מודל שפה גדול (LLM) פועל כמאמן אסטרטגי: בכל דור הוא בודק סטטיסטיקות סכמיות של האוכלוסייה וההיסטוריה לטווח הקצר, ואז מציע כיצד לכייל כפתורים פנימיים — משקלים ופקטורי קנה מידה שמחליטים עד כמה כל בדיקה משפיעה על הכושר. זה יוצר לולאת משוב: האלגוריתם הגנטי חוקר את מרחב הרצפים האפשריים, בעוד ה‑LLM מנווט את החיפוש כך שכל חמשת ציוני הבדיקה יתקרבו לחיתוך הקטן שבו הרצפים כושלים בקושי באי‑אקראיות.

Figure 2
Figure 2.

כמה קרובים לאקראיות מושלמת יכולים נתונים פגומים להיראות?

כדי להעריך האם הפגמים המלאכותיים נראים מציאותיים, המחברים משווים את הרצפים שיצרו מול בנצ'מרקים בשימוש נרחב. הם מחשבים גם אנטרופיית שאנון וגם מינ־אנטרופיה, מדדים של כמה בלתי‑ניתן‑לחיזוי כל בייט נראה, ומוצאים ערכים בסביבות 7.6–8 ביטים לבייט — קרוב מאוד למקסימום התיאורטי של 8 ודומה למקורות אקראיות חומרתיים מסחריים ולמשדר האקראיות הציבורי של NIST. הם גם מריצים את חבילת הבדיקות הסטטיסטיות המלאה NIST SP 800‑22 ומשתפים כי הרצפים הגבוליים שלהם עוברים ונכשים בדפוס שנראה כמעט זהה לזה של נתונים אקראיים איכותיים אמיתיים. במילים אחרות, לכלים הסטנדרטיים הדגימות הללו נראות בסך‑הכל תקינות, אף על פי שהן תוכננו בכוונה לשבת בקרבת מספר ספי כשל בו‑זמנית. זה עושה מהן קלטים "אדברסרייים" אידיאליים כדי לבדוק עד כמה בודקי האקראיות המוטמעים חזקים באמת.

מה משמעות הדבר לביטחון בעולם האמיתי

מנקודת מבט של קורא שאינו מומחה, עבודה זו מציעה דרך חדשה לבדוק את מכניזם מחוללי המספרים האקראיים שעליו נשענת הצפנה. במקום לבדוק מכשירים רק עם אקראיות שבורה לחלוטין או בריאה לחלוטין, מהנדסים יכולים עכשיו להציף אותם ברצפים מתוכננים בקפידה, כמעט־טובים, שמדמים ליקויים זעירים בחומרה או תזוזות סביבתיות. אם בודק אקראיות בזמן אמת מפספס מקרים גבוליים כאלה, זה מאותת על נקודת עיוורון פוטנציאלית שיש לפתור לפני פריסת המכשיר בבנקים, בתקשורת מאובטחת או במערכות בלוקצ'יין. באמצעות חיפוש אבולוציוני שמנוהל על‑ידי מודל שפה, המחברים מספקים כלי מעשי ליצירת נתוני בדיקה תובעניים כאלה, ובכך מסייעים לחזק את היסודות הנסתרים של אבטחה דיגיטלית לעבר רמות אמינות גבוהות יותר.

ציטוט: Gao, P., Zhang, B., Wang, Z. et al. Generating borderline test samples for randomness testers via intelligent optimization and evolutionary algorithms. Sci Rep 16, 7268 (2026). https://doi.org/10.1038/s41598-026-38020-w

מילות מפתח: מחוללי מספרים אקראיים, מקורות אנטרופיה, אלגוריתמים אבולוציוניים, מודלים שפתיים גדולים, בדיקות קריפטוגרפיות