Clear Sky Science · he
אופי השגיאות ושיטות תיקון שגיאות באחסון מבוסס DNA קומבינטורי
לאחסן את נתוני העולם ב‑DNA
הטלפונים, השרתים ומרכזי הענן שלנו טובעים במידע, וטכנולוגיות האחסון המסורתיות מתקשות לעמוד בקצב. ה‑DNA — אותו מולקולה שנושאת מידע גנטי ביצורים חיים — מציע אלטרנטיבה מפתה: הוא צפוף במיוחד, מתמשך לאורך זמן וזקוק לכמעט אפס חשמל לשימור. מאמר זה חוקר זן חזק במיוחד של אחסון מידע ב‑DNA, שנקרא קידוד קומבינטורי של DNA, ומראה כיצד סוג חדש של תיקון שגיאות יכול להפוך אותו לאמין משמעותית בפועל.
איך לדחוס יותר ביטים ל‑DNA
אחסון DNA קונבנציונלי כותב מידע על‑ידי בחירה באחד מארבע הבסיסים (A, C, G, T) בכל מיקום לאורך גדיל DNA סינתטי. קידוד קומבינטורי של DNA נוקט בגישה שונה. במקום להשתמש ברצף קצר יחיד בכל מיקום, משתמשים בשילובים נבחרים בקפידה של קטעים קצרים. כל מיקום בהודעה הדיגיטלית מיוצג לא על‑ידי רצף בודד אלא על‑ידי קבוצה של רצפים הנבחרים מספרייה מוגדרת מראש. הדבר מגדיל משמעותית את כמות המידע שניתן לדחוס בכל שלב סינתזה, ומפחית עלות וזמן. עם זאת, זה גם אומר שכדי לקרוא נכונה "אות" בודדת של ההודעה המאוחסנת, המערכת חייבת לזהות את כל הקטעים שצריכים להיות נוכחים באותו מיקום.

כאשר חלק מהחתיכות נעלמות בשקט
מכיוון שמולקולות ה‑DNA מיוצרות ונקראות בכמויות גדולות, אותו רצף קומבינטורי מופיע פעמים רבות, וכל עותק מיוצר ונקרא עם פגמים קטנים. הכותבים בחנו כמה מערכי נתונים ניסיוניים וגילו שדפוס מסוים של טעות שולט באחסון קומבינטורי של DNA: מחיקתו של קטע יחיד מתוך שילוב שנכון בדרך אחרת. במילים אחרות, אחד מהחברים בקבוצה פשוט לא נצפה בקריאות הרצף, אף על פי ששאר הקטעים נצפו. "מחיקות קומבינטוריות אסימטריות" אלו הופכות לשכיחות במיוחד כאשר מספר הקריאות לכל רצף המאוחסן נמוך — מצב ריאלי במערכות בקנה מידה גדול, שבהן רצף קריאה עמוק יותר יקר. מתחת לכ‑50 קריאות בממוצע לכל רצף, התדירות של קטעים חסרים עולה בחדות, ומקשה או מונעת שיחזור של המידע המיועד באמצעות שיטות סטנדרטיות.
בדיקת שגיאות בקנה מידה גדול יותר
כדי לצאת מעבר להדגמות קטנות, הצוות שיתף פעולה עם שותף תעשייתי לבניית מערכת אחסון הוכחת‑רעיון בקנה מידה גדול המשתמשת ב‑DNA קומבינטורי. הם קידדו אלפי ביטים של טקסט ל‑640 רצפים קומבינטוריים מובחנים, כל אחד משתרע על שמונה מיקומים הנושאים מידע. פרוטוקולים מעבדתיים מיוחדים הרכיבו מאגרים של מולקולות DNA שבהן כל מולקולה ייצגה שילוב אחד של קטעים קצרים. החוקרים לאחר מכן רצפו מיליוני קריאות והשתמשו בצינור ניתוח מותאם המבוסס על BLAST, כלי יישור רצפים ידוע, כדי למצוא אילו קטעים הופיעו בכל מיקום. מערך נתונים גדול זה אישש את התצפית המוקדמת: כאשר כיסוי הקריאות היה גבוה, ניתן היה לשחזר את רוב השילובים, אבל כשהמספר הממוצע של קריאות לכל רצף ירד, קטעים חסרים — ומכאן שגיאות מחיקה — הפכו למכשול העיקרי לפענוח מדויק.

קוד שמצפה לשגיאות חד‑כיווניות
סכמות תיקון שגיאות מסורתיות המשמשות באחסון DNA לעתים מניחות ששגיאות הן בערך סימטריות — סמלים עלולים להתבלבל, להתווסף או להיעלם בסבירות דומה. הנחה זו אינה מתאימה ל‑DNA קומבינטורי, שבו הכשל הטיפוסי הוא שקטע שנמצא בשילוב המקורי לא מופיע כלל, בעוד שקטעים זדוניים נוספים נדירים יחסית. כדי להתמודד עם זה, המחברים תכננו קוד תיקון שגיאות חדש, הנקרא קוד VT קומבינטורי, המותאם להתנהגות חד‑כיוונית זו. הם מייצגים כל אות קומבינטורית כשורה במטריצה בינארית ומטפלים בקטעים החסרים כביטים המתהפכים רק מ‑1 ל‑0. הקוד משתמש בטביעת אצבע מתמטית, או "סינדרום", לכל אות שיכולה לגילוי איזה קטע נעלם, אפילו כאשר נצפה רק חלק מהשילוב. הסינדרומים עצמם מוגנים על‑ידי קוד ריד–סולומון, המאפשר התאוששות ממספר שגיאות כאלה לאורך רצף.
מבחן המתודה החדשה
החוקרים ניתחו את הקוד המותאם שלהם מול סכמת ריד–סולומון דו‑ממדית קונבנציונלית ששומשה בעבר באחסון DNA. הם בחנו את שניהם באמצעות סימולציות תוכנה ובניסוי גדול בקנה מידה שני, שבו חצי מהרצפים הוגנו בשיטה המסורתית וחצי בקוד הקומבינטורי החדש, תחת חזרתיות זהה. במגוון תנאים שבהם שגיאות מחיקה שלטו, הגישה החדשה שיחזרה יותר פעמים את הנתונים המקוריים כראוי, והיא הצליחה במיוחד כאשר כיסוי הקריאות היה נמוך. בתנאים הקשים הללו, הגישה המסורתית נכשלת לעתים קרובות בפענוח רצפים שלמים, בעוד שסכמת VT הקומבינטורית עדיין שחזרה אותם.
מדוע זה חשוב לארכיונים עתידיים של DNA
העבודה מראה שעשיית אחסון נתונים ב‑DNA מעשית אינה רק עניין של לדחוס יותר ביטים לתוך מולקולות — היא גם מצריכה תיקון שגיאות התואם לדפוסי השגיאה הממשיים של התהליכים המעבדתיים שבהם משתמשים. על‑ידי חקירה מדוקדקת של האופן שבו אחסון קומבינטורי של DNA נכשל, ועל‑ידי תכנון קודים המצפים במיוחד להיעלמות קטעים, הכותבים מצביעים על נתיב ברור לארכיונים מבוססי DNA אמינים וסקלאביליים יותר. ככל שמערכות מבוססות DNA יגדלו כדי לטפל באוספים גדולים אף יותר של נתונים, אסטרטגיות תיקון שגיאות אסימטריות ממוקדות כאלה יהיו חיוניות להפוך תערובות מולקולריות שבירות לזכרונות לטווח ארוך מהימנים.
ציטוט: Preuss, I., Sabary, O., Gabrys, R. et al. Error characterization and error correction approaches in combinatorial DNA-based storage. Sci Rep 16, 8093 (2026). https://doi.org/10.1038/s41598-026-38599-0
מילות מפתח: אחסון נתונים ב‑DNA, תיקון שגיאות, קידוד קומבינטורי, שגיאות מחיקה, צפיפות מידע