Clear Sky Science · he

השוואה של קידודי תיקון שגיאות מתקדמים לאחסון נתונים מבוסס רצפים ב‑DNA

· חזרה לאינדקס

שמירת נתוני המחר בכונן הקשיח של הטבע

דמיינו להכיל את כל נתוני העולם במשהו שניתן להחזיק בכף היד. ה‑DNA — המולקולה שמאחסנת מידע גנטי ביצורים חיים — יכול במובן העקרוני להכיל מיליונים פעמים יותר נתונים לגרם מאשר הכוננים הקשיחים של היום. אבל להפוך סרטים, תמונות וארכיונים לרצפי DNA ולקרוא אותם חזרה בשלמות זה מורכב. המחקר הזה שואל שאלה מעשית: עם הטכנולוגיה והתוכנה הזמינות כיום, עד כמה אנחנו קרובים להשתמש ב‑DNA כמחסן נתונים רציני, ואילו שיטות "תרגום" דיגיטליות עובדות הכי טוב?

Figure 1
Figure 1.

איך קבצים דיגיטליים הופכים ל‑DNA

כדי לשמור נתונים ב‑DNA יש להמיר ביטים של מחשב לרצף של ארבעת אבני הבניין של ה‑DNA, לאחר מכן לייצר את הרצף במעבדה, לאחסן אותו ולקרוא אותו מאוחר יותר עם מקודדי DNA. בדרך יש הרבה מקומות שבהם דברים עלולים להשתבש: חלק מהרצפים מצטמצמים לחלוטין, אחרים צוברים אותיות נוספות או חסרות, ואחרים משוכפלים באופן לא שווה כך שחלק מהרצפים מיוצגים ביתר שאת בעוד שאחרים נדירים. כדי להתמודד עם זה, חוקרים מפתחים תוכנות קידוד–פענוח מיוחדות, שנקראות codecs, שמוסיפות עודף — מידע נוסף שמאפשר לתקן שגיאות ולהשיב חתיכות חסרות. המחברים בחרו שישה codecs מוכרים מהספרות ותקננו אותם כך שניתן יהיה להשוות ביניהם באופן הוגן בתנאים זהים.

בדיקת זיכרון ה‑DNA במחשב

הקבוצה הריצה תחילה סימולציות ממוחשבות מקיפות כדי לבדוק עד כמה כל codec יכול לשרוד סוגים שונים של נזקים. הם סימולרו מיליוני מקטעי DNA קצרים, כל אחד נושא חלק מקובץ מבחן, ואז הוסיפו באקראי החלפות אותיות, אותיות חסרות, אותיות נוספות ואפילו הסירו רצפים שלמים. חוזרים על הניסויים פעמים רבות איפשרו לקבוע את שיעורי השגיאות והאובדן המקסימליים שבהם כל codec עדיין יכול לשחזר את הקובץ באמינות גבוהה. שלב מרכזי היה "אשכולון" של העותקים הרועשים של כל רצף DNA ומיזוגם לרצף הסכמה נקי יותר לפני הפענוח. התרמיל הפשוט הזה הכפיל בקירוב את סובלנות השגיאות וגם האיץ את הפענוח, משום של‑codecs היו פחות רצפים אך באיכות גבוהה יותר לעבד.

ממעבדות נקיות למציאות מבולגנת

מערכות אחסון DNA אמיתיות שונות מאוד באופן שבו מסנתזים ומטפלים ב‑DNA, ולכן המחברים דימו שני תזרימים מעשיים. נתיב "בקשה גבוהה" השתמש במדפסת DNA מסחרית מודרנית ובאנזימי העתקה מדויקים, ויצר שיעורי שגיאות נמוכים ואובדן רצפים מועט. נתיב "בקשה נמוכה" השתמש בשיטת סינתזה זולה ושגיאותית יותר ובשלב העתקה גס יותר, מה שהכניס יותר טעויות ורצפים חסרים. בתוך כל נתיב הם גוונו כמה עותקים פיזיים מאוחסנים וכמה עומק רצף נקרא בסריקה, וחשפו סחר‑ופן בין צפיפות האחסון, עלות הרצף ואמינות. חלק מה‑codecs טיפלו היטב בשגיאות אותיות אקראיות אך נכשלו כאשר חסרו הרבה רצפים שלמים; אחרים היו מאוזנים יותר. שלוש גישות — DNA‑Aeon, DNA‑RS ושיטה מבוססת גרף שנקראת DBGPS (נבדקה בסימולציה) — נותרו כהכי חסינות הן מול סוגי השגיאה והן מול אובדן הרצפים.

Figure 2
Figure 2.

לדחוף את אחסון ה‑DNA לעבר גבולותיו

כדי לוודא שהסימולציות תואמות למציאות, החוקרים ביצעו ניסויים במעבדה בעקבות שני תזרימי העבודה — הן הגבוה והן הנמוך באיכות — באמצעות שתי טכנולוגיות סינתזה מסחריות. הם קידדו קבצי תמונה קטנים ליותר מ‑11,000 רצפי DNA עם כל ששת ה‑codecs, ואז ביצעו הגברה, דילול וריצוף חוזר של המאגר. לאחר הגבלת עומק הקריאה באופן מלאכותי כדי לשקף תקציבי קריאה מציאותיים, בדקו האם ניתן לפענח את הקבצים המקוריים. ה‑codecs הטובים ביותר הצליחו לשחזר נתונים בצפיפויות אחסון של כ‑43 אקסה‑בייט (מיליארד ג׳יגה‑בייט) לגרם DNA עם תהליך העבודה האיכותי, וכ‑13 אקסה‑בייט לגרם בתהליך האיכות הנמוך — גבוה בהרבה מרשומות ניסוי קודמות ובתוך סדר גודל יחסי מהמגבלה התיאורטית.

מה משמעות הדבר לארכיוני ה‑DNA העתידיים

המחקר מראה ששיטות תיקון השגיאות הקיימות לאחסון נתונים ב‑DNA בוגרות להפתיע כבר היום. עם בחירה זהירה של codecs ותהליכים, אפשר לאחסן נתונים בצפיפויות קיצוניות תוך יכולת להתמודד עם שגיאות ניכרות ואובדן רצפים. הוא גם מדגיש שמבחנים פשוטים, כמו ספירה כמה ביטים נוספים codec מוסיף או הרצת סימולציות שגיאה פשוטות, עלולים להטעות; בקרות מעשיות חייבות לקחת בחשבון גם רצפים חסרים וגם שגיאות ברמת האותיות, ולשקול השוואה לשיטות המתקדמות המוכחות. עבור שאינם מומחים, המסר ברור: ה‑DNA כבר אינו רק רעיון עתידני לאחסון מידע. המנגנון התוכנתי הדרוש לקריאה וכתיבה של ארכיוני DNA אמינים קיים, וההתקדמות הבאה תבוא משיפור שיטות מעבדה והגדלה בקנה‑מידה, ולא מהמצאת קודים חדשים לחלוטין.

ציטוט: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3

מילות מפתח: אחסון נתונים ב‑DNA, תיקון שגיאות, צפיפות נתונים, תורת הקידוד, ביולוגיה סינתטית