Clear Sky Science · he

יהלום DNA מנוסח כמודל מצפן אותיות קומפוזיט לשמירת נתונים ב‑DNA שניתן לפירוק

· חזרה לאינדקס

מדוע הנתונים של העתיד עשויים לגור ב‑DNA

הטלפונים שלנו, החברות והכלים המדעיים מייצרים נתונים מהר הרבה יותר מאשר הדיסקים הקשיחים והקלטות מגנטיות מסוגלים לגדול. DNA — אותו מולקולה שנושאת מידע גנטי ביצור־חי — יכולה גם לשמש לאחסון קבצים דיגיטליים בצורה דחוסה ומתמשכת להפליא. המאמר הזה מציג דרך חדשה לדחוס עוד מידע לגדילי DNA סינתטיים תוך שמירה על אפשרות קריאה מעשית ואמינה, מה שעשוי להפוך את אחסון ה‑DNA לזול וניתן להרחבה יותר.

מארבע אותיות DNA לתערובות עשירות יותר

אחסון DNA מסורתי משתמש בארבע הבסיסים הטבעיים — A, T, G ו‑C — כדי לייצג ביטים דיגיטליים, בדומה לאפסים ואחדים בדיסק. בסכמה זו כל מיקום בגדיל יכול לשאת לכל היותר שני ביטים של מידע, כי יש לו ארבע בחירות בלבד. המחברים בונים על רעיון חדשני: במקום להניח בסיס אחד בכל מיקום, יוצרים תערובות מבוקרות של בסיסים, הנקראות אותיות קומפוזיט. למשל, מיקום עשוי להיות תערובת של 50:50 של A ו‑T, או 25:25:25:25 של כל ארבעת הבסיסים. כאשר מסונתזים עותקים רבים מכל גדיל, רצף התערובות חושף את פרופורציות הבסיסים וממילא סמל דיגיטלי שיכול לייצג יותר משני ביטים.

Figure 1
Figure 1.

מפת סמלים בצורת יהלום של ה‑DNA

עיצוב תערובות כאלה אינו פשוט. אם שני סמלים דומים מדי — למשל אחד הוא 50% A ו‑50% T ואחר הוא 55% A ו‑45% T — רעש בריצוף יכול לטשטש ביניהם, לגרום לשגיאות ולהכריח מדענים לרצף הרבה יותר עותקים ממה שהיו רוצים. כדי להתמודד עם זה הצוות מציע מודל מסודר של "יהלום DNA": סט של 15 אותיות קומפוזיט המסודרות כמו נקודות על טטרהדרון שהפינות שלו הן A, T, G ו‑C. הסט כולל בסיסים טהורים בפינות, תערובות שוות של שתי אותיות לאורך הקצוות, תערובות של שלוש אותיות בכל פנים, ותערובת אחידה של כל ארבע הבסיסים במרכז. הקונסטלציה המנוסחת בקפידה זו מעלה את התיאוריה של המידע לכל מיקום לכ‑3.9 ביט, תוך שמירה על נבדלות מספקת בין הסמלים כדי לזהותם בפועל.

פיענוח חכם יותר בעזרת אנטרופיה ואינדקסציה

קריאת הנתונים חזרה מ‑DNA משמעותה להסיק איזו אות קומפוזיט יועד בכל מיקום מתוך מדידות רועשות של תדירויות הבסיסים. המחברים לוקחים אסטרטגיה מתחום התקשורת הנקראת חלוקת קבוצה. ראשית, הם בוחנים עד כמה מיקום נראה "מעורב", באמצעות כמות שנקראת אנטרופיה שהיא נמוכה עבור בסיסים טהורים וגבוהה יותר עבור תערובות מורכבות. זה מקצה במהירות כל מיקום לאחת מארבע קבוצות: בסיסים טהורים, תערובות של שתי אותיות, תערובות של שלוש אותיות, או תערובת של ארבעת הבסיסים. לאחר מכן, בתוך הקבוצה הנבחרת חישוב הסתברות מדויק יותר בוחר את האות הסבירה ביותר. גישה בשני שלבים זו מצמצמת בלבול בין סמלים ומקטינה את זמן החישוב לעומת שיטות קודמות. כדי למנוע טעויות בזיהוי גדילים, כל חתיכת DNA נושאת רצפי אינדקס מוגני שגיאות בשני הקצוות, וקריאות באורך שגוי — הנובעות לעתים מהוספה או מחיקה — מסוננות החוצה לפני הפענוח.

Figure 2
Figure 2.

דחיסת יותר נתונים עם פחות ריצופים

החוקרים בדקו את המערכת שלהם במאגרי DNA קטנים וגדולים, באמצעות פלטפורמות סינתזה מסחריות. עם אלפבית קומפוזיט של שמונה אותיות הגיעו לספיחת נתונים של 2.5 ביט לכל מיקום ב‑DNA ויכלו לשחזר קבצים בצורה מושלמת עם ממוצע של 14 קריאות ריצוף לכל גדיל — צפיפות טובה יותר משיטות שש‑האותיות הקודמות תוך צורך בפחות קריאות. עם אלפבית ה‑DNA המלא של 15 אותיות, השיגו 3.125 ביט לכל מיקום עבור הנתונים העיקריים ועדיין שחזרו את הכל ללא שגיאות בכיסוי של פי‑33. סימולציות וניסויים הראו גם ששיטת האנטרופיה שלהם מתפקדת כמעט כפי שהכי מדויקת — אך איטית יותר — שיטת פענוח, ובבהירות טובה יותר מהשיטות הישנות, במיוחד בעומקי ריצוף נמוכים יותר.

מה זה אומר לזיכרון העתידי

לקורא שאינו מומחה, המסר המרכזי הוא שהמחברים מצאו דרך ללמד את ה‑DNA "טריקים חדשים" בלי להמציא כימיה חדשה: על־ידי עידון תערובות הבסיסים הקיימים ופענוח חכם יותר, הם יכולים לאחסן ביטים רבים יותר לכל מולקולה תוך שליטה בעלויות. האלפבית בצורת היהלום שלהם, בשילוב אינדקסציה ותיקון שגיאות עמידים, מראה שאחסון נתונים בעל קיבולת גבוהה ב‑DNA אפשרי עם מאמץ ריצוף יחסית צנוע. ככל שסינתזת וריצוף ה‑DNA יהפכו לזולים יותר, עיצובים כאלה עשויים לעזור להפוך את ה‑DNA מסקרנות מעבדתית למדיה ריאלית לארכוב הזיכרונות הדיגיטליים של העולם.

ציטוט: Ge, Q., Ren, M., Qi, T. et al. DNA diamond formulates a decomposable composite letter constellation model for DNA data storage. Nat Commun 17, 1704 (2026). https://doi.org/10.1038/s41467-026-68861-y

מילות מפתח: אחסון נתונים ב‑DNA, אותיות קומפוזיט, צפיפות מידע, תיקון שגיאות, ארכוב דיגיטלי