Clear Sky Science · ar
مقارنة بين أحدث تقنيات تصحيح الأخطاء لتخزين البيانات على أساس التسلسل في DNA
تخزين بيانات الغد في قرص الطبيعة الصلب
تخيل أن تستوعب كل بيانات العالم في شيء يمكنك حمله بيدك. تستطيع جزيئات الحمض النووي DNA—التي تخزن المعلومات الوراثية في الكائنات الحية—من الناحية النظرية أن تخزن معلومات بملايين المرات أعلى لكل غرام مما تفعله الأقراص الصلبة الحالية. لكن تحويل أفلام وصور وأرشيفات إلى سلاسل DNA وقراءتها بدقة مسألة معقدة. تسأل هذه الدراسة سؤالاً عملياً: مع التكنولوجيا والبرمجيات المتاحة اليوم، ما مدى قربنا من استخدام DNA كخزانة بيانات جدية، وما هي طرق «الترجمة» الرقمية التي تعمل على نحو أفضل؟

كيف تتحول الملفات الرقمية إلى DNA
لحفظ البيانات في DNA يجب تحويل البتات الرقمية العادية إلى تسلسل من الكتل الأربع المكوِّنة لـDNA، ثم تصنيع هذا التسلسل في المختبر، وتخزينه، وفيما بعد قراءته باستخدام أجهزة تسلسل الحمض النووي. على طول الطريق قد يحدث الكثير من الأخطاء: قد تختفي بعض السلاسل تماماً، وقد تضاف أو تُحذف حروف، وقد تُنسخ سلاسل بشكل غير متساوٍ بحيث تصبح بعض التسلسلات مُمثلة بوفرة بينما تكون الأخرى نادرة. لمواجهة ذلك يصمم الباحثون برمجيات ترميز–فك ترميز خاصة تُسمى codecs تضيف تكراراً—معلومات زائدة تُمكنك من تصحيح الأخطاء واستعادة الأجزاء المفقودة. اختار المؤلفون ستة codecs معروفة من الأدب وقاموا بتقييسها حتى يمكن مقارنتها بعدالة تحت نفس الشروط.
اختبار ذاكرة DNA داخل الحاسوب
بدأ الفريق بتشغيل محاكاة حاسوبية شاملة لفحص مدى قدرة كل codec على الصمود أمام أنواع مختلفة من التلف. قاموا بمحاكاة ملايين من شظايا DNA القصيرة، كل منها يحمل جزءاً من ملف اختباري، ثم أضافوا عشوائياً طفرات استبدال، حذف حروف، إضافة حروف، أو حتى إزالة سلاسل كاملة. بتكرار هذه التجارب مرات عديدة حددوا أعلى معدلات خطأ وفقدان يمكن عندها لكل codec أن يستعيد الملف بموثوقية عالية. كانت خطوة أساسية هي «التجميع» clustering للنسخ الصاخبة المتعددة لكل شريط DNA ودمجها إلى تسلسل إجماعي أنظف قبل فك الترميز. هذه الخدعة البسيطة ضاعفت تقريباً تحمل الأخطاء وسرعت فك الترميز أيضاً، لأن codecs كانت لديها تسلسلات أقل لكن ذات جودة أعلى للتعامل معها.
من مختبرات نظيفة إلى واقع فوضوي
تختلف أنظمة تخزين DNA الواقعية على نطاق واسع في كيفية تصنيعها والتعامل معها، لذا قام المؤلفون بنمذجة مسارين عمليين. المسار «عالي الدقة» استخدم طابعة DNA تجارية حديثة وإنزيمات نسخ دقيقة، ما أنتج معدلات خطأ منخفضة وقليلاً من فقدان السلاسل. أما المسار «منخفض الدقة» فاستخدم طريقة تصنيع أرخص وأكثر عرضة للأخطاء وخطوة نسخ أقل تيقناً، ما أدخل أخطاء أكثر وسلاسل مفقودة أكثر. داخل كل مسار تغيّروا في عدد النسخ الفيزيائية المخزنة وعمق التسلسل المأخوذ من التجمع، كاشفين عن مقايضة بين كثافة التخزين، تكلفة التسلسل، والموثوقية. بعض codecs تعاملت جيداً مع أخطاء الحروف العشوائية لكنها فشلت عندما فقدت سلاسل كاملة كثيرة؛ وأخرى كانت أكثر توازناً. برزت ثلاث نهج—DNA‑Aeon وDNA‑RS وطريقة قائمة على الرسم البياني تسمى DBGPS (مُختبرة حاسوبياً)—كالأكثر صموداً عبر كلا نوعي الأخطاء.

دفع تخزين DNA نحو حدوده
للتأكد من أن المحاكاة تتطابق مع الواقع، أجرى الباحثون تجارب مخبرية تتبع كلا مساري الدقة العالية والمنخفضة، مستخدمين تقنيتين تجاريتين لتصنيع DNA. قاموا بترميز ملفات صور صغيرة إلى أكثر من 11,000 تسلسل DNA باستخدام جميع codecs الستة، ثم قاموا بتكثير، وتخفيف، وإعادة تسلسل التجمعات. بعد تقييد عمق التسلسل صناعياً ليعكس ميزانيات قراءة واقعية، اختبروا ما إذا كان يمكن فك ترميز الملفات الأصلية. أنجح codecs استعادت البيانات عند كثافات تخزين تقارب 43 إكسابايت (مليار غيغابايت) لكل غرام من DNA مع مسار الجودة العالية، وحوالي 13 إكسابايت لكل غرام مع مسار الجودة المنخفضة—وهي قيم أعلى بكثير من السجلات التجريبية السابقة وعلى بُعد ترتيب تقريباً من الحد النظري.
ما الذي يعنيه هذا لأرشيفات DNA المستقبلية
تُظهر الدراسة أن طرق تصحيح الأخطاء الحالية لتخزين البيانات في DNA ناضجة بشكل مفاجئ اليوم. مع اختيار دقيق للـcodecs وعمليات العمل، من الممكن تخزين البيانات بكثافات هائلة مع تحمل أخطاء وفقدان سلاسل كبير. كما تُبرز أن الاختبارات البسيطة، مثل عدّ البتات الزائدة التي يضيفها codec أو تشغيل محاكاة أخطاء بسيطة، قد تكون مضللة؛ يجب أن تتضمن المعايير الواقعية كلاً من السلاسل المفقودة وأخطاء مستوى الحروف، ويجب المقارنة مع أساليب متقدمة مثبتة. للقراء غير المتخصصين، الرسالة واضحة: لم يعد DNA فكرة مستقبلية فحسب لتخزين المعلومات. الآلات البرمجية اللازمة لقراءتها وكتابتها بأمان موجودة، وسيتأتّى التقدم المقبل من تحسين أساليب المختبرات وتوسيع النطاق أكثر من اختراع رموز جديدة كلياً.
الاستشهاد: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
الكلمات المفتاحية: تخزين البيانات في DNA, تصحيح الأخطاء, كثافة البيانات, نظرية الترميز, الأحياء التركيبية