Clear Sky Science · tr

Kombinatoryal DNA tabanlı depolamada hata karakterizasyonu ve hata düzeltme yaklaşımları

· Dizine geri dön

Dünyanın verilerini DNA’da depolamak

Telefonlarımız, sunucularımız ve bulut merkezlerimiz bilgiyle boğuluyor ve geleneksel depolama teknolojileri bu yükle başa çıkmakta zorlanıyor. Canlılarda genetik bilgiyi taşıyan aynı molekül olan DNA, son derece yoğun, uzun ömürlü ve korunması için neredeyse hiç enerji gerektirmeyen cezbedici bir alternatif sunuyor. Bu makale, kombinatoryal DNA kodlaması adı verilen özellikle güçlü bir DNA veri depolama çeşidini inceliyor ve uygulamada çok daha güvenilir hale getirebilecek yeni bir hata düzeltme türünü gösteriyor.

DNA’ya daha fazla bit nasıl sığdırılır

Geleneksel DNA depolama, sentetik bir DNA dizisinin her konumunda dört bazdan (A, C, G, T) birini seçerek veri yazar. Kombinatoryal DNA kodlama farklı bir yaklaşım benimser. Her konumda tek bir kısa DNA fragmanı kullanmak yerine, özenle seçilmiş kısa fragman kombinasyonları kullanılır. Dijital mesajın her konumu, tek bir kısa dizgeyle değil, önceden tanımlanmış bir kütüphaneden çekilen bir diziyle temsil edilir. Bu, her sentez adımına sığdırılabilecek bilgi miktarını büyük ölçüde artırır ve maliyet ile zamanı azaltır. Ancak bu aynı zamanda, saklanan bir “harfi” doğru okumak için sistemin o konumda bulunması gereken tüm fragmanları tespit etmesi gerektiği anlamına gelir.

Figure 1
Figure 1.

Bazı parçalar sessizce kaybolduğunda

DNA molekülleri büyük sayılarda üretildiği ve okunduğu için aynı kombinatoryal dizi birçok kez ortaya çıkar; her kopya küçük kusurlarla üretilir ve okunur. Yazarlar birkaç deneysel veri setini incelediler ve kombinatoryal DNA depolamada belirli bir hata türünün baskın olduğunu keşfettiler: doğru bir kombinasyondan tek bir fragmanın silinmesi. Başka bir deyişle, kümenin bir üyesi, diğerleri mevcut olsa bile sekans okumasında hiç gözlemlenmez. Bu “asimetrik kombinatoryal silinmeler”, saklanan dizi başına okuma sayısı düşük olduğunda özellikle yaygın hale gelir—derinlemesine dizilemenin pahalı olduğu büyük ölçekli sistemlerde gerçekçi bir durum. Yaklaşık 50 okuma altına düştüğünde, bu eksik parçaların sıklığı hızla artar ve standart yöntemlerle amaçlanan veriyi yeniden oluşturmayı zor veya imkansız hale getirir.

Hataları daha büyük ölçekte incelemek

Küçük gösterimlerin ötesine geçmek için ekip, bir sanayi ortağıyla işbirliği yaparak kombinatoryal DNA kullanan büyük ölçekli bir kavram kanıtı depolama sistemi kurdu. Binlerce bitlik metni, her biri bilgi taşıyan sekiz konum içeren 640 farklı kombinatoryal diziye kodladılar. Uzmanlaşmış laboratuvar protokolleri, her molekülün kısa fragman kombinasyonunu temsil ettiği DNA havuzlarını oluşturdu. Araştırmacılar daha sonra milyonlarca okuma yaptı ve hangi fragmanların her konumda göründüğünü bulmak için iyi bilinen bir dizilim hizalama aracı olan BLAST’a dayalı özelleştirilmiş bir analiz hattı kullandılar. Bu büyük veri seti önceki gözlemi doğruladı: okuma örtülmesi yüksek olduğunda çoğu kombinasyon yeniden oluşturulabiliyordu, ancak dizi başına ortalama okuma sayısı düştüğünde eksik fragmanlar—dolayısıyla silinme hataları—doğru çözümlemenin ana engeli haline geldi.

Figure 2
Figure 2.

Tek yönlü hataları bekleyen bir kod

DNA depolamada kullanılan geleneksel hata düzeltme şemaları genellikle hataların kabaca simetrik olduğunu varsayar—semboller benzer olasılıkla karışabilir, eklenebilir veya kaybolabilir. Bu varsayım, tipik başarısızlığın orijinal kombinasyonda bulunan bir fragmanın hiç görünmemesi olduğu kombinatoryal DNA’ya uymaz; sahte ekstra fragmanlar ise görece nadirdir. Bunu ele almak için yazarlar, bu tek yönlü davranışa uyarlanmış kombinatoryal VT kodu adında yeni bir hata düzeltme kodu tasarladılar. Her kombinatoryal harfi ikili bir matrisin satırı olarak temsil ediyor ve eksik fragmanları yalnızca birden sıfıra dönen bitler olarak ele alıyorlar. Kod, hangi fragmanın kaybolduğunu ortaya çıkarabilecek matematiksel bir parmak izi veya “sendrom” kullanıyor; bu, yalnızca kombinasyonun bir kısmı gözlemlense bile belirlemeye yardımcı oluyor. Bu sendromlar kendileri de Reed–Solomon kodu ile korunuyor, böylece bir dizi boyunca birkaç böyle hatanın kurtarılmasını sağlıyor.

Yeni yöntemi teste sokmak

Araştırmacılar, uyarlanmış kodlarını daha önce DNA depolamada kullanılan daha geleneksel iki boyutlu Reed–Solomon şeması ile karşılaştırdı. İkisini hem yazılım simülasyonlarında hem de ikinci büyük ölçekli deneyde test ettiler; burada dizilerin yarısı geleneksel yöntemle, yarısı ise aynı yedekleme oranı altında yeni kombinatoryal kodla korundu. Silinme hatalarının baskın olduğu koşulların bir aralığında, yeni yaklaşım orijinal veriyi daha sık doğru şekilde yeniden oluşturdu ve özellikle okuma örtüsü düşük olduğunda çok iyi performans gösterdi. Bu daha zorlu koşullarda, geleneksel yaklaşım sıklıkla tüm dizileri çözemedi; oysa kombinatoryal VT şeması bunları hâlâ kurtardı.

Geleceğin DNA arşivleri için neden önemli

Bu çalışma, DNA veri depolamayı pratik hale getirmenin yalnızca moleküllere daha fazla bit sıkıştırmakla ilgili olmadığını—aynı zamanda kullanılan laboratuvar süreçlerinin gerçek hata desenlerine uyan hata düzeltme metodlarının da gerekli olduğunu gösteriyor. Kombinatoryal DNA depolamanın nasıl başarısız olduğunu dikkatle inceleyip fragmanların kaybolmasını özellikle bekleyen kodlar tasarlayarak, yazarlar daha güvenilir ve ölçeklenebilir DNA arşivlerine açık bir yol gösteriyor. DNA tabanlı sistemler giderek daha büyük veri koleksiyonlarını işlemeye başladıkça, böyle uyarlanmış, asimetrik hata düzeltme stratejileri kırılgan moleküler karışımları güvenilir uzun vadeli bellekler haline getirmek için hayati olacaktır.

Atıf: Preuss, I., Sabary, O., Gabrys, R. et al. Error characterization and error correction approaches in combinatorial DNA-based storage. Sci Rep 16, 8093 (2026). https://doi.org/10.1038/s41598-026-38599-0

Anahtar kelimeler: DNA veri depolama, hata düzeltme, kombinatoryal kodlama, silinme hataları, bilgi yoğunluğu