Clear Sky Science · tr
Dizi tabanlı DNA veri depolama için son teknoloji hata düzeltme kodlamalarının karşılaştırması
Yarının Verilerini Doğanın Sabit Diskine Depolamak
Tüm dünyanın verilerini avuç içinde tutabileceğiniz bir şeyin içine sığdırmayı hayal edin. Canlılarda genetik bilgiyi depolayan molekül olan DNA, prensipte gram başına bugünün sabit disklerinden milyonlarca kat daha fazla veri tutabilir. Ancak filmler, fotoğraflar ve arşivleri DNA dizilerine dönüştürmek ve bunları kusursuz şekilde geri okumak zordur. Bu çalışma pratik bir soruyu soruyor: bugünün teknoloji ve yazılımlarıyla DNA’yı ciddi bir veri kasası olarak kullanmaya ne kadar yakınız ve hangi dijital “çeviri” yöntemleri en iyi sonucu veriyor?

Dijital Dosyalar DNA’ya Nasıl Dönüşür?
Veriyi DNA’da saklamak için, bilgisayar bitlerini dört DNA yapıtaşından oluşan bir diziye çevirmeniz, sonra bu diziyi laboratuvarda sentez ettirmeniz, depolamanız ve daha sonra DNA dizileyicilerle okumanız gerekir. Bu süreçte pek çok şey ters gidebilir: bazı DNA dizileri tamamen kaybolur, bazıları ekstra veya eksik harfler alır, bazıları ise düzensiz çoğaltılır; böylece bazı diziler çok fazla temsil edilirken diğerleri nadir olur. Buna karşı koymak için araştırmacılar, hata düzeltme ve eksik parçaları kurtarma olanağı veren fazladan bilgi ekleyen özel kodlayıcı–çözücü yazılımlar (codec’ler) tasarlar. Yazarlar literatürdeki altı iyi bilinen codec’i seçti ve aynı koşullar altında adil şekilde karşılaştırılabilmeleri için standartlaştırdı.
DNA Belleği Bilgisayarda Test Etmek
Ekip önce her codec’in çeşitli hasar türlerinden ne kadar iyi kurtulabildiğini incelemek için kapsamlı bilgisayar simülasyonları çalıştırdı. Her biri bir test dosyasının parçasını taşıyan milyonlarca kısa DNA fragmanı simüle ettiler, ardından rastgele yerine geçen harfler, eksik harfler, fazla harfler veya tamamen kaldırılmış diziler eklediler. Bu deneyleri birçok kez tekrarlayarak her codec’in dosyayı yüksek güvenilirlikle geri getirebildiği en yüksek hata ve kayıp oranlarını belirlediler. Önemli bir adım, her DNA ipliğinin birçok gürültülü kopyasını “kümeleyip” daha temiz bir fikir birliği dizisine birleştirmekti; bu basit hile hata toleransını yaklaşık iki katına çıkardı ve codec’lerin işlemesi gereken daha az, daha yüksek kaliteli dizi olduğundan çözümlemeyi hızlandırdı.
Temiz Laboratuvarlardan Dağınık Gerçeğe
Gerçek DNA depolama sistemleri sentezleme ve DNA’yı işleme yöntemlerinde geniş farklılıklar gösterdiğinden yazarlar iki pratik iş akışını modelledi. “Yüksek doğruluklu” yol modern bir ticari DNA yazıcı ve hatasız kopyalama enzimleri kullandı; düşük hata oranları ve az iplik kaybı üretti. “Düşük doğruluklu” yol ise daha ucuz, hata eğilimi yüksek bir sentez yöntemi ve daha kaba bir kopyalama adımı kullandı; bu da daha fazla hata ve eksik iplikler getirdi. Her yol içinde kaç fiziksel DNA kopyasının saklandığını ve havuzun ne kadar derin dizilendiğini değiştirerek depolama yoğunluğu, dizileme maliyeti ve güvenilirlik arasında bir ödünleşimi ortaya koydular. Bazı codec’ler rastgele harf hatalarını çok iyi idare ederken, birçok iplik eksik olduğunda başarısız oldu; diğerleri daha dengeliydi. DNA‑Aeon, DNA‑RS ve DBGPS adında grafik tabanlı bir yöntem (in silico test edildi) olmak üzere üç yaklaşım her iki hata türü arasında en dayanıklı olanlar olarak öne çıktı.

DNA Depolamayı Sınırlarına İtmek
Simülasyonların gerçeğe uygunluğunu sağlamak için araştırmacılar, hem yüksek hem de düşük doğruluklu iş akışlarını takip eden laboratuvar denemeleri yürüttü ve iki ticari DNA sentez teknolojisi kullandı. Tüm altı codec ile küçük görüntü dosyalarını 11.000’den fazla DNA dizisine kodladılar, ardından havuzları çoğalttılar, seyreltip yeniden dizilediler. Gerçekçi okuma bütçelerini yansıtmak için dizileme derinliğini yapay olarak sınırladıktan sonra orijinal dosyaların hâlâ çözülebilip çözülemediğini test ettiler. En iyi codec’ler, yüksek kaliteli iş akışında yaklaşık 43 eksabayt (milyar gigabayt) / gram DNA ve düşük kaliteli iş akışında yaklaşık 13 eksabayt/gram depolama yoğunluğunda veriyi başarıyla geri yükledi—bu, önceki deneysel rekorlardan önemli ölçüde yüksek ve teorik sınıra yaklaşık bir büyüklük mertebesi içinde.
Geleceğin DNA Arşivleri İçin Ne Anlama Geliyor
Çalışma, DNA veri depolama için bugünün hata düzeltme yöntemlerinin zaten şaşırtıcı derecede olgun olduğunu gösteriyor. Özenle seçilmiş codec’ler ve iş akışlarıyla, önemli hatalara ve iplik kaybına tolerans gösterirken aşırı yoğunluklarda veri saklamak mümkün. Ayrıca basit testlerin—örneğin bir codec’in eklediği ekstra bit sayısını saymak veya oyuncak hata simülasyonları çalıştırmak gibi—yanıltıcı olabileceğini vurguluyor; gerçekçi kıyaslamalar hem eksik iplikleri hem de harf düzeyindeki hataları dikkate almalı ve kanıtlanmış son teknoloji yöntemlerle karşılaştırma yapmalı. Uzman olmayanlar için mesaj açık: DNA artık sadece gelecekçi bir fikir olmaktan çıktı. Güvenilir DNA arşivleri okumak ve yazmak için gerekli yazılım mekanizması hazır durumda ve daha fazla ilerleme esas olarak laboratuvar yöntemlerinin iyileştirilmesi ve ölçeklenmesinden, tamamen yeni kodların icadından ziyade gelecektir.
Atıf: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
Anahtar kelimeler: DNA veri depolama, hata düzeltme, veri yoğunluğu, kodlama kuramı, sentetik biyoloji