Clear Sky Science · ja
配列ベースのDNAデータ保存における最先端誤り訂正符号の比較
自然のハードドライブに明日のデータを保存する
手のひらに収まるもので世界中のデータをすべて保存できると想像してみてください。生物の遺伝情報を格納する分子であるDNAは、理論的には今日のハードドライブよりも1グラム当たり何百万倍ものデータを保持できます。しかし、映画や写真、アーカイブをDNAの配列に変換して完全に読み戻すのは簡単ではありません。本研究は実用的な問いを投げかけます:現在の技術とソフトウェアで、どれほど本気でDNAをデータ金庫として使えるところまで来ており、どのデジタル“翻訳”方法が最も有効か?

デジタルファイルはどのようにDNAになるか
データをDNAに保存するには、まずコンピュータのビットを4種類のDNA塩基の配列に変換し、その配列を実験室で合成し、保存し、後でシーケンサーで読み出す必要があります。その過程で多くの問題が起き得ます:ある配列はまったく失われることがあり、別の配列は塩基の置換や欠失、挿入を受け、さらに一部の配列が過剰に複製される一方で他は稀になることもあります。これに対処するため、研究者は冗長性—誤りを修正し欠損部分を復元できる余分な情報—を付加するエンコーダ/デコーダ、いわゆるコーデックを設計します。著者らは文献から6つの既知のコーデックを選び、同一条件で公正に比較できるよう標準化しました。
コンピュータ上でのDNAメモリの試験
チームはまず、各コーデックがさまざまな損傷にどれだけ耐えられるかを調べるために徹底的なコンピュータシミュレーションを行いました。テストファイルの断片を載せた何百万もの短いDNA断片をシミュレートし、ランダムに置換、欠失、挿入、あるいは配列の丸ごと消失を加えました。これらの実験を何度も繰り返すことで、各コーデックが高い信頼性でファイルを復元できる最大の誤り率と喪失率を明らかにしました。重要な手順として、多数のノイジーなコピーを「クラスタリング」し、それらをよりクリーンなコンセンサス配列に統合してからデコードすることで、誤り耐性が概ね2倍になり、処理すべき配列数が少なく高品質になるためデコードも速くなりました。
クリーンな実験室から現実の雑多さへ
実際のDNA保存システムは合成や取り扱い方法が大きく異なるため、著者らは2つの実用的ワークフローをモデル化しました。高精度な経路は最新の商用DNAプリンタと正確な複製酵素を用い、低い誤り率とほとんど配列喪失が生じません。低精度な経路はより安価で誤りの出やすい合成法と粗いコピー工程を使い、誤りや欠損配列が増えます。各経路内で保存する物理的コピー数とプールのシーケンス深度を変化させると、保存密度、シーケンスコスト、信頼性の間にトレードオフが現れました。あるコーデックはランダムな塩基誤りには強いが多数の配列欠失には脆弱で、別のものはバランスが良いという違いが出ました。DNA‑Aeon、DNA‑RS、さらにグラフベースのDBGPS(シミュレーションで試験)の3手法が、両方の誤りタイプに対して最も堅牢であることが示されました。

DNA保存をその限界へ押し上げる
シミュレーションが現実を反映していることを確認するために、研究者たちは高・低両方のワークフローに従った実験を実際のラボで実施し、2つの商用DNA合成技術を使用しました。彼らは小さな画像ファイルを6つのコーデックすべてで11,000以上のDNA配列に符号化し、増幅、希釈、再シーケンスを行いました。シーケンス深度を現実的な読み取り予算に人工的に制限した後、元のファイルが復号可能かを検証しました。最良のコーデックは、高品質ワークフローではDNA1グラム当たり約43エクサバイト(10億ギガバイト)、低品質ワークフローでも約13エクサバイトという保存密度でデータを復元できました。これはこれまでの実験記録を大きく上回り、理論限界のおおむね1桁以内に達しています。
将来のDNAアーカイブにとっての意味
本研究は、今日のDNAデータ保存用誤り訂正法がすでに驚くほど成熟していることを示しています。適切に選ばれたコーデックとワークフローを用いれば、極めて高い密度でデータを保存しつつ、かなりの誤りや配列喪失を許容することが可能です。また、コーデックが追加するビット数を数えたり、単純なおもちゃ的誤りシミュレーションを走らせたりするだけでは誤解を招くことが強調されています。現実的なベンチマークは欠損配列と塩基レベルの誤りの両方を考慮し、最先端の実証済み手法と比較する必要があります。非専門家向けのメッセージは明快です:DNAはもはや単なる未来のアイデアではありません。信頼できるDNAアーカイブを読み書きするためのソフトウェア基盤は整っており、今後の進展は全く新しい符号を発明するよりも、実験室手法の改良とスケールアップからもたらされるでしょう。
引用: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
キーワード: DNAデータ保存, 誤り訂正, データ密度, 符号理論, 合成生物学