Clear Sky Science · ja

組合せ型DNAベースの記憶における誤り特徴付けと誤り訂正アプローチ

· 一覧に戻る

世界のデータをDNAに蓄える

携帯電話やサーバ、クラウドセンターは情報の洪水にさらされており、従来の記憶技術は追いつきません。生物の遺伝情報を担う同じ分子であるDNAは、非常に高密度で長期間保存でき、維持にほとんど電力を必要としないという魅力的な代替手段を提供します。本論文は、組合せDNA符号化と呼ばれる特に有望なDNAデータ保存方式を検討し、新しい種類の誤り訂正が実用面での信頼性を大幅に向上させ得ることを示します。

DNAにより多くのビットを詰め込む方法

従来のDNA保存では、合成された一本鎖DNAの各位置で4つの塩基(A、C、G、T)のいずれかを選んでデータを書き込みます。組合せDNA符号化は異なるアプローチを取ります。各位置に単一の短い断片を使う代わりに、厳選された短い断片の組み合わせを用います。デジタルメッセージの各位置は一つの短い配列ではなく、あらかじめ定義されたライブラリから選ばれた複数の断片の集合で表されます。これにより、各合成ステップに詰め込める情報量が大幅に増え、コストと時間が削減されます。しかし同時に、保存されたメッセージの1文字を正しく読み取るためには、その位置に存在すべきすべての断片を検出する必要があるという課題も生じます。

Figure 1
Figure 1.

一部が静かに消えるとき

DNA分子は大量に合成・読み出されるため、同じ組合せ配列が何度も現れますが、各コピーは小さな不完全さを伴います。著者らがいくつかの実験データセットを調べたところ、組合せDNA保存では特定の誤りタイプが支配的であることが明らかになりました。それは、正しい組合せのうち単一の断片だけが消失するという誤りです。言い換えれば、集合の一要素がシーケンスリード中でまったく観測されない一方で、他の要素は存在しているという現象です。これらの「非対称な組合せ消失」は、保存配列ごとのリード数が少ないときに特に頻繁になります。大規模システムでは深くシーケンスすることが高コストであるため、現実的にリード数が低くなる場面が多いのです。配列あたり約50リードを下回ると、こうした欠落断片の頻度が急増し、標準的な方法では意図したデータを復元するのが困難または不可能になります。

より大規模な規模で誤りを調査する

小規模な実証を超えるため、研究チームは産業パートナーと協力して組合せDNAを用いた大規模な概念実証ストレージシステムを構築しました。彼らは数千ビットのテキストを、情報を担う8つの位置を持つ640個の異なる組合せ配列に符号化しました。専用の実験プロトコルで、各分子が短い断片の一組合せを表すようなDNAプールが組み立てられました。研究者らはその後数百万のリードをシーケンスし、よく知られた配列整列ツールであるBLASTに基づくカスタム解析パイプラインを用いて各位置にどの断片が現れたかを特定しました。この大規模データセットは先の観察を裏付けました。リードカバレッジが高い場合はほとんどの組合せを復元できましたが、配列あたりの平均リード数が下がると、欠落断片、すなわち消失誤りが正確な復号の主要な障害となることが確認されました。

Figure 2
Figure 2.

一方向の誤りを想定した符号

DNA保存で一般に使われる従来の誤り訂正方式は、誤りが概ね対称的である、すなわち記号が混同されたり、追加されたり、失われたりする確率が類似していると仮定することが多いです。しかし組合せDNAでは典型的な失敗は、元の組合せに存在していた断片がまったく現れないことであり、余分な断片が誤って入ることは比較的稀です。この状況に対処するために、著者らは組合せVT符号と呼ばれる新しい誤り訂正符号を設計しました。各組合せ文字を二値行列の行として表現し、欠落断片を1から0へ一方向に変化するビットとして扱います。各文字に対してどの断片が消えたかを示せる数学的な指紋(「シンドローム」)を用い、このシンドロームによって部分的にしか観測されない組合せでも欠落要素を特定できます。これらのシンドローム自体はリード・ソロモン符号で保護され、配列全体にわたる複数の誤りの回復を可能にします。

新手法の実地試験

研究者らは、調整された符号を従来使われてきた二次元リード・ソロモン方式と直接比較しました。ソフトウェアシミュレーションと二回目の大規模実験の両方で検証し、実験では配列の半分を従来法で、残りの半分を同じ冗長率で新しい組合せ符号で保護しました。消失誤りが支配的な多様な条件下で、新しいアプローチは元のデータを正しく復元する確率が高く、とくにリードカバレッジが低い状況で優れた性能を示しました。より厳しい条件下では従来法がしばしば配列全体の復号に失敗するのに対し、組合せVT方式は依然として復元に成功しました。

将来のDNAアーカイブにとっての重要性

本研究は、DNAデータ保存を実用化するには単に分子により多くのビットを詰め込むだけでなく、実験プロセスが示す実際の誤りパターンに合った誤り訂正が必要であることを示しています。組合せDNA保存の失敗様式を注意深く調査し、断片が消失することを前提とした符号を設計することで、著者らはより信頼性が高くスケーラブルなDNAアーカイブへの明確な道筋を示しました。DNAベースのシステムがより大規模なデータ集合を扱うようになるにつれ、このような片方向性に特化した誤り訂正戦略は、脆弱な分子混合物を信頼できる長期記憶へと変えるために不可欠となるでしょう。

引用: Preuss, I., Sabary, O., Gabrys, R. et al. Error characterization and error correction approaches in combinatorial DNA-based storage. Sci Rep 16, 8093 (2026). https://doi.org/10.1038/s41598-026-38599-0

キーワード: DNAデータ保存, 誤り訂正, 組合せ符号化, 消失(消去)誤り, 情報密度