Clear Sky Science · ja
DNAダイヤモンドが分解可能な合成文字コンステレーションモデルをDNAデータ保存のために提案
なぜ将来のデータはDNAに保存されるかもしれないのか
携帯電話、企業、科学機器はハードドライブや磁気テープの成長をはるかに上回る速さでデータを生み出しています。生物の遺伝情報を担う同じ分子であるDNAは、デジタルファイルを極めてコンパクトで長期にわたって保存できる形で格納することにも使えます。本論文は、合成DNA鎖にさらに多くの情報を詰め込みつつ、実用的かつ読み取り可能性を保つ新しい方法を紹介しており、DNA保存のコストやスケーラビリティを改善する可能性があります。
4つのDNA文字からより豊かな混合へ
従来のDNA保存は、A、T、G、Cの4塩基を用いてディスク上の0と1のようにデジタルを表現します。その方式では各位置は4択のいずれかに限られるため、多くても位置あたり2ビットしか運べません。著者らは新興の発想を発展させます。それは各位置に単一の塩基を置く代わりに、塩基を精密に混合した「合成文字」を作るというものです。例えばある位置はAとTを50:50で混ぜるかもしれませんし、4種類を25:25:25:25で混ぜることもあります。多数の複製を合成してシーケンスすると、混合比が読み取られ、その塩基比から2ビットを超えるデジタル記号を復元できます。

DNA記号のダイヤモンド形マップ
こうした混合設計は難しい問題を伴います。もし2つの記号があまりに似ていると—例えば一方がA:50%、T:50%で他方がA:55%、T:45%のような場合—シーケンシングノイズで識別がぼやけ、エラーが増え、望むよりずっと多くの複製をシーケンスする必要が出てきます。これに対処するため、研究チームは構造化された「DNAダイヤモンド」モデルを提案します:A、T、G、Cを頂点とする正四面体の点のように配置された15の合成文字セットです。セットには頂点の純粋な塩基、辺に沿った2塩基の等比混合、面上の3塩基混合、中央の4塩基の完全均等混合が含まれます。この慎重に選ばれたコンステレーションにより、理論上の位置あたり情報量は約3.9ビットに高まり、一方で実際に識別できるよう記号間の差異も保たれます。
エントロピーとインデックスによる賢い復号
DNAからデータを読み戻すには、塩基頻度のノイズを含む測定から各位置で意図された合成文字を推定する必要があります。著者らは電気通信からの手法である集合分割(set partitioning)を取り入れます。まず、その位置がどれだけ「混ざって」見えるかを、エントロピーという量で評価します。エントロピーは純粋な塩基で低く、複雑な混合ほど高くなります。これにより各位置を4つのグループ(純粋塩基、2塩基混合、3塩基混合、4塩基混合)に素早く割り当てます。次に選ばれたグループ内でより精密な尤度計算を行い最も確からしい文字を決定します。この二段階アプローチは記号間の混同を減らし、以前の方法に比べ計算時間も短縮します。さらに鎖同士の取り違えを防ぐため、各DNA断片は両端に誤り保護されたインデックス配列を持ち、挿入や欠失によって生じることの多い誤った長さのリードは復号前に除外されます。

より少ないリードでより多くのデータを詰め込む
研究者らは市販の合成プラットフォームを用いて、小規模および大規模のDNAプールでシステムを検証しました。8文字の合成アルファベットでは、位置あたり2.5ビットのペイロード密度に到達し、平均14回のシーケンスリードでファイルを完全に復元できました—これは従来の6文字方式より高密度で、しかも必要なリード数は少ない結果です。完全な15文字のDNAダイヤモンドアルファベットでは、主データで位置あたり3.125ビットを達成し、33倍のカバレッジで無誤りで全てを復元しました。シミュレーションと実験は、彼らのエントロピー基準の手法が最も精度の高いが遅い復号法にほぼ匹敵する性能を示し、特に低いシーケンス深度で従来技術より明らかに優れることも示しています。
将来の記憶装置にとっての意味
一般読者にとって重要なのは、著者らが新たな化学を発明することなくDNAに「新しい技」を教える方法を見つけたことです:既存の4塩基を巧みに混合し、より賢く復号することで、分子あたりのビット数を増やしつつコストを管理できます。ダイヤモンド形のアルファベットと堅牢なインデックスや誤り訂正の組み合わせは、高容量のDNAデータ保存が比較的控えめなシーケンス努力で可能であることを示しています。DNA合成とシーケンスのコストが引き続き下がれば、このような設計はDNAを研究室の好奇心から世界のデジタル記憶を保存する現実的な媒体へと変える手助けになるでしょう。
引用: Ge, Q., Ren, M., Qi, T. et al. DNA diamond formulates a decomposable composite letter constellation model for DNA data storage. Nat Commun 17, 1704 (2026). https://doi.org/10.1038/s41467-026-68861-y
キーワード: DNAデータ保存, 合成文字, 情報密度, 誤り訂正, デジタルアーカイブ