Clear Sky Science · ja
ゲノム言語モデルがナノポア直接RNAシーケンスのキメラアーティファクトを軽減する
RNAリードのクリーンアップが重要な理由
細胞は常にRNAに書かれた遺伝情報を読み取っており、新しいシーケンシング技術はその過程をかつてない解像度で観測可能にしました。最も強力なツールの一つであるナノポア直接RNAシーケンシングは、RNA分子を一度に丸ごと読み取れますが、同時に実際には起きないような遺伝子の断片化や不自然な再結合の誤認を生むノイズも導入します。本研究はDeepChopperを紹介します。これはゲノム向けの言語モデルのように振る舞い、これらの誤りを除去して研究者がRNAデータを信頼できるようにするソフトウェアです。
シーケンサーが偽の遺伝子混成を作り出すとき
現代のナノポア装置は個々のRNA鎖を微小な孔を通して引き出し、その配列を直接読み取ります。これは化学修飾を保持したり、転写産物を一本のリードとして丸ごと捉えたりするなど、従来法に対する大きな利点があります。しかしこの過程ではライブラリ調製時にアダプターと呼ばれる短い補助断片がRNA分子に付加されます。時に複数のRNA分子がこれらのアダプターによって誤って連結され、異なる遺伝子が融合したように見えるキメラ分子が生じます。標準的な解析ツールはこれらの技術的残渣を、がん関連の遺伝子融合や異常なスプライシングといった生物学的事象として誤解し、誤解を招く結果につながることがあります。

文ではなくゲノムを読む言語モデル
DeepChopperは遺伝配列をテキストのように扱い、大規模言語モデルのアイデアを適用します。単語の代わりに各塩基を一文字ずつ読み取り、各塩基に対する信頼度を示すクオリティスコアも併せて扱います。HyenaDNAと呼ばれるコンパクトなアーキテクチャ上に構築され、最大32,000塩基を一度に走査できるため、人のほぼすべてのRNA分子をカバーできる長さです。各塩基位置について、その塩基が真正なRNA配列の一部かアダプターの一部かを推定します。さらに精緻化ステップでこれらの予測を滑らかにし、アダプターを散在するスポットとしてではなく連続したブロックとしてマークします。
データを捨てずに悪い連結を切り取る
DeepChopperがリード内部のアダプターを検出すると重要な処理を行います。リード全体を廃棄するのではなく、アダプター位置で「切断」して真正な断片を保持するのです。こうすることで人工的に融合した二つのRNAは元の断片に分割できます。複数のヒトがん細胞株や幹細胞から得た何百万ものナノポアリードに対するテストで、DeepChopperはこの直接RNAという設定を想定していない既存のアダプタートリミングツールを大きく上回りました。合成ベンチマークではアダプターを99%以上の精度と再現率で正しく認識し、GPUを用いて2千万以上のリードを含むデータセットにも効率よくスケールしました。
本物の遺伝子融合とシーケンスの幻影を分ける
著者らは次に、DeepChopperが実際のがんデータにおいて生物学的に真の事象とアーティファクトを区別できるかを検証しました。直接RNAリードを、独立した手法(Oxford NanoporeやPacBioの直接cDNAシーケンシングなど)で得られた対応するデータセットと比較することで、どの表面的なキメラが他の技術によって支持されるかをラベル付けできました。DeepChopperは支持されないキメラ的アライメントを62–91%まで削減し、他の手法で確認された割合を大きく高めました。また、特に頻繁なアーティファクトであるリボソーム遺伝子を含む疑わしい遺伝子融合の呼び出し数をほぼ90%削減しました。一方で、短リードRNAシーケンシングで裏付けられた真の融合事象は保持されました。

化学改良は助けになるが、アーティファクトは残る
Oxford Nanoporeは最近、技術的アーティファクトを減らすことを目的とした更新キット(RNA004)をリリースしました。DeepChopperをこの新しい化学法のデータに「そのまま」適用しても、内部アダプターやキメラ結合を含むリードが少数ながら重要な割合で残っていることが確認されました。追加学習なしでもモデルはアーティファクト性キメラを約5分の1に削減し、新データで微調整を行うとやや性能が向上しました。いずれの場合も真正なシグナルは保持されました。すべての化学法と細胞型にわたり、これらのアーティファクトを修正することで下流の解析ツールがより多くの全長転写産物や代替転写産物を検出できるようになり、細胞のRNAランドスケープがより明瞭に見えるようになりました。
今後のRNA研究にとっての意義
非専門家にとっての要点は、シーケンサーが報告する驚くべきRNAの接続がすべて生物学的事実とは限らない、ということです。技術自身が導入した配線ミスも含まれます。DeepChopperはナノポアRNAデータの高度に訓練された校閲者のように振る舞い、無関係な分子をつなぐアダプター配列の特徴を見抜き、塩基単位の精度でそれらを切り取ります。その結果、細胞内に存在するRNA分子とそれらの構成に関するよりクリーンで信頼できるマップが得られます。長リードRNAシーケンシングに頼ってがんや脳疾患など複雑な病態を研究する研究室が増える中で、DeepChopperのようなツールは、ノイズの多い生データを信頼できる生物学的知見に変えるために不可欠になるでしょう。
引用: Li, Y., Wang, TY., Guo, Q. et al. Genomic language model mitigates chimera artifacts in nanopore direct RNA sequencing. Nat Commun 17, 1864 (2026). https://doi.org/10.1038/s41467-026-68571-5
キーワード: ナノポアRNAシーケンシング, キメラリード, 遺伝子融合のアーティファクト, ゲノム言語モデル, DeepChopper