Clear Sky Science · ja

ナノポア直接RNAシーケンシングのための二重コンテクスト対応ベースコーラー

· 一覧に戻る

なぜRNAの塩基を復号することが重要か

体内のすべての細胞は、遺伝子の作業コピーであるRNAに書かれた情報を常に読み書きしています。新しい「ナノポア」機器は個々のRNA分子を直接読み取ることができ、遺伝子がどのようにオンになるか、RNAがどのようにスプライスされるか、そしてRNA上の化学修飾が健康や疾患にどう影響するかを明らかにすることが期待されています。しかし問題があります:これらの装置は実際には微小な電流を測定しており、その電流を親しみのあるA、C、G、Uという塩基文字に翻訳(「ベースコール」)する必要があります。その翻訳が誤っていると、導き出される生物学的な結論は大きく歪む可能性があります。本論文は、こうした翻訳をはるかに正確に行う新しいAIシステム「Coral」を紹介します。

Figure 1
Figure 1.

文字の代わりに電気を読む

ナノポア直接RNAシーケンシングは、単一のRNA鎖を分子レベルの穴(ナノポア)に通し、各塩基が通過する際の電流変化を測定することで動作します。その波打つような電流トレースには、RNA配列とその化学修飾に関する情報が含まれています。従来のRNAシーケンシングはRNAをDNAに変換して増幅するため、バイアスを生み出したり多くの自然な化学修飾を消してしまうことがあります。直接RNAシーケンシングはそうした問題を回避しますが、電流トレースを配列に変換する際の誤差率が比較的高いという代償があり、特に繰り返し塩基や複雑なRNA構造のような難しい特徴で誤りが目立ちます。これらの長いRNAリードの微細な情報を信頼するには、より良いベースコーリングが不可欠です。

二種類のコンテクストを使う賢い翻訳器

既存の多くのナノポアベースコーラーは電気信号を主な情報源として扱い、各位置をほぼ独立に復号します。そのため、RNA配列自体の構造を十分に活用できません。Coralは別の手法を取ります。Coralはトランスフォーマーに基づくエンコーダ–デコーダアーキテクチャを採用しており、現代の言語モデルと精神的に近い構成です。まず、畳み込みとセルフアテンション層で構成されたエンコーダネットワークが生の電流信号を時間変化の要約へと変換します。次にデコーダが逐次的に各RNA塩基を予測し、これまでに生成した塩基を後方で参照すると同時に、エンコードされた信号を横断的に参照します。伸長する配列内の注意と配列と信号の間の注意という二種類のアテンションにより、Coralは次にどの塩基を出力するか決定する際に、電気的コンテクストと配列コンテクストの両方を適切に評価できます。

より鋭い配列と見落としの少ない分子検出

著者らはCoralをいくつかの主要なベースコーラー(Oxford Nanoporeの商用ツールを含む)と比較し、ヒトや他の生物由来のRNA、複数のナノポア化学系で評価しました。6種の生物種と旧型のRNAシーケンスキットにわたり、Coralは典型的な中央値のリード精度が約97%に達し、競合手法を明確に上回りました。最新のRNAキットでは精度が99%を超えました。Coralはミスマッチ、挿入、欠失が少なく、より長く、より良く整列したリードを出力し、全くマッピングできない配列の数も減らしました。特に現実のデータで非常に一般的な短い繰り返し塩基の扱いが得意で、これは他のツールで誤りの頻出原因となります。より長い正しい配列を確実に捉えることで、Coralは短い配列パターン(k‑mer)の予測でも優れ、初期の復号で小さな誤りがあっても堅牢に振る舞いました。

Figure 2
Figure 2.

トランスクリプトームの隠れた細部をより多く見る

ベースコーリングの改善は、下流解析が改善される場合にのみ価値があります。これを検証するために、研究チームはCoralの出力がヒト細胞株での下流解析にどう影響するかを調べました。全長RNAアイソフォーム(各遺伝子の異なるスプライス版)を再構築する専用ツールを使うと、Coralのリードは既知の転写構造をより多く暴露し、他のベースコーラーが見落とした低頻度のアイソフォームも多数検出しました。Coral特有の転写産物の多くは独立したショートリードデータでも支持されており、アーティファクトではなく実在することを示しています。スパイクイン実験でも既知濃度の人工参照転写産物をより多く検出し、その豊富度をより正確に推定しました。転写体の発見に留まらず、Coralは乳がん細胞株での遺伝子融合イベントの検出を改善し、アレル特異的発現(片方の親由来のコピーがより活発な状態)の数と信頼性も高めました。

より明瞭な遺伝的変異と家系の流れ

長いRNAリードは離れた遺伝的変異をまたいで情報を運べるため、同じ染色体コピー上でどの変異が一緒に存在するかを決定するハプロタイプフェージングに強力なツールです。金準拠の変異マップを持つよく研究されたヒトサンプルを用いて、著者らはCoralのより高品質なリードが一塩基変化の検出精度を高め、フェージング誤り(スイッチエラー)やフェーズされたブロック内の全体的なミスマッチ率を他手法に比べて最大で約4分の1にまで減少させ、同時により多くの変異をフェーズできるようになったことを示しました。基礎となるリード精度を変化させたシミュレーション研究でも、ベースコーリング精度がおよそ95%に近づくと、転写体の発見、アレル特異的発現、フェージングの性能が急速に改善し、その後は頭打ちになることが確認されました。Coralはこの高い効果領域に位置しており、ナノポアのノイズの中にある生物学的に重要な情報の大部分を捉えていることを示唆します。

今後のRNA研究にとっての意義

非専門家にとっての要点は、Coralがナノポアシーケンサーの電気的言語とRNAの遺伝的言語の間をより信頼できる形で翻訳する存在だということです。信号と生成中の配列という両方のコンテクストをよりよく活用することで、よりクリーンなリードを生み出し、より多くの転写バリアントを明らかにし、希少な融合遺伝子を検出し、どの変異がどちらの親由来かをより確実に追跡できます。ソフトウェアはオープンソースで提供されているため、研究者は新しい生物、化学系、あるいはRNA上の化学修飾そのものを研究する用途にも適応できます。ナノポア技術が進化し続ける中で、Coralのようなツールは生の電流トレースを細部まで信頼できるRNA地図へと変える手助けをするでしょう。

引用: Xie, S., Ding, L., Yu, Y. et al. A dual context-aware basecaller for nanopore direct RNA sequencing. Nat Commun 17, 1851 (2026). https://doi.org/10.1038/s41467-026-68566-2

キーワード: ナノポアRNAシーケンシング, ベースコーリング, トランスフォーマーモデル, トランスクリプトアイソフォーム, ハプロタイプフェージング