Clear Sky Science · ja

Hi-Cコンタクトマトリクスとニューラルネットワークを用いた構造変異検出の手法

· 一覧に戻る

DNAの3次元折りたたみが重要な理由

私たちのDNAは単純な文字列として描かれることが多いですが、細胞内では複雑な三次元構造に折りたたまれています。この文字列の大きな断片が欠失、反転、移動する—これらは構造変異と呼ばれ、遺伝子を乱しがんを促進することがあります。本研究はVarHiCNetという新しい人工知能システムを紹介します。これは3DのDNA折りたたみマップを読み取り、既存のツールよりも大規模な変化をより正確に検出できるように設計されており、がんゲノムや他の疾患の研究に新たな視点を提供します。

3Dコンタクトマップで見るゲノム変化

従来のゲノム解析はDNAを直線の配列として読むため、特に反復領域やコピー数を変えずに位置が入れ替わった場合など、複雑な再配列を見つけにくいことがあります。Hi-C法はこれに別のアプローチを取ります:核内で遠く離れたDNA領域がどのくらい頻繁に接触するかを測り、その接触を格子状のコンタクトマトリクスとして記録します。明るいスポットは強い相互作用を意味します。構造変異はこれらのマトリクスに特徴的な指紋を残します—例えば領域が欠失した場所に現れる欠けたストライプ、セグメントが反転したときの鏡像パターン、2本の染色体が融合したときの対角線外のホットスポットなどです。VarHiCNetはこれらの視覚パターンを自動的に認識するよう設計されています。

Figure 1
Figure 1.

ゲノムマップをAI向けの画像に変換する

著者らは未加工のHi-Cコンタクトデータを、コンピュータビジョンシステムが処理しやすい画像に変換します。まず、距離が離れるほど接触頻度が自然に低下するという性質を補正するようにマトリクスを慎重に正規化し、近接および長距離の相互作用信号を保存します。その後、各染色体を重なり合う正方形ウィンドウで走査して多くの小さなサブマトリクスを切り出します。各サブマトリクスは標準化された800×800ピクセルのカラ―画像にリサイズされ、異なる接触強度が3つのカラーチャネルにわたる赤系の強度としてマッピングされます。この画像に似た表現により、モデルはもともと写真中の物体認識のために開発された強力な手法を再利用できます。

物体検出の手法を応用する

VarHiCNetは潜在的な構造変異を画像中の「物体」として扱います。これはコンボリューションニューラルネットワークとトランスフォーマーを組み合わせて重要領域を強調する、RT-DETRという現代的な物体検出フレームワークに基づいています。ResNetのバックボーンがまず多重スケールの特徴を抽出します:浅い層は正確なブレイクポイントを特定するために必要な微細な情報を保持し、深い層は大きな事象を示す広いパターンを捉えます。特徴融合モジュールは複数の層からの情報を混ぜ合わせ、局所的かつ全体的な手がかりの両方を保ちます。空間ピラミッドプーリングに触発された別のカスタムブロックは、モデルが同時に“見る”周囲領域の大きさを調整し、比較的小さな領域から非常に大きな領域にまたがる変異まで検出可能にします。

Figure 2
Figure 2.

候補領域から正確な変異型へ

VarHiCNetがHi-C画像上で候補領域を提示した後、それらを正確なブレイクポイントと欠失、反転、重複、転座などの特定の変異型に精緻化する必要があります。そのためにシステムは各予測ブレイクポイントの近傍をズームインし、主成分分析という数学的手法で複雑さを低減して接触パターンが最も鋭く変化する箇所を強調します。これらのコンパクトな表現はトランスフォーマーに基づく分類器に入力され、各変異カテゴリに対する局所パターンの微妙な違いを学習します。その結果、各事象がゲノムのどこで起き、どのような構造変化であるかを詳細に記述するコールが得られます。

多様ながん細胞株での性能

研究者らはVarHiCNetを、血液、乳房、脳、腎臓、肺、前立腺由来の6種類のヒトがん細胞株からのHi-Cデータでテストしました。高信頼度の既知の構造変異カタログをゴールドスタンダードとして用い、Hi-Cデータを解析するいくつかの主要なツールと比較しました。染色体内および染色体間の事象の両方にわたり、VarHiCNetは一般により高いか同等のF1スコアを達成し、感度と精度の両立で他の手法より優れていることが示されました。特にバランスの取れた転座や反転の検出に強く、これらは標準的な配列解析では痕跡がほとんど残らないことが多い一方で3D折りたたみの署名としては明瞭です。著者らは画像解像度や特徴融合モジュールなどの設計上の選択が、統制されたテストで一貫して性能を向上させることも示しました。

疾患理解への意義

平たく言えば、VarHiCNetは科学者にゲノムが3Dでどのように折りたたまれているかをより賢く“見る”手段を与え、従来の配列解析だけでは見落とされがちな大規模で疾患に関連する再配列を検出できるようにします。複雑なコンタクトマップを画像に変換し、現代のビジョン系ニューラルネットワークを適用することで、多様ながん細胞種にわたって多くの種類の構造変異を高い信頼性で検出・分類できます。依然として非常に小さな変化や高度に絡み合った変化の一部には苦戦し、豊富な学習データに依存する点はありますが、VarHiCNetは3Dゲノム構築をがんや他の疾患の遺伝的変化を読み解き標的化する日常的な手段にしていく将来を示唆しています。

引用: Shen, J., Wang, H., Zhai, H. et al. A method for structural variant detection using Hi-C contact matrix and neural networks. Sci Rep 16, 7324 (2026). https://doi.org/10.1038/s41598-026-37678-6

キーワード: 構造変異, Hi-C, ディープラーニング, がんゲノミクス, 3Dゲノム