Clear Sky Science · ja
重み付き埋め込みとTransformerアーキテクチャを活用して作物の複雑形質の表現型予測を改善する
より賢い育種でより良い作物を
増え続ける世界の食糧を支えるには、収量が高く、ストレスに強く、栄養価の高い作物を育種する必要があります。しかし、どの系統を交配するかの判断は長い間、遅い実地試験と試行錯誤に頼ってきました。本研究はDNAから直接学習して植物の性能を予測する新しい人工知能モデルを紹介します。大豆、トウモロコシ、米、小麦といった作物に対して、より迅速で精度の高い育種判断を可能にすることが期待されます。
DNAコードから目に見える形質へ
すべての植物は数百万の微細なDNA差異を持ち、それらがあわせて油分、収量、乾燥耐性などの形質を形作ります。従来の統計的手法はこの情報を利用できますが、データが膨大で遺伝効果が微妙かつゲノム全体に広がっている場合には苦戦します。著者らはこの課題に対して長いDNA配列を複雑な言語のように扱い、その言語をより深く“読む”ことのできるモデルを用いることで取り組みます。これにより明白な信号だけでなく、多数の小さな変異が静かに積み重なって実際の圃場で大きな差を生む点にも気づけるようになります。

重要な遺伝的信号に耳を傾ける新モデル
研究チームはGP-WAITERを開発しました。これは二つの着想を組み合わせた深層学習フレームワークです。第一に、形質と統計的に関連するDNA部位を示すゲノムワイド関連解析(GWAS)の結果を利用して、各遺伝マーカーにどれだけ情報量があるかを表す数値的な“重み”を与えます。第二に、これらの重み付きマーカーを畳み込み層(局所的パターン検出に強い)と、言語モデルで長距離関係を捉えることで知られるTransformerモジュールを組み合わせたハイブリッドシステムに入力します。非常に長いDNA配列を扱いやすい断片に分割し、影響力のある領域に注意を向けることで、GP-WAITERは離れた遺伝的変異が共同して形質を形作る様子を追跡できます。
多種にまたがり高精度かつ高速な計算
GP-WAITERを検証するため、研究者らは大豆、トウモロコシ、米、小麦の何千もの系統を含む6つの大規模データセットを用意し、栄養および農学的形質の幅広い項目を対象としました。彼らはこの新モデルを、古典的な線形法、勾配ブースティングなどの機械学習手法、その他の深層ネットワークやTransformerベースのモデルを含む主要な7つの予測ツールと比較しました。すべてのデータセットにおいて、GP-WAITERは一貫してより高い予測精度を示し、場合によっては精度が最大で約75%改善し、予測誤差を最大78%削減しました。数十万のDNAマーカーを含む非常に大規模な大豆データセットでは、競合する深層モデルよりも学習が大幅に高速で、グラフィックスカードメモリの使用量も少なく、実際の育種規模のデータを効率的に扱えることを示しました。

遺伝学におけるAIのブラックボックスを開く
深層学習に対する一般的な懸念は、結果がブラックボックスのようになり、生物学者がなぜその予測が出たのかを把握しにくい点です。著者らはこの点に対処するため、SHAPという説明可能なAI手法を用いて各DNA変異がモデルの予測にどれだけ寄与しているかを測定しました。その結果、GP-WAITERはしばしば大豆種子中のビタミンE、カロテノイド、イソフラボンなどの重要な化合物に影響することが既知の遺伝子や調節領域に位置する変異を強調しました。場合によっては、従来の関連解析で見逃されていた有望な変異を指摘することもあり、栄養や収量に関わる強い信号と繊細な信号の両方を回復できる可能性を示唆しています。
今後の作物育種にとっての意味
重み付けされた遺伝情報と強力な注意機構を組み合わせることで、GP-WAITERは基礎生物学との明確な結びつきを保ちながら、植物の形質をより正確に予測する実用的な方法を提供します。育種家にとっては、数千の候補系統をDNA情報のみで順位付けし、有望な交配に実地試験のリソースを集中させ、狙うべき遺伝領域をより簡単に特定できることを意味します。一般社会にとっても、本研究は高度なAI手法がすべての環境で全ての植物を試験することなく、より迅速により良い作物を届けるのに役立つことを示しており、より強靱で栄養豊富な食料システムの実現を支援します。
引用: Li, J., Yu, L., Li, M. et al. Leveraging weighted embedding and Transformer architecture to improve phenotype prediction of complex traits for crops. Nat Commun 17, 4427 (2026). https://doi.org/10.1038/s41467-026-71035-5
キーワード: ゲノム予測, 作物育種, トランスフォーマーモデル, ダイズ遺伝学, 農業における機械学習