Clear Sky Science · ja
現場で学習するAIエージェントによる高度科学機器の操作
日常の科学に向けたより賢い機械
強力なX線顕微鏡からロボットで運用される化学ラボまで、現代の科学機器は従来よりはるかに高速にデータを取得できます。しかし、これらの機器を稼働させるには依然として専門家による監視と詳細な設定が必要であり、利用できる人や発見の速度に制約を与えています。本論文は、新世代の人工知能「エージェント」が人間の科学者とともに学習しながら複雑な装置をより安全に、柔軟に、効率的に操作できる可能性を探ります。

ボタンを押すだけから学習する協働者へ
今日の高度なラボは多くの定型作業を自動化していますが、実験の計画、画像の解釈、次に何をするかの判断といった真の自律性はまだ実現していません。著者らは、現代のチャットボットを支えるのと同種の大規模言語モデルを基盤に、目標指向でコードを書き、ソフトウェアツールを呼び出し、画像や動画に反応できるエージェントへと進化させます。これらのエージェントは科学者を置き換えるのではなく「人間をループに含める」方式で設計されており、人が望むことを記述し、必要に応じて修正を与え、AIはその教訓を将来にわたって記憶します。
X線顕微鏡のデジタル共同操縦者
最初のテストベッドは硬X線ナノプローブビームラインで、集束X線を使って材料の構造をナノスケールでマッピングします。放射線の危険性から運転中に人が室内にいることはできず、全体の設定は専門ソフトウェアとスクリプトで制御されます。チームは複数のAIエージェントをこの制御システムに接続します。あるエージェントはサンプルを走査するためのコマンドを書き、別のエージェントが安全性と正確性のためにコードをレビューし、ビジョンエージェントが得られた画像を解析してどこを拡大するかを提案します。エージェントは自然言語の要求を正確な走査コマンドに変換するだけでなく、回折や蛍光画像の小さな明点を読み取り、その位置を新たな走査のための精密な座標に変換しなければなりません。
AIがうまくやった点と苦戦した点
複数の視覚対応型言語モデルを比較したところ、性能には明確な差がありました。あるモデルはテキスト指示に従い適切な関数を呼び出すことが得意で、特に例示や人間からの修正を受けた後に強みを発揮しました。別のモデルは視覚的推論に優れており、孤立した明るい粒子を特定したり、次に走査すべき場所を選ぶ際に混雑したクラスターを避けることが得意でした。本研究で際立っていたモデルは両方の強みを兼ね備え、反復試行で最も一貫した振る舞いを示しました。しかし著者らは、フィードバックは主にパラメータ選択などのテキストベースの能力を改善するに留まり、視覚理解の弱点を魔法のように解消するわけではないことも見出しています。

ロボットに自律実験を教える
第二のテストベッドは、電子機器やエネルギーデバイスで用いられる薄膜ポリマーを作製する自動化ステーションです。ここでは異なるグリッパーを備えたロボットアームがバイアル、基板、ピペットチップ、ブレードコーターなどを各ステーション間で移動させます。研究者たちは高レベルのルーチンのほとんどを取り除き、エージェントには低レベルのコマンドと各種位置のマップだけを与えます。AIは適切な塗布条件を抽出するために論文を読み、基板を取り上げてコーターに置き、バイアルのキャップを外し、溶液を分注して温度と速度を制御しながら広げる、といった長い工程の連鎖を計画し、それを実行するロボットコードを生成・検証しなければなりません。人間の監督者が各新しい手順を承認し、その修正は記憶システムに保存されることで、エージェントは成功したパターンを後で再利用できます。
自動運転ラボに向けての構築
X線ビームラインとロボット製造プラットフォームの双方において、本研究はAIエージェントが現場で学習し、専門家の指導を再利用可能なノウハウへと徐々に変えていけることを示しています。構造化された記憶とAIに許可される行為を制限する安全チェックを備えれば、これらのシステムは時間とともにより信頼性が増しつつ、重要な意思決定は人間が担い続けることができます。著者らは、真の完全自動ラボを実現するには較正、長期記憶管理、人間の器用さや直感に依存する作業への対応といったさらなる取り組みが必要だと強調しています。それでも本研究は、科学者が複雑な制御に苦労する時間を減らし、AIの協力で楽器を運用してアイデアを発見につなげることにより、より大胆な問いに時間を割ける未来を示しています。
引用: Vriza, A., Prince, M.H., Zhou, T. et al. Operating advanced scientific instruments with AI agents that learn on the job. npj Comput Mater 12, 160 (2026). https://doi.org/10.1038/s41524-026-02005-0
キーワード: AIエージェント, 自動運転ラボ, 科学機器, ロボット実験, マルチモーダル大規模言語モデル