Clear Sky Science · ja
損失回避と過信を組み込んだ行動経済学的深層強化学習によるポートフォリオ最適化
自動化投資で感情が重要な理由
多くの人は恐怖や過信が投資判断に影響することを知っていますが、コンピュータ駆動の取引は完全に合理的であると考えがちです。本研究はその考えに挑戦し、自動化システムであっても「人間らしい」特性を取り入れることで有益になり得ることを示します。損失回避(損失を嫌う性向)と過信を現代のAI取引システムに慎重に組み込むことで、暗号資産と優良株の両方において、暴落時により耐性のあるポートフォリオや好況時により効果的なポートフォリオが得られると著者らは示しています。

取引ロボットに恐怖と大胆さを教える
研究者らは、深層強化学習というAIの強力な分野から出発します。ここではエージェントが試行錯誤を通じて時間をかけてポートフォリオのリバランスを学びます。標準的なバージョンでは、エージェントは教科書的な合理的投資家のように振る舞い、価格や指標を見て将来有益だと考えるポートフォリオの比率を選びます。本研究では、その中立的エージェントは存続しますが、損失回避(同等の利益より損失に強く反応する)と過信(自らの予測を過信する)というよく記述された投資家の傾向を模した行動レイヤーで包まれます。これらの行動規則は、何を買うか売るかを変えるのではなく、中立的エージェントが方向性を決めた後に各ポジションの大きさをどうするかを変えます。
行動的シートベルトとターボチャージャーの働き
損失回避モードでは、システムは各資産の未実現損失に特別な注意を払います。ある保有が事前設定した閾値を超えて下落した場合、フレームワークは自動的に全体のリスクを削減し、一部を現金に移します。同時に、多くの個人投資家が行うように下落した資産をやや優先する傾向も見せます。一方、過信モードでは、大きな利益が出るとポジションサイズを拡大し、時にはレバレッジを用いてトレンドに積極的に乗り、急落の後に反発を期待する場合は「ナンピン(追加投資)」のような動きを取ることもあります。重要なのは、いずれの場合もどの資産を保有するかは強化学習コアが決定し、行動モジュールはその基準に対してエクスポージャーを上下に調整するだけだという点です。
市場のムードに応じて行動を選ぶ
慎重に振る舞うか大胆に振る舞うかを決めるために、著者らはTimesNetと呼ばれる別の予測エンジンを導入します。TimesNetは時系列の繰り返しパターンを見つけることを目的とした深層学習モデルです。TimesNetは最近の市場データを見て翌日の全体リターンを予測します。強い上昇を予測すれば過信モードが作動し、下落を予測すれば損失回避モードが優先され、予測が穏やかであれば中立モードが維持されます。このレジーム切り替え器は過去データのみでウォークフォワード方式に従って訓練され、未来を覗き見することがないように設計されています。また、行動コアを変えずに他の予測器と差し替えることも可能です。

行動認識システムの実地試験
研究チームは、Behavioral Bias–Aware Portfolio Trading(BBAPT)フレームワークを二つの非常に異なる領域で評価します:2018年から2024年の20資産からなる暗号通貨バスケットと、2008年から2024年にわたるダウ・ジョーンズ工業株30種の入れ替わりを含むテストです。暗号資産では大きな変動が一般的なため、損失回避はレンジ相場やもみ合いでエクスポージャーを削減し深いドローダウンを抑える点で有効であり、過信は強いブル相場で勝ちを拡大する点で優れています。全期間を通じて、TimesNetで中立、損失回避、過信モードを切り替える統合BBAPTシステムは、古典的なマルコウィッツ型ポートフォリオ、単純な等重み戦略、行動的調整のない強化学習エージェントよりも高いリスク調整後パフォーマンスを示しました。
成熟した株式市場でも有効な結果
2008年の金融危機、COVID-19の暴落、2022年のインフレショックを含む長期のダウ・ジョーンズ試験でも同様のパターンが再現されます。すべての強化学習ベースの戦略は、静的ポートフォリオよりもリターンとシャープレシオの両面で優れていました。その中で、損失回避設定は最大損失が最も小さく最も滑らかな推移を提供し、過信設定はリターンの絶対値を最大化する一方で変動も大きく、統合BBAPTフレームワークは効率的フロンティア上に位置し、高いリターンと調整されたリスクを両立しました。著者らは生存者バイアスを避けるために指数構成の変化にも調整を行い、主要な結論が維持されることを確認しています。
一般投資家にとっての含意
専門外の読者にとっての重要なメッセージは、成功するアルゴリズム取引は人間の心理を無視する必要はないということです。それどころか、人間の恐怖や大胆さを慎重に制御した形でAIトレーダーに組み込み、どの特性を優先するかを予測モデルに委ねることで、BBAPTフレームワークは景気の拡大や後退により直感的に適応するポートフォリオを作り出します。本研究は、将来の「賢い」取引システムが単にデータ駆動であるだけでなく、行動を意識したものになり、完全に合理を仮定するブラックボックスモデルよりも堅牢で理解しやすいツールを投資家に提供し得ることを示唆しています。
引用: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x
キーワード: アルゴリズム取引, 行動ファイナンス, 強化学習, ポートフォリオ最適化, 暗号通貨市場