Clear Sky Science · zh

将行为因素引入的深度强化学习用于兼顾损失厌恶与过度自信的投资组合优化

2026-01-28 · 返回目录

为何在自动化投资中情绪至关重要

大多数人都知道恐惧和过度自信会影响他们的投资选择，但我们往往假定计算机驱动的交易是完全理性的。这项研究挑战了这一观念，表明即便是自动化系统也能从“类似人类”的特质中获益。研究者通过在现代人工智能交易系统中谨慎引入损失厌恶（对亏损的厌恶）和过度自信，发现投资组合在崩盘时能更有韧性，在牛市时也更有效——这一结论在加密货币和蓝筹股市场均成立。

教会交易机器人恐惧与大胆

研究者从一种强大的人工智能分支——深度强化学习出发，在该框架中，软件智能体通过试错学习如何随时间再平衡投资组合。在标准版本中，智能体表现得像教科书中的理性投资者：观察价格和指标，选择它认为长期会带来回报的组合权重。在本文中，这个中性智能体仍然存在，但被包裹在一个模仿两种广为记录的投资者倾向的行为层中：损失厌恶（对损失的反应强于对同等收益的反应）和过度自信（对自身预测过于信任）。这些行为规则并不改变买卖什么，而是在中性智能体决定方向之后，调整每个头寸应有的规模。

行为安全带与增压器如何运作

在损失厌恶模式下，系统特别关注每项资产的未实现亏损。当某项持仓下跌超过预设阈值时，该框架会自动降低整体风险并将部分资产转向现金，同时按许多人类投资者的习惯适度偏好被击落的资产。相反，在过度自信模式下，强劲的收益会触发更大的仓位甚至杠杆，倾向于更积极地追随趋势，并在系统预测反弹时有时在大跌后“加倍下注”。重要的是，在所有情况下，强化学习核心决定持有哪些资产；行为模块只是围绕该基线放大或缩小暴露。

让市场情绪决定行为模式

为了决定何时谨慎或何时大胆，作者接入了一个名为 TimesNet 的独立预测引擎，这是一种旨在发掘时间序列中重复模式的深度学习模型。TimesNet 查看近期市场数据并预测次日的整体回报。如果它预计将有强劲上涨，则启用过度自信代理；若预测下行，则启用损失厌恶代理；当预测温和时，中性代理保持控制。该制度切换器严格采用滚动前瞻的方式在历史数据上训练，以避免任何窥探未来的行为，并且可以在不改变行为核心的前提下替换为其他预测器。

对具行为意识系统的实证检验

团队在两个截然不同的场景中评估其“考虑行为偏差的投资组合交易”（BBAPT）框架：2018 年至 2024 年的 20 种加密货币篮子，以及 2008 年至 2024 年随时间变化的道琼斯工业平均指数成分股。在波动剧烈的加密市场中，损失厌恶在震荡、区间震荡的市况中通过削减暴露和限制深度回撤表现出色，而过度自信则在强劲的牛市中通过放大利润来表现优异。整个期间内，结合 TimesNet 在中性、损失厌恶和过度自信模式之间切换的 BBAPT 系统，在风险调整后表现上优于经典的马科维茨组合、简单的等权策略以及没有行为修正的强化学习代理。

在成熟股票市场中也能经受住考验

在长期的道琼斯测试中（包括 2008 年金融危机、COVID-19 崩盘和 2022 年的通胀冲击），相同的模式再次出现。所有基于强化学习的策略在收益和夏普比率（每单位风险的回报常用度量）上均优于静态组合。在这些策略中，损失厌恶配置提供了最平稳的表现并且最大回撤最小；过度自信配置则以更大的波动为代价获取最高的绝对收益；完整的 BBAPT 框架处于有效前沿，兼顾了强劲回报与适度风险。作者还调整了指数成分的变化以防止幸存者偏差，发现主要结论保持不变。

对普通投资者的意义

对非专业者而言，关键信息是：成功的算法交易并不必然忽视人类心理；相反可以加以利用。通过在 AI 交易者中构建经过审慎控制的“恐惧”和“大胆”版本，并让预测模型决定何时让某种特质主导，BBAPT 框架创造出能更直观地适应繁荣与萧条的投资组合。这项工作预示着一种未来，即“智能”交易系统不仅以数据为驱动，也具备行为意识，为投资者提供比假定完美理性且难以理解的黑箱模型更稳健、更易理解的工具。

引用: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x

关键词: 算法交易, 行为金融学, 强化学习, 投资组合优化, 加密货币市场