Clear Sky Science · ru

Поведенчески информированное глубокое обучение с подкреплением для оптимизации портфеля с учётом боязни потерь и излишней уверенности

2026-01-28 · Назад к списку

Почему наши эмоции важны в автоматизированных инвестициях

Большинство людей знают, что страх и чрезмерная уверенность могут влиять на их инвестиционные решения, но мы склонны полагать, что компьютерная торговля полностью рациональна. Это исследование оспаривает такое представление, показывая, что даже автоматизированные системы могут выиграть от «человеческих» черт. Включив осторожно боязнь потерь (неприятие убытков) и излишнюю уверенность в современную систему искусственного интеллекта для торговли, авторы обнаружили, что портфели становятся более устойчивыми при обвалах и эффективнее при буме — как на рынках криптовалют, так и среди голубых фишек.

Обучая торговых роботов страху и смелости

Исследователи исходят из мощного направления ИИ — глубокого обучения с подкреплением, где программный агент методом проб и ошибок учится ребалансировать портфель со временем. В стандартных вариантах агент ведёт себя как учебный пример рационального инвестора: он смотрит на цены и индикаторы и выбирает веса портфеля, которые, по его оценке, принесут выгоду в долгосрочной перспективе. Здесь нейтральный агент по-прежнему существует, но он окружён поведенческим слоем, имитирующим два хорошо задокументированных поведения инвесторов: боязнь потерь (сильная реакция на убытки сильнее, чем на эквивалентные выигрыши) и излишнюю уверенность (чрезмерное доверие к собственным прогнозам). Вместо того чтобы менять, что покупать или продавать, эти поведенческие правила изменяют размер каждой позиции после того, как нейтральный агент определил направление.

Как работает ремень безопасности и турбонаддув поведения

В режиме боязни потерь система особенно следит за нереализованными убытками по каждому активу. Когда позиция падает ниже заранее заданного порога, рамка автоматически снижает общий риск и переводит часть портфеля в наличность, одновременно умеренно отдавая предпочтение убыточным активам в соответствии с поведением многих инвесторов. Напротив, в режиме излишней уверенности сильные прибыли приводят к увеличению размеров позиций и даже к использованию кредита, что позволяет более агрессивно следовать за трендами и иногда «удваивать ставку» после резких падений, если система ожидает отскока. Важно, что во всех случаях ядро обучения с подкреплением решает, какими активами владеть; поведенческий модуль лишь регулирует экспозицию выше или ниже этой базы.

Позволяя настроению рынка выбирать поведение

Чтобы решить, когда следует проявлять осторожность или смелость, авторы подключают отдельный прогнозный движок TimesNet — модель глубокого обучения, предназначенную для выявления повторяющихся шаблонов во временных рядах. TimesNet анализирует недавние рыночные данные и прогнозирует общий доход на следующий день. Если модель ожидает сильного подъёма, активируется агент с излишней уверенностью; при прогнозе спада берёт управление агент, боящийся потерь; а при скромном прогнозе остаётся нейтральный агент. Этот переключатель режимов обучается строго на исторических данных в режиме walk-forward, чтобы избежать заглядывания в будущее, и его можно заменить другими прогнозными моделями без изменения поведенческого ядра.

Испытание системы, учитывающей поведение

Команда тестирует свою систему Behavioral Bias–Aware Portfolio Trading (BBAPT) в двух очень разных средах: корзине из 20 криптовалют за период 2018–2024 гг. и меняющемся составе акций индекса Dow Jones Industrial Average в 2008–2024 гг. В криптовалютном сегменте, где часты резкие колебания, боязнь потерь проявляет себя в чоппи‑рынках с ограниченными диапазонами, сокращая экспозицию и ограничивая глубокие просадки, тогда как излишняя уверенность преуспевает во время сильных бычьих ралли, усиливая победителей. За весь период комбинированная система BBAPT — с использованием TimesNet для выбора между нейтральным, боящимся потерь и излишне уверенным режимами — демонстрирует более высокую риск‑скорректированную эффективность по сравнению с классическими портфелями Марковица, простыми равновесными стратегиями и агентами обучения с подкреплением без поведенческих корректировок.

Результаты, подтверждающиеся на зрелых фондовых рынках

В долговременных тестах на Dow Jones, включающих кризис 2008 года, обвал во время COVID‑19 и инфляционные шоки 2022 года, наблюдаются те же закономерности. Все стратегии на основе обучения с подкреплением превосходят статические портфели по доходности и коэффициенту Шарпа, стандартной мере дохода на единицу риска. Внутри этой группы конфигурация с боязнью потерь обеспечивает наибольшую плавность с минимальными максимальными убытками, конфигурация с излишней уверенностью фиксирует наивысшую абсолютную прибыль ценой более сильных колебаний, а полная система BBAPT располагается на эффективной границе, сочетая высокую доходность с умеренным риском. Авторы также корректируют результаты с учётом изменений в составе индекса, чтобы защититься от эффекта выживания, и находят, что основные выводы сохраняются.

Что это означает для обычных инвесторов

Для неспециалистов ключевое послание в том, что успешная алгоритмическая торговля не обязательно должна игнорировать человеческую психологию — её можно использовать. Создавая тщательно контролируемые версии страха и смелости в ИИ‑трейдере и позволяя прогнозной модели решать, какая черта должна доминировать, рамка BBAPT формирует портфели, которые интуитивнее адаптируются к подъёмам и падениям. Работа указывает на будущее, в котором «умные» торговые системы не только опираются на данные, но и осведомлены о поведении, предоставляя инвесторам инструменты, которые одновременно более надёжны и понятны по сравнению с чёрными ящиками, предполагающими идеальную рациональность.

Цитирование: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x

Ключевые слова: алгоритмическая торговля, поведенческая финансы, обучение с подкреплением, оптимизация портфеля, рынки криптовалют