Clear Sky Science · fr

Apprentissage par renforcement profond informé par la psychologie pour l’optimisation de portefeuille avec aversion aux pertes et excès de confiance

2026-01-28 · Retour à l’index

Pourquoi nos émotions comptent dans l’investissement automatisé

La plupart des gens savent que la peur et l’excès de confiance peuvent influencer leurs choix d’investissement, mais nous avons tendance à supposer que le trading piloté par ordinateur est parfaitement rationnel. Cette étude remet en question cette idée en montrant que même les systèmes automatisés peuvent tirer parti de traits « à la humaine ». En incorporant de manière réfléchie l’aversion aux pertes (dégoût des pertes) et l’excès de confiance dans un système de trading d’intelligence artificielle moderne, les auteurs montrent que les portefeuilles peuvent devenir plus résilients lors des krachs et plus efficaces en période de boom — tant sur les cryptomonnaies que sur les actions vedettes.

Apprendre aux robots de trading la peur et l’audace

Les chercheurs partent d’un puissant volet de l’IA appelé apprentissage par renforcement profond, où un agent logiciel apprend par essais et erreurs à rééquilibrer un portefeuille dans le temps. Dans les versions standard, l’agent se comporte comme un investisseur parfaitement rationnel : il examine les prix et les indicateurs et choisit des pondérations de portefeuille qu’il estime payantes à long terme. Ici, cet agent neutre existe toujours, mais il est enveloppé d’une couche comportementale qui imite deux tendances d’investisseur bien documentées : l’aversion aux pertes (réagir plus fortement aux pertes qu’à des gains équivalents) et l’excès de confiance (accorder trop de crédit à ses propres prévisions). Plutôt que de modifier ce qu’il faut acheter ou vendre, ces règles comportementales modulent la taille de chaque position une fois que l’agent neutre a choisi une direction.

Comment fonctionnent la ceinture de sécurité comportementale et le turbocompresseur

En mode aversion aux pertes, le système porte une attention particulière aux pertes latentes sur chaque actif. Lorsqu’une position dépasse un seuil prédéfini à la baisse, le cadre réduit automatiquement le risque global et bascule une partie du portefeuille vers de la trésorerie, tout en favorisant modestement les actifs décotés, conformément au comportement de nombreux investisseurs humains. À l’inverse, en mode excès de confiance, des gains marqués entraînent des tailles de position plus importantes et parfois un effet de levier, ce qui permet de suivre les tendances de façon plus agressive et parfois de « renforcer une position » après des baisses nettes si le système anticipe un rebond. Il est important de noter que, dans tous les cas, le cœur d’apprentissage par renforcement décide quels actifs détenir ; le module comportemental ne fait que régler l’exposition à la hausse ou à la baisse autour de cette base.

Laisser l’humeur du marché choisir le comportement

Pour décider quand être prudent ou audacieux, les auteurs intègrent un moteur de prévision distinct appelé TimesNet, un modèle d’apprentissage profond conçu pour découvrir des motifs répétitifs dans des séries temporelles. TimesNet examine les données récentes du marché et prédit le rendement global du jour suivant. S’il anticipe une forte hausse, l’agent excès de confiance est activé ; s’il prévoit une baisse, c’est l’agent aversion aux pertes qui prend le relais ; et lorsque la prévision est modeste, l’agent neutre reste aux commandes. Ce commutateur de régime est entraîné strictement sur des données passées selon une approche walk-forward pour éviter toute fuite d’information future, et il peut être remplacé par d’autres prévisionnistes sans modifier le cœur comportemental.

Mettre le système conscient des biais à l’épreuve

L’équipe évalue leur cadre Behavioral Bias–Aware Portfolio Trading (BBAPT) sur deux terrains très différents : un panier de 20 cryptomonnaies de 2018 à 2024, et la liste évolutive des actions de l’indice Dow Jones Industrial Average de 2008 à 2024. Dans la crypto, où les fluctuations sont fréquentes, l’aversion aux pertes brille dans des marchés chaotiques et en range en réduisant l’exposition et en limitant les pertes profondes, tandis que l’excès de confiance excelle lors de fortes hausses en amplifiant les positions gagnantes. Sur l’ensemble de la période, le système BBAPT combiné — utilisant TimesNet pour choisir entre les modes neutre, aversion aux pertes et excès de confiance — offre une performance ajustée au risque supérieure à celle des portefeuilles Markowitz classiques, des stratégies à pondération égale simples et des agents d’apprentissage par renforcement sans ajustements comportementaux.

Des résultats qui tiennent aussi sur des marchés d’actions mûrs

Dans les tests longue durée sur le Dow Jones, qui incluent la crise financière de 2008, le krach lié au COVID-19 et les chocs d’inflation de 2022, les mêmes schémas se répètent. Toutes les stratégies basées sur l’apprentissage par renforcement surpassent les portefeuilles statiques en termes de rendement et de ratio de Sharpe, une mesure courante du rendement par unité de risque. Dans ce groupe, la configuration aversion aux pertes offre la trajectoire la plus douce avec les pertes maximales les plus faibles, la configuration excès de confiance capture les gains bruts les plus élevés au prix d’une plus grande volatilité, et le cadre BBAPT complet se situe sur la frontière efficiente, associant rendements solides et risque modéré. Les auteurs ajustent également leurs tests pour tenir compte des changements de composition de l’indice afin de se prémunir contre le biais de survivance, et constatent que les conclusions principales demeurent valides.

Ce que cela signifie pour les investisseurs quotidiens

Pour les non-spécialistes, le message clé est que le trading algorithmique réussi n’a pas à ignorer la psychologie humaine ; il peut l’exploiter. En construisant des versions soigneusement contrôlées de la peur et de l’audace dans un trader IA — et en laissant un modèle de prévision décider quand chaque trait doit dominer — le cadre BBAPT crée des portefeuilles qui s’adaptent aux booms et aux krachs de manière plus intuitive. Ce travail suggère un avenir où les systèmes de trading « intelligents » ne sont pas seulement guidés par les données, mais aussi conscients des comportements, offrant aux investisseurs des outils à la fois plus robustes et plus faciles à comprendre que des boîtes noires supposant une rationalité parfaite.

Citation: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x

Mots-clés: trading algorithmique, finance comportementale, apprentissage par renforcement, optimisation de portefeuille, marchés des cryptomonnaies