Clear Sky Science · nl

Gedragsgeïnformeerde diepe versterkingsleer voor portefeuilleverdeling met verliesaversie en overmoed

2026-01-28 · Terug naar het overzicht

Waarom onze emoties ertoe doen bij geautomatiseerd beleggen

De meesten weten dat angst en overmoed hun beleggingskeuzes kunnen beïnvloeden, maar we gaan er vaak van uit dat computergestuurde handel volledig rationeel is. Deze studie daagt die veronderstelling uit door te laten zien dat zelfs geautomatiseerde systemen kunnen profiteren van "mensachtige" eigenschappen. Door verliesaversie (aversie tegen verliezen) en overmoed zorgvuldig in een moderne AI-handelsmachine in te bouwen, ontdekken de auteurs dat portefeuilles veerkrachtiger kunnen zijn tijdens crashes en effectiever in opgaande markten — zowel bij cryptocurrencies als bij blue-chip aandelen.

Handelrobots leren over angst en durf

De onderzoekers vertrekken van een krachtige tak van AI, diepe versterkingsleer, waarbij een softwareagent door trial-and-error leert hoe een portefeuille in de loop van de tijd te herbalanceren. In standaardversies gedraagt de agent zich als een tekstboekrationele belegger: hij bekijkt prijzen en indicatoren en kiest portefeuillesgewichten waarvan hij denkt dat ze op lange termijn renderen. Die neutrale agent blijft hier bestaan, maar is omhuld met een gedragslaag die twee goed gedocumenteerde beleggerstendensen nabootst: verliesaversie (sterker reageren op verliezen dan op gelijke winst) en overmoed (te veel vertrouwen op eigen prognoses). In plaats van te veranderen wat gekocht of verkocht wordt, wijzigen deze gedragsregels hoe groot elke positie moet zijn zodra de neutrale agent een richting heeft gekozen.

Hoe de gedragsveiligheidsgordel en de turbomodus werken

In de verliesaverse modus let het systeem extra op niet-gerealiseerde verliezen per actief. Wanneer een positie onder een vooraf ingestelde drempel daalt, verlaagt het raamwerk automatisch het totale risico en verschuift het een deel van de portefeuille naar cash, terwijl het mild de voorkeur geeft aan afgestrafte activa in lijn met menselijk gedrag. In tegenstelling daarmee veroorzaken sterke winsten in de overmoedige modus grotere positiegroottes en zelfs enige hefboomwerking, waardoor trends agressiever worden gevolgd en het systeem soms "doublt down" na scherpe dalingen als het een herstel verwacht. Belangrijk is dat in alle gevallen de versterkingsleer-kern bepaalt welke activa aangehouden worden; de gedragsmodule past alleen de blootstelling omhoog of omlaag rond die basislijn.

De marktsfeer laten bepalen welk gedrag geldt

Om te beslissen wanneer voorzichtig of gedurfd te zijn, sluiten de auteurs een apart voorspellingsmodel aan genaamd TimesNet, een diepleermodel dat ontworpen is om herhalende patronen in tijdreeksen te ontdekken. TimesNet bekijkt recente marktdata en voorspelt het verwachte rendement voor de volgende dag. Als het een sterke opleving verwacht, wordt de overmoedige agent geactiveerd; bij een verwachte neergang neemt de verliesaverse agent het over; en bij een bescheiden voorspelling blijft de neutrale agent in controle. Deze regime-schakelaar wordt strikt getraind op historische data in een walk-forward opzet om elke kijk in de toekomst te voorkomen, en kan worden vervangen door andere voorspellers zonder de gedragskern te wijzigen.

Het gedrag-bewuste systeem op de proef stellen

Het team evalueert hun Behavioral Bias–Aware Portfolio Trading (BBAPT)-raamwerk in twee zeer verschillende omgevingen: een mandje van 20 cryptovaluta van 2018 tot 2024, en de wisselende samenstelling van de Dow Jones Industrial Average van 2008 tot 2024. In crypto, waar wilde schommelingen gebruikelijk zijn, schittert verliesaversie in hobbelige, range-bound markten door blootstelling te verminderen en diepe drawdowns te beperken, terwijl overmoed uitblinkt tijdens sterke bullruns door winnaars te versterken. Over de volledige periode levert het gecombineerde BBAPT-systeem — waarbij TimesNet kiest tussen neutraal, verliesavers en overmoedig — een hogere risico-gecorrigeerde prestatie dan klassieke Markowitz-portefeuilles, eenvoudige gelijkgewogen strategieën en versterkingsleer-agents zonder gedragsaanpassingen.

Resultaten die ook standhouden in volwassen aandelenmarkten

In de lange Dow Jones-tests, die de financiële crisis van 2008, de COVID-19-crash en de inflatieschokken van 2022 omvatten, herhalen dezelfde patronen zich. Alle op versterkingsleren gebaseerde strategieën verslaan statische portefeuilles zowel qua rendement als qua Sharpe-ratio, een gangbare maat voor rendement per eenheid risico. Binnen die groep biedt de verliesaverse configuratie de soepelste rit met de kleinst mogelijke maximale verliezen, de overmoedige configuratie realiseert de hoogste bruto-opbrengsten ten koste van grotere schommelingen, en het volledige BBAPT-raamwerk bevindt zich op de efficiënte grens, waarbij sterke rendementen met gematigd risico worden gecombineerd. De auteurs corrigeren ook voor veranderingen in indexsamenstelling om overlevingsbias te vermijden, en concluderen dat de hoofdresultaten intact blijven.

Wat dit betekent voor gewone beleggers

Voor niet-specialisten is de kernboodschap dat succesvolle algoritmische handel niet menselijk gedrag hoeft te negeren; het kan het juist benutten. Door zorgvuldig gecontroleerde versies van angst en durf in een AI-trader te bouwen — en een voorspellingsmodel te laten bepalen wanneer welke eigenschap dominant wordt — creëert het BBAPT-raamwerk portefeuilles die zich op een intuïtieve manier aanpassen aan oplevingen en neergangen. Het werk suggereert een toekomst waarin "slimme" handelssystemen niet alleen datagedreven zijn, maar ook gedragsbewust, en beleggers hulpmiddelen bieden die zowel robuuster als beter te begrijpen zijn dan black-boxmodellen die perfecte rationaliteit veronderstellen.

Bronvermelding: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x

Trefwoorden: algoritmische handel, behavioral finance, versterkingsleren, portefeuillesoptimalisatie, cryptovalutamarkten