Clear Sky Science · sv

Beteendeinformerad djup förstärkningsinlärning för portföljoptimering med förlustaversion och överdriven självförtroende

2026-01-28 · Tillbaka till index

Varför våra känslor spelar roll i automatiserad investering

De flesta vet att rädsla och överdrivet självförtroende kan påverka deras investeringsval, men vi tenderar att anta att datorstyrd handel är helt rationell. Denna studie ifrågasätter den idén genom att visa att även automatiserade system kan gynnas av "människoliknande" egenskaper. Genom att noggrant bygga in förlustaversion (ogillande av förluster) och överdrivet självförtroende i ett modernt artificiellt intelligenshandelssystem, finner författarna att portföljer kan bli mer motståndskraftiga i krascher och mer effektiva i uppgångar — både för kryptovalutor och för etablerade blåchipsaktier.

Att lära handelrobotar om rädsla och djärvhet

Forskarna utgår från en kraftfull gren av AI kallad djup förstärkningsinlärning, där en programagent genom trial-and-error lär sig hur den ska ombalansera en portfölj över tid. I standardversioner beter sig agenten som en läroboksrational investerare: den tittar på priser och indikatorer och väljer portföljvikter som den bedömer ger avkastning på sikt. Här finns den neutrala agenten kvar, men den kapslas in i ett beteendemässigt lager som efterliknar två väl dokumenterade investerartendenser: förlustaversion (att reagera starkare på förluster än på lika stora vinster) och överdrivet självförtroende (att ha för stort förtroende för sina egna prognoser). Istället för att ändra vad som ska köpas eller säljas, ändrar dessa beteenderegler hur stora positionerna bör vara när den neutrala agenten redan har valt riktning.

Hur beteendesäkerhetsbältet och turboladdaren fungerar

I det förlustaverta läget uppmärksammar systemet särskilt orealiserade förluster i varje tillgång. När en position faller bortom en förinställd tröskel reducerar ramen automatiskt den totala risken och flyttar en del av portföljen mot kassareserver, samtidigt som den svagt favoriserar nedslagna tillgångar i linje med hur många mänskliga investerare beter sig. I kontrast, i det överdrivet självförtroende-läget, leder starka vinster till större positioner och till och med viss hävstång, vilket i praktiken rider på trender mer aggressivt och ibland "dubblar upp" efter kraftiga nedgångar om systemet förväntar sig en återhämtning. Viktigt är att det i alla fall är förstärkningsinlärningskärnan som bestämmer vilka tillgångar som ska innehas; beteendemodulen justerar endast exponeringen upp eller ner runt den baslinjen.

Låta marknadens stämning välja beteendet

För att avgöra när systemet ska vara försiktigt eller djärvt kopplar författarna in en separat prognosmotor kallad TimesNet, en djupinlärningsmodell utformad för att upptäcka återkommande mönster i tidsserier. TimesNet ser på senaste marknadsdata och förutser nästa dags totala avkastning. Om den förväntar sig en stark uppgång aktiveras den överdrivet självförtroende-agenten; om den förutser en nedgång tar den förlustaverta agenten över; och när prognosen är måttlig förblir den neutrala agenten i kontroll. Denna regimväljare tränas strikt på historisk data i en walk-forward-ansats för att undvika att titta in i framtiden, och den kan bytas ut mot andra prognosmetoder utan att beteendekärnan ändras.

Att pröva det beteende-aware systemet

Teamet utvärderar sitt Behavioral Bias–Aware Portfolio Trading (BBAPT)-ramverk i två mycket olika miljöer: en korg med 20 kryptotillgångar från 2018 till 2024, och den föränderliga listan över Dow Jones Industrial Average-aktier från 2008 till 2024. I kryptomarknaden, där kraftiga svängningar är vanliga, visar förlustaversion sin styrka i skakiga, sidledes marknader genom att minska exponering och begränsa djupa neddragningar, medan överdrivet självförtroende utmärker sig under starka tjurperioder genom att förstärka vinnare. Över hela perioden levererar det kombinerade BBAPT-systemet — med TimesNet för att välja mellan neutralt, förlustavert och överdrivet självförtroende — högre riskjusterad prestation än klassiska Markowitz-portföljer, enkla lika-viktade strategier och förstärkningsinlärningsagenter utan beteendemässiga justeringar.

Resultat som håller i mogna aktiemarknader

I de långsiktiga Dow Jones-testerna, som inkluderar finanskrisen 2008, COVID-19-kraschen och inflationschockerna 2022, återkommer samma mönster. Alla förstärkningsinlärningsbaserade strategier slår statiska portföljer både vad gäller avkastning och Sharpe-kvot, ett vanligt mått på avkastning per riskenhet. Inom den gruppen erbjuder förlustaverta konfigurationen den mjukaste resan med de minsta maximala förlusterna, ger den överdrivet självförtroende-konfigurationen de högsta råa vinsterna på bekostnad av större svängningar, och det fullständiga BBAPT-ramverket ligger på effektiv fronten genom att para ihop stark avkastning med modererad risk. Författarna justerar också för förändringar i indexmedlemskap för att skydda mot survivorship-bias och finner att huvudslutsatserna kvarstår.

Vad detta betyder för vanliga investerare

För icke-specialister är huvudbudskapet att framgångsrik algoritmisk handel inte behöver ignorera mänsklig psykologi; den kan utnyttja den. Genom att bygga noggrant kontrollerade versioner av rädsla och djärvhet i en AI-handlare — och låta en prognosmodell avgöra när varje egenskap bör dominera — skapar BBAPT-ramverket portföljer som anpassar sig till uppgångar och nedgångar på ett mer intuitivt sätt. Arbetet antyder en framtid där "smarta" handelssystem inte bara är datadrivna utan också beteende-medvetna, och därigenom erbjuder investerare verktyg som både är mer robusta och lättare att förstå än svartlådemodeller som antar fullständig rationalitet.

Citering: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x

Nyckelord: algoritmisk handel, beteendefinans, förstärkningsinlärning, portföljoptimering, kryptovalutamarknader