Clear Sky Science · it

Apprendimento per rinforzo profondo informato dai comportamenti per l’ottimizzazione del portafoglio con avversione alle perdite e sovrafiducia

· Torna all'indice

Perché le nostre emozioni contano nell’investimento automatizzato

La maggior parte delle persone sa che paura e sovrafiducia possono influenzare le proprie scelte d’investimento, ma tendiamo a supporre che il trading guidato dai computer sia perfettamente razionale. Questo studio mette in discussione quest’idea mostrando che anche i sistemi automatizzati possono beneficiare di caratteristiche “simili a quelle umane”. Inserendo con cura avversione alle perdite (disprezzo per le perdite) e sovrafiducia in un moderno sistema di intelligenza artificiale per il trading, gli autori scoprono che i portafogli possono diventare più resilienti durante i crash e più efficaci nei boom — sia nelle criptovalute sia nelle azioni blue-chip.

Figure 1
Figura 1.

Insegnare ai robot di trading paura e audacia

I ricercatori partono da un potente ramo dell’IA chiamato apprendimento profondo per rinforzo, in cui un agente software impara per tentativi ed errori come riequilibrare un portafoglio nel tempo. Nelle versioni standard, l’agente si comporta come un investitore razionale da manuale: osserva prezzi e indicatori e sceglie pesi di portafoglio che ritiene remunerativi nel lungo periodo. Qui quell’agente neutrale esiste ancora, ma è avvolto in uno strato comportamentale che imita due tendenze ben documentate degli investitori: l’avversione alle perdite (reagire più intensamente alle perdite rispetto a guadagni di pari entità) e la sovrafiducia (riporre troppa fiducia nelle proprie previsioni). Piuttosto che cambiare cosa comprare o vendere, queste regole comportamentali modificano l’ampiezza di ciascuna posizione una volta che l’agente neutrale ha scelto una direzione.

Come funzionano la cintura di sicurezza comportamentale e il turbocompressore

In modalità avversa alle perdite, il sistema presta particolare attenzione alle perdite non realizzate su ogni attività. Quando una posizione scende oltre una soglia prestabilita, il quadro riduce automaticamente il rischio complessivo e sposta parte del portafoglio verso liquidità, pur privilegiando moderatamente le attività depresse in linea con il comportamento di molti investitori umani. In contrasto, in modalità sovrafiduciosa i forti guadagni innescano taglie di posizione maggiori e anche un certo grado di leva, cavalcando tendenze in modo più aggressivo e talvolta “raddoppiando” dopo cali netti se il sistema prevede un rimbalzo. È importante sottolineare che, in tutti i casi, il nucleo di apprendimento per rinforzo decide quali attività detenere; il modulo comportamentale si limita a regolare l’esposizione attorno a quella base.

Lasciare che l’umore del mercato scelga il comportamento

Per decidere quando essere cauti o audaci, gli autori collegano un motore di previsione separato chiamato TimesNet, un modello di deep learning progettato per scoprire schemi ripetitivi nelle serie temporali. TimesNet esamina i dati di mercato recenti e prevede il rendimento complessivo del giorno successivo. Se prevede una forte salita, viene attivato l’agente sovrafiducioso; se prevede un ribasso, prende il sopravvento l’agente avverso alle perdite; e quando la previsione è modesta, l’agente neutrale rimane al comando. Questo commutatore di regimi è addestrato esclusivamente su dati storici in una modalità walk-forward per evitare qualsiasi sguardo al futuro, e può essere sostituito con altri previsori senza alterare il nucleo comportamentale.

Figure 2
Figura 2.

Mettere alla prova il sistema consapevole del comportamento

Il team valuta il proprio framework Behavioral Bias–Aware Portfolio Trading (BBAPT) in due contesti molto diversi: un paniere di 20 asset di criptovalute dal 2018 al 2024, e la lista variabile delle azioni dell’indice Dow Jones Industrial Average dal 2008 al 2024. Nelle criptovalute, dove oscillazioni estreme sono comuni, l’avversione alle perdite brilla nei mercati irregolari e laterali riducendo l’esposizione e limitando i drawdown profondi, mentre la sovrafiducia eccelle durante forti mercati toro amplificando i vincitori. Sul periodo complessivo, il sistema BBAPT combinato — usando TimesNet per scegliere tra modalità neutrale, avversa alle perdite e sovrafiduciosa — offre performance aggiustate per il rischio superiori rispetto ai portafogli classici di Markowitz, a strategie a peso pari semplici e ad agenti di apprendimento per rinforzo privi di accorgimenti comportamentali.

Risultati che resistono anche nei mercati azionari maturi

Nei test sul lungo periodo del Dow Jones, che comprendono la crisi finanziaria del 2008, il crollo legato al COVID-19 e gli shock inflazionistici del 2022, si ripetono gli stessi schemi. Tutte le strategie basate su apprendimento per rinforzo superano i portafogli statici sia in termini di rendimento sia di Sharpe ratio, una misura comune del rendimento per unità di rischio. All’interno di quel gruppo, la configurazione avversa alle perdite offre il percorso più regolare con le perdite massime più contenute, la configurazione sovrafiduciosa cattura i guadagni lordi più alti a costo di oscillazioni maggiori, e il framework BBAPT completo si situa sulla frontiera efficiente, abbinando rendimenti elevati a rischi moderati. Gli autori correggono inoltre i cambiamenti nella composizione dell’indice per proteggersi dal bias di sopravvivenza e riscontrano che le conclusioni principali restano valide.

Cosa significa tutto ciò per l’investitore quotidiano

Per i non specialisti, il messaggio chiave è che il trading algoritmico di successo non deve ignorare la psicologia umana; può invece sfruttarla. Costruendo versioni controllate di paura e audacia in un trader AI — e lasciando che un modello di previsione decida quando ciascun tratto deve predominare — il framework BBAPT crea portafogli che si adattano a boom e crolli in modo più intuitivo. Il lavoro suggerisce un futuro in cui i sistemi di trading “intelligenti” non sono solo guidati dai dati, ma anche consapevoli dei comportamenti, offrendo agli investitori strumenti sia più robusti sia più facili da comprendere rispetto ai modelli black-box che presumono razionalità perfetta.

Citazione: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x

Parole chiave: trading algoritmico, finanza comportamentale, apprendimento per rinforzo, ottimizzazione del portafoglio, mercati delle criptovalute