Clear Sky Science · pl
Uczenie ze wzmocnieniem uwzględniające zachowania dla optymalizacji portfela z awersją do strat i nadmierną pewnością siebie
Dlaczego nasze emocje mają znaczenie w zautomatyzowanym inwestowaniu
Większość osób wie, że strach i nadmierna pewność siebie mogą wpływać na decyzje inwestycyjne, ale zwykle zakładamy, że handel prowadzony przez komputery jest całkowicie racjonalny. To badanie podważa ten pogląd, pokazując, że nawet systemy zautomatyzowane mogą korzystać z „ludzkich” cech. Poprzez staranne wbudowanie awersji do strat (niechęci do ponoszenia strat) i nadmiernej pewności siebie w nowoczesny system handlu oparty na sztucznej inteligencji, autorzy wykazują, że portfele mogą być bardziej odporne podczas spadków i skuteczniejsze podczas hossy — zarówno na rynkach kryptowalut, jak i w przypadku blue-chipów.

Nauczanie robotów handlowych strachu i śmiałości
Badacze zaczynają od silnej gałęzi SI zwanej głębokim uczeniem ze wzmocnieniem, gdzie agent programowy uczy się metodą prób i błędów, jak w czasie dobierać wagi portfela. W standardowych wariantach agent zachowuje się jak podręcznikowy racjonalny inwestor: analizuje ceny i wskaźniki oraz wybiera udziały, które jego zdaniem zaprocentują w długim terminie. Tutaj ten neutralny agent nadal istnieje, ale zostaje opakowany w warstwę behawioralną naśladującą dwie dobrze udokumentowane tendencje inwestorów: awersję do strat (silniejsza reakcja na straty niż na równoważne zyski) oraz nadmierną pewność siebie (przesadne zaufanie do własnych prognoz). Zamiast zmieniać, co kupować lub sprzedawać, reguły behawioralne modyfikują wielkość pozycji po tym, jak neutralny agent wskazał kierunek działania.
Jak działa pas bezpieczeństwa behawioralnego i turbo
W trybie awersji do strat system zwraca szczególną uwagę na niezrealizowane straty na poszczególnych aktywach. Gdy pozycja spada poniżej ustawionego progu, ramy automatycznie redukują ogólne ryzyko i przesuwają część portfela w kierunku gotówki, jednocześnie umiarkowanie faworyzując przetrzebione aktywa, co odpowiada zachowaniu wielu inwestorów indywidualnych. Natomiast w trybie nadmiernej pewności silne zyski wywołują zwiększone rozmiary pozycji, a nawet pewne wykorzystanie dźwigni, skutecznie podążając za trendami bardziej agresywnie i czasem „dokładając” po ostrych spadkach, jeśli system spodziewa się odbicia. Co ważne, w każdym przypadku rdzeń uczenia ze wzmocnieniem decyduje, które aktywa trzymać; moduł behawioralny jedynie zwiększa lub zmniejsza wystawienie względem tej bazy.
Pozwolić nastrojowi rynku wybierać zachowanie
Aby zdecydować, kiedy być ostrożnym, a kiedy śmiałym, autorzy podłączają osobny silnik prognostyczny o nazwie TimesNet, model głębokiego uczenia zaprojektowany do odkrywania powtarzających się wzorców w szeregach czasowych. TimesNet analizuje ostatnie dane rynkowe i prognozuje następny dzienny zwrot. Jeśli spodziewa się silnego wzrostu, aktywowany jest agent nadmiernie pewny; gdy przewiduje spadek, przejmuje agent awersji do strat; a przy umiarkowanej prognozie kontrolę zachowuje agent neutralny. Ten przełącznik reżimów jest trenowany wyłącznie na danych historycznych w trybie walk-forward, aby uniknąć spojrzenia w przyszłość, i może być wymieniony na inne modele prognostyczne bez zmiany rdzenia behawioralnego.

Testowanie systemu świadomego zachowań
Zespół ocenia swój framework Behavioral Bias–Aware Portfolio Trading (BBAPT) na dwóch bardzo różnych polach: koszyku 20 aktywów kryptowalutowych w latach 2018–2024 oraz zmieniającej się liście spółek indeksu Dow Jones Industrial Average w latach 2008–2024. W kryptowalutach, gdzie występują gwałtowne wahania, awersja do strat sprawdza się na rynkach płaskich i zakresowych przez ograniczanie ekspozycji i minimalizowanie głębokich obsunięć, podczas gdy nadmierna pewność przoduje w silnych trendach wzrostowych przez wzmacnianie zwycięzców. W całym badanym okresie połączony system BBAPT — używający TimesNet do wyboru między trybem neutralnym, awersyjnym i nadmiernie pewnym — osiąga wyższą skorygowaną o ryzyko wydajność niż klasyczne portfele Markowitza, proste strategie równego ważenia oraz agenci uczenia ze wzmocnieniem bez poprawek behawioralnych.
Wyniki utrzymujące się na dojrzałych rynkach akcji
W długotrwałych testach na indeksie Dow Jones, obejmujących kryzys finansowy 2008, krach z powodu COVID-19 oraz szoki inflacyjne z 2022 roku, pojawiają się te same wzorce. Wszystkie strategie oparte na uczeniu ze wzmocnieniem przewyższają statyczne portfele zarówno pod względem zwrotów, jak i wskaźnika Sharpe’a, powszechnej miary zwrotu na jednostkę ryzyka. W ramach tej grupy konfiguracja awersji do strat oferuje najpłynniejszą jazdę z najmniejszym maksymalnym spadkiem, konfiguracja nadmiernej pewności osiąga najwyższe zyski brutto kosztem większych wahań, a pełny framework BBAPT znajduje się na efektywnej granicy, łącząc silne zwroty z umiarkowanym ryzykiem. Autorzy dokonują również korekt związanych ze zmianami w składzie indeksu, by zabezpieczyć się przed biasem przeżycia, i stwierdzają, że główne wnioski pozostają niezmienione.
Co to oznacza dla przeciętnych inwestorów
Dla osób niebędących specjalistami kluczowy przekaz jest taki, że skuteczny handel algorytmiczny nie musi ignorować psychologii ludzkiej; może ją wykorzystać. Poprzez staranne wbudowanie kontrolowanych wersji strachu i śmiałości w tradera AI — i pozwolenie modelowi prognostycznemu decydować, która cecha powinna dominować — framework BBAPT tworzy portfele, które lepiej dostosowują się do boomów i bess w sposób bardziej intuicyjny. Praca sugeruje przyszłość, w której „inteligentne” systemy handlowe są nie tylko oparte na danych, lecz także świadome zachowań, oferując inwestorom narzędzia zarówno bardziej odporne, jak i łatwiejsze do zrozumienia niż czarne skrzynki zakładające pełną racjonalność.
Cytowanie: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x
Słowa kluczowe: handel algorytmiczny, finanse behawioralne, uczenie ze wzmocnieniem, optymalizacja portfela, rynki kryptowalut