Clear Sky Science · pt

Aprendizado por reforço profundo informado pelo comportamento para otimização de portfólios com aversão a perdas e excesso de confiança

· Voltar ao índice

Por que nossas emoções importam no investimento automatizado

A maioria das pessoas sabe que o medo e o excesso de confiança podem influenciar suas escolhas de investimento, mas tendemos a supor que a negociação conduzida por computadores é perfeitamente racional. Este estudo desafia essa ideia ao mostrar que mesmo sistemas automatizados podem se beneficiar de traços "semelhantes aos humanos". Ao incorporar cuidadosamente aversão a perdas (aversão a perdas) e excesso de confiança em um sistema de negociação de inteligência artificial moderno, os autores constatam que os portfólios podem se tornar mais resilientes em crises e mais eficazes em períodos de alta — tanto em criptomoedas quanto em ações de primeira linha.

Figure 1
Figure 1.

Ensinando robôs de negociação sobre medo e audácia

Os pesquisadores partem de um ramo poderoso da IA chamado aprendizado por reforço profundo, em que um agente de software aprende por tentativa e erro como rebalancear um portfólio ao longo do tempo. Nas versões padrão, o agente se comporta como um investidor racional de livro: ele observa preços e indicadores e escolhe pesos de portfólio que acredita render a longo prazo. Aqui, esse agente neutro ainda existe, mas é envolvido por uma camada comportamental que imita duas tendências bem documentadas dos investidores: aversão a perdas (reagir com mais intensidade às perdas do que a ganhos equivalentes) e excesso de confiança (confiar demais nas próprias previsões). Em vez de alterar o que comprar ou vender, essas regras comportamentais mudam o tamanho de cada posição depois que o agente neutro escolheu a direção.

Como funcionam o cinto de segurança comportamental e o turbocompressor

No modo avesso a perdas, o sistema presta atenção especial às perdas não realizadas em cada ativo. Quando uma posição cai além de um limite predefinido, a estrutura reduz automaticamente o risco geral e desloca parte do portfólio para caixa, ao mesmo tempo favorecendo modestamente ativos depreciados, em linha com o comportamento de muitos investidores humanos. Em contraste, no modo excessivamente confiante, ganhos fortes levam a tamanhos de posição maiores e até algum uso de alavancagem, efetivamente explorando tendências com mais agressividade e ocasionalmente "acrescentando" posições após quedas acentuadas se o sistema espera uma recuperação. Importante: em todos os casos o núcleo de aprendizado por reforço decide quais ativos manter; o módulo comportamental apenas ajusta a exposição para cima ou para baixo em torno dessa linha de base.

Deixando o humor do mercado escolher o comportamento

Para decidir quando ser cauteloso ou audacioso, os autores conectam um motor de previsão separado chamado TimesNet, um modelo de deep learning projetado para descobrir padrões recorrentes em séries temporais. O TimesNet observa dados recentes do mercado e prevê o retorno geral do dia seguinte. Se prever uma forte alta, o agente excessivamente confiante é ativado; se antever uma queda, o agente avesso a perdas assume; e quando a previsão for modesta, o agente neutro permanece no controle. Esse alternador de regimes é treinado estritamente com dados passados em uma abordagem walk-forward para evitar qualquer visão do futuro, e pode ser substituído por outros preditores sem alterar o núcleo comportamental.

Figure 2
Figure 2.

Testando o sistema atento ao comportamento

A equipe avalia seu framework Behavioral Bias–Aware Portfolio Trading (BBAPT) em dois cenários bem distintos: uma cesta de 20 ativos de criptomoedas de 2018 a 2024, e a lista variável de ações do Dow Jones Industrial Average de 2008 a 2024. Em cripto, onde oscilações extremas são comuns, a aversão a perdas se destaca em mercados agitados e laterais ao reduzir exposição e limitar perdas profundas, enquanto o excesso de confiança se sobressai durante fortes mercados de alta ao amplificar vencedores. No período completo, o sistema combinado BBAPT — usando o TimesNet para escolher entre modos neutro, avesso a perdas e excessivamente confiante — entrega desempenho ajustado ao risco superior ao de portfólios clássicos de Markowitz, estratégias simples de peso igual e agentes de aprendizado por reforço sem ajustes comportamentais.

Resultados que se mantêm em mercados de ações maduros

Nos testes de longa duração no Dow Jones, que incluem a crise financeira de 2008, a queda por COVID-19 e os choques de inflação de 2022, os mesmos padrões se repetem. Todas as estratégias baseadas em aprendizado por reforço superam portfólios estáticos tanto em retornos quanto na razão de Sharpe, uma medida comum de retorno por unidade de risco. Dentro desse grupo, a configuração avessa a perdas oferece a trajetória mais suave com as menores perdas máximas, a configuração excessivamente confiante captura os maiores ganhos brutos ao custo de oscilações maiores, e o framework completo BBAPT fica na fronteira eficiente, combinando retornos fortes com risco moderado. Os autores também ajustam as mudanças na composição do índice para se proteger contra viés de sobrevivência e constatam que as conclusões principais permanecem válidas.

O que isso significa para investidores comuns

Para não especialistas, a mensagem central é que a negociação algorítmica bem-sucedida não precisa ignorar a psicologia humana; ela pode aproveitá-la. Ao construir versões cuidadosamente controladas de medo e audácia em um trader de IA — e deixando um modelo de previsão decidir quando cada traço deve dominar — o framework BBAPT cria portfólios que se adaptam a ciclos de alta e baixa de modo mais intuitivo. O trabalho sugere um futuro em que sistemas de negociação "inteligentes" não são apenas orientados por dados, mas também conscientes do comportamento, oferecendo aos investidores ferramentas tanto mais robustas quanto mais fáceis de entender do que modelos caixa-preta que assumem racionalidade perfeita.

Citação: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x

Palavras-chave: negociação algorítmica, finanças comportamentais, aprendizado por reforço, otimização de portfólio, mercados de criptomoedas