Clear Sky Science · es

Aprendizaje por refuerzo profundo informado por la conducta para la optimización de carteras con aversión a la pérdida y exceso de confianza

2026-01-28 · Volver al índice

Por qué nuestras emociones importan en la inversión automatizada

La mayoría sabe que el miedo y el exceso de confianza pueden influir en sus decisiones de inversión, pero tendemos a asumir que el comercio impulsado por computadoras es perfectamente racional. Este estudio desafía esa idea al mostrar que incluso los sistemas automatizados pueden beneficiarse de rasgos «humanos». Al incorporar cuidadosamente la aversión a la pérdida (aversión a las pérdidas) y el exceso de confianza en un sistema de trading de inteligencia artificial moderno, los autores encuentran que las carteras pueden volverse más resilientes en las caídas y más efectivas en los repuntes —tanto en criptomonedas como en acciones de primer nivel.

Enseñando a los robots de trading sobre el miedo y la audacia

Los investigadores parten de una poderosa rama de la IA llamada aprendizaje por refuerzo profundo, donde un agente de software aprende por ensayo y error cómo reequilibrar una cartera a lo largo del tiempo. En las versiones estándar, el agente actúa como un inversor racional de libro de texto: observa precios e indicadores y elige ponderaciones de cartera que cree que darán frutos a largo plazo. Aquí, ese agente neutral sigue existiendo, pero se envuelve en una capa conductual que imita dos tendencias de los inversores bien documentadas: la aversión a la pérdida (reaccionar con más intensidad a las pérdidas que a ganancias iguales) y el exceso de confianza (confiar demasiado en las propias previsiones). En lugar de cambiar qué comprar o vender, estas reglas conductuales modifican el tamaño de cada posición una vez que el agente neutral ha elegido una dirección.

Cómo funcionan el cinturón de seguridad conductual y el turbo

En el modo averso a las pérdidas, el sistema presta atención especial a las pérdidas no realizadas en cada activo. Cuando una posición cae por debajo de un umbral predefinido, el marco reduce automáticamente el riesgo general y desplaza parte de la cartera hacia efectivo, al mismo tiempo que favorece modestamente a los activos castigados, en línea con el comportamiento de muchos inversores humanos. En contraste, en el modo de exceso de confianza, las ganancias fuertes disparan tamaños de posición mayores e incluso algo de apalancamiento, aprovechando las tendencias con mayor agresividad y, en ocasiones, «duplicando» posiciones tras caídas bruscas si el sistema espera un rebote. Es importante: en todos los casos el núcleo de aprendizaje por refuerzo decide qué activos mantener; el módulo conductual solo ajusta la exposición en torno a esa línea base.

Dejar que el ánimo del mercado elija el comportamiento

Para decidir cuándo ser cauto o audaz, los autores conectan un motor de predicción separado llamado TimesNet, un modelo de aprendizaje profundo diseñado para descubrir patrones recurrentes en series temporales. TimesNet observa datos de mercado recientes y predice el rendimiento global del día siguiente. Si espera una fuerte subida, se activa el agente excesivamente confiado; si prevé una caída, toma el control el agente averso a las pérdidas; y cuando la previsión es moderada, el agente neutral permanece al mando. Este conmutador de regímenes se entrena estrictamente con datos pasados en una modalidad walk-forward para evitar cualquier vistazo al futuro, y puede sustituirse por otros pronosticadores sin alterar el núcleo conductual.

Poniendo a prueba el sistema consciente del comportamiento

El equipo evalúa su marco Behavioral Bias–Aware Portfolio Trading (BBAPT) en dos escenarios muy distintos: una cesta de 20 activos de criptomonedas de 2018 a 2024, y la lista cambiante de acciones del Dow Jones Industrial Average de 2008 a 2024. En criptomonedas, donde son comunes las oscilaciones salvajes, la aversión a la pérdida brilla en mercados agitados y acotados al reducir la exposición y limitar las caídas profundas, mientras que el exceso de confianza destaca durante fuertes mercados alcistas al amplificar a los ganadores. En el período completo, el sistema combinado BBAPT —usando TimesNet para elegir entre modos neutral, averso a las pérdidas y excesivamente confiado— ofrece un rendimiento ajustado al riesgo superior al de las carteras clásicas de Markowitz, estrategias simples con ponderación igual y agentes de aprendizaje por refuerzo sin retoques conductuales.

Resultados que se mantienen en mercados de acciones maduros

En las pruebas de larga duración con el Dow Jones, que incluyen la crisis financiera de 2008, el desplome por la COVID-19 y los shocks de inflación de 2022, se repiten los mismos patrones. Todas las estrategias basadas en aprendizaje por refuerzo superan a las carteras estáticas tanto en rentabilidad como en ratio de Sharpe, una medida común de retorno por unidad de riesgo. Dentro de ese grupo, la configuración aversa a las pérdidas ofrece el recorrido más suave con las menores pérdidas máximas, la configuración excesivamente confiada captura las mayores ganancias brutas a costa de oscilaciones más amplias, y el marco completo BBAPT se sitúa en la frontera eficiente, combinando fuertes retornos con riesgo moderado. Los autores también ajustan por los cambios en la composición del índice para protegerse contra el sesgo de supervivencia y encuentran que las conclusiones principales se mantienen.

Qué significa esto para los inversores cotidianos

Para los no especialistas, el mensaje clave es que el trading algorítmico exitoso no tiene por qué ignorar la psicología humana; puede aprovecharla. Al incorporar versiones controladas de miedo y audacia en un trader de IA —y dejar que un modelo de previsión decida cuándo debe dominar cada rasgo—, el marco BBAPT crea carteras que se adaptan a los ciclos alcistas y bajistas de una manera más intuitiva. El trabajo sugiere un futuro en el que los sistemas de trading «inteligentes» no son solo impulsados por datos, sino también conscientes del comportamiento, ofreciendo a los inversores herramientas que son tanto más robustas como más fáciles de entender que los modelos de caja negra que asumen racionalidad perfecta.

Cita: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x

Palabras clave: trading algorítmico, finanzas conductuales, aprendizaje por refuerzo, optimización de carteras, mercados de criptomonedas