Clear Sky Science · es
La incertidumbre y los historiales de recompensa tienen efectos distintos en las decisiones tras victorias y derrotas
Por qué las victorias y las derrotas no nos enseñan por igual
Cada día tomamos decisiones basadas en victorias y derrotas pasadas, desde elegir una acción hasta escoger la ruta al trabajo. Sin embargo, animales y personas aprenden con más fuerza de los éxitos que de los fracasos. Este artículo explora por qué ese desequilibrio no es sólo una rareza, sino una estrategia adaptativa moldeada por la forma en que nuestros cerebros registran el historial de recompensas y la incertidumbre. Estudiando ratas en un entorno cambiante y en parte impredecible, los investigadores descubren reglas ocultas que determinan cuándo las victorias importan más que las derrotas —y cómo esas reglas difieren entre machos y hembras.

Un mundo cambiante para ratas sedientas
Para sondear estas reglas, el equipo entrenó ratas con restricción de agua en una tarea de elección dinámica. En cada ensayo, las ratas iniciaban una ronda y luego elegían entre dos palancas. Una palanca tenía mayor probabilidad de entregar una gota de agua azucarada, pero cuál era la palanca “mejor” y cuánto mejor cambiaba por bloques a lo largo de la sesión. Algunos bloques hacían que la palanca mejor fuera muy evidente (un lado pagaba la mayoría de las veces y el otro casi nunca), mientras que otros bloques eran más confusos, con probabilidades de recompensa más parecidas o incluso iguales en ambas palancas. Esta configuración en constante cambio imita la vida real, donde lo que funcionó ayer puede no funcionar hoy.
Mantenerse con los ganadores, ignorar algunas pérdidas
A lo largo de cientos de sesiones, las ratas tendieron a repetir una elección tras una victoria (“win-stay”) con más frecuencia de la que cambiaban tras una derrota (“lose-shift”). Esto confirmó una marcada inclinación a aprender del éxito. El patrón fue especialmente claro una vez que las ratas tuvieron tiempo dentro de un bloque para averiguar cuál palanca era por lo general mejor. En estos ensayos tardíos, no solo se mantenían más tras las victorias, sino que además eran menos propensas a abandonar la palanca mejor tras una pérdida rara. Esta estrategia les ayudó a seguir explotando la opción más remuneradora en lugar de dejarse engañar por el resultado ocasionalmente malo que puede ocurrir incluso con una buena elección. Los machos mostraron este sesgo con mayor intensidad que las hembras: eran más propensos a mantenerse tras victorias y menos propensos a cambiar tras derrotas.
Señales ocultas: incertidumbre e historial de recompensas
Para comprender los cálculos invisibles tras este comportamiento, los autores emplearon modelos de aprendizaje por refuerzo —algoritmos informáticos que actualizan expectativas en función del feedback. Se centraron en dos señales internas. La primera fue una medida de “historial de incertidumbre”: un promedio de niveles recientes de sorpresa que capturaba cuán impredecibles habían sido los resultados. Cuando este número era alto, el entorno era efectivamente más turbio. La segunda fue un “estado global de recompensa”, un resumen suavizado de cuán rico o pobre había sido el entorno reciente en términos de resultados. Juntas, estas señales permitían a las ratas estimar tanto cuán ruidoso era el mundo como qué tan bien les había ido últimamente, y ajustar cuánto peso dar a la victoria o a la derrota más reciente.

Cuando la imprevisibilidad y la abundancia moldean las elecciones
Las dos señales internas influían en el comportamiento de maneras distintas y a veces específicas por sexo. Las ratas eran más propensas a mantenerse tras una victoria y menos propensas a abandonar la palanca mejor cuando la incertidumbre era baja —es decir, cuando el patrón del entorno era más claro. Bajo alta incertidumbre, eran más propensas a cambiarse de una buena palanca tras una pérdida, lo que sugiere que condiciones confusas pueden fomentar un comportamiento más cauteloso. Mientras tanto, un alto estado global de recompensa, que refleja una racha generalmente favorable de resultados, animaba a las ratas a seguir manteniéndose tras victorias y reducía su tendencia a cambiar tras derrotas, incluso cuando el entorno era algo ruidoso. Las decisiones basadas en victorias de los machos estuvieron especialmente moldeadas por su historial de incertidumbre, mientras que las hembras confiaron de forma más consistente en el estado global de recompensa.
Qué significa esto para las decisiones cotidianas
Para un lector no especialista, el mensaje central es que “aprender más de las victorias que de las derrotas” no es simplemente ser excesivamente optimista. El estudio muestra que las ratas —y probablemente los humanos— ajustan dinámicamente cuánto escuchan a victorias y derrotas según cuán predecible y cuán recompensador ha sido su mundo recientemente. Cuando las reglas parecen claras y las recompensas son abundantes, puede ser inteligente confiar en las victorias y descontar fracasos ocasionales. Cuando las cosas se sienten caóticas o escasas, dar más peso a las derrotas puede ayudar a evitar malas decisiones. El trabajo también revela que machos y hembras pueden seguir las mismas reglas de tarea usando equilibrios internos ligeramente distintos de incertidumbre e historial de recompensas, una idea que puede ayudar a explicar diferencias por sexo en vulnerabilidad a condiciones como la adicción o la depresión, donde el aprendizaje de recompensas y castigos falla.
Cita: Kalhan, S., Magnard, R., Zhang, Z. et al. Uncertainty and reward histories have distinct effects on decisions after wins and losses. Sci Rep 16, 6795 (2026). https://doi.org/10.1038/s41598-026-37554-3
Palabras clave: aprendizaje por refuerzo, toma de decisiones, incertidumbre, historial de recompensas, diferencias por sexo