Clear Sky Science · ja
勝ちと負けの履歴は、不確実性が絡むと意思決定に異なる影響を与える
なぜ勝ちと負けは同じように教えてくれないのか
私たちは毎日、過去の勝ちや負けに基づいて株を選んだり通勤ルートを決めたりしています。それでも人間や動物は、失敗よりも成功から学ぶことが多いことで知られています。本稿は、その偏りが単なる癖ではなく、脳が報酬履歴と不確実性をどのように追跡するかによって形作られた適応的な戦略である理由を探ります。変動し一部は予測不能な環境でラットを調べることで、研究者たちは勝ちが負けより重要になる場面と、その規則がオスとメスでどう異なるかを明らかにしました。

渇きを抱えたラットにとって変化する世界
こうした規則を調べるために、研究チームは水を制限したラットを動的選択課題で訓練しました。各試行でラットはラウンドを開始し、二つのレバーのどちらかを選びました。一方のレバーは砂糖水の一滴を与える確率が高かったものの、どちらのレバーが「良い」か、そしてどれほど良いかはセッション中にブロックごとに変化しました。あるブロックでは良いレバーが非常に明白(片方が大半の時間で報酬を出し、もう片方はほとんど出さない)でしたが、別のブロックでは両レバーの報酬確率が接近していたりほぼ等しかったりして分かりにくいこともありました。この常に変わる設定は、昨日うまくいったことが今日もうまくいくとは限らない現実を反映しています。
勝ちを続け、ある種の敗北はやり過ごす
何百ものセッションにわたり、ラットは勝利の後に同じ選択を繰り返す(「勝ち続ける」)ことが、敗北の後に切り替える(「負けて移る」)よりも頻繁でした。これは成功から学ぶ傾向が強いことを裏付けます。このパターンは、ラットがブロック内でどのレバーが通常良いかを理解する時間を得た後に特に明瞭になりました。後半の試行では、勝ちの後に留まるだけでなく、稀な損失の後でも良いレバーを見切って放棄する可能性が低くなりました。この戦略は、良い選択をしていても時折起こる悪い結果に惑わされず、より報いる選択肢を利用し続けるのに役立ちます。オスはこのバイアスがメスより強く、勝ちの後に留まる確率が高く、敗北後に移る確率が低い傾向がありました。
見えない信号:不確実性と報酬履歴
この行動の背後にある目に見えない計算を理解するために、著者らは強化学習モデル――フィードバックに基づいて期待を更新するコンピュータアルゴリズム――を用いました。焦点を当てたのは二つの内部信号です。第一は「不確実性の履歴」指標で、最近の驚きの程度(予測とのずれ)を平均化したもので、結果がどれだけ予測不能であったかをとらえます。この数値が高いとき、環境はより曖昧でした。第二は「全体的な報酬状態」で、最近の環境が全体としてどれだけ豊かか乏しいかを平滑化して要約したものです。これら二つの信号により、ラットは世界がどれだけノイズを含んでいるかと、最近の運がどれほど良いかを推定し、最新の勝ちや負けにどれだけ重みを付けるかを調整しました。

不確実性と豊かさが選択を形作るとき
これら二つの内部信号は、行動に対して異なる、時には性差のある影響を与えました。不確実性が低い、すなわち環境のパターンが明瞭なとき、ラットは勝ちの後に留まる可能性が高く、良いレバーを放棄することが少なくなりました。逆に不確実性が高い状況では、敗北の後に良いレバーから離れる傾向が強まり、混乱した条件がより慎重な振る舞いを誘発することを示唆します。一方で、全体的な報酬状態が高い(最近が好調である)と、たとえ環境がややノイズを含んでいても、勝ちの後に留まることが奨励され、敗北後に移る傾向が減少しました。オスの勝利に基づく判断は特に不確実性の履歴に強く影響されるのに対し、メスは全体的な報酬状態により一貫して依拠している傾向がありました。
日常的な意思決定への含意
一般向けの要点は、「勝ちからより多く学ぶ」という現象が単に過度に楽観的であることを意味するわけではないということです。本研究は、ラット――おそらく人間も――が、最近の世界がどれだけ予測可能でどれだけ報われてきたかに基づいて、勝ちと負けにどれだけ耳を傾けるかを動的に調整していることを示しています。ルールが明確で報酬が豊富なときは、勝ちを信頼し偶発的な失敗を軽視するのが賢明な場合があります。逆に状況が混沌としていたり不遇であると感じるときは、敗北により重みを置くことで悪い選択を避けられることがあります。また、オスとメスが同じ課題ルールに従いながら不確実性と報酬履歴の内部的な比重をわずかに異ならせていることは、報酬や罰からの学習が乱れる依存症や抑うつなどの疾患への性差ある脆弱性を説明する手がかりになるかもしれません。
引用: Kalhan, S., Magnard, R., Zhang, Z. et al. Uncertainty and reward histories have distinct effects on decisions after wins and losses. Sci Rep 16, 6795 (2026). https://doi.org/10.1038/s41598-026-37554-3
キーワード: 強化学習, 意思決定, 不確実性, 報酬履歴, 性差