Clear Sky Science · ja

報酬間隔が行動学習とドーパミン学習の速度を支配する

2026-02-12 · 一覧に戻る

報酬のペースが重要な理由

教師は試験前の詰め込みを戒め、動物の調教師はおやつを間隔を置いて与える—では、なぜ休憩を挟むと学習が進むのか？この研究は、一見単純だが意味深い疑問を投げかける：信号が報酬を予測することを学ばせるとき、短期間に多くの報酬を与える方がよいのか、それとも報酬の間隔を長くして少数回にする方がよいのか？マウスに砂糖水を慎重にタイミングして与え、その行動と脳内化学を測定することで、研究者らは試行回数の生の多さではなく、報酬間の時間が学習速度を支配するという数理的な規則を明らかにした。

少ないが適切に間隔を置いたご褒美での学習

研究チームは、渇いた頭固定マウスに短い音がわずかな甘い液滴を予測するように訓練した。全てのマウスは同じ音を聞き、直後に同じ報酬を受けたが、次の音と報酬のサイクルまでの時間は半分の分から10分、ある群では1時間にまで大きく異なっていた。休憩が短いマウスは一日に多くの合図–報酬の組合せを経験し、休憩が長いマウスはごく少数しか経験しなかった。直感的には「忙しい」スケジュールの方が速く学ぶはずだが、実際には逆であった：休憩が10倍長いと、マウスは連合を学ぶために必要な合図–報酬経験がほぼ10分の1で済んだ。

試行回数が違っても学習に要する実時間は同じ

間隔を空けたマウスは経験回数がはるかに少なかったが、実際の経過時間で見れば速く学んだわけではない。研究者らが各マウスが報酬を予期して確実に舐め始めるまでに経過した条件付けの分数を計算したところ、休憩が20倍違う群間でも学習に要する総時間はほとんど同じだった。つまり、報酬間隔を伸ばすことで各経験の学習への効力が待ち時間に比例して大きくなったのだ。密な訓練スケジュールから10回に9回の試行を取り除いても、訓練環境での総経過時間が同じであれば連合が形成されるまでにかかる時間はほとんど変わらなかった。

ドーパミン信号も同じ規則に従う

脳内で何が起きているかを調べるため、研究者らは蛍光センサーを使ってドーパミンを追跡した。ドーパミンは長く報酬予測誤差、すなわち予測と実際の報酬の差を示す化学メッセンジャーと考えられている。訓練が進むにつれて、短いドーパミンの急増は報酬自体から予測信号へと徐々に移行した。重要なのは、これらのドーパミン反応が行動と同じ時間的規則を示した点である：報酬間隔が10倍長いとき、合図に対するドーパミンの急増は約10分の1の合図–報酬経験後に現れたが、時計上の経過時間はほぼ同じだった。このパターンは、快い報酬だけでなく合図が軽いショックを予測する場合にも成り立ち、正負両方の学習が同じ時間基準の規則を共有することを示唆した。

脳が因果関係を計算する新たな方法

古典的理論は学習を試行ごとの過程として描き、各経験がある固定比率で内部価値を少しずつ上げたり下げたりするものとする。このような「試行ベース」のモデルでは、ある期間内に合図と結果の組合せを多く見るほど常に学習は速くなるはずだ。新しい結果はこの考えに反し、代わりにANCCRと呼ばれる枠組みを支持する。ANCCRでは脳は結果が実際に起こったときだけ信念を更新し、そこから遡って以前の合図に帰属させる。これらの更新は各報酬でトリガーされるため、1回の報酬あたりの変化は前回の報酬からの経過時間に比例して大きくなるとモデルは予測する。これが、報酬間隔が長いほど各経験の重みが大きくなり、一方で固定された期間後の総学習量は変わらない理由を数理的に説明する。

「習うより慣れよ」を再考する

報酬間の期間が、試行回数の単純な多さではなく、行動的・ドーパミン的学習速度の両方を支配することを示すことで、この研究は反復回数が多ければ自動的に学習が速くなるという一般的な前提に挑戦する。信号と結果の単純な連合においては、報酬が近接して与えられる場合、試行を詰め込んでもほとんど利益がないかもしれない。代わりに、適切な間隔を置くことで脳のドーパミン系は各結果からより大きく、より有益な更新を行える。本研究は脳の学習モデルを見直す必要性を示唆するとともに、多くの状況で経験の賢い間隔付けが単に練習回数を増やすよりも同等かそれ以上に重要であり得ることを示している。

引用: Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci 29, 825–839 (2026). https://doi.org/10.1038/s41593-026-02206-2

キーワード: ドーパミン, 報酬学習, 間隔効果, 連合条件付け, 強化学習