意志決定:心の物質基盤
オーガナイザー:(田中靖史)

講師要旨【田中沙織先生】

奈良先端科学技術大学院大学
情報科学研究科 情報生命科学専攻 計算神経学講座(ATR連携)
田中沙織

セロトニンが報酬予測の時間スケールを制御する
―強化学習理論から行動選択・意思決定の脳機構を解明する―


● 研究背景
我々は日頃, 周囲の状況や現在の行動から, 即座に得られる結果と長期的な結果の双方の予測をもとに行動を選択している. 目先の利益ばかりに目を取られて後で大損をしたり, 逆に将来の大きな利益に期待しすぎて, 足下の危険を見逃すなどの失敗は数知れない. 利益や損失, 快楽や苦しみなどの「報酬」は,行動の結果直ちに得られるものと将来的に遅れを持って与えられるものとがあるが,その双方を正しく予測し, その適切なバランスをもとに行動を選ぶことは人間の知的機能にとって非常に重要である.

例えば, 将来的に大きな報酬が得られる行動よりも, 即時的に少ない報酬を得られる行動を頻繁に選んでしまう傾向は「衝動性」の定義のひとつである. したがって衝動性を伴う精神障害の一つの要因は, 短期と長期の報酬予測のバランスが崩れることと考えることができる. このような衝動性を引き起こす損傷部位としては, 前頭葉 (内側部, 眼窩面皮質), 側坐核などが先行研究において報告されている. また脳内修飾物質のひとつであるセロトニンと衝動性の関係が, 多くの先行研究から報告されている. セロトニン系の障害によってセロトニンレベルが減少した結果, 衝動性が引き起こされた例や, セロトニンのアゴニストなどによってセロトニンレベルが増加した結果, 衝動性が減少した例が報告されている. このように衝動性に関わる脳部位や物質は明らかになりつつあるが, それらがどのようなメカニズムで衝動性を引き起こすのか, また脳部位と物質系の関係など未だ不明な点が多い.

● 「強化学習」からのアプローチ
そこで我々は, 脳のシステムレベルでどのようなことが起こっているのかを理解するために, 脳をひとつの学習システムと考え, 計算論的観点から報酬をもとにした行動学習のメカニズムの解明を目指している. その理論的な基盤となるのが「強化学習」である. 強化学習は, 行動の良し悪しを評価する報酬信号をもとに, 長い目で見てより多くの報酬を得られるような行動則を探索的に学習する理論的枠組みである. その特徴は, 将来的にどれくらいの報酬が得られるかを予測する「報酬予測」と, その予測値の変化を元に行動を変化させる「行動強化」という2つの学習が, ともに報酬の予測誤差から与えられる「TD信号」をもとに行われるという点である. 最近では, ロボット制御や人工知能などの分野への応用とともに, 人間や動物の行動学習に関わる脳機構を理解しようとする試みが進んでいる.

我々は, 人間や動物が未知の環境で多様な行動を学習するには, 学習の進め方自体を学習する, 「メタ学習」の機構が不可欠であり, セロトニンやノルアドレナリンなどの神経修飾物質系がメタ学習に関与することを指摘した (Doya 2002). 特に, 先ほど例に挙げた脳損傷事例や動物実験などの知見をもとに, (1) 脳内には短期的な報酬から長期的な報酬まで, 様々な時間スケールでの予測を行うネットワークが並列的に存在し, (2) 脳幹の縫線核から脳の広範な部位に送られるセロトニンがこれらのネットワークの活動を調節することで, 報酬予測の時間スケールを制御するという仮説を提唱した.

● fMRI実験の結果
この仮説を検証するために, 2つの実験を行った. まず仮説 (1) を検証するために, 長期的な報酬の予測と短期的な報酬の予測がそれぞれ必要な行動学習課題を新たに考案し, ヒトが予測を行っている時の脳活動を, 機能的核磁気共鳴画像法 (fMRI)を用いて測定した (Tanaka, Doya, et al., 2004). その結果, 被験者が数ステップ先まで予測を行っている時は, 前頭葉や頭頂葉などの活動が増大することが観測された. さらに解析した結果, 大脳皮質と線条体を結ぶ並列的なネットワークの, より下部に位置する部位は短期的な結果の予測に, より上部の部位は長期的な結果の予測に関与することが明らかになった. この結果は, 脳の中に, 異なる時間スケールで報酬予測を行う並列ネットワークが存在することを示唆しており, 仮説 (1) を支持する結果である.

また仮説 (2) のセロトニンの影響を調べるために, 被験者のセロトニンレベルを人為的に調整した状態で, 報酬予測課題を行わせたところ, コントロール条件では線条体に, 腹側部から背側部にかけて短期から長期の報酬予測に関わる活動が見られた. かつ, セロトニンレベルが低い状態では, 腹側部のみに短期の報酬予測に関わる活動が見られ, セロトニンが高い状態では, 背側部ののみに長期の報酬予測に関わる活動が見られた (unpublished data). この結果は, 脳の中に, 異なる時間スケールで報酬予測を行う線条体を経由する並列ネットワークが存在し, セロトニンが線条体の活動を調節することでそれらのネットワークの活動を調節しているというメカニズムを示唆しており, 仮説 (1), (2) をともに支持する結果である.

今講演では, 強化学習理論の基礎的な説明も含め, 行動選択・意思決定に関わる脳機構解明のための計算論的アプローチの醍醐味をお伝えしたい.

文献:
[1] Doya, K. (2002). Metalearning and neuromodulation. Neural Networks 15(4-6): 495-506.
[2] Tanaka, C. S., Doya K., Okada G., Ueda K., Okamoto Y., Yamawaki S (2004). Prediction of immediate and future rewards differentially recruits cortico-basal ganglia loops. Nature Neuroscience 7(8): 887-893.

http://www.cns.atr.jp/~xsaori/index.html


【田中沙織先生】略歴

田中沙織 (たなかさおり)

略歴:
1976年7月 岐阜県羽島市に生まれる
2001年3月 大阪大学理学部物理学科卒業
2001年4月 奈良先端科学技術大学院大学情報科学研究科情報システム学専攻入学
計算神経学講座 (ATR連携) で銅谷賢治博士の指導のもと研究を行う
2003年3月 修士号取得

現在 同大学院博士後期課程在籍, 日本学術振興会特別研究員 (DC2)

趣味:
絵画制作 (油彩, 水彩, アクリル画) , 絵画鑑賞. 好きな画家はジョルジュ・ド・ラ・トゥール, 上村松園.

若手の皆さんに一言:
自分も若手なので一緒に勉強させてもらうつもりで今回お話させていただきます. 気さくに話しかけてやってください. これから世界の大海原へ漕ぎ出そうとしている皆さんへのアドバイスとしては, 何はさておき英語は若いうちから鍛えておきましょう!

http://www.cns.atr.jp/%7Exsaori/index_Japanese.html


夏学トップに戻る