動物界では、適応的行動は生存と繁殖に必須であることが知られています。特に、人間・哺乳類・鳥類・その他を含む脊椎動物の脳は報酬系を持ち、生活環境下で報酬の獲得やリスク(罰)の回避に対して特異的に進化しました。報酬系では神経伝達物質の一種であるドーパミンを用いて報酬情報やリスク情報をコードし、ドーパミン濃度の増大や減少として伝えることが知られています。近年では、神経科学者は報酬学習や強化学習と呼ばれる計算論モデルによりドーパミンの作用の規則を理解し始めました。最近、東京大学ニューロインテリジェンス国際研究機構(IRCN)の主任研究者河西春郎教授らのチームおよびIRCN/京都大学情報学研究科の石井信教授らのチームは、ドーパミンシステムにおけるこれまでの生物学的知識を活かして、分子・行動レベルでの計算モデルを用いた研究を2つ発表しました。この2つの研究の成果は新しい人工知能(AI)の発展につながる可能性があります。

一つ目の論文(Urakubo, et al.)では、細胞内分子機構を扱いました。ドーパミン情報は細胞膜受容体を介してスパインという特定の神経細胞コンパートメントへシグナル伝達を行います。このスパインは樹状突起上の小さな構造体で、記憶を担う役割を持っています。脳深部の腹側線条体には、報酬学習とリスク(罰)学習に関わるD1とD2という2種のドーパミン受容体があり、それらを特異的に発現する細胞(およびスパイン)があります。著者らはD1細胞とD2細胞内にあるタンパク質のカスケードの詳しい分子モデルを作成しました(図1)。D1細胞とD2細胞はグルタミン酸入力とドーパミン入力の増加と減少を検出して、それぞれのスパインを増大させます。興味深いことに、このいずれの細胞でも、アデニル酸シクラーゼ1型と呼ばれる酵素がグルタミン酸入力とドーパミン入力との間の因果性の検出に関わることを明らかにしました。この機構は、グルタミン酸入力とドーパミン入力の「連接性」(temporal contiguity)によりスパインでの学習を可能としています。

二つ目の論文(Fujita, et al.)では、動物行動のレベルにおける強化学習ベースの計算論モデルを開発しました。このモデルでは、「極限学習機械」(Extreme Learning Machine, ELM)と呼ばれるサブネットワークと、D1細胞とD2細胞からなるレイヤーとをつないだ多層ニューラルネットワークを用いており、OVaRLAPと名付けられています。D1細胞とD2細胞は、ドーパミンがコードする正と負の報酬予測の誤差信号に基づき学習を行います。それらの信号はIinoら(Nature, 2020)の研究により明らかになった汎化 (generalization)・弁別(discrimination)学習と呼ばれる強化学習の2つ学習スキームに対応します。衝突すると痛み(負の報酬)を受ける壁で囲まれる迷路上でのナビゲーションタスクを用いた際に、OVaRLAPモデルで制御されたエージェントは、非常に効率よく、壁を回避しつつ安全なゴールへ辿り着く行動の獲得ができることを確認しました(図2)。

OVaRLAPモデルは、ニューラルネットワークの最後のレイヤーにあるD1細胞とD2細胞の素早い汎化・弁別学習による高い適応能力を実現しました。しかし、ELMにノイズがあり、かつD2細胞が欠失した場合、同様のナビゲーションタスクにおいて適切な行動を生成することに失敗し、報酬が得られない場所に繰り返し接近するという特異な反応を示しました。著者らはその特異な行動が統合失調症などの精神疾患症状を模擬しており、D2細胞の弁別学習能力の欠失がその原因であると考えました。つまり、高い適応能力は常にシステムの破壊のリスクを伴うことを意味します。この結果は将来の「神経科学に触発された人工知能」が高い認知能力だけでなく精神疾患症状も再現する可能性があることを示唆しています。
本研究は、分子から行動レベルまでのマルチスケールモデリングを用いることで、ドーパミンによる報酬学習だけではなく、人間の脳やその疾患に対する理解も深められることを示しました。

図1: 哺乳類の腹側線条体D1発現細胞スパイン内での強化可塑性に関わる細胞内シグナルカスケード

図2: 汎化・弁別学習を含む強化学習アルゴリズム OVaRLAPの性能検証に用いた迷路ナビゲーションタスク

要約:IRCN サイエンスライテイングコア


発表雑誌:
1.雑誌名:Frontiers in Computational Neuroscience(2020年7月22日公開)
論文タイトル:Computational Characteristics of the Striatal Dopamine System Described by Reinforcement Learning with Fast Generalization
著者:Yoshihisa Fujita*, Sho Yagishita, Haruo Kasai, Shin Ishii (*:責任著者)

2.雑誌名:PLOS Computational Biology(2020年7月23日公開)
論文タイトル:Signaling Models for Dopamine-dependent Temporal Contiguity in Striatal Synaptic Plasticity
著者:Hidetoshi Urakubo*, Sho Yagishita, Haruo Kasai, Shin Ishii (*:責任著者)

問い合わせ先:
国立大学法人東京大学国際高等研究所 ニューロインテリジェンス国際研究機構 広報担当
TEL:03-5841-4140
FAX:03-5841-0738
E-mail: pr@ircn.jp