実装する全脳アーキテクチャの概要は以下のとおりである。
海馬の出力部分にNeural Episodic Controlで用いられているDifferential Neural Dictionaryを実装する これによって、少ない学習で行動選択が行える NECとは違い、提案モデルはA3Cによって学習を行うので
- キー
- 海馬台の出力
- 値
- 行動の選択確率、基底核の推定した価値
参考
CA1に空間認知に関わる細胞が多い 今回の提案モデルではCA1で補助タスクを用いて それらの再現と探索タスクの性能の向上を目指す
- 場所細胞
- 訪れた場所かどうかを推定する教師あり学習 (Toxy)
- グリッド細胞
- 移動量を推定する教師あり学習
- オドメトリ、CNNで抽出した情報、教師信号としてオドメトリ(運動指令のコピーもしくはFB)
- ヘッドディレクション細胞
- 頭部方向を推定する教師あり学習
- ニューラルネットorCNN(未定)
- オドメトリ、CNNで抽出した情報、教師信号として頭部情報 (rotationが返ってくるので学習できる)
参考
歯状回では新生ニューロンが誕生することがわかっている。 今回のモデルではProgressive Neural Networkを用いてインクリメンタルに ネットワークが拡張できるように実装を行う。
参考
CA3では再帰的な神経投射が行われている。 今回のモデルではRCモデルの一種であるEcho State Networkを用いることで 時系列データを扱い、連想記憶装置としての機能も実装する。
「海馬モジュール」「基底核モジュール」「新皮質モジュール」はA3Cによって学習を行う。 この際、Actorは「海馬モジュール」、Criticは「基底核モジュール」に該当する。 A3Cを用いることで、従来手法(NEC)では実現できなかったRNNの実装を可能とする。また、基底核がTD誤差の計算を行い、海馬は行動選択をしている観点からもDQNではなくA3Cで学習を行うことは妥当だと考えられる。参考