強化学習


講談社


著者:森村哲郎


シリーズの刊行にあたって
まえがき

第1章 準備
1.1 強化学習とは
1.2 マルコフ決定過程と逐次的意思決定問題
1.2.1 確率過程とマルコフ性
1.2.2 マルコフ決定過程
1.2.3 逐次的意思決定の典型的問題設定
1.2.4 強化学習とマルコフ決定過程
1.3 方策
1.3.1 方策の分類
1.3.2* 方策の特徴
1.4 逐次的意思決定問題の定式化
1.4.1 問題設定
1.4.2 マルコフ決定過程の単一化
1.4.3 リターンと目的関数
1.4.4* その他の逐次的意思決定問題

第2章 プランニング
2.1 準備
2.1.1 目的関数
2.1.2 最適価値関数
2.2 動的計画法
2.2.1 ベルマン作用素
2.2.2 ベルマン作用素の単調性
2.2.3 動的計画法の数理
2.2.4 最適方策
2.3 動的計画法による解法
2.3.1 価値反復法
2.3.2 方策反復法
2.4 線形計画法による解法
2.4.1 主問題の導出
2.4.2* 双対問題
2.4.3* 最適解と最適方策

第3章 探索と活用のトレードオフ
3.1 概要
3.2 探索と活用のトレードオフ
3.2.1* リグレット
3.2.2* サンプル複雑度
3.3 方策モデル
3.3.1 効用関数にもとづく方策モデル
3.3.2 楽観的な方策

第4章 モデルフリー型の強化学習
4.1 データにもとづく意思決定
4.2 価値関数の推定
4.2.1 ベルマン作用素の標本近似
4.2.2 バッチ学習の場合
4.2.3 オンライン学習の場合
4.3 方策と行動価値関数の学習
4.3.1 ベルマン行動作用素と最適行動価値関数
4.3.2 ベルマン行動作用素の標本近似
4.3.3 バッチ学習の場合
4.3.4 オンライン学習の場合
4.4* 収束性
4.5 アクター・クリティック法

第5章 モデルベース型の強化学習
5.1 問題設定の整理
5.2 環境推定
5.3 ブラックボックス生成モデルに対するプランニング
5.3.1 スパースサンプリング法
5.3.2 UCT法
5.3.3 モンテカルロ木探索
5.4* オンラインのモデルベース型強化学習

第6章 関数近似を用いた強化学習
6.1 概要
6.2 価値関数の関数近似
6.2.1 テーブル形式方法の拡張
6.2.2 損失関数にもとづく近似価値関数学習法
6.2.3 ベルマン残差の最小化
6.2.4 射影ベルマン残差の最小化
6.2.5 関数近似器の選択と正則化
6.3 方策の関数近似
6.3.1 方策学習の概要
6.3.2 方策勾配法の基礎
6.3.3 モンテカルロ方策勾配法
6.3.4 アクター・クリティック方策勾配法
6.3.5* 自然方策勾配法

第7章 部分観測マルコフ決定過程
7.1 部分観測マルコフ決定過程(POMDP)の基礎
7.1.1 POMDPの定義と基本的な性質
7.1.2* 信念状態
7.1.3* 方策
7.1.4* 信念MDP
7.2* POMDPのプランニング
7.2.1* 信念MDPの特徴
7.2.2* 動的計画法にもとづくプランニング
7.2.3* 厳密法
7.2.4* 近似法
7.3* POMDPの学習
7.3.1* シミュレータを用いた学習
7.3.2* データからの学習

第8章 最近の話題
8.1 分布強化学習
8.1.1* リスク考慮型強化学習
8.1.2* リターン分布推定
8.2 深層強化学習
8.2.1 深層Qネットワーク(DQN)法
8.2.2 アルファゼロ

付録A 補足
A.1 証明
A.1.1 命題2.8の証明
A.1.2 命題2.9の証明
A.1.3 命題2.12の証明
A.1.4 命題2.13の証明
A.1.5 命題2.14の証明
A.1.6 命題7.1の証明
A.2 ノルム
A.2.1 ベクトルのノルム
A.2.2 行列のノルム
A.2.3 行列のスペクトル半径
A.2.4 スペクトル半径の諸性質
A.3 線形計画法
A.3.1 双対化
A.3.2 主問題と双対問題の関係
A.3.3 問題形式の変換例
A.3.4 マルコフ決定過程の線形計画双対問題(2.56)の導出
A.4 自然勾配法の補足
A.4.1 自然勾配の導出
A.4.2 KL ダイバージェンスとフィッシャー情報行列の関係性

参考文献
索引

書籍目次技術書籍

Posted by shi-n