ＩＴエンジニアのための強化学習理論入門　Ｐｙｔｈｏｎで学ぶアルゴリズムの動作原理/中井悦司／著本・コミック：オンライン書店e-hon

ＩＴエンジニアのための強化学習理論入門　Ｐｙｔｈｏｎで学ぶアルゴリズムの動作原理

中井悦司／著

出版社名	技術評論社
出版年月	2020年7月
ISBNコード	978-4-297-11515-9 （4-297-11515-8）
税込価格	3,278円
頁数・縦	２８３Ｐ　２１ｃｍ

商品内容

要旨	強化学習の基礎となるアルゴリズムを体系的に学ぶ。
目次	１　強化学習のゴールと課題（強化学習の考え方実行環境のセットアップバンディットアルゴリズム（基本編）バンディットアルゴリズム（応用編））２　環境モデルを用いた強化学習の枠組み（マルコフ決定過程による環境のモデル化エージェントの行動ポリシーと状態価値関数動的計画法による状態価値関数の決定）３　行動ポリシーの改善アルゴリズム（ポリシー反復法価値反復法より実践的な実装例）４　サンプリングデータを用いた学習法（モンテカルロ法ＴＤ（Ｔｅｍｐｏｒａｌ‐Ｄｉｆｆｅｒｅｎｃｅ）法）５　ニューラルネットワークによる関数近似（ニューラルネットワークによる状態価値関数の計算ニューラルネットワークを用いたＱ‐Ｌｅａｒｎｉｎｇ）

要旨

強化学習の基礎となるアルゴリズムを体系的に学ぶ。

１　強化学習のゴールと課題（強化学習の考え方
実行環境のセットアップ
バンディットアルゴリズム（基本編）
バンディットアルゴリズム（応用編））
２　環境モデルを用いた強化学習の枠組み（マルコフ決定過程による環境のモデル化
エージェントの行動ポリシーと状態価値関数
動的計画法による状態価値関数の決定）
３　行動ポリシーの改善アルゴリズム（ポリシー反復法
価値反復法
より実践的な実装例）
４　サンプリングデータを用いた学習法（モンテカルロ法
ＴＤ（Ｔｅｍｐｏｒａｌ‐Ｄｉｆｆｅｒｅｎｃｅ）法）
５　ニューラルネットワークによる関数近似（ニューラルネットワークによる状態価値関数の計算
ニューラルネットワークを用いたＱ‐Ｌｅａｒｎｉｎｇ）