• 本

ITエンジニアのための強化学習理論入門 Pythonで学ぶアルゴリズムの動作原理

出版社名 技術評論社
出版年月 2020年7月
ISBNコード 978-4-297-11515-9
4-297-11515-8
税込価格 3,278円
頁数・縦 283P 21cm

商品内容

要旨

強化学習の基礎となるアルゴリズムを体系的に学ぶ。

目次

1 強化学習のゴールと課題(強化学習の考え方
実行環境のセットアップ
バンディットアルゴリズム(基本編)
バンディットアルゴリズム(応用編))
2 環境モデルを用いた強化学習の枠組み(マルコフ決定過程による環境のモデル化
エージェントの行動ポリシーと状態価値関数
動的計画法による状態価値関数の決定)
3 行動ポリシーの改善アルゴリズム(ポリシー反復法
価値反復法
より実践的な実装例)
4 サンプリングデータを用いた学習法(モンテカルロ法
TD(Temporal‐Difference)法)
5 ニューラルネットワークによる関数近似(ニューラルネットワークによる状態価値関数の計算
ニューラルネットワークを用いたQ‐Learning)