強化學習導論

当前位置: 首页 > 专业/教科书/政府出版品 > 电机信息类 > 強化學習導論

详细介绍商品属性商品标记

內容簡介

　　近年來因人工智慧興起，帶起許多學生、工程師與學者開始投入相關技術的學習、研究和開發。早期談到人工智慧，大部分會聯想到機器學習中的監督式學習和非監督式學習。然而監督或非監督式學習較難處理動態系統，機器學習技術的另一個分支─強化學習，剛好補足此缺口。強化學習的應用相當廣，最有名的兩個例子為AlphaGo透過資料學習在圍棋比賽上屢獲佳績，以及Google利用強化學習技術，優化資料中心的運作，進而減少40%的冷卻花費。本書以奠定基本功為目的，一步步帶領讀者建構完整的強化學習知識，介紹的相關概念包含：動態規劃、蒙地卡羅法、1步時間差分法、n步時間差分法、近似解法、規劃與學習、資格跡與學習、策略梯度法。

本書特色

　　1.本書從假設與理論開始討論，再進入演算法與範例，讓讀者了解整體架構的來龍去脈。　
　　2.每章的開始先綜述該章的主要內容，讓讀者有大方向的了解，再進入細節的討論。
　　3.相關概念以圖示方式呈現，讀者較易理解與統整。
　　4.每章搭配範例與程式碼，徹底了解演算法特性。
　　5.每章結尾作重點回顧，條列該章裡重要概念，方便讀者確認學習重點。
　　6.本書適用於自學、大學或科大課程教科書與實作專題的輔助教材，以及業界工程師快速奠定強化學習基礎概念與實作能力的教學書籍。

第1章強化學習框架
1-1 強化學習主要元素與馬可夫決策過程
1-2 範例1.1
1-3 策略和價值函數
1-4 範例1.2
1-5 最佳策略和最佳價值函數
重點回顧
章末練習

第2章動態規劃
2-1 策略評估
2-2 策略改進
2-3 範例2.1與程式碼
2-4 策略疊代和價值疊代
2-5 動態規劃的優缺點與異步更新
2-6 範例2.2與程式碼
2-7 廣義策略疊代
重點回顧
章末練習

第3章蒙地卡羅法
3-1 蒙地卡羅預測
3-2 同策略與異策略法
3-3 同策略蒙地卡羅控制
3-4 範例3.1與程式碼
3-5 異策略與重要性抽樣
3-6 異策略蒙地卡羅預測
3-7 異策略蒙地卡羅控制
重點回顧
章末練習

第4章 1步時間差分法
4-1 時間差分法
4-2 Sarsa和Q學習
4-3 範例4.1與程式碼
4-4 期望Sarsa
重點回顧
章末練習

第5章
5-1 n步時間差分預測
5-2 n步Sarsa與n步期望Sarsa
5-3 範例5.1與程式碼
5-4 異策略n步時間差分控制
重點回顧
章末練習

第6章近似解法
6-1 函數近似與隨機梯度下降
6-2 同策略梯度與半梯度預測
6-3 同策略回合式半梯度控制
6-4 範例6.1與程式碼
6-5 異策略深度Q網路
6-6 同策略差分半梯度控制
重點回顧
章末練習

第7章規劃與學習
7-1 規劃
7-2 範例7.1與程式碼
7-3 優先掃掠
7-4 內在動機
7-5 範例7.2與程式碼
重點回顧
章末練習

第8章資格跡與學習
8-1 資格跡和λ報酬
8-2 半梯度TD(λ)和回合式半梯度Sarsa(λ)
8-3 資格跡和表格解法
8-4 範例8.1與程式碼
重點回顧
章末練習

第9章策略梯度法
9-1 策略梯度與策略參數更新
9-2 簡樸策略梯度演算法
9-3 增強演算法
9-4 行動者評論家演算法
9-5 範例9.1與程式碼
重點回顧
章末練習
參考文獻
名詞索引

強化學習導論


作者：	邱偉育
出版社：	全華圖書
出版日期：	2021-11-22
商品库存：	点击查询库存
	以上库存为海外库存属流动性。可选择“空运”或“海运”配送，空运费每件商品是RM14。配送时间：空运约8~12个工作天，海运约30个工作天。（以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品）
定价：	NT400.00
市场价格：	RM60.84
本店售价：	RM54.15

购买数量：

	??機資訊類
作者	邱偉育
出版社	全華圖書
ISBN	9789865038717
出版日期	2021-11-22
开本
页数	232
装帧	平裝
规格	26 / 單色印刷 / 普級
版次	初版
版本（简/繁）

有店 App

当前分类

浏览历史

強化學習導論