会员   密码 您忘记密码了吗?
1,572,682 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > 深度強化學習實戰:用OpenAI Gym構建智能體
深度強化學習實戰:用OpenAI Gym構建智能體
上一张
下一张
prev next

深度強化學習實戰:用OpenAI Gym構建智能體

作者: (印)普拉文·巴拉尼沙米
出版社: 人民郵電出版社
出版日期: 2023-06-01
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT419.00
市场价格: RM75.33
本店售价: RM67.04
促销价: RM66.29
剩余时间: 请稍等, 正在载入中...
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

這是一本介紹用 OpenAI Gym 構建智慧體的實戰指南。全書先簡要介紹智慧體和學習環境的一些入門知識,概述強化學習和深度強化學習的基本概念和知識點,然後重點介紹 OpenAI Gym 的相關內容,隨後在具體的 Gym 環境中運用強化學習演算法構建智能體。本書還探討了這些算法在遊戲、自動駕駛領域的應用。

本書適合想用 OpenAI Gym 構建智能體的讀者閱讀,也適合對強化學習和深度強化學習感興趣的讀者參考。讀者應具備一定的 Python 編程基礎。
 


作者介紹

普拉文•巴拉尼沙米(Praveen Palanisamy)

專注于研究自主智慧系統。他是通用汽車研發部門的 AI(人工智慧)研究員,主要負責針對自動駕駛開發基於深度強化學習的規劃和決策算法。在此之前,他在卡內基-梅隆大學機器人所從事自動導航的研究(包括可移動機器人的感知與智慧),曾從零開始研發一個完整的、自動的機器人系統。
 


目錄

第1章 智慧體與學習環境入門 1
1.1 智能體簡介 1
1.2 學習環境 2
1.3 OpenAI Gym簡介 3
1.4 理解OpenAI Gym的主要特性 8
1.4.1 簡單的環境介面 8
1.4.2 可比較與可複現 8
1.4.3 進程可監控 9
1.5 OpenAI Gym工具包的作用 9
1.6 創建第一個OpenAI Gym環境 9
1.7 小結 11

第2章 強化學習和深度強化學習 12
2.1 強化學習簡介 12
2.2 直觀理解人工智慧的含義和內容 13
2.2.1 監督學習 13
2.2.2 非監督學習 14
2.2.3 強化學習 14
2.3 強化學習實戰 14
2.3.1 智能體 15
2.3.2 獎勵 15
2.3.3 環境 15
2.3.4 狀態 16
2.3.5 模型 17
2.3.6 值函數 17
2.3.7 策略 18
2.4 瑪律可夫決策過程 18
2.5 動態規劃 19
2.6 蒙特卡洛學習和時序差分學習 19
2.7 SARSA和Q-Learning 20
2.8 深度強化學習 21
2.9 強化學習和深度強化學習算法的實踐應用 22
2.10 小結 23

第3章 開啟OpenAI Gym和深度強化學習之旅 24
3.1 代碼庫、設置和配置 24
3.1.1 先決條件 25
3.1.2 創建conda環境 26
3.1.3 最小化安裝—快捷簡便的方法 27
3.1.4 完整安裝OpenAI Gym學習環境 28
3.2 安裝深度強化學習所需的工具和庫 32
3.2.1 安裝必備的系統套裝軟體 32
3.2.2 安裝CUDA 33
3.2.3 安裝PyTorch 34
3.3 小結 35

第4章 探索Gym及其功能 36
4.1 探索環境列表和術語 36
4.1.1 術語 37
4.1.2 探索Gym環境 38
4.2 理解Gym介面 40
4.3 Gym中的空間 43
4.4 小結 47

第5章 實現第一個智慧體—解決過山車問題 48
5.1 瞭解過山車問題 48
5.2 從零開始實現Q-Learning智慧體 50
5.2.1 Q-Learning回顧 53
5.2.2 使用Python和NumPy實現Q-Learning智慧體 53
5.3 在Gym中訓練強化學習智能體 58
5.4 測試並記錄智慧體的性能 58
5.5 一個簡單且完整的Q-Learner實現—過山車問題的解決方案 59
5.6 小結 63

第6章 用深度Q-Learning實現最優化控制智慧體 64
6.1 優化Q-Learning智慧體 65
6.1.1 用神經網路近似Q函數 65
6.1.2 經驗重播 71
6.1.3 重溫ε-貪婪動作策略 74
6.2 實現一個深度Q-Learning智慧體 76
6.2.1 用PyTorch實現一個深度卷積Q網路 77
6.2.2 使用目標Q網路穩定智慧體的學習 78
6.2.3 記錄和視覺化智慧體的學習過程 79
6.2.4 管理超參數和配置參數 81
6.2.5 用完整的深度Q-Learner處理輸入為原始圖元的複雜問題 83
6.3 Atari Gym環境 89
6.4 訓練深度Q-Learner玩Atari遊戲 98
6.4.1 整合一個完整的深度Q-Learner 98
6.4.2 超參數 101
6.4.3 啟動訓練過程 102
6.4.4 在Atari遊戲中測試深度Q-Learner的性能 103
6.5 小結 104

第7章 創建自訂OpenAI Gym環境—CARLA 105
7.1 理解Gym環境結構 105
7.1.1 為自訂Gym環境實現創建範本 106
7.1.2 在OpenAI Gym環境中註冊自訂環境 108
7.2 創建與OpenAI Gym相容的CARLA環境 108
7.2.1 配置和初始化 110
7.2.2 實現reset方法 111
7.2.3 為CARLA環境實現step函數 115
7.2.4 測試CARLA Gym環境 120
7.3 小結 122

第8章 用深度演員-評論家算法實現無人駕駛智慧體 123
8.1 深度n步優勢演員-評論家算法 123
8.1.1 策略梯度 124
8.1.2 演員-評論家算法 126
8.1.3 優勢演員-評論家算法 127
8.1.4 n步優勢演員-評論家算法 129
8.1.5 深度n步優勢演員-評論家算法 132
8.2 實現深度n步優勢演員-評論家智慧體 133
8.2.1 初始化演員和評論家網路 133
8.2.2 用當前策略獲取n步經驗 137
8.2.3 計算演員和評論家的損失 137
8.2.4 更新演員-評論家模型 139
8.2.5 用於保存/載入、記錄、視覺化和監視的工具 139
8.2.6 擴展——非同步深度n步優勢演員-評論家 139
8.3 訓練一個“聰明”的自動駕駛智慧體 140
8.3.1 訓練和測試深度n步優勢演員-評論家智能體 140
8.3.2 訓練智能體在CARLA中駕駛車輛 143
8.4 小結 144

第9章 探索學習環境全景——Roboschool、Gym Retro、StarCraft-Ⅱ和DeepMind Lab 145
9.1 Gym介面相容的環境 146
9.1.1 Roboschool 146
9.1.2 Gym Retro 150
9.2 其他基於Python的開源學習環境 153
9.2.1 星際爭霸Ⅱ—PySC2 153
9.2.2 DeepMind Lab 156
9.3 小結 160

第10章 探索學習算法世界——DDPG(演員-評論家)、PPO (策略梯度)、Rainbow(基於值) 161
10.1 深度確定性策略梯度 162
10.2 近端策略優化 163
10.3 Rainbow 165
10.3.1 核心概念 165
10.3.2 優點及應用簡要總結 169
10.4 小結 170