GPT5新時代：多模態深度學習精實操練

当前位置: 首页 > 电脑资讯 > 概论/科技趋势 > GPT5新時代：多模態深度學習精實操練

详细介绍商品属性商品标记

內容簡介

　　本書包括四大部分，第一部分包括第1、2章，第1章介紹多模態資訊的基本概念、難點、使用深度學習方法的動機、多模態資訊處理的基礎技術，以及這些技術的發展歷史，第2章介紹主流多模態研究任務。第二部分包括第3、4章，分別介紹多模態深度學習模型中常用的文本表示和圖像表示技術。第三部分包括第 5∼8 章，分別介紹針對特定任務，以深度學習為基礎的多模態表示、對齊、融合和轉換這 4 種技術，且每章都提供了一個可運行的、完整的實戰案例。第四部分即第9章，介紹綜合使用上述基礎技術，並以學習通用多模態表示或同時完成多個多模態任務為目標的多模態預訓練技術，在現今AI技術範式轉換的時代，將會是你精通人工智慧的重要參考資料。

作者介紹

作者簡介

馮方向

　　北京郵電大學人工智慧學院助理教授。主要研究方向為多模態計算，主持和參與多項國家級科研專案。發表學術論文30餘篇，曾獲ACM Multimedia最佳論文提名，單篇引用超過500次，2022~2023年連續入選Aminer人工智慧全球最具影響力學者提名。主講大學課程「神經網絡與深度學習」、「多模態資訊處理」，主持和參與多項教學專案。

王小捷

　　北京郵電大學人工智慧學院教授，智慧科學研究中心主任，中國人工智慧學會自然語言理解專委會主任，中國教育部人工智慧領域教學資源及新型教材建設專家組成員，自然語言處理領域首席專家。主要研究方向為自然語言處理與多模態計算，已發表學術論文300餘篇。

第 1 章    緒論
1.1 多模態資訊處理的概念
1.2 多模態資訊處理的困難
1.3 使用深度學習技術的動機
1.4 多模態資訊處理的基礎技術
1.5 多模態深度學習技術的發展歷史
1.6 小結
1.7 習題

第 2 章   多模態任務
2.1 圖文跨模態檢索
2.2 影像描述
2.3 視覺問答
2.4 文字生成影像
2.5 指代表達
2.6 小結
2.7 習題

第 3 章    文字表示
3.1 基於詞嵌入的靜態詞表示
3.2 基於循環神經網路的動態詞表示
3.3 基於注意力的預訓練語言模型表示
3.4 小結
3.5 習題

第 4 章    影像表示
4.1 基於卷積神經網路的整體表示和網格表示
4.2 基於物件辨識模型的區域表示
4.3 基於視覺 transformer 的整體表示和區塊表示
4.4 基於自編碼器的壓縮表示
4.5 小結
4.6 習題

第 5 章    多模態表示
5.1 共用表示
5.2 對應表示
5.3 實戰案例：基於對應表示的跨模態檢索
5.4 小結
5.5 習題

第 6 章    多模態對齊
6.1 基於注意力的方法
6.2 基於圖神經網路的方法
6.3 實戰案例：基於交叉注意力的跨模態檢索
6.4 小結
6.5 習題

第 7 章    多模態融合
7.1 基於雙線性融合的方法
7.2 基於注意力的方法
7.3 實戰案例：基於 MFB 的視覺問答
7.4 小結
7.5 習題

第 8 章    多模態轉換
8.1 基於編解碼框架的方法
8.2 基於生成對抗網路的方法
8.3 實戰案例：基於注意力的影像描述
8.4 小結
8.5 習題

第 9 章    多模態預訓練
9.1 整體框架
9.2 預訓練資料集
9.3 模型結構
9.4 預訓練任務
9.5 下游任務
9.6 典型模型
9.7 小結
9.8 習題

參考文獻

GPT5新時代：多模態深度學習精實操練


作者：	馮方向,王小捷
出版社：	深智數位
出版日期：	2024-04-19
商品库存：	点击查询库存
	以上库存为海外库存属流动性。可选择“空运”或“海运”配送，空运费每件商品是RM14。配送时间：空运约8~12个工作天，海运约30个工作天。（以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品）
定价：	NT680.00
市场价格：	RM103.44
本店售价：	RM92.06

购买数量：

	??論/科技趨勢
作者	馮方向,王小捷
出版社	深智數位
ISBN	9786267383520
出版日期	2024-04-19
开本
页数	296
装帧	平裝
规格	23 / 單色印刷 / 普級
版次	初版
版本（简/繁）

有店 App

当前分类

浏览历史

GPT5新時代：多模態深度學習精實操練