新到貨2本75折
多模態人工智能:大模型核心原理與關鍵技術

多模態人工智能:大模型核心原理與關鍵技術

  • 定價:600
  • 優惠價:87522
  • 優惠期限:2024年11月29日止
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享

優惠組合

 

內容簡介

本書闡述多模態人工智能涉及的關鍵技術及相關應用,包括多模態特徵表示、多模態協同學習、多模態大模型、多模態理解、多模態檢索、多模態生成、多模態交互和多模態推理。
 

作者介紹

中國科學院自動化研究所副總工程師,研究員,博導,紫東太初大模型中心常務副主任,武漢人工智能研究院院長,中國科學院大學人工智能學院崗位教授,主要從事視頻圖像分析、多模態大模型、自監督學習,目標檢測與跟蹤、細粒度識別,行為識別等方面的應用基礎研究,同時也涉及了模式識別與機器學習方面的相關理論研究。
 

目錄

第1章 緒論 1
1.1 引言 1
1.2 基本術語 3
1.2.1 傳感器 3
1.2.2 模態 3
1.2.3 多模態 3
1.2.4 算法模型 6
1.2.5 表徵學習 6
1.2.6 語義理解 7
1.2.7 遷移學習 7
1.2.8 內容生成 7
1.2.9 模態融合 8
1.2.10 模態對齊 8
1.2.11 多模態學習 9
1.3 發展歷程 9
1.4 應用現狀 10
1.5 小結 12

第2章 基礎知識 14
2.1 傳統機器學習 14
2.1.1 模型評估與選擇 15
2.1.2 線性模型 16
2.1.3 分類 18
2.1.4 回歸 19
2.2 深度學習 20
2.2.1 卷積神經網絡 20
2.2.2 循環神經網絡 22
2.2.3 Transformer 23
2.3 優化算法 25
2.3.1 梯度下降算法 26
2.3.2 反向傳播 27
2.4 應用領域 28
2.4.1 計算機視覺 29
2.4.2 自然語言處理30
2.4.3 語音識別 31
2.5 小結 32

第3章 多模態學習 34
3.1 模態表示 34
3.1.1 文本模態表示 34
3.1.2 視覺模態表示 37
3.1.3 聲音模態表示 38
3.1.4 其他模態表示 40
3.1.5 多模態聯合表示 43
3.1.6 多模態協同表示 44
3.2 多模態融合 46
3.2.1 數據級融合 46
3.2.2 特徵級融合 46
3.2.3 目標級融合 47
3.2.4 混合式融合 49
3.3 跨模態對齊 50
3.3.1 顯式對齊:無監督對齊和有監督對齊 50
3.3.2 隱式對齊:注意力對齊和語義對齊51
3.4 多模態協同學習 52
3.4.1 基於平行數據的協同學習 52
3.4.2 基於非平行數據的協同學習 53
3.4.3 基於混合平行數據的協同學習 54
3.5 小結 56

第4章 多模態訓練 57
4.1 有監督訓練 57
4.1.1 視覺監督訓練 57
4.1.2 文本監督訓練 61
4.1.3 多模態監督訓練 63
4.2 自監督訓練 72
4.2.1 基於對比學習的自監督訓練73
4.2.2 基於掩碼學習的自監督訓練 75
4.3 混合監督訓練77
4.3.1 有監督與自監督的混合監督訓練 77
4.3.2 半監督混合監督訓練78
4.4 小結 80

第5章 多模態大模型 81
5.1 基礎大模型 81
5.1.1 語言大模型 83
5.1.2 視覺大模型 88
5.1.3 語音大模型 93
5.1.4 多模態基礎大模型 94
5.2 大語言模型推理方法96
5.2.1 提示學習 96
5.2.2 上下文學習 99
5.2.3 思維鏈 100
5.3 模型微調103
5.3.1 LoRA 103
5.3.2 人類反饋強化學習 104
5.4 分布式訓練 107
5.4.1 DeepSpeed 108
5.4.2 Megatron-LM 111
5.5 小結 114

第6章 多模態理解 115
6.1 圖像描述115
6.1.1 描述方法116
6.1.2 評價指標119
6.2 視頻描述 119
6.2.1 視頻定位119
6.2.2 視頻描述120
6.2.3 視頻摘要生成 121
6.2.4 評價指標123
6.3 視覺問答 124
6.3.1 問題定義 124
6.3.2 問答方法 125
6.3.3 評價指標 132
6.4 小結 133

第7章 多模態檢索 134
7.1 數據檢索 134
7.1.1 單模態數據與檢索 135
7.1.2 多模態數據與檢索 138
7.2 跨模態檢索 139
7.2.1 檢索方法 140
7.2.2 評價指標 144
7.3 交互式檢索 146
7.4 小結 149

第8章 多模態生成 150
8.1 圖像生成 150
8.1.1 問題定義 151
8.1.2 生成方法 154
8.1.3 評價指標 162
8.2 視頻生成 165
8.2.1 問題定義 166
8.2.2 生成方法 169
8.2.3 評價指標 174
8.3 語音生成 177
8.3.1 問題定義 177
8.3.2 合成方法 179
8.3.3 前端處理 183
8.3.4 後端模型 186
8.3.5 評價標準 190
8.4 小結 191

第9章 多模態推理 193
9.1 知識圖譜推理 193
9.1.1 基於規則學習 194
9.1.2 基於路徑排序 197
9.1.3 基於表示學習 198
9.1.4 基於神經網絡學習 200
9.2 多模態推理 204
9.2.1 視覺問答 204
9.2.2 視覺常識推理 205
9.2.3 視覺語言導航 208
9.3 小結 209

第10 章 多模態交互 210
10.1 可穿戴交互 210
10.1.1 交互方式 212
10.1.2 相關技術 214
10.1.3 智能穿戴設備 216
10.2 人機對話交互 217
10.2.1 語音識別 217
10.2.2 情感識別 218
10.2.3 語音合成 218
10.2.4 對話系統 219
10.3 聲場感知交互 219
10.3.1 動作識別 220
10.3.2 聲源定位 220
10.3.3 副語音信息交互增強 220
10.3.4 音頻感知與識別 221
10.4 混合現實實物交互 221
10.4.1 靜態被動力觸覺 222
10.4.2 相遇型被動力觸覺 222
10.5 小結 223

第11 章 多模態模型安全與可信 224
11.1 模型的可解釋性 224
11.1.1 遷移學習 224
11.1.2 反向傳播和顯著性圖 226
11.1.3 特徵反演 227
11.1.4 敏感性分析 227
11.1.5 注意力機制 228
11.1.6 沙普利疊加解釋 229
11.2 人工智能倫理規範 . 230
11.2.1 標準認定 230
11.2.2 科技倫理治理 231
11.2.3 行業自律 233
11.3 小結 . 233

第12 章 總結與展望 235
12.1 世界模型 235
12.2 情感計算 236
12.3 類腦智能 238
12.4 博弈智能 240
12.5 小結 241
 

詳細資料

  • ISBN:9787121483196
  • 規格:平裝 / 241頁 / 16k / 19 x 26 x 1.21 cm / 普通級 / 部份全彩 / 1-1
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 【自然科普、電腦資訊】童話裡的心理學【博客來電子書獨家-作者電子贈言簽名扉頁版】
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約30個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 心理與哲學
  • 滿799現折79
  • 言情新品