序
自AI誕生之始,人們就試圖讓機器生成內容,與其對話。從DALL·E 2、Stable Diffusion、Midjourney等文生圖應用點燃了大眾的熱情,再到ChatGPT的從天而降,更是引發了全民關注。生成式AI是一種特定類型的AI,專注於生成新內容,如文字、影像和音樂。未來,生成式AI很可能會對創意產業產生重大影響。在許多情況下,它可以協助創意人員工作,使他們能夠創造出更多個性化的內容,以及產生新的想法。
擴散模型是一類隱變數模型,採用變分推斷估計未知分佈。擴散模型的目標是透過對資料點在隱空間中的擴散方式進行建模,以近似估計資料集的分佈。擴散模型的靈感來自非平衡熱力學,首先定義擴散步驟的馬可夫鏈,逐步將隨機雜訊添加到資料中,然後學習逆向擴散過程從雜訊中構造所需的資料樣本。在電腦視覺中,這表示透過學習逆向擴散過程訓練神經網路,使其可以對疊加了高斯雜訊的影像進行去噪。擴散模型具有廣泛的應用,在影像、3D 內容、視訊、音訊等生成任務中表現出色,同時具有良好的可擴展性。
本書作者楊靈等來自北京大學,並長期和史丹佛大學、OpenAI等國內外知名研究機構交流合作。他們在生成式AI和擴散模型等領域有著長期的研究和實踐累積,因此本書呈現的內容具有實用性,可供高等院校電腦科學、人工智慧和醫學、生物學等交叉學科專業的師生,以及相關人工智慧應用程式的開發人員閱讀。
朱軍
北京清華大學電腦系教授、北京清華大學人工智慧研究院副院長