序
AI 時代已然到來,機器學習成為當前最受矚目的顯學。然而,傳統的機器學習書籍常充滿艱深難懂的數學推導公式,對許多讀者(包括筆者在內)來說,宛如最佳催眠劑。因此,在撰寫這本書時,筆者秉持以下三大原則:
◆ 白話詮釋機器學習知識:用淺顯易懂的語言,讓讀者輕鬆學得會,看得懂。
◆ AI 場景融入數學應用:在介紹基礎數學時,即時融入該知識在機器學習中的應用場景。
◆ 理論結合實務案例:透過實際案例解說,幫助讀者全面掌握理論背後的實際意義。
與多位機器學習領域的專家討論後,我們一致認為,一本好的機器學習書籍應具備以下特色:
◆ 白話解釋數學與演算法:作者應以最淺顯的語言解釋數學原理與演算法,幫助讀者以最簡單的方式掌握機器學習核心。
◆ 從基礎數學入門:介紹與機器學習相關的基礎數學,並輔以彩色圖表和程式實例進行解說,同時說明在AI 場景可能應用。
◆ 統計與機率應用:以圖表和程式實例講解基礎統計概念,並深入說明基礎機率與貝式理論,將理論轉化為未來AI 場景應用與實際操作。
◆ 逐步深入解析演算法:用簡單數據輔助說明演算法原理時,逐步使用 AI 經典數據。
◆ 問題解決策略與技巧:除了基礎理論與程式碼,還應提供針對特定問題的實用策略與技巧,如特徵選擇、模型選擇和超參數調整等。
◆ 實際案例分析:結合真實世界的案例,展示機器學習在現實場景中的應用,讓讀者更直觀地理解如何將理論與技術應用於解決實際問題。
在撰寫本書的過程中,筆者始終以上述特色為指引,力求將這本書打造為目前中文書籍中最完整的機器學習專著。本書共分為34 章,內容架構如下:
◆ 第1 ~ 20章:聚焦數學、機率與統計知識,並結合未來AI場景的應用進行講解。
◆ 第 21 至 22 章:深入解析 Scikit-learn 模組及數據預處理的相關知識。
◆ 第 23 至 34 章:講解機器學習演算法的核心觀念,並透過真實案例進行實務分析。
全書包含約431 個Python 程式實例,讀者可以從中系統性地學習與機器學習相關的數學、機率與統計,以及相關AI 場景應用知識,包括但不限於以下內容:
◆ 方程式、一元到多元函數:餐廳經營、業務員績效、網路行銷 ... 等。
◆ 最小平方法:國際證照考卷銷售、房價預測、便利店銷售 ... 等。
◆ 機率與單純貝式理論:疾病分析、客戶購買意願、垃圾郵件 ... 等。
◆ 指數、對數與激活函數:廣告效果、回購率分析 ... 等。
◆ 基礎統計:超商數據、考試成績 ... 等。
◆ 迴歸分析:臉書行銷、冰品銷售、網站購物 ... 等。
◆ 向量與矩陣:網購行為分析、推薦系統、家庭用電預測 ... 等。
當讀者掌握了前述的知識後,筆者將從簡單的實例開始,逐步介紹以下機器學習演算法。每種演算法均以基礎數據為起點,詳細解說其核心概念,接著延伸至真實數據,並說明如何將這些演算法應用於實際案例中,具體實例如下:
◆ 線性迴歸:以波士頓房價為例。
◆ 邏輯斯迴歸:信用卡欺詐檢測、葡萄酒品質分析、糖尿病預測。
◆ 決策樹:葡萄酒品質、鐵達尼號生存預測、Telco 用戶流失、零售分析。
◆ 隨機森林:收入預測、波士頓房價、鐵達尼號、Telco 用戶分析。
◆ KNN 演算法:電影推薦系統、足球射門預測、鳶尾花分類、小行星撞地球風險分析。
◆ 支援向量機:鳶尾花分類、乳癌診斷、汽車燃料效率預測。
◆ 單純貝式分類:垃圾郵件檢測、中英文新聞分類、情感分析、電影評論分類。
◆ 集成機器學習:蘑菇分類、醫療保險成本預測、玻璃材料分析、加州房價預測。
◆ K-means 分群:購物中心消費行為分析、葡萄酒評價分群。
◆ PCA 主成分分析:手寫數字辨識、人臉數據降維。
◆ 階層式分群:小麥品種分類、老實泉噴發分析。
◆ DBSCAN 演算法:購物中心客戶分群分析。
透過這些實例,讀者不僅能深入理解各種演算法的理論與應用,還能學會如何將其靈活運用於現實場景,為後續的進階研究與實務應用打下扎實基礎。在講解上述演算法時,筆者同時介紹下列機器學習應該知道的知識:
◆ 特徵選擇
◆ 用長條圖了解特徵分佈
◆ 用箱型圖了解異常值
◆ 數據預處理
◆ 機器學習性能評估
◆ 殘差圖 (Residualplot)
◆ 過擬合 (overfittng)
◆ 欠擬合 (underfittng)
◆ 泛化能力 (Generalization Ability)
◆ 數據洩漏 (Data leakage)
◆ 數據白化 (whiten)
◆ 繪製決策樹圖 (Decision tree map)
◆ 可視化熱力圖 (Heat map)
◆ 決策邊界 (Decision Boundary)
◆ 增加數據維度與超平面
◆ 交叉驗證 (Cross-validation)
◆ 弱學習器 (Weaks learners)
◆ 強學習器 (Strong learners)
◆ 學習模型 (base learner)
這本書雖然沒有專門章節介紹機器學習必須會的繪圖知識matplotlib、seaborn,數據預處理numpy、pandas,但是每個程式在解說時,筆者已經用文字和程式實例講解了這方面的相關知識,無形中讀者就可以學會這方面的知識。
感謝好友銘傳大學前研發長、前統計系系主任張慶輝博士,協助本書校對工作。
寫過許多的電腦書著作,本書沿襲筆者著作的特色,程式實例豐富,相信讀者只要遵循本書內容,必定可以在最短時間,精通使用Python 設計機器學習相關應用的知識。編著本書雖力求完美,但是學經歷不足,謬誤難免,尚祈讀者不吝指正。
洪錦魁2024-11-30
jiinkwei@me.com
教學資源說明
教學資源有教學投影片。
註:教學資源不提供給一般讀者,請原諒。
讀者資源說明
請至本公司網頁https://deepwisdom.com.tw 下載本書程式實例。
臉書粉絲團
歡迎加入:王者歸來電腦專業圖書系列
歡迎加入:iCoding 程式語言讀書會(Python, Java, C, C++, C#, JavaScript, 大數據,人工智慧等不限),讀者可以不定期獲得本書籍和作者相關訊息。
歡迎加入:穩健精實AI 技術手作坊
歡迎加入:MQTT 與AIoT 整合應用