從數(shù)學(xué)推導(dǎo)開始,7萬字一定帶你學(xué)會支持向量機(免費PDF下載)
本書從零推導(dǎo) SVM,涵蓋從 SVM 的思想、到形式化、再簡化、最后實現(xiàn)的完整過程。
SVM(Support Vector Machine,支持向量機)是一個非常經(jīng)典且高效的分類模型。在機器學(xué)習領(lǐng)域,有兩大類方法既理論優(yōu)美又能在實踐中取得很好的效果,其中一類是 SVM 及其衍生的核方法和統(tǒng)計學(xué)習理論;另一類是 AdaBoost 及其衍生的 Boosting 方法,例如在 Kaggle 競賽中十分流行的 XGBoost 和 LightGBM 即屬于 Boosting 方法。目前十分熱門的深度學(xué)習方法雖然在實踐中能取得十分突出的效果,但是理論支持不夠完善。
在深度學(xué)習復(fù)興之前,SVM 是最常被使用的模型之一。即使現(xiàn)在深度學(xué)習如火如荼,在一些領(lǐng)域 SVM 仍有其用武之地;此外,理解 SVM 對理解機器學(xué)習領(lǐng)域的關(guān)鍵概念和重要思想很有幫助;最后,因為 SVM 的影響力,其常常作為面試問題用于考察面試者的基本功。因此,SVM 是機器學(xué)習及相關(guān)領(lǐng)域初學(xué)者必須掌握的算法之一。
電子書概覽
但是,SVM 涉及許多數(shù)學(xué)推導(dǎo),有些還比較復(fù)雜,并且需要比較強的凸優(yōu)化基礎(chǔ)知識,這使得一些初學(xué)者雖花大量時間和精力研讀,但仍一頭霧水,最終望而卻步,從入門到放棄。本書《手把手帶你學(xué)懂 SVM》旨在從零推導(dǎo) SVM,涵蓋從 SVM 的思想、到形式化、再簡化、最后實現(xiàn)的完整過程。
- 電子書下載地址:https://pan.baidu.com/link/zhihu/7QhkzYuRhtikYhNkkFdf1qRHewTqJVRwZBVW==
- 知乎鏈接:https://zhuanlan.zhihu.com/p/480302399
例如,SVM 涉及許多概念,比如間隔(又分為硬間隔和軟間隔)、支持向量、基本型、對偶型、高斯核函數(shù)等,本書一方面會從數(shù)學(xué)角度詳細定義和解釋每個概念,另一方面會通過通俗的例子直觀說明這些概念的含義,以幫助讀者理解。
舉個例子,假設(shè)讀者要學(xué)習《高等數(shù)學(xué)》這門課,用機器學(xué)習的語言來進行描述,讀者平時在上課的過程就是訓(xùn)練讀者成為 “《高等數(shù)學(xué)》學(xué)習模型” 的過程,平時進行的模擬考試或做的練習就是訓(xùn)練樣本,最終的期末考試就是訓(xùn)練樣本之外的測試樣本,用來測試讀者對《高等數(shù)學(xué)》知識的掌握情況,即檢驗讀者對運用《高等數(shù)學(xué)》知識解題的泛化能力。
如果讀者在模擬考試或練習(即訓(xùn)練樣本)上只能達到 60 分或只比 60 分多幾分,即十分接近及格和不及格的分類邊界,雖然在模擬考試或練習中及格了(即訓(xùn)練樣本預(yù)測正確),但是如果期末考試(即測試樣本)和模擬考試或練習(即訓(xùn)練樣本)相比變了些題型(進行了一些局部擾動),那么讀者很有可能在期末考試上不及格(即測試樣本預(yù)測錯誤)。
不同的同學(xué)有不同的學(xué)習策略(即不同的學(xué)習模型有不同的歸納偏好),SVM 的歸納偏好類似于 “學(xué)霸” 的學(xué)習策略,“學(xué)霸” 不滿足于模型考試或練習只及格就可以,而是不僅是要在模型考試或練習中及格(即訓(xùn)練樣本預(yù)測正確)、而且進一步要使得模型考試或練習的成績盡量比 60 分高,比如達到 70 分或 80 分以上(即訓(xùn)練樣本遠離劃分超平面),那么期末考試及格(即測試樣本預(yù)測正確)的概率會很大。
從上面的例子可以了解到,訓(xùn)練樣本是平時做的模擬考試或練習,測試樣本是期末考試。基本型就像是閉卷考試,在期末考試時(即在預(yù)測階段),你平時做的模擬考試或練習都不能帶(即不依賴訓(xùn)練集 D),只能靠你聰明的頭腦進行答題(即只能使用訓(xùn)練得到的參數(shù) (w?,b?) 進行預(yù)測);而對偶型就像是開卷考試,在期末考試時(即在預(yù)測階段),你可以帶平時做過的模擬考試或練習(即依賴訓(xùn)練集 D),答題時不僅可以靠你聰明的頭腦,還可以查閱平時做過的模擬考試或練習(即同時使用訓(xùn)練得到的參數(shù)和訓(xùn)練集 D 進行預(yù)測)。
基本型屬于參數(shù)模型、而對偶型屬于非參數(shù)模型??梢钥闯?,參數(shù)模型的特點在于預(yù)測過程簡單、預(yù)測耗時短(即閉卷考試時會就是會、不會就是不會,花再多時間也沒啥用);而非參數(shù)模型的特點在于模型表示能力通常更強(讀者應(yīng)該有體會,通常開卷考試的成績更高),但預(yù)測過程比較復(fù)雜、預(yù)測耗時長,預(yù)測耗時通常和訓(xùn)練集大小 m 成正比(即答題時需要將帶的模擬考試或練習翻找一遍)。
更進一步,訓(xùn)練樣本是平時做的模擬考試或練習,硬間隔要求你對平時做的所有的模擬考試或練習分數(shù)都要比 60 分高很多,而軟間隔允許你有幾次失誤的機會,即允許有少量模擬考試或練習分數(shù)接近或低于 60 分。軟間隔和硬間隔相比會放松一些要求,這樣更加現(xiàn)實,有時候模擬考試或練習中會存在偏題怪題(即噪聲樣本),如果一味追求要所有的模擬考試或練習都做的很好(即硬間隔),那么會花大量的時間糾結(jié)偏題怪題(即擬合噪聲樣本),不見得期末考試成績會好(即容易出現(xiàn)過擬合)。
訓(xùn)練樣本是平時做的模型考試或練習,測試樣本是期末考試,支持向量是錯題集,基本型是閉卷考試,對偶型是開卷考試。那么軟間隔高斯核 SVM 的對偶型告訴你,在開卷考試時不需要帶所有做過的模擬考試或練習(即不需要全部訓(xùn)練集 D),只需要帶錯題集(即只需要支持向量),在期末考試答題時采用的策略是(即預(yù)測策略是),拿到一道題(即對于一個待預(yù)測的樣本),將該題和錯題集中收錄的題一一比對一遍(即基于核函數(shù)對支持向量進行相似度計算),參考錯題集中的解法(即參考支持向量的標記),相似度高的題解法就多參考參考、相似度低的題解法就少參考參考(即基于核函數(shù)得出的相似度進行加權(quán)投****),不過參考不是照抄,還需要你聰明的大腦進行加工和整合(即基于 進行加權(quán)投****)得到最終解法(即最終預(yù)測結(jié)果)。其實回顧你以前參加開卷考試的經(jīng)歷,使用的基本上就是這個答題策略,所以軟間隔高斯核 SVM 的對偶型的表示能力十分強大。
下表對 SVM 中涉及的一些概念用學(xué)習《高等數(shù)學(xué)》課程的例子進行類比,類比不見得嚴謹,但是有助于理解概念。我們學(xué)習機器學(xué)習還有一個意義是促進人類的學(xué)習,SVM 中的很多思想和策略對人類學(xué)習很有啟發(fā)價值。
本書有以下特點:
- 數(shù)學(xué)推導(dǎo)詳細。對于一些數(shù)學(xué)性比較強的資料,讀者有時會卡在其中的一兩個關(guān)鍵步驟,無法理解其中的推導(dǎo)過程,導(dǎo)致無法學(xué)習后續(xù)的內(nèi)容。本書會詳細推導(dǎo)所有涉及的公式,數(shù)學(xué)基礎(chǔ)比較好的讀者可以快速瀏覽推導(dǎo)過程作為回憶和鞏固;而對于數(shù)學(xué)基礎(chǔ)有些薄弱的讀者,詳細的推導(dǎo)過程將使讀者不會 “掉隊”;
- 補充背景知識。SVM 是凸優(yōu)化領(lǐng)域的經(jīng)典算法,需要讀者對凸優(yōu)化的背景知識有一定的了解。但是大部分讀者可能并不是數(shù)學(xué)或優(yōu)化背景出身,為了學(xué)習 SVM 先要掌握內(nèi)容宏大的凸優(yōu)化知識會是比較重的負擔。為了減輕讀者的負擔并能使盡可能多的讀者從中收益,本書不要求讀者有凸優(yōu)化背景知識,讀者只需要有基礎(chǔ)的微積分和線性代數(shù)背景即可。文本對 SVM 中涉及的背景知識會進行補充,力圖使本書內(nèi)容是自足的,即爭取做到 “學(xué)懂 SVM 只看本書就夠了”;
- 概念圖文結(jié)合。SVM 的另一個難點是涉及許多概念,有些還比較抽象。因此,本書配備了許多插圖,用于輔助讀者學(xué)習。讀者如果能自動地做到將各個術(shù)語和概念對應(yīng)到圖中,那基本就可以達到對 SVM 融會貫通的程度;
- 包含面試問題。本書內(nèi)容涵蓋了常見的對 SVM 的面試考察問題,因此也可以作為快速回顧和復(fù)習 SVM 的參考資料;
- 穿插趣味示例。本書如果通篇都是對 SVM 的數(shù)學(xué)推導(dǎo)不免有些抽象和乏味,因此會多次用人類學(xué)習《高等數(shù)學(xué)》知識這一例子類比 SVM 中的重要概念和思想。類比不見得嚴謹,但對理解 SVM 具有幫助意義。
SVM 中涉及的關(guān)鍵內(nèi)容可以用下圖進行概括,本書將從最基礎(chǔ)的部分進行,逐步深入,每一步都盡量提供詳細的推導(dǎo)過程,使讀者能跟上本書的節(jié)奏。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。