神經(jīng)網(wǎng)絡(luò)算法 - 一文搞懂回歸和分類(lèi)

作者：時(shí)間：2024-02-23 來(lái)源：人工智能學(xué)習(xí)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

本文將從回歸和分類(lèi)的本質(zhì)、回歸和分類(lèi)的原理、回歸和分類(lèi)的算法三個(gè)方面，帶您一文搞懂回歸和分類(lèi) Regression And Classification 。

本文引用地址：http://m.butianyuan.cn/article/202402/455678.htm

回歸和分類(lèi)

一、回歸和分類(lèi)的本質(zhì)

回歸和分類(lèi)是機(jī)器學(xué)習(xí)中兩種基本的預(yù)測(cè)問(wèn)題。它們的本質(zhì)區(qū)別在于輸出的類(lèi)型：回歸問(wèn)題的輸出是連續(xù)的數(shù)值，分類(lèi)問(wèn)題的輸出是有限的、離散的類(lèi)別標(biāo)簽。

回歸（Regression）的本質(zhì)：回歸的本質(zhì)是尋找自變量和因變量之間的關(guān)系，以便能夠預(yù)測(cè)新的、未知的數(shù)據(jù)點(diǎn)的輸出值。例如，根據(jù)房屋的面積、位置等特征預(yù)測(cè)其價(jià)格。

回歸的本質(zhì)

自變量個(gè)數(shù)：
一元回歸：只涉及一個(gè)自變量和一個(gè)因變量的回歸分析。
多元回歸：涉及兩個(gè)或更多個(gè)自變量和一個(gè)因變量的回歸分析。
自變量與因變量的關(guān)系：
線性回歸：自變量與因變量之間的關(guān)系被假定為線性的，即因變量是自變量的線性組合。
非線性回歸：自變量與因變量之間的關(guān)系是非線性的，這通常需要通過(guò)非線性模型來(lái)描述。
因變量個(gè)數(shù)：
簡(jiǎn)單回歸：只有一個(gè)因變量的回歸分析，無(wú)論自變量的數(shù)量如何。
多重回歸：涉及多個(gè)因變量的回歸分析。在這種情況下，模型試圖同時(shí)預(yù)測(cè)多個(gè)因變量的值。

分類(lèi)（Classification）的本質(zhì)：分類(lèi)的本質(zhì)是根據(jù)輸入數(shù)據(jù)的特征將其劃分到預(yù)定義的類(lèi)別中。例如，根據(jù)圖片的內(nèi)容判斷其所屬的類(lèi)別（貓、狗、花等）。

分類(lèi)的本質(zhì)

二分類(lèi)（Binary Classification）：表示分類(lèi)任務(wù)中有兩個(gè)類(lèi)別。在二分類(lèi)中，我們通常使用一些常見(jiàn)的算法來(lái)進(jìn)行分類(lèi)，如邏輯回歸、支持向量機(jī)等。例如，我們想要識(shí)別一幅圖片是不是貓，這就是一個(gè)二分類(lèi)問(wèn)題，因?yàn)榇鸢钢挥惺腔虿皇莾煞N可能。
多分類(lèi)（Multi-Class Classification）：表示分類(lèi)任務(wù)中有多個(gè)類(lèi)別。多分類(lèi)是假設(shè)每個(gè)樣本都被設(shè)置了一個(gè)且僅有一個(gè)標(biāo)簽：一個(gè)水果可以是蘋(píng)果或者梨，但是同時(shí)不可能是兩者。在多分類(lèi)中，我們可以使用一些常見(jiàn)的算法來(lái)進(jìn)行分類(lèi)，如決策樹(shù)、隨機(jī)森林等。例如，對(duì)一堆水果圖片進(jìn)行分類(lèi)，它們可能是橘子、蘋(píng)果、梨等，這就是一個(gè)多分類(lèi)問(wèn)題。
多標(biāo)簽分類(lèi)（Multi-Label Classification）：給每個(gè)樣本一系列的目標(biāo)標(biāo)簽，可以想象成一個(gè)數(shù)據(jù)點(diǎn)的各屬性不是相互排斥的。多標(biāo)簽分類(lèi)的方法分為兩種，一種是將問(wèn)題轉(zhuǎn)化為傳統(tǒng)的分類(lèi)問(wèn)題，二是調(diào)整現(xiàn)有的算法來(lái)適應(yīng)多標(biāo)簽的分類(lèi)。例如，一個(gè)文本可能被同時(shí)認(rèn)為是宗教、政治、金融或者教育相關(guān)話題，這就是一個(gè)多標(biāo)簽分類(lèi)問(wèn)題，因?yàn)橐粋€(gè)文本可以同時(shí)有多個(gè)標(biāo)簽。

二、回歸和分類(lèi)的原理

線性回歸 VS 邏輯回歸

回歸（Regression）的原理：通過(guò)建立自變量和因變量之間的數(shù)學(xué)模型來(lái)探究它們之間的關(guān)系。

線性回歸

線性回歸（Linear Regression）：求解權(quán)重（w）和偏置（b）的主要步驟。

求解權(quán)重（w）和偏置（b）

初始化權(quán)重和偏置：為權(quán)重w和偏置b選擇初始值，并準(zhǔn)備訓(xùn)練數(shù)據(jù)X和標(biāo)簽y。
定義損失函數(shù)：選擇一個(gè)損失函數(shù)（如均方誤差）來(lái)衡量模型預(yù)測(cè)與實(shí)際值之間的差距。
應(yīng)用梯度下降算法：使用梯度下降算法迭代更新w和b，以最小化損失函數(shù)，直到滿(mǎn)足停止條件。

梯度下降算法迭代更新w和b

獲取并驗(yàn)證最終參數(shù)：當(dāng)算法收斂時(shí)，得到最終的w和b，并在驗(yàn)證集上檢查模型性能。
構(gòu)建最終模型：使用最終的w和b構(gòu)建線性回歸模型，用于新數(shù)據(jù)預(yù)測(cè)。

新數(shù)據(jù)預(yù)測(cè)

分類(lèi)（Classification）的原理：根據(jù)事物或概念的共同特征將其劃分為同一類(lèi)別，而將具有不同特征的事物或概念劃分為不同類(lèi)別。

邏輯回歸

邏輯回歸（Logistic Regression）：通過(guò)sigmoid函數(shù)將線性回歸結(jié)果映射為概率的二分類(lèi)算法。

特征工程：轉(zhuǎn)換和增強(qiáng)原始特征以更好地表示問(wèn)題。
模型建立：構(gòu)建邏輯回歸模型，使用sigmoid函數(shù)將線性組合映射為概率。
模型訓(xùn)練：通過(guò)優(yōu)化算法（如梯度下降）最小化損失函數(shù)來(lái)訓(xùn)練模型。
模型評(píng)估：使用驗(yàn)證集或測(cè)試集評(píng)估模型的性能。
預(yù)測(cè)：應(yīng)用訓(xùn)練好的模型對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)。

貓狗識(shí)別

三、回歸和分類(lèi)的算法

回歸（Regression）的算法：主要用于預(yù)測(cè)數(shù)值型數(shù)據(jù)。

線性回歸（Linear Regression）：這是最基本和常見(jiàn)的回歸算法，它假設(shè)因變量和自變量之間存在線性關(guān)系，并通過(guò)最小化預(yù)測(cè)值和實(shí)際值之間的平方誤差來(lái)擬合數(shù)據(jù)。
多項(xiàng)式回歸（Polynomial Regression）：當(dāng)自變量和因變量之間的關(guān)系是非線性時(shí)，可以使用多項(xiàng)式回歸。它通過(guò)引入自變量的高次項(xiàng)來(lái)擬合數(shù)據(jù)，從而捕捉非線性關(guān)系。
決策樹(shù)回歸（Decision Tree Regression）：決策樹(shù)回歸是一種基于樹(shù)結(jié)構(gòu)的回歸方法，它通過(guò)構(gòu)建決策樹(shù)來(lái)劃分?jǐn)?shù)據(jù)空間，并在每個(gè)葉節(jié)點(diǎn)上擬合一個(gè)簡(jiǎn)單的模型（如常數(shù)或線性模型）。決策樹(shù)回歸易于理解和解釋?zhuān)軌蛱幚矸蔷€性關(guān)系，并且對(duì)特征選擇不敏感。
隨機(jī)森林回歸（Random Forest Regression）：隨機(jī)森林回歸是一種集成學(xué)習(xí)方法，它通過(guò)構(gòu)建多個(gè)決策樹(shù)并將它們的預(yù)測(cè)結(jié)果組合起來(lái)來(lái)提高回歸性能。隨機(jī)森林回歸能夠處理高維數(shù)據(jù)和非線性關(guān)系，并且對(duì)噪聲和異常值具有一定的魯棒性。

分類(lèi)（Classification）的算法：主要用于發(fā)現(xiàn)類(lèi)別規(guī)則并預(yù)測(cè)新數(shù)據(jù)的類(lèi)別。

邏輯回歸（Logistic Regression）：盡管名字中有“回歸”，但實(shí)際上邏輯回歸是一種分類(lèi)算法，常用于二分類(lèi)問(wèn)題。它通過(guò)邏輯函數(shù)將線性回歸的輸出映射到(0,1)之間，得到樣本點(diǎn)屬于某一類(lèi)別的概率。在回歸問(wèn)題中，有時(shí)也使用邏輯回歸來(lái)處理因變量是二元的情況，此時(shí)可以將問(wèn)題看作是對(duì)概率的回歸。
支持向量機(jī)（SVM）：支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類(lèi)算法。它通過(guò)尋找一個(gè)超平面來(lái)最大化不同類(lèi)別之間的間隔，從而實(shí)現(xiàn)分類(lèi)。SVM在高維空間和有限樣本情況下表現(xiàn)出色，并且對(duì)于非線性問(wèn)題也可以使用核函數(shù)進(jìn)行擴(kuò)展。
K最近鄰（KNN）：K最近鄰是一種基于實(shí)例的學(xué)習(xí)算法，它根據(jù)輸入樣本的K個(gè)最近鄰樣本的類(lèi)別來(lái)確定輸入樣本的類(lèi)別。KNN算法簡(jiǎn)單且無(wú)需訓(xùn)練階段，但在處理大規(guī)模數(shù)據(jù)集時(shí)可能效率較低。
樸素貝葉斯分類(lèi)器：樸素貝葉斯是一種基于貝葉斯定理的分類(lèi)算法，它假設(shè)特征之間相互獨(dú)立（即樸素假設(shè)）。盡管這個(gè)假設(shè)在實(shí)際應(yīng)用中往往不成立，但樸素貝葉斯分類(lèi)器在許多領(lǐng)域仍然表現(xiàn)出色，尤其是在文本分類(lèi)和垃圾郵件過(guò)濾等方面。