人工智能之卷積神經(jīng)網(wǎng)絡(luò)(CNN)

作者：時(shí)間：2018-06-19 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　前言：人工智能機(jī)器學(xué)習(xí)有關(guān)算法內(nèi)容，請(qǐng)參見(jiàn)公眾號(hào)“科技優(yōu)化生活”之前相關(guān)文章。人工智能之機(jī)器學(xué)習(xí)主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點(diǎn)探討一下卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法。 ^_^

本文引用地址：http://m.butianyuan.cn/article/201806/381807.htm

　　20世紀(jì)60年代，Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時(shí)發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性，繼而提出了卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)。

　　1980年，K.Fukushima提出的新識(shí)別機(jī)是卷積神經(jīng)網(wǎng)絡(luò)的第一個(gè)實(shí)現(xiàn)網(wǎng)絡(luò)。隨后，更多的科研工作者對(duì)該網(wǎng)絡(luò)進(jìn)行了改進(jìn)。其中，具有代表性的研究成果是Alexander和Taylor提出的“改進(jìn)認(rèn)知機(jī)”，該方法綜合了各種改進(jìn)方法的優(yōu)點(diǎn)并避免了耗時(shí)的誤差反向傳播。

　　現(xiàn)在，CNN已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一，特別是在模式分類領(lǐng)域，由于該網(wǎng)絡(luò)避免了對(duì)圖像的復(fù)雜前期預(yù)處理，可以直接輸入原始圖像，因而得到了更為廣泛的應(yīng)用。

　　CNN概念:

　　在機(jī)器學(xué)習(xí)中，卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)是一種前饋神經(jīng)網(wǎng)絡(luò)，它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元，可以應(yīng)用于語(yǔ)音識(shí)別、圖像處理和圖像識(shí)別等領(lǐng)域。

　　CNN引入意義:

　　在全連接神經(jīng)網(wǎng)絡(luò)中(下面左圖)，每相鄰兩層之間的每個(gè)神經(jīng)元之間都是有邊相連的。當(dāng)輸入層的特征維度變得很高時(shí)，這時(shí)全連接網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)就會(huì)增大很多，計(jì)算速度就會(huì)變得很慢。

　　而在卷積神經(jīng)網(wǎng)絡(luò)CNN中(下面右圖)，卷積層的神經(jīng)元只與前一層的部分神經(jīng)元節(jié)點(diǎn)相連，即它的神經(jīng)元間的連接是非全連接的，且同一層中某些神經(jīng)元之間的連接的權(quán)重w和偏移b是共享的，這樣大量地減少了需要訓(xùn)練參數(shù)的數(shù)量。

　　CNN核心思想：

　　CNN模型限制參數(shù)了個(gè)數(shù)并挖掘了局部結(jié)構(gòu)。主要用來(lái)識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形。局部感受視野，權(quán)值共享以及時(shí)間或空間亞采樣這三種思想結(jié)合起來(lái)，獲得了某種程度的位移、尺度、形變不變性。通過(guò)“卷積核”作為中介。同一個(gè)卷積核在所有圖像內(nèi)是共享的，圖像通過(guò)卷積操作后仍然保留原先的位置關(guān)系。

　　CNN實(shí)質(zhì)：

　　CNN在本質(zhì)上是一種輸入到輸出的映射，它能夠?qū)W習(xí)大量的輸入與輸出之間的映射關(guān)系，而不需要任何輸入和輸出之間的精確的數(shù)學(xué)表達(dá)式，只要用已知的模式對(duì)卷積網(wǎng)絡(luò)加以訓(xùn)練，網(wǎng)絡(luò)就具有輸入輸出對(duì)之間的映射能力。卷積網(wǎng)絡(luò)執(zhí)行的是有導(dǎo)師訓(xùn)練，所以其樣本集是由形如：(輸入向量，理想輸出向量)的向量對(duì)構(gòu)成的。所有這些向量對(duì)，都應(yīng)該是來(lái)源于網(wǎng)絡(luò)即將模擬的系統(tǒng)的實(shí)際“運(yùn)行”結(jié)果。它們可以是從實(shí)際運(yùn)行系統(tǒng)中采集來(lái)的。在開(kāi)始訓(xùn)練前，所有的權(quán)都應(yīng)該用一些不同的小隨機(jī)數(shù)進(jìn)行初始化。“小隨機(jī)數(shù)”用來(lái)保證網(wǎng)絡(luò)不會(huì)因權(quán)值過(guò)大而進(jìn)入飽和狀態(tài)而導(dǎo)致訓(xùn)練失敗;“不同”用來(lái)保證網(wǎng)絡(luò)可以正常地學(xué)習(xí)。

　　CNN基本結(jié)構(gòu):

　　卷積神經(jīng)網(wǎng)絡(luò)CNN的結(jié)構(gòu)一般包含下面幾層：

　　1) 輸入層：用于數(shù)據(jù)的輸入。

　　2) 卷積層：卷積層是卷積核在上一級(jí)輸入層上通過(guò)逐一滑動(dòng)窗口計(jì)算而得，卷積核中的每一個(gè)參數(shù)都相當(dāng)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的權(quán)值參數(shù)，與對(duì)應(yīng)的局部像素相連接，將卷積核的各個(gè)參數(shù)與對(duì)應(yīng)的局部像素值相乘之和，得到卷積層上的結(jié)果。一般地，使用卷積核進(jìn)行特征提取和特征映射。

　　l 特征提?。好總€(gè)神經(jīng)元的輸入與前一層的局部接受域相連，并提取該局部的特征。一旦該局部特征被提取后，它與其它特征間的位置關(guān)系也隨之確定下來(lái);

　　l 特征映射：網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成，每個(gè)特征映射是一個(gè)平面，平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù)，使得特征映射具有位移不變性。此外，由于一個(gè)映射面上的神經(jīng)元共享權(quán)值，因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)。

　　卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)卷積層都緊跟著一個(gè)用來(lái)求局部平均與二次提取的計(jì)算層，這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。

　　3) 激勵(lì)層：由于卷積也是一種線性運(yùn)算，因此需要增加非線性映射。使用的激勵(lì)函數(shù)一般為ReLu函數(shù)：f(x)=max(x,0)。

　　4) 池化層：進(jìn)行下采樣，對(duì)特征圖稀疏處理，減少數(shù)據(jù)運(yùn)算量。通過(guò)卷積層獲得了圖像的特征之后，理論上可以直接使用這些特征訓(xùn)練分類器(如softmax)，但這樣做將面臨巨大的計(jì)算量挑戰(zhàn)，且容易產(chǎn)生過(guò)擬合現(xiàn)象。為了進(jìn)一步降低網(wǎng)絡(luò)訓(xùn)練參數(shù)及模型的過(guò)擬合程度，需要對(duì)卷積層進(jìn)行池化/采樣(Pooling)處理。池化/采樣的方式通常有以下兩種：a)Max-Pooling: 選擇Pooling窗口中的最大值作為采樣值;b)Mean-Pooling: 將Pooling窗口中的所有值相加取平均，以平均值作為采樣值。

　　5) 全連接層：CNN尾部進(jìn)行重新擬合，減少特征信息的損失。

　　6) 輸出層：用于最后輸出結(jié)果。

　　CNN訓(xùn)練過(guò)程:

　　1)向前傳播階段：

　　a)從樣本集中取一個(gè)樣本(X,Yp)，將X輸入網(wǎng)絡(luò);

　　b)計(jì)算相應(yīng)的實(shí)際輸出Op。

　　在本階段，信息從輸入層經(jīng)過(guò)逐級(jí)的變換，傳送到輸出層。這個(gè)過(guò)程也是網(wǎng)絡(luò)在完成訓(xùn)練后正常運(yùn)行時(shí)執(zhí)行的過(guò)程。在此過(guò)程中，網(wǎng)絡(luò)執(zhí)行的是計(jì)算，實(shí)際上就是輸入與每層的權(quán)值矩陣相點(diǎn)乘，得到最后的輸出結(jié)果：

　　Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n))

　　2)向后傳播階段：

　　a)計(jì)算實(shí)際輸出Op與相應(yīng)的理想輸出Yp的差;

　　b)按極小化誤差的方法反向傳播調(diào)整權(quán)矩陣。

　　CNN優(yōu)點(diǎn):

　　1) 輸入圖像和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能很好的吻合;

　　2) 盡管使用較少參數(shù)，仍然有出色性能;

　　3) 避免了顯式的特征抽取，而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);

　　4) 特征提取和模式分類同時(shí)進(jìn)行，并同時(shí)在訓(xùn)練中產(chǎn)生，網(wǎng)絡(luò)可以并行學(xué)習(xí);

　　5) 權(quán)值共享減少網(wǎng)絡(luò)的訓(xùn)練參數(shù)，降低了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性，適用性更強(qiáng);

　　6) 無(wú)需手動(dòng)選取特征，訓(xùn)練好權(quán)重，即得特征，分類效果好;

　　7) 可以直接輸入網(wǎng)絡(luò)，避免了特征提取和分類過(guò)程中數(shù)據(jù)重建的復(fù)雜度。

　　CNN缺點(diǎn):

　　1) 需要調(diào)整參數(shù);

　　2) 需要大樣本量，訓(xùn)練最好要GPU;

　　3) 物理含義不明確，神經(jīng)網(wǎng)絡(luò)本身就是一種難以解釋的 “黑箱模型”。

　　CNN常用框架:

　　1) Caffe:源于Berkeley的主流CV工具包，支持C++,python,matlab; Model Zoo中有大量預(yù)訓(xùn)練好的模型供使用;

　　2) Torch: Facebook用的卷積神經(jīng)網(wǎng)絡(luò)工具包,通過(guò)時(shí)域卷積的本地接口，使用非常直觀; 定義新網(wǎng)絡(luò)層簡(jiǎn)單;

　　3) TensorFlow：Google的深度學(xué)習(xí)框架;TensorBoard可視化很方便;數(shù)據(jù)和模型并行化好，速度快。

　　CNN應(yīng)用場(chǎng)景：

　　應(yīng)用場(chǎng)景包括機(jī)器學(xué)習(xí)、語(yǔ)音識(shí)別、文檔分析、語(yǔ)言檢測(cè)和圖像識(shí)別等領(lǐng)域。

　　特別強(qiáng)調(diào)的是：CNN在圖像處理和圖像識(shí)別領(lǐng)域取得了很大的成功，在國(guó)際標(biāo)準(zhǔn)的ImageNet數(shù)據(jù)集上，許多成功的模型都是基于CNN的。CNN相較于傳統(tǒng)的圖像處理算法的好處之一在于：避免了對(duì)圖像復(fù)雜的前期預(yù)處理過(guò)程，可以直接輸入原始圖像。

　　結(jié)語(yǔ):

　　卷積神經(jīng)網(wǎng)絡(luò)CNN是近年發(fā)展起來(lái)，并引起廣泛重視的一種高效識(shí)別方法。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在模式識(shí)別方面有著獨(dú)特的優(yōu)越性，其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò)，權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性，特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過(guò)程中數(shù)據(jù)重建的復(fù)雜度。CNN算法在人工智能之機(jī)器學(xué)習(xí)、語(yǔ)音識(shí)別、文檔分析、語(yǔ)言檢測(cè)和圖像識(shí)別等領(lǐng)域等領(lǐng)域有著廣泛應(yīng)用。

新聞中心

人工智能之卷積神經(jīng)網(wǎng)絡(luò)(CNN)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)