深度學(xué)習(xí)被「神化」！如何「客觀」看待深度學(xué)習(xí)？

作者：時間：2017-07-11 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：深度學(xué)習(xí)隨著AlphaGo大勝李世石之后被“神話”，很多人認(rèn)為深度學(xué)習(xí)就是挑戰(zhàn)人類智力的“神器”?？墒牵疃葘W(xué)習(xí)真的如他們想象的那般“戰(zhàn)無不勝”嗎?

　　本文編譯自hyperparameter.space，作者是Pablo Cordero，就讀于加利福尼亞大學(xué)圣克魯斯校區(qū)，主攻方向為細(xì)胞生物學(xué)和再生醫(yī)學(xué)背景下的應(yīng)用機(jī)器學(xué)習(xí)研究。閱讀此文后，你便能夠從深層理解，為什么深度學(xué)習(xí)其實(shí)并不像普通百姓想象的那般“神”了，甚至，你還會發(fā)現(xiàn)它有時還有些“笨”。

本文引用地址：http://m.butianyuan.cn/article/201707/361572.htm

　　我知道以一種較為消極的態(tài)度來作為博客的開頭是很奇怪的方式，但是在過去幾天里有一波討論，我認(rèn)為這是關(guān)于我最近一直在思考的話題一個很好的切入點(diǎn)。這一切都從Jeff Leek在Simply Stats博客中發(fā)表了一篇關(guān)于在小樣本規(guī)模體系中使用深度學(xué)習(xí)的注意事項開始的?？傊J(rèn)為，當(dāng)樣本量很小(這在生物領(lǐng)域頻繁發(fā)生)時，即使有一些層和隱藏單元，具有較少參數(shù)的線性模型的表現(xiàn)是優(yōu)于深度網(wǎng)絡(luò)的。他還表示，當(dāng)在一個使用僅僅80個樣本的MNIST數(shù)據(jù)集中進(jìn)行0和1的分類時，一個具有十大最具特征值的非常簡單的線性預(yù)測器的表現(xiàn)要比一個簡單的深度網(wǎng)絡(luò)好得多。這促使Andrew beam寫出一篇文章來反駁，一個適當(dāng)訓(xùn)練的深度網(wǎng)絡(luò)能夠擊敗簡單的線性模型，即使是很少的訓(xùn)練樣本。現(xiàn)如今頻繁出現(xiàn)的是，越來越多的生物醫(yī)學(xué)信息學(xué)研究人員正在使用深度學(xué)習(xí)來解決各種問題。這種肆無忌憚的宣傳是真的有效嗎?或者說這種線性模型是我們所需要的嗎?答案一如既往的是——這取決于先決條件。在這篇文章中，我想探索機(jī)器學(xué)習(xí)中的使用案例，實(shí)際上，深度學(xué)習(xí)并不是真正意義上對所有應(yīng)用都有效，同時探索出我認(rèn)為可以使得深度學(xué)習(xí)得到有效使用的解決想法，特別是針對新來者。

　　打破深度學(xué)習(xí)之偏見

　　首先，我們要剔除一些先入為主的偏見，很多圈外的人們還處于一知半解的狀態(tài)。有兩個廣泛的認(rèn)知點(diǎn)，而我將要對這個更為技術(shù)性的做一個詳細(xì)說明。這有點(diǎn)像是對Andrew Beam在他的帖子中所完美地闡述的“誤解”部分的延伸。

　　深層學(xué)習(xí)確實(shí)可以在小樣本的情況下進(jìn)行

　　深度學(xué)習(xí)是隨著大數(shù)據(jù)的背景下產(chǎn)生的(請牢記，第一個Google大腦項目正在向深度網(wǎng)絡(luò)提供大量YouTube視頻)，并自此不斷地被宣稱運(yùn)行在大量數(shù)據(jù)中的復(fù)雜算法。不幸的是，這個大數(shù)據(jù)/深度學(xué)習(xí)對不知為何也被誤解：在小樣本條件下不能使用的虛構(gòu)體。如果你只有幾個樣本，在一個具有高樣本參數(shù)比例的神經(jīng)網(wǎng)絡(luò)中進(jìn)行開發(fā)，看起來似乎會出現(xiàn)過度擬合。然而，僅僅考慮給定問題的樣本容量和維度，無論是監(jiān)督還是無監(jiān)督，都幾乎是在真空中對數(shù)據(jù)進(jìn)行建模的，而無需任何背景?？赡艿那闆r是，你擁有與你問題相關(guān)的數(shù)據(jù)源，或者該領(lǐng)域?qū)＜铱梢蕴峁?qiáng)有力的數(shù)據(jù)源，或者數(shù)據(jù)可以以非常特殊的方式進(jìn)行構(gòu)建(例如，以圖形或圖像編碼的方式進(jìn)行)。在所有這些情況下，深度學(xué)習(xí)有機(jī)會成為一種可供選擇的方法——例如，你可以編碼較大的相關(guān)數(shù)據(jù)集的有用表示，并將其應(yīng)用于你的問題中。這種經(jīng)典的示例常見于自然語言處理，你可以學(xué)習(xí)大型語料庫中嵌入的詞語，然后將它們作為一個較小的、較窄的語料庫嵌入到一個監(jiān)督的任務(wù)中。在極端情況下，你可以擁有一套神經(jīng)網(wǎng)絡(luò)，共同學(xué)習(xí)一種表示方式，并在小型樣本中重用該表示的有效方式。這被稱為一次性學(xué)習(xí)(one-shot learning)，并已經(jīng)成功應(yīng)用于包括計算機(jī)視覺和藥物發(fā)現(xiàn)在內(nèi)的高維數(shù)據(jù)的許多領(lǐng)域當(dāng)中。

　　藥物發(fā)現(xiàn)中的一次性學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，摘自Altae-Tran et al. ACS Cent. Sci. 2017

　　深度學(xué)習(xí)不是一切的答案

　　我聽到最多的第二個偏見就是過度宣傳。許多尚未從事AI職業(yè)的人，期望深度網(wǎng)絡(luò)能夠給他們一個神話般的表現(xiàn)提升力，僅僅因為它在其他領(lǐng)域有效。其他人則從深度學(xué)習(xí)在圖像、音樂和語言(最貼近人類的三種數(shù)據(jù)類型)中的令人印象深刻的表現(xiàn)中受到鼓舞，并通過嘗試訓(xùn)練最新的GAN架構(gòu)，而匆匆一頭扎進(jìn)這個領(lǐng)域。當(dāng)然，在許多方面這種過度宣傳也是真實(shí)存在的。深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)中不可否認(rèn)的力量，也是數(shù)據(jù)建模者的重要工具。它的普及帶來了諸如tensorflow和pytorch等重要框架，它們即使是在深度學(xué)習(xí)之外也是非常有用的。失敗者的巨星崛起的故事激勵了研究人員重新審視其他以前模糊的方法，如進(jìn)化方法和強(qiáng)化學(xué)習(xí)。但這不是萬能的。除了考慮天下沒有免費(fèi)的午餐之外，深度學(xué)習(xí)模型可以非常細(xì)微，并且需要仔細(xì)，有時甚至是非常昂貴的超參數(shù)搜索、調(diào)整和測試(文章后續(xù)將有更多講解)。此外，有很多情況下，從實(shí)踐的角度來看，使用深度學(xué)習(xí)是沒有意義的，而更簡單的模型工作得更好。

　　深度學(xué)習(xí)不僅僅是.fit()

　　深度學(xué)習(xí)模型還有另外一個方面的應(yīng)用，我認(rèn)為在其他機(jī)器學(xué)習(xí)領(lǐng)域方面是有所損失的。大多數(shù)深度學(xué)習(xí)的教程和介紹性材料描述了這些模型由層次連接的節(jié)點(diǎn)層組成，其中第一層是輸入，最后一層是輸出，并且你可以使用某種形式的隨機(jī)梯度下降(SGD)來訓(xùn)練它們?？赡苡幸恍┖喴慕榻B隨機(jī)梯度下降是如何工作的，以及什么是反向傳播，大部分解釋集中在神經(jīng)網(wǎng)絡(luò)類型(卷積、循環(huán)等)。而優(yōu)化方法本身卻沒有什么人關(guān)注，這是很不幸的，因為很有可能深度學(xué)習(xí)為什么能夠起作用的很大(如果不是最大的)一部分原因就是這些特定的方法(例如來自Ferenc Huszár’s的這篇文章和從該文中引用的論文，并且要知道，如何優(yōu)化它們的參數(shù)，以及如何分割數(shù)據(jù)，從而有效地使用它們以便在合理的時間內(nèi)獲得良好的收斂，是至關(guān)重要的。不過，為什么隨機(jī)梯度如此關(guān)鍵卻仍然是未知的，現(xiàn)在也或多或少地出現(xiàn)了一些線索。我最喜歡的一個是將該方法解釋為執(zhí)行貝葉斯推理的一部分。實(shí)質(zhì)上，每當(dāng)你做某種形式的數(shù)值優(yōu)化時，你都會用特定的假設(shè)和先驗來執(zhí)行一些貝葉斯推理。實(shí)際上，有一個被稱為概率數(shù)值計算(probabilistic numerics)的整個領(lǐng)域，就是從這個角度出現(xiàn)的。隨機(jī)梯度下降是沒有什么不同，最新的研究成果表明，該程序?qū)嶋H上是一個馬爾可夫鏈，在某些假設(shè)下，可以看作是后向變分近似的靜態(tài)分布。所以當(dāng)你停止你的SGD并采用最后的參數(shù)時，你基本上是從這個近似分布中抽樣的。我發(fā)現(xiàn)這個想法是有啟發(fā)性的，因為優(yōu)化器的參數(shù)(在這種情況下是學(xué)習(xí)率)使得這種方式更有意義。例如，當(dāng)你增加SGD的學(xué)習(xí)參數(shù)時，馬可夫鏈就會變得不穩(wěn)定，直到找到大面積采樣的局部極小值;也就是說，增加了程序的方差。另一方面，如果你減少學(xué)習(xí)參數(shù)，馬爾可夫鏈慢慢接近狹義極小值，直到它收斂于一個區(qū)域;那就是你增加某個區(qū)域的偏差。而另一個參數(shù)，SGD中的批量大小也可以控制算法收斂的區(qū)域是什么類型的區(qū)域：小批量的較大區(qū)域和大批次的小區(qū)域。

　　SGD根據(jù)學(xué)習(xí)速率或批量大小而選擇較大或極限最小值

　　這種復(fù)雜性意味著深度網(wǎng)絡(luò)的優(yōu)化器變得非常重要：它們是模型的核心部分，與層架構(gòu)一樣重要。這與機(jī)器學(xué)習(xí)中的許多其他模型并不完全相同。線性模型(甚至是正則化的，像LASSO算法)和支持向量機(jī)SVM都是凸優(yōu)化問題，沒有那么多的細(xì)微差別，而且只有一個答案。這就是為什么來自其他領(lǐng)域和/或使用諸如scikit-learn工具的人在他們沒有找到一個非常簡單的具有.fit()方法的API時會感到困惑。盡管有一些工具，如skflow，嘗試將網(wǎng)絡(luò)簡化成一個.fit()簽名，我認(rèn)為這有點(diǎn)誤導(dǎo)，因為深度學(xué)習(xí)的全部重點(diǎn)就是它的靈活性。

　　何時不需要深度學(xué)習(xí)?

　　那么，什么時候深度學(xué)習(xí)不適合于某些任務(wù)呢?從我的角度來看，以下這些情況下，深度學(xué)習(xí)更多是一種阻礙，而不是福音。

　　低預(yù)算或低投入問題

　　深度網(wǎng)絡(luò)是非常靈活的模型，具有多種架構(gòu)和節(jié)點(diǎn)類型、優(yōu)化器和正則化策略。根據(jù)應(yīng)用程序，你的模型可能具有卷積層(多大?使用什么池操作?)或循環(huán)結(jié)構(gòu)(有沒有門控?);它可能真的很深(hourglass、siamese，或者其他的架構(gòu))?還是只是具有很少的幾個隱藏層(有多少單元?);它可能使用整流線性單元或其他激活函數(shù);它可能或可能不會有退出(在什么層次中?用什么分?jǐn)?shù)?)，權(quán)重應(yīng)該是正則化的(l1、l2，或者是某些更奇怪的東西?)。這只是一部分列表，還有很多其他類型的節(jié)點(diǎn)、連接，甚至損失函數(shù)。即便只是訓(xùn)練一個大型網(wǎng)絡(luò)的示例，那些需要調(diào)整的參數(shù)以及需要探索的框架的過程也是非常耗時的。谷歌最近吹噓自己的AutoML方法可以自動找到最好的架構(gòu)，這是非常令人印象深刻的，但仍然需要超過800個GPU，全天候運(yùn)行數(shù)周，這幾乎對于任何人來說是都遙不可及的。關(guān)鍵在于訓(xùn)練深層網(wǎng)絡(luò)時，在計算和調(diào)試部分都會花費(fèi)巨大的代價。這種費(fèi)用對于許多日常預(yù)測問題并沒有意義，即使調(diào)整小型網(wǎng)絡(luò)。調(diào)整網(wǎng)絡(luò)的投資回報率可能太低。即使有足夠的預(yù)算和承諾，也沒有理由不嘗試替代方法，即使是基準(zhǔn)測試。你可能會驚喜地發(fā)現(xiàn)，線性SVM對于你就夠用了。

　　解釋和傳達(dá)模型參數(shù)對一般受眾的重要性

　　深度網(wǎng)絡(luò)也是各臭名昭著的黑匣子，它具有高預(yù)測能力但可解釋性不足。盡管最近有很多工具，諸如顯著圖(saliency maps)和激活差異(https://arxiv.org/abs/1704.02685)，對某些領(lǐng)域而言是非常有用的，但它們不會完全遷移到所有的應(yīng)用程序中。主要是，當(dāng)你想要確保網(wǎng)絡(luò)不會通過記住數(shù)據(jù)集或?qū)Ｗ⒂谔囟ǖ奶摷偬卣鱽砥垓_你時，這些工具就能很好地工作，但仍然難以將每個功能的重要性解釋為深度網(wǎng)絡(luò)的整體決策。在這個領(lǐng)域，沒有什么能夠真正地打敗線性模型，因為學(xué)習(xí)系數(shù)與響應(yīng)有著直接的關(guān)系。當(dāng)將這些解釋傳達(dá)給一般受眾時，這就顯得尤為重要。例如，醫(yī)生需要包含各種不同的數(shù)據(jù)來確認(rèn)診斷。變量和結(jié)果之間的關(guān)系越簡單、越直接，醫(yī)生就能更好地利用，而不是低于/高于實(shí)際值。此外，有些情況下，模型的精度并不像可解釋性那樣重要。例如，策略制定者可能想知道一些人口統(tǒng)計變量對于死亡率的影響，并且相較于預(yù)測的準(zhǔn)確性來說，可能對這種關(guān)系的直接近似比更有興趣。在這兩種情況下，與更簡單、更易滲透的方法相比，深度學(xué)習(xí)處于不利地位。

　　建立因果機(jī)制

　　模型可解釋性的極端情況是當(dāng)我們試圖建立一個機(jī)械模型，即實(shí)際捕捉數(shù)據(jù)背后的現(xiàn)象的模型。一個好的例子包括試圖猜測兩個分子(例如藥物、蛋白質(zhì)、核酸等)是否在特定的細(xì)胞環(huán)境中相互作用，或者假設(shè)特定的營銷策略如何對銷售產(chǎn)生實(shí)際的影響。在這個領(lǐng)域，根據(jù)專家意見，沒有什么可以擊敗老式的貝葉斯方法，它們是我們表達(dá)并推斷因果關(guān)系的最好方式。Vicarious有一些很好的最新研究成果，說明為什么這個更原則的方法在視頻游戲任務(wù)中比深度學(xué)習(xí)表現(xiàn)得更好。

　　學(xué)習(xí)“非結(jié)構(gòu)化”特征

　　這可能是具有爭議性的。我發(fā)現(xiàn)深度學(xué)習(xí)擅長的一個領(lǐng)域是為特定任務(wù)找到有用的數(shù)據(jù)表示。一個很好的例子就是上述的詞語嵌入。自然語言具有豐富而復(fù)雜的結(jié)構(gòu)，可以說與“上下文感知”(context-aware)網(wǎng)絡(luò)相近似：每個單詞都可以在向量中表示，而這個向量可以編碼其經(jīng)常使用的文本。在大型語料庫中學(xué)習(xí)的NLP任務(wù)中使用單詞嵌入，它有時可以在另一個語料庫的特定任務(wù)中提升效果。然而，如果所討論的語料庫是完全非結(jié)構(gòu)化的，則可能不會起到任何作用。例如，假設(shè)你正在通過查看關(guān)鍵字的非結(jié)構(gòu)化列表來對對象進(jìn)行分類，由于關(guān)鍵字不是在任何特定結(jié)構(gòu)中都會使用的(比如在一個句子中)，所以單詞嵌入不太可能有助于所有這些情況。在這種情況下，數(shù)據(jù)是真正的一個單詞包，這種表示很有可能足以滿足任務(wù)所需。與此相反的是，如果你使用預(yù)訓(xùn)練的話，可以更好地捕獲關(guān)鍵字的相似度，而且單詞嵌入并不是那么昂貴。不過，我還是寧愿從一個單詞的表示開始，看看能否得到很好的預(yù)測結(jié)果。畢竟，這個詞包的每個維度都比對應(yīng)的詞嵌入槽更容易解讀。

　　前景廣闊

　　深度學(xué)習(xí)目前非?；鸨?，且資金充足，并且發(fā)展異常迅速。當(dāng)你還在閱讀會議上發(fā)表的論文時，它可能已經(jīng)有兩三次迭代了。這給我上述列出的幾點(diǎn)提出了很大的挑戰(zhàn)：深度學(xué)習(xí)在不久的將來可能在這些情景中是非常有用的。用于解釋圖像和離散序列的深度學(xué)習(xí)模型的工具越來越好。最近的軟件，如Edward與貝葉斯結(jié)合建模和深度網(wǎng)絡(luò)框架，將量化神經(jīng)網(wǎng)絡(luò)參數(shù)的不確定性考慮在內(nèi)，通過概率編程的簡易貝葉斯推理和自動變分推理。從長遠(yuǎn)來看，可能會有一個簡化的建模詞匯表，指出深度網(wǎng)絡(luò)可以具有的顯著屬性，從而減少需要嘗試的參數(shù)空間。