當(dāng)AI深度學(xué)習(xí)模型走進(jìn)死胡同時(shí)該咋辦？

作者：時(shí)間：2018-07-27 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

深度學(xué)習(xí)是一項(xiàng)龐大又復(fù)雜的工程，在建立深度學(xué)習(xí)模型時(shí)，走進(jìn)死胡同被迫從頭再來(lái)似乎是常事。

本文引用地址：http://m.butianyuan.cn/article/201807/384323.htm

近日，Semantics3網(wǎng)站的聯(lián)合創(chuàng)始人Govind Chandrasekhar在官方博客上發(fā)表了一篇文章，講述了程序員在解決深度學(xué)習(xí)問(wèn)題時(shí)的應(yīng)該自問(wèn)的五個(gè)問(wèn)題。

Semantics3是一家2012年成立的數(shù)據(jù)科學(xué)初創(chuàng)公司，它創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù)，跟蹤產(chǎn)品在網(wǎng)上的銷(xiāo)售過(guò)程，為零售商提供數(shù)據(jù)。對(duì)于Govind Chandrasekhar寫(xiě)的這篇文章如下：

研究數(shù)據(jù)科學(xué)是一件悲喜交加的事情。喜在當(dāng)你偶然的發(fā)現(xiàn)提高了算法的性能，可能讓你擁有持久的興奮感;悲在你會(huì)經(jīng)常發(fā)現(xiàn)自己站在一條單行道的盡頭，苦苦探索到底哪里出了問(wèn)題。

在這篇文章里，我將詳述走過(guò)無(wú)數(shù)條深度學(xué)習(xí)死路后，得到的五個(gè)教訓(xùn)。在處理新問(wèn)題或新方法前，我都會(huì)用想想下面這五個(gè)問(wèn)題。

問(wèn)題一：

先不管神經(jīng)網(wǎng)絡(luò)，一個(gè)沒(méi)有先驗(yàn)知識(shí)、只受過(guò)你的數(shù)據(jù)集訓(xùn)練的人能解決這個(gè)問(wèn)題嗎?

這個(gè)問(wèn)題對(duì)解決監(jiān)督學(xué)習(xí)的困境尤為受用——這些問(wèn)題的典型前提是，一個(gè)小的高質(zhì)量數(shù)據(jù)集(比如N個(gè)實(shí)體)可以幫助你的模型近似得到一個(gè)潛在的功能，之后泛化到包含1000N個(gè)實(shí)體的整個(gè)數(shù)據(jù)集。

這些方法的好處在于，人類(lèi)只需要研究很小部分?jǐn)?shù)據(jù)就可以了，機(jī)器會(huì)學(xué)會(huì)把它運(yùn)用到大范圍的示例中。

但是在現(xiàn)實(shí)世界中，問(wèn)題不總是含有可以被優(yōu)先識(shí)別的模式。人們利用外部常識(shí)來(lái)解決的認(rèn)知挑戰(zhàn)比我們意識(shí)到的還要多，這經(jīng)常導(dǎo)致我們錯(cuò)誤地期望我們的算法在沒(méi)有常識(shí)的情況下能夠解決同樣的挑戰(zhàn)。

舉個(gè)例子吧，看下面這三種描述：

Pets First Arkansas Dog Jersey, X-Small, Pink

Pets First Arizona Dog Jersey, X-Small, Pink

Pets First AR Dog Jersey, X-Small, Pink

這三組描述中，有兩個(gè)表示的含義相同，你能找出那個(gè)含義不同的嗎?

大多數(shù)美國(guó)人都不難解決這個(gè)問(wèn)題，因?yàn)锳R=Arkansas，AR!=Arizona是個(gè)常識(shí)。但是，一個(gè)對(duì)美國(guó)并不熟悉的人，可能就不知道答案是什么了。

你會(huì)發(fā)現(xiàn)，你創(chuàng)建的神經(jīng)網(wǎng)絡(luò)也沒(méi)有能力解決這個(gè)問(wèn)題，因?yàn)樵谡Z(yǔ)言應(yīng)用這方面，沒(méi)有特定的縮寫(xiě)規(guī)則可以供神經(jīng)網(wǎng)絡(luò)去模仿。當(dāng)然指定了Arkansas等同于AR的情況除外。

類(lèi)似這樣的問(wèn)題還有很多(可能在一開(kāi)始你并不理解這些問(wèn)題)，并且它們?cè)趯?shí)際工作中還經(jīng)常出現(xiàn)。回頭審視之前建造的神經(jīng)網(wǎng)絡(luò)，并且明確需要補(bǔ)充的新知識(shí)是非常困難的。所以，在構(gòu)建神經(jīng)網(wǎng)絡(luò)時(shí)，要及時(shí)跳出自己的思維定式。

問(wèn)題二：

你構(gòu)建的神經(jīng)網(wǎng)絡(luò)能通過(guò)正確的視角理解你的數(shù)據(jù)嗎?

假設(shè)地區(qū)的縮寫(xiě)始終是名字的前兩個(gè)字母，同時(shí)這個(gè)縮寫(xiě)不會(huì)重復(fù)。那么，我們?cè)賮?lái)用不同的示例回看剛剛的匹配問(wèn)題：

“Pets First Arkansas Dog Jersey, X-Small”

“Pets First Arkansas Dog Jersey, Extra-Small”

“Pets First AR Dog Jersey, X-Small”

“Pets First Arkansas Dog Jersey, Large”

“Pets First MA Dog Jersey, Large”

你的目標(biāo)是建立一個(gè)神經(jīng)網(wǎng)絡(luò)用于識(shí)別1、2、3等價(jià)而4、5不同。這個(gè)任務(wù)是在考驗(yàn)神經(jīng)網(wǎng)絡(luò)對(duì)“大小”這個(gè)概念理解——它們是否知道X-Small=Extra-Small ?也是在考驗(yàn)它對(duì)縮寫(xiě)的理解能力，比如Arkansas=ARkansas=AR因?yàn)榍皟蓚€(gè)字母相同，而Arkansas不等于MA，等等。

你可能會(huì)通過(guò)Word2Vec來(lái)構(gòu)建一個(gè)嵌入空間，將 X-Small映射為Extra-Small來(lái)解決這個(gè)問(wèn)題。

盡管這種方法是一個(gè)標(biāo)準(zhǔn)解法，但可能你會(huì)妨礙神經(jīng)網(wǎng)絡(luò)找到你想讓它學(xué)習(xí)的內(nèi)容。如果把AR換成小寫(xiě)的ar，對(duì)人類(lèi)來(lái)說(shuō)就比較難識(shí)別了，我們會(huì)糾結(jié)ar到底指的的Arizona還是are。

同樣，如果你選擇建立詞匯的嵌入空間，有效地將每一個(gè)單詞映射到唯一的標(biāo)記，那么你就掐斷了神經(jīng)網(wǎng)絡(luò)理解組成字符“ARkansans”的機(jī)會(huì)。

這種模糊網(wǎng)絡(luò)問(wèn)題在你構(gòu)建網(wǎng)絡(luò)時(shí)經(jīng)常出現(xiàn)，尤其是在建立考慮不同類(lèi)型的輸入信號(hào)的模型時(shí)。

問(wèn)題三：

你的網(wǎng)絡(luò)是在鉆你訓(xùn)練集里的牛角尖，還是幫你解決手頭的問(wèn)題?

假設(shè)你正在構(gòu)建一個(gè)二分的圖像分類(lèi)器，來(lái)檢查文檔中的文本是計(jì)算機(jī)打印的還是手寫(xiě)的。為了構(gòu)建計(jì)算機(jī)打印文本的訓(xùn)練數(shù)據(jù)集，你用電腦上的軟件直接生成了帶文字的jpeg圖片;為了獲取手寫(xiě)文本的樣本，你把這些jpeg圖片發(fā)送到做數(shù)據(jù)標(biāo)注的公司，讓他們把這些圖片轉(zhuǎn)錄成文字，并將掃描成jpeg文件。

之后，就可以運(yùn)行你的分類(lèi)器了。不要高興得太早，雖然目前它的訓(xùn)練準(zhǔn)確率已經(jīng)超過(guò)了99%，但當(dāng)我們用實(shí)際場(chǎng)景來(lái)測(cè)試時(shí)，分類(lèi)器表現(xiàn)并不好。這是為什么呢?

你構(gòu)建的神經(jīng)網(wǎng)絡(luò)可能帶有簡(jiǎn)單的指示性偏差，掃描手寫(xiě)的圖片可能帶有灰白的背景色，而軟件生成的JPEG是純白色的背景。你的神經(jīng)網(wǎng)絡(luò)為了解決你交給它的問(wèn)題，可能并沒(méi)有去分析內(nèi)容、上下文、形狀和顏色等要素，而是只抓住了背景色的這一點(diǎn)微小差別。

需要記住的是，你的神經(jīng)網(wǎng)絡(luò)永遠(yuǎn)都不會(huì)明白你的大方向，它所做的就是基于手頭的目標(biāo)和數(shù)據(jù)，以最簡(jiǎn)單的方式盡快給出一個(gè)答案。

徹底審查你的數(shù)據(jù)集，消除可供神經(jīng)網(wǎng)絡(luò)鉆牛角尖的特征，可以節(jié)約成本和時(shí)間。

問(wèn)題四：

你的網(wǎng)絡(luò)有兄弟問(wèn)題可以為它提供支持嗎?

在特定領(lǐng)域的問(wèn)題上，諸如GloVe和Inception之類(lèi)的預(yù)先訓(xùn)練模型可能并不好用。這將迫使你開(kāi)始隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)，也就意味著可能經(jīng)過(guò)好幾天的訓(xùn)練，你還不知道自己的模型效果如何。

你的模型可能還面臨著一個(gè)問(wèn)題：數(shù)據(jù)集太小了或者質(zhì)量太差了，即使通過(guò)旋轉(zhuǎn)、變形等手段擴(kuò)充之后，也還是達(dá)不到訓(xùn)練的要求。

在這種情況下，尋找它的兄弟問(wèn)題可能是個(gè)解決辦法。但要注意，這些問(wèn)題需要符合兩個(gè)標(biāo)準(zhǔn)：

它們不能和你手頭的數(shù)據(jù)集有同質(zhì)量和數(shù)量的問(wèn)題。

它們的神經(jīng)網(wǎng)絡(luò)需要有一組層，能捕捉到你的模型所需的概念。

問(wèn)題五：

你的網(wǎng)絡(luò)是做不到還是懶?如果它懶，如何逼迫它學(xué)習(xí)?

假如你是一個(gè)繪畫(huà)外行，讓你猜測(cè)三幅昂貴的繪畫(huà)作品價(jià)格。有三個(gè)可用信息可供你查看——作品的年限、作品十年前的價(jià)格和這幅畫(huà)的高分辨率圖像。

在沒(méi)有經(jīng)過(guò)前期訓(xùn)練的情況下，讓你完成這個(gè)任務(wù)，給出盡可能正確的答案，你會(huì)怎么辦?

你是會(huì)報(bào)名參加一個(gè)為期兩月的繪畫(huà)課程，來(lái)學(xué)習(xí)復(fù)雜的繪畫(huà)技藝，還是會(huì)考慮用作品的年限和十年前的價(jià)格做一個(gè)方程來(lái)猜測(cè)價(jià)格?

即使你能意識(shí)到理想的價(jià)格方程式包含這三種信息的組合，但你還是很愿意接受一個(gè)懶惰的選項(xiàng)：、用兩種信息來(lái)進(jìn)行預(yù)測(cè)。雖然這個(gè)選項(xiàng)不是最優(yōu)解，但也是在能接受范圍的。你會(huì)更傾向只依賴(lài)容易理解和表達(dá)的信息。

在用機(jī)器學(xué)習(xí)解決真實(shí)問(wèn)題時(shí)，如果你的模型有多個(gè)輸入信息，它們的復(fù)雜度差異很大時(shí)，也會(huì)遇到這個(gè)問(wèn)題。對(duì)這樣的模型進(jìn)行訓(xùn)練，幾個(gè)周期之后，你可能會(huì)發(fā)現(xiàn)你的模型好像已經(jīng)接近完成，并且拒絕進(jìn)一步學(xué)習(xí)。

在這種情況下，最好的解決方法是去掉一個(gè)輸入項(xiàng)，看整體指標(biāo)的變化。如果一個(gè)輸入項(xiàng)和結(jié)果相關(guān)，去掉了之后卻對(duì)結(jié)果毫無(wú)影響，你就應(yīng)該考慮單獨(dú)用這個(gè)輸入項(xiàng)來(lái)訓(xùn)練模型，當(dāng)模型學(xué)會(huì)了依據(jù)這個(gè)輸入項(xiàng)做判斷之后，再逐漸將其余的信息也加入進(jìn)來(lái)。

新聞中心

當(dāng)AI深度學(xué)習(xí)模型走進(jìn)死胡同時(shí)該咋辦？

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)