新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 人工智能從寒冬到復(fù)興:從神經(jīng)網(wǎng)絡(luò)到DNN

人工智能從寒冬到復(fù)興:從神經(jīng)網(wǎng)絡(luò)到DNN

作者: 時(shí)間:2017-11-03 來源:網(wǎng)絡(luò) 收藏

  談AI的歷史,需要談?wù)労苡忻腁I寒冬。

本文引用地址:http://m.butianyuan.cn/article/201711/370970.htm

  第一次AI寒冬是在1975年左右。1956年,在達(dá)特茅斯會(huì)議之后,包括很多國家政府,美國國家科學(xué)基金會(huì)、軍方,大家滿懷希望投了很多錢。但是到1975年以后發(fā)生了幾件事情,讓AI進(jìn)入了寒冬。

  第一件事是,因?yàn)锳I只能解決Toy domain(擺弄玩具一樣的簡單任務(wù))。那個(gè)時(shí)候做語音,只有10個(gè)詞匯;下象棋,大概是20個(gè)詞匯;做視覺的人,都不能辨認(rèn)出一個(gè)椅子。第二件事情,1956年美國打越戰(zhàn),還有石油危機(jī),所以經(jīng)濟(jì)也不是那么好;還有一個(gè)很有名的英國學(xué)者Lighthill,說AI就是在浪費(fèi)錢,AI的研究經(jīng)費(fèi)也因此遭到大幅削減(編者注:在1973年出版的“:一般性的考察”的報(bào)告,俗稱Lighthill報(bào)告中稱“迄今該領(lǐng)域沒有哪個(gè)部分做出的發(fā)現(xiàn)產(chǎn)生了像之前承諾的那樣的重要影響”。英國政府隨后停止了對三所大學(xué)Edinburgh, Sussex和Essex的AI研究資助)。

  到1980年開始,有些公司如IBM開始做一些專家系統(tǒng),可以說也是有限的應(yīng)用。盡管有一些缺點(diǎn),但還是可以做一些事情,據(jù)說有十個(gè)億的產(chǎn)出。因此,AI也就開始回春。我也是這個(gè)時(shí)候開始進(jìn)入AI,所以也蠻幸運(yùn)的。

  我是80年代去美國CMU(卡內(nèi)基梅隆大學(xué))的。我記得當(dāng)時(shí)日本很有錢,到處在美國買樓、建實(shí)驗(yàn)室,所以當(dāng)時(shí)日本提出了一個(gè)第五代電腦系統(tǒng)計(jì)劃(5th generation computer Systems,F(xiàn)GCS)。當(dāng)時(shí)還有公司專門做 Lisp Machines(通過硬件支持為了有效運(yùn)行Lisp程序語言而設(shè)計(jì)的通用電腦)。就有點(diǎn)像今天DNA紅,大家都在做DNA芯片,那時(shí)候大家都在做Lisp Machines,Thinking( Connection )Machines,然后神經(jīng)網(wǎng)絡(luò)也剛開始發(fā)芽。

  不過,到1990年中,AI又第二次遇冷,為什么會(huì)這樣?因?yàn)榈谖宕?jì)劃失敗,Lisp Machines和Thinking ( Connection ) Machines都做不出來;而神經(jīng)網(wǎng)絡(luò),雖然有意思,但并沒有比其他一些統(tǒng)計(jì)的方法做得好,反而用的資源還更多,所以大家覺得也沒什么希望了,于是AI又進(jìn)入第二個(gè)冬天。

  1990年代統(tǒng)計(jì)路徑的顯現(xiàn)

  差不多在冬天這個(gè)時(shí)刻,統(tǒng)計(jì)的方法,使用數(shù)據(jù)的方法出現(xiàn)了。

  AI在1990年以前都是用所謂的研究人腦的方式來做;而我們有太多理由來相信人腦不是靠大數(shù)據(jù)的。比如,給一個(gè)小孩子看狗和貓,看幾只他就可以辨認(rèn)了??捎媒裉斓姆椒?,要給計(jì)算機(jī)看幾十萬、幾百萬只狗跟貓的圖片,它才能辨認(rèn)是狗還是貓。用大數(shù)據(jù)這種方法,就在第一次AI寒冬和第二次AI寒冬之間開始萌芽。雖然AI是一批計(jì)算機(jī)科學(xué)家搞出來的,但事實(shí)上有跟AI極其相關(guān)的一門叫模式識別。模式識別一直以來都有工程師在做,從1940年代統(tǒng)計(jì)學(xué)家就在做模式識別。

  我們這代人學(xué)計(jì)算機(jī)就知道兩個(gè)人,一個(gè)人叫傅京孫(K. S. Fu),另外一個(gè)人叫竇祖烈(Julius T. Tou)。如果AI選出60個(gè)人的名人堂,里面會(huì)有一個(gè)叫傅京孫,那是大牛。傅京孫嚴(yán)格上來講他不算AI,但是可以包括進(jìn)來,因?yàn)樗沧瞿J阶R別。模式識別里面也有兩派,一派叫統(tǒng)計(jì)模式識別(Statistical Pattern Recognition),一派叫做句法模式識別(Syntactic Pattern Recognition)。80年代的時(shí)候,句法是很紅的,統(tǒng)計(jì)人無人問津,后來1990年以后大家都用統(tǒng)計(jì)。

  我們做語音的人很清楚,后來引入了隱馬爾可夫模型(Hidden Markov Model),都是統(tǒng)計(jì)的方法,到今天還是很有用。尤其是在華爾街,做金融投資,做股票,很多都是做時(shí)間序列(time series data),而隱馬爾可夫模型這個(gè)東西是很強(qiáng)大的。甚至可以說,統(tǒng)計(jì)的方法是我們做語音的人(發(fā)展起來的)。而且早在1980年,我們做語音的人就講出這句話“There is no data like more data(沒有什么樣的數(shù)據(jù)比得上更多的數(shù)據(jù))”。從現(xiàn)在的角度來看,這是非常前瞻性的,而且就是大數(shù)據(jù)的概念。我們那個(gè)時(shí)代的數(shù)據(jù)量無法和現(xiàn)在相比,但我們已經(jīng)看出來了數(shù)據(jù)的重要。而且IBM在這方面是了不起的,他們一個(gè)做語音的經(jīng)理有次說,每次我們加一倍的數(shù)據(jù),準(zhǔn)確率就往上升;我們每炒掉一個(gè)語言學(xué)家,準(zhǔn)確率也上去。

  決策樹也是第一個(gè)被語音研究者所使用。然后就是貝葉斯網(wǎng)絡(luò)(Bayesian Network),幾年前紅得不得了,當(dāng)然現(xiàn)在都是用深度學(xué)習(xí)網(wǎng)絡(luò)(deep neural network, DNN,在輸入和輸出之間有多個(gè)隱含層的人工神經(jīng)網(wǎng)絡(luò))了。我為什么要提這些東西?今天我覺得很多人上AI的課,可能75%、80%都會(huì)講DNN,其實(shí)AI還是有其它東西的。

  今天要教AI也是非常困難的。我還特別看了一下最近的AI教科書,像吳恩達(dá)等人的。他們學(xué)術(shù)界教AI,還會(huì)教這些東西,但是如果去一般或者大多數(shù)公司,全部都是在講DNN。我覺得現(xiàn)在找不到一本好的AI教科書,因?yàn)樵缙诘臅y(tǒng)計(jì)沒有講,或者沒有講DNN。我也看了下加州大學(xué)伯克利分校的Stuart J. Russell 跟Peter Norvig寫的教科書(Artificial Intelligence: A Modern Approach),里面DNN提了一點(diǎn)??赡墁F(xiàn)在也不好寫AI,因?yàn)锳I提了這么多東西,人家說根本沒用,不像DNN的確很有用。

  我稍微解釋一下DNN和一般統(tǒng)計(jì)方法的差別。統(tǒng)計(jì)的方法一定要有一個(gè)模型,但是模型一定是要有假設(shè)。而你的假設(shè)多半都是錯(cuò)的,只能逼近這個(gè)模型。數(shù)據(jù)不夠的時(shí)候,一定要有一定的分布。當(dāng)數(shù)據(jù)夠了,DNN的好處是完全靠數(shù)據(jù)(就可以),當(dāng)然也需要很大的計(jì)算量。所以DNN的確有它的優(yōu)點(diǎn)。以前我們用統(tǒng)計(jì)的方法做,還要做特征提取,用很多方法相當(dāng)于做了一個(gè)簡易的知識表示;現(xiàn)在用DNN連特征提取都不用做了,只用原初數(shù)據(jù)進(jìn)去就解決了。所以現(xiàn)在講AI不好講的原因是,DNN講少了也不對,講多了的話,說實(shí)在的,全是DNN也有問題。

  神經(jīng)網(wǎng)絡(luò)的起伏

  最早的神經(jīng)網(wǎng)絡(luò)叫感知器(Perceptron),跟第一個(gè)寒冬有關(guān)。因?yàn)橐婚_始的感知器沒有隱含層(hidden layer),也沒有激活函數(shù)(activation function),結(jié)果Marvin Minsky和Seymour Papert這兩位就寫了一本書《感知器》說,感知器連異或(XOR)都做不出來。那么,做感知器還有什么用?所以基本上就把整個(gè)神經(jīng)網(wǎng)絡(luò)第一代的進(jìn)展扼殺了。

  ?感知器連最簡單的邏輯運(yùn)算“異或”都無法做到,某種程度上導(dǎo)致了AI的寒冬

  其實(shí)后來人們發(fā)現(xiàn)誤會(huì)了,其實(shí)書并沒有說的那么強(qiáng),不過的確造成了很大的影響。一直到1980年,做認(rèn)知心理學(xué)的人,代表性的如Rumelhart和Hinton才復(fù)興了AI。

  Hinton早期是做認(rèn)知心理學(xué)的。Hinton先在UCSB(加利福尼亞大學(xué)圣巴巴拉分校),后來到了CMU。Rumelhart, Hinton and McClelland復(fù)興了多層的感知器,加了隱含層以及back-propagation 算法,這個(gè)時(shí)候神經(jīng)網(wǎng)絡(luò)就復(fù)興了。而且神經(jīng)網(wǎng)絡(luò)只要加上隱含層,事實(shí)上,只要加一層,再加上激活函數(shù),就可以模擬,甚至還有人證明可以模擬任意的函數(shù),所以神經(jīng)網(wǎng)絡(luò)一下子就變的紅了。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional NN,CNN)那時(shí)候就開始出來了,然后是遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)。因?yàn)槿绻幚磉^往的歷史,有存儲(chǔ), 就需要回溯。用于語音和自然語言處理的時(shí)間延遲的神經(jīng)網(wǎng)絡(luò)(Time-Delayed NN,TDNN)也都有了。

  不過,那時(shí)候數(shù)據(jù)不夠多。數(shù)據(jù)不夠多就很容易以偏概全。第二個(gè)因素是,計(jì)算的資源不夠,所以隱含層也加不了太多。這樣,神經(jīng)網(wǎng)絡(luò)雖然大家都很有興趣,也能夠解決問題,但是卻有更簡單的統(tǒng)計(jì)方法,如支持向量機(jī)(Support vector machine,SVM),能夠做到一樣或者略好。所以在1990年代就有了AI的第二次冬天,直到DNN的出現(xiàn)才又復(fù)蘇。

  AI的復(fù)蘇

  AI的復(fù)蘇,可能要從1997年開始說起。1997年,深藍(lán)打敗了國際象棋冠軍Garry Kasparov。這里我要提一下一個(gè)人叫許峰雄。他當(dāng)時(shí)在CMU做一個(gè)當(dāng)時(shí)叫做深思(deep thought)的項(xiàng)目,基本上架構(gòu)都有了。結(jié)果,IBM非常聰明。他們到CMU參觀,看到許峰雄這個(gè)組。然后也沒花多少錢,最多兩百萬,就買下了這個(gè)組,讓這些人到IBM做事。IBM當(dāng)時(shí)就看到,在五年之內(nèi)就可以打敗世界冠軍,其實(shí)真正的貢獻(xiàn)都是在CMU做的。許峰雄后來也離開了IBM,加入了我們,一直做到退休。AI復(fù)蘇的實(shí)際上才剛開始。有人說這個(gè)也沒有幫助到AI復(fù)蘇,因?yàn)樯钏{(lán)可以打敗國際象棋的冠軍,也不是算法特別了不起,而是因?yàn)樗麄冏隽艘粋€(gè)特殊芯片可以算得很快。當(dāng)然,AlphGo也算得很快,算得很快永遠(yuǎn)是非常重要的。

  到了2011年,IBM做了一個(gè)問題回答機(jī)器叫沃森(Watson),打敗了Jeopardy游戲的冠軍。Jeopardy這個(gè)游戲其實(shí)也很無聊,有一點(diǎn)像記憶的游戲:問一個(gè)常識的問題,給四個(gè)選項(xiàng)。其實(shí)沃森打敗人也沒什么了不起的。

  到2012年,AI的復(fù)蘇就已非常明顯。和大數(shù)據(jù)挖掘變成了主流,幾乎所有的研究都要用,雖然還不叫AI。事實(shí)上很長一段時(shí)間,包括我們做語音和圖像,對外都不講AI。因?yàn)锳I這個(gè)名字那時(shí)變得有點(diǎn)名聲不好。人們一說起AI,就是不起作用。第二次AI寒冬的時(shí)候,只要聽說某個(gè)人是做AI,那就認(rèn)為他做不成。其實(shí)是AI的一支。

  ?從左至右:Yann LeCun,Geoff Hinton, Yoshua Bengio, 吳恩達(dá)

  現(xiàn)在回到深度學(xué)習(xí),有三個(gè)人物對深度學(xué)習(xí)做出了很大貢獻(xiàn)。第一位,Hinton。這個(gè)人非常了不起。了不起之處在于當(dāng)沒有人在乎神經(jīng)網(wǎng)絡(luò)的時(shí)候,他還在孜孜不倦的做這個(gè)東西。第二個(gè)做CNN的人物是Yann LeCun。他也是做CNN一輩子,在AI冬天的時(shí)候繼續(xù)做,所以今天很多CNN該怎么用來自于Yann LeCun。另外一個(gè)叫做Yoshua Bengio。所以,現(xiàn)在還有人在排中國十大AI領(lǐng)軍人物,我覺得很搞笑。我覺得誰在外面講AI,或者搞個(gè)公司,他們和科學(xué)家是兩回事,科學(xué)家是在別人以為冬天的時(shí)候還在做。

  所以今天講到DNN、講到AI,沒有前人的種樹,就沒有后人的乘涼。這61年的發(fā)展,這些辛苦耕耘的人,大家需要記住這些人。今天在臺(tái)面上講AI的人都是收成果實(shí)的人,講自己對AI有什么貢獻(xiàn),我覺得就太過了。

  還有一個(gè)跟AI有關(guān)的,大家記得Xbox幾年前有一個(gè)叫Kinect,可以在玩游戲的時(shí)候用這個(gè)東西,我覺得這是第一個(gè)發(fā)布的主流的動(dòng)作和語音感知設(shè)備。當(dāng)然之后就有2011年蘋果的Siri,2012年Google語音識別的產(chǎn)品,以及微軟2013年產(chǎn)品,這些都是AI的復(fù)蘇。直到2016年,AlphaGo打敗了李世石,打敗了柯杰,AI就徹底復(fù)蘇了。

  今天的AI

  DNN、DNN還是DNN。

  我不是有意要貶低DNN的重要性,但如果說DNN代表了所有的智慧也言過其實(shí)。DNN絕對非常有用,比如機(jī)器視覺,會(huì)有CNN;自然語言或者語音的,就有RNN,長短時(shí)記憶(Long Short-Term Memory,LSTM)。計(jì)算機(jī)視覺里面有一個(gè)圖片集imageNet。我們很榮幸在幾乎兩年前,微軟在該圖片集上辨認(rèn)物體可以跟人做得一樣好,甚至超過人。

  語音也是一樣,微軟在差不多一年前,在Switchboard,在任意的一個(gè)任務(wù)里面也超過了人類。機(jī)器翻譯我相信大家都常用,可能是每天用。甚至看起來好像有創(chuàng)造性的東西也出現(xiàn)了,比如小冰可以寫詩。我也看到很多電腦畫出來的畫,電腦做出來的音樂,都表現(xiàn)的好像也有創(chuàng)造力一樣。

  不過,雖然AI很紅,,大數(shù)據(jù)大家都聽過,特別是做學(xué)問的人還聽過大數(shù)據(jù)挖掘,那么這三者有多大的差別?我常說這三個(gè)東西不完全一樣,但是今天這三個(gè)的重復(fù)性可能超過90%。所以到底是AI紅,還是大數(shù)據(jù)紅呢?還是機(jī)器學(xué)習(xí)紅呢?我覺得有那么重要嗎?



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉