機器學習將推動下一次工業(yè)革命的到來
在1日舉辦的“全球思想盛筵-人工智能與人類文明”上,圖靈獎獲得者、美國國家科學院院士、美國國家工程院院士John E. Hopcroft發(fā)表主題演講,稱機器學習將推動下一次工業(yè)革命的到來。
本文引用地址:http://m.butianyuan.cn/article/201712/372471.htmJohn E. Hopcroft認為,人工智能的許多項目還不能提取一個物品的本質,或者是理解物品的根本功能以及其他重要方面。所以要想真正的具有全智能性還需要再進行一次革命,讓我們看到一個物品能夠立刻理解。
John E. Hopcroft表示,AI現(xiàn)在還處在一個比較早期的階段,下一步可能還要花一段時間才能夠實現(xiàn)。AI不是唯一一個在驅動革命進程的一個技術基礎。大數(shù)據能力、互聯(lián)網、云計算、物聯(lián)網等等都提供了可用數(shù)據,這些都是驅動因素。我們需要做的事情就是去決定哪些靈域是合適的,哪些是不合適進入的。
在演講的最后John E. Hopcroft建言年輕人,考慮事業(yè)的時候要面向未來,這樣才會有更美好的明天。(澤宇)
以下為John E. Hopcroft演講實錄:
非常高興出席今天下午的盛會,我的主題就是人工智能技術的前沿領域,此次人工智能不僅影響了工業(yè)也影響了農業(yè),首先我們發(fā)現(xiàn)在工業(yè)革命的時候所有的體力活都進行了自動化,這改變了整個社會和生活的運作模式。大家面臨這樣的問題,人類是不是能夠完成我們所需要的所有的食物和服務?工業(yè)革命這是我們思考的一個主題。
今天我想和大家分享的就是人工智能AI,它的背后是機器學習,因為機器學習會推動下一次工業(yè)革命的到來。機器學習在過去的10到15年間,我們主要關注的是監(jiān)督式學習,我們會去培訓所有的數(shù)據和一些標簽式數(shù)據,現(xiàn)在我們轉了一個方向做非監(jiān)督式的學習。在這樣大的背景下,包括圖像識別,舉個例子我們走到一家商場中這個商場可以確定你需要什么樣的產品,你是誰,可能還會幫我們找到一瓶我們需要的飲品,同樣我們也關注語音識別,比如給公司打電話可以直接給我們轉接到真人,這些日常生活場景都是通過自然語言處理實現(xiàn)的,我們可以閱讀這些文件和包括找到酒店信息,這些閱讀量哪些是有效的,大概50%都是非自然語言處理。
在美國我們通過立法之前通常有那么一段時期所有的公民都有權利和機遇提供他們的建議為該法提供建議。我們會有2萬條相關的建議,但是政府既不能忽略也不能全讀一遍,所以我們需要一些機器找到一些正面、負面的意見進行篩選。
同時我們也考慮到了無人駕駛,在美國總共有350萬人工駕駛和相應的司機他們會失去職業(yè),我小時候非常喜歡拉杠桿,比如當我們學習了整個簡單的電梯的運行原理之后就不需要這樣的服務人員了。其實自動駕駛一開始要從卡車開始,比如現(xiàn)在卡車司機在美國的話,他只能每天開一段時間,是有時間限制的,假如說自動駕駛的卡車的話,卡車可以24小時開著不停。也許這會降低某些工種,但是同時也降低了生產卡車的數(shù)量,那背后的影響會涉及社會的方方面面。
現(xiàn)在,亞馬遜在布局自己的智能倉庫,也就是說我們在進入一家倉儲式購物中心的時候自己進行遴選和結算。背后的助力是什么?就是人工智能。我簡單和大家介紹一下人工智能的一些基本點。
首先在40年代的時候一位叫皮特斯的專家提出了神經元的理論,從40年代開始到現(xiàn)在,尤其在2022年會有什么事情發(fā)生?我們看未來的場景,在做圖片識別的時候,在圖片識別場景中有12億收集到的圖片在當時我們可以寫一個電腦程序,我們會設計一些任務的模型來判斷究竟我們的算法怎么樣去處理這些數(shù)據和模型。在2012年的時候,當時的錯誤率是15%,2013年只是提高了0.2%,到2014年的時候錯誤率降到了6%。其實和2013年相比是一個重大的進步,這也鼓勵大家利用深度學習在各個行業(yè)去實踐,成果也是斐然的。包括金融和其他的一些社會行業(yè)。
但是當時大家似乎不明白深度學習背后的邏輯,這就是為什么后續(xù)我們有很多這樣的基礎工作,又過了兩年谷歌地圖將錯誤率降到3.57%。最后我們去對比人類的錯誤和機器的錯誤,其實人類錯誤保持在5%,此時機器就超越了人類。
這個時間節(jié)點上我們的網絡可以不斷的生成,可以生成為幾千個層級,監(jiān)督式學習下我們加入一個圖片,在最后把圖片進行分類,有人會想做一些不同的嘗試,他們首先選擇一張圖片讓網絡通過訓練能重新生成圖片,通過圖片的生成我們可以了解在中間這些層級上他們會以更好的方式表現(xiàn)原圖。在這個節(jié)點上,我們有很多生成,假如說這個圖片是一只貓,沒有人教這個程序什么是貓,這個程序自己決定了這是一只貓,它做出了準確的一個選擇,這就是非監(jiān)督式學習的成果。
同時,還想跟大家介紹一下,在現(xiàn)代生活中的人們,我們感受到一個強烈的影響那就是生成對抗式網絡?,F(xiàn)在我們在寫程序的時候希望加入一些圖片,比如說我們想要輸入一張貓的圖片,想要生成這樣的圖片,但是有時候生成的情況非常不佳,所以工程師首先就找到了一個圖片的篩選器當你提供一張圖片的時候,不管是真實的還是合成的圖片它都可以加以判斷。同時這兩個對抗網絡平行運行,你把圖片生成器輸入圖片,此時的區(qū)別器無法區(qū)別真實的圖片和加工的圖片,但是通過反復的實驗,圖片的生成器可以生成一個最終合理圖片,可能聽上去非常枯燥,只是生成圖片罷了。
那么我們看看怎么生成翻譯?通過A語言到B語言,比如從英文到德語,現(xiàn)在傳統(tǒng)的做法就是找到很多文本,這些文本可能是雙語的文本都能夠收集,我們來生成翻譯的文本,現(xiàn)在我們怎么做?我們去培訓一個網絡,它們在網上找到英語的原語,提供相關的德國語相對的單詞,不是一個句子,同時培訓這個區(qū)分儀,找到這個鑒別器進行鑒別和培訓,然后你再找到另一個鑒別器,它輸入一些德語,然后生成一些句子,再然后你將這所有的要義都一塊進行培訓,然后就可以讓它實現(xiàn)德語到英語這樣的一個翻譯功能。
怎么去還原成英文呢?就是利用鑒別器返回到英文,這些都是德英互譯,通過鑒別器實現(xiàn)的功能。
我們能做什么?假設我們有兩個任務,你可以同時訓練兩大網絡,可能大家會問這兩大任務有什么共同點嗎?你需要做的事情可能就是其中兩大網絡會有一定的分享,如果你對整個網絡進行培訓的話,比如說這里這個點,它會了解到兩個任務之間的交集,下面的這些點能夠學習到第一個任務具體特殊地方在哪里。我畫了這張圖就是希望給大家展示一下,我們如何能夠利用這樣的一些訓練網絡?
為了保證我不超時,我講快一點當你訓練這些深度網絡的時候會發(fā)現(xiàn)它們有很多局部最小值,問題是哪一個最小值是你應該采納的,哪一個數(shù)值可以給你帶來一些生成對抗能力。我們看一下人們是怎么想的,這里是你的訓練數(shù)據,上面縱軸列了訓練數(shù)據錯誤率,這是一條曲線,我這里箭頭指向了兩個極小值,兩個值不一樣,這個地方曲線非常寬,這個地方曲線非常陡,選擇哪個數(shù)值才能確定測試數(shù)字最大準確度,我建議大家選擇這個寬的,為什么呢?因為你的這個訓練數(shù)據它是隨機選擇的,從整個數(shù)據庫中隨機抽取。也就是說,我們這個數(shù)據庫的錯誤功能會和這個數(shù)據功能沒有太大的區(qū)別,而這樣的一個曲線就代表的是我們測試數(shù)據的錯誤情況。你會看到這個錯誤的發(fā)展曲線它虛線和實線有一定的區(qū)別,它的錯誤率差別并不是很大。對于較陡的這個極小值同樣的橫坐標會發(fā)現(xiàn)兩大曲線錯誤值差別很了大,很多人在這方面做了很多研究,因為人們希望能讓這兩大網絡進行壓縮,讓它們靠近。他們希望手機上就可以做深度學習,但是現(xiàn)在這樣還是有很大難度的。比如你選擇的是這樣的一個小網絡,并且希望能對它進行訓練,準確的進行分類,你會發(fā)現(xiàn)這樣的訓練是很難做的。
如果你選的比較大的深度網絡再進行訓練的話,我們看上面這里的激活空間,訓練小網絡它的激活量和上面深度學習激活量相比,明顯上面更優(yōu),所以壓縮的時候我們選擇上面的可能性更大一些。
接下來給大家介紹一下所謂的激活空間。如果這里我輸入了一張圖片,會得到一個矢量,比如有200個激活矢量板,我把這些矢量對每一個圖像設置一定的關聯(lián),然后得到這些不同的數(shù)值,我剛才談到了這里形成了這樣一張圖表,可能存在一個交錯的關聯(lián)。如果你有一個神經元,然后和它通過矢量和圖像建立聯(lián)系的話,我會在兩方激活之間反復進行交換,每一年我都會邀請中國大概30到50名學生,到美國康乃爾大學進行交流大概一個月的時間,這一個月的時間中國學生要做一些研究,這些學生一般都是剛剛完成他們第一學年的學習,其中有一個學生拍攝了他眼中的康乃爾大學。他就問康乃爾大學看起來應該是什么樣的,如果康乃爾是在中國的話這樣的大學校園應該是什么樣的?他就給我展示了他的一個藝術作品,他說我接下來要做的事情就是找到其中的一個激活矢量,從康乃爾這張照片里找到一個矢量作為我圖像的內容輸入。
然后我再找到中國國畫這張圖片里面的矢量,然后看一下兩者的對比。他說把兩個激活矢量進行整合,這就是如果康乃爾在北京的話它應該有的樣子了,這是一個大學一年級的學生作的,他當時在我們學校交流關于深度學習的課程。
我覺得激活空間是非常大非常高的緯度,如果大家著眼于所有貓咪圖片的話,它們的流型緯度相對較低,什么叫流型?這里面兩張照片大家說都是貓咪,有人訓練網絡發(fā)現(xiàn)了貓咪,他后來又改變了一點像素,突然深度網絡提示說這是汽車不是貓咪。所以如果大家利用深度網絡幫你開車的話你可能就要小心了,而實際上這兩張都貓咪,你會發(fā)現(xiàn)人類只是改了一點像素識別結果就不一樣了,其實這兩張圖片是一樣的,都是貓咪。因為相鄰兩個像素之間的關系不是有直接關聯(lián)的,所以對于機器學習來說造成了一定的困擾。
我們再想一下剛才的所謂流型圖片,如果你有一只貓,然后你改變了它的激活矢量,你最后得出來的結果可能就會被定義為這張圖片顯示的是貓,這是正常的一個學習結果。
這里是我的家人拍的一張照片,這個照片里有很多基礎的物品,比如說汽車、貓、狗等等,我當時過了幾天,我們家人一起出去散步,我的女兒當時跟我你看這就是我書本上顯示的消防車,她就指向了這個物品,回想了當時讀到的照片,網絡就是一樣的道理,我們有數(shù)以萬計照片對機器進行訓練讓它們理解怎么區(qū)別兩張不一樣的照片。
如果大家看照片的話,到底能學到什么?我們來看一下,這個照片樹枝是不會飛走的,鳥是會飛走的,這就給我們一個提示,大家做處理的時候要讓這些移動物品和背景進行分離,有許多這樣的物品。每次我做類似演講的時候都會面臨一個問題,有人總會問我,AI到底是真正的全智能的嗎?答案就寫在第一行里,在目前這個階段,人工智能它主要指的是圖像識別,是在高緯度的空間的圖像識別。人工智能的許多項目它現(xiàn)在還沒有能夠提取一個物品的本質,或者是理解物品的根本功能以及其他重要方面。所以我覺得要想真正的讓它具有全智能性的話還需要再進行一次革命。
我曾經看過人類每一次革命的間隙,我看到了人類隨著進化的過程,比如說從智人的發(fā)展到至今,我們花了十萬年的時間才有了農業(yè)等等,每一次巨大社會變革速度都是越來越快的,基本都是以10倍的速度縮短每一次革命,工業(yè)革命到現(xiàn)在已經是300多年的時間了,我們覺得下一次的工業(yè)革命這樣推算下去的話可能要花40年的時間,那么下一次革命將會是什么領域的?我猜有可能是我們看到一個物品的時候能夠立刻理解它的功能。
放了這樣一張照片,大家如果訓練過網絡的話,它能夠經過訓練識別圖片的話,比如說火車或者是發(fā)動機等等,然后你突然把這張照片給到機器,那它接下來會做的事情可能是對這張圖片進行分類。比如說它會說這是有一些東西放在上面的一般的卡車等等。如果你仔細看的話,再仔細一點,他們可能會發(fā)現(xiàn)這里有一個發(fā)動機,可能有的時候沒有外在的殼體,他們慢慢的還會逐漸理解,它有點像一般的機動車運作原理是一樣的。好像和我們的貨車機制比較相似,它們是逐步通過識別一步一步靠近答案的。 我想說的是AI現(xiàn)在還處在一個比較早期的階段,下一步可能還要花一段時間才能夠實現(xiàn)。我們還不知道下一步要怎么做,目前還沒有理清思路,當我們著眼于一件東西的時候,大家不要只看它的外在,它的形狀,相反,你要提取它的本質。比如說這個物品你看到了它有了視覺,它的功用是什么,目的是什么,怎么使用,然后才能實現(xiàn)很多的事情,可能是現(xiàn)在我們無法完成的事情。 還有,AI不是唯一一個在驅動我們現(xiàn)在的革命進程的一個技術基礎。我們的大數(shù)據能力、和互聯(lián)網、大計算,物聯(lián)網等等都提供了可用數(shù)據,所有這些都是可用的驅動因素。我想提出的一點就是我們需要關注有一個概念關于早上提到的安全和隱私,隱私已經受到侵犯了。我們需要做的事情就是,我們去決定這個領域哪些是合適的,哪些是不合適進入的?
給大家舉個例子,我們發(fā)現(xiàn)在我的汽車里,實際上我去到哪里都有一個GPS定位,然后我看一下我過去3個月期間行車記錄儀記錄著我去了哪里,我發(fā)現(xiàn)它不僅是一些有趣的回憶而且是非常有用的信息,那么最后得到什么答案呢?我們的GPS導航系統(tǒng)雖然給我提供了很多信息,但是它總是會讓我行車都是在一些主路上,不太希望把我導航到一些形狀不太規(guī)則的小路上。但是本土的這些司機他們非常熟悉路況,知道怎么開車,所以每一次你在開車的時候我們的GPS公司可以下載你的這些相關的導航數(shù)據,如果他們利用你的這個具體實際開車情況對于系統(tǒng)進行改良,能夠提高1%的結果的話,可能就會給他們省下很多錢。
我不知道我的這些GPS記錄有沒有被下載,因為我可能需要查一下這些公司只要知道了我晚上車停在哪里就知道我在哪里工作哪里購物,這是不希望導航公司知道的事情,這就是隱私的問題。
當然,圍繞著隱私其實還兩個背后的原理,第一個就是零知識批復,就是我們要不要給對方一個批準?比如說我們是不是需要提供給公司關于我個人的一些信息?比如我的病史都在網上可以找到,假如有一天我在中國生病了,醫(yī)生可以直接在網上下載我之前的病史為我提供更好的治療方案。
換一個方面,我的保險公司我很不希望他看到這一切,因為保險公司不需要了解這么清楚,他們不需要知道我看過什么醫(yī)生接受過什么樣的治療,保險公司他們只需要一個數(shù)字上的批準。比如多少醫(yī)生等效多少錢,多少保金。現(xiàn)在已經有很多相關從事批準技術上面的工作,他們可以獲得任何人的病史,可是我希望他們只需要讀到數(shù)據,而不是任何關于個人的描述?,F(xiàn)在有很多研究人員都在做這方面的準備工作。
我想我要重復AI的一點本質,因為AI的確是下一次工業(yè)革命的推力,它會改變我們的生活和相關的生活方式。作為國家就應該清楚的了解多少人,多大的比例能夠獲得就業(yè)崗位,能夠支持他們的家庭。假如說大部分人沒有工作的話,他們不能夠在家無所事事,你怎么幫助大部分職業(yè)人從事有意義的工作?這是政府和國家層面需要考慮的。
此外這些發(fā)展中國家的出路何在?有人覺得以后世界上只有兩大國家受益于人工智能革命,那就是美國和中國。因為這兩大國家有足夠的投資金額,也有足夠的信息量,他們會直接去變現(xiàn),但是對于絕大多數(shù)發(fā)展中國家他們會緩慢的增長,他們的整個生產體系會日益復雜和冗余。那么我覺得我們必須要思考,從長遠來看怎么幫助這些發(fā)展中國家找到出路。
假如他們不能參與新一輪人工智能的話,那么世界人口會越來越兩極化,世界經濟和政治都會不穩(wěn)定。
最后一張幻燈片我就提到了,這些人口、這些企業(yè)和這些國家他們會越來越意識到世界級的變化,他們也會發(fā)現(xiàn)自己該怎么樣去獲得人工智能新一輪紅利。我想跟大家分享一下我的職業(yè)生涯,我之前是做電子工程的,當時我在年輕的時候還沒有計算機工程。我在普林斯頓大學念的本科,當時一個教授讓我直接教計算機的課程,我反問他我教什么?因為沒有這個課程,我當時沒有意識到其實教課過程中會讓我成為世界上第一個計算機科學家,正是因為這個機遇,美國就非常關注一些資深的計算機科學家,我就被當選了。其實當時我年齡不大,我們總統(tǒng)給我打電話,他想評選我為全國科學委員會的會長,大家可以考慮一下,假如說我是做高等物理學的,我就等著退休就可以了我就沒有這個機會了。
所以通過這個例子告訴在座的年輕人,如果我們考慮事業(yè)的時候面向未來的話就會有更美好的明天!
田薇:謝謝!請稍等一會,您剛剛說到了一定要定位于未來,請問怎么定位未來?
John E. Hopcroft:我知道所有的一切都在細節(jié),細節(jié)決定一切,大家思考一下未來,思考一下變革。同時我們要想,假如有一天為企業(yè)打工,那么企業(yè)只是過去150年才來到工業(yè)時代的,之前是沒有企業(yè)的。之后也不會有企業(yè),所以請大家思考一下,未來的變化會是什么?變革會是什么?我想要精神一點點,其實我把自己的定位就是信息推動者、信息革命者。
大家在找工作的時候如果想人只有一輩子,想到要享受人類的方方面面,大家就不要做一些不喜歡的工作。大家一定要找到自己的樂趣所在。
田薇:不光有總統(tǒng)給定打電話,也有學校給您打電話。同時有來自于悟空問答上面讀者的問題。他們知道您來中國的時候,幫助中國科學家了解算法、了解計算機,來幫助當?shù)氐墓こ處熀蛯W生的時候,大家都非常激動。主辦方也選了幾個問題,我可以代主辦來問這幾個問題。
第一個問題,現(xiàn)在AI已經推動了一次革命的發(fā)展,它會迅速改變我們的生活和生活模式,那么AI究竟歸為我們帶來更多的社會成就,比如像社會公平,還是說往相反的方向去演進?
John E. Hopcroft:我覺得答案是否定的,在未來的15年。為什么我會說不對呢?因為現(xiàn)在探討的是深度學習。深度學習并沒有思考圖片以外的一些種類,這個問題可能我們需要了解更多復雜的原理才能夠回答??赡苁窃谙乱淮?,所以這種復雜的問題要放到下一代,而不是未來短期。
田薇:下一個問題,眾所周知,我們都非常關注生成對抗網絡,因為這將會持續(xù)變革和演進,但是文本卻是條例分明的,您覺得生成對抗網絡能不能應用到文本中呢?能不能兩者結合,它為未來能夠帶來更高質量的文本?
John E. Hopcroft:我覺得已經用上了,可能不是高質量的文本,可能在文本中是有所使用的。我的演講只是簡單處理了一下文本,當然深層次學習還可以用到很多行業(yè),不只是圖片還有文本。但是我們的生成對抗文本和卷積神經網絡還有點不一樣。
評論