新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動態(tài) > 湯曉鷗談AI:深度學(xué)習(xí)三大核心要素

湯曉鷗談AI:深度學(xué)習(xí)三大核心要素

作者: 時間:2017-05-23 來源:i黑馬 收藏

  5月20日,以“科研·產(chǎn)業(yè)·融合”為主題的2017CCF青年精英大會在北京召開。本屆大會由中國計(jì)算機(jī)學(xué)會主辦,科技創(chuàng)新產(chǎn)業(yè)服務(wù)平臺Xtecher協(xié)辦。

本文引用地址:http://m.butianyuan.cn/article/201705/359583.htm

  中國工程院院士趙沁平、香港中文大學(xué)教授湯曉鷗、百度創(chuàng)始七劍客之一雷鳴、清華大學(xué)教授鄭緯民、IEEE Fellow陳熙霖、中國人民大學(xué)教授杜小勇、中國計(jì)算機(jī)學(xué)會秘書長杜子德、中國人民大學(xué)信息學(xué)院院長文繼榮、紅杉資本合伙人周逵、高榕資本創(chuàng)始合伙人岳斌、寰景信息董事長陳擁權(quán)、CCF YOCSEF學(xué)術(shù)委員會學(xué)術(shù)秘書陳健等近五十位學(xué)術(shù)界、產(chǎn)業(yè)界、投資界大佬和數(shù)百位計(jì)算機(jī)領(lǐng)域的科研人才出席了此次活動。

  本次CCF青年精英大會進(jìn)行的“思想秀技術(shù)秀”上,共有22位青年學(xué)者、科技人才展示了前瞻性的思想觀點(diǎn)以及最新的技術(shù)成果。最終,評委會選出了2位優(yōu)秀青年赴 CNCC(2017中國計(jì)算機(jī)大會,將于10月26-28日在福州舉行)進(jìn)行演講。

  此外,大會還公布了“青竹獎” 獲獎名單,表彰推動科研進(jìn)步的青年學(xué)者,鼓勵產(chǎn)學(xué)研各方面創(chuàng)新人才。“青竹獎”由中國計(jì)算機(jī)學(xué)會牽頭,聯(lián)合Xtecher 共同發(fā)起,經(jīng)過評選委員會李開復(fù)、王恩東等17位委員的專業(yè)評審,最終評選出了6位獲得“青竹獎”的最具潛力青年精英:碼隆科技聯(lián)合創(chuàng)始人兼CEO黃鼎隆、真格基金合伙人兼首席投資官李劍威、清華大學(xué)芯視界(北京)科技有限公司創(chuàng)始人兼董事長鮑捷、中國科學(xué)院計(jì)算技術(shù)研究所研究員張?jiān)迫?、云從科技公司?chuàng)始人周曦、物靈科技公司聯(lián)合創(chuàng)始人兼CEO顧嘉唯。

  

湯曉鷗談AI:深度學(xué)習(xí)三大核心要素

 

  在會議上,香港中文大學(xué)教授湯曉鷗做了主題為《的明天,中國去哪?》的特邀報告。湯曉鷗在演講中,講述了的發(fā)展,并指出,的三大核心要素,就是算法設(shè)計(jì)、高性能的計(jì)算能力,以及大數(shù)據(jù)。

  湯曉鷗表示:“無論怎么樣發(fā)展,年輕人選擇創(chuàng)業(yè)還是做研究,其實(shí)我們要做的就是三件事情:第一,我們需要花時間把基礎(chǔ)打好。剛才趙沁平院士講得很好,就是要堅(jiān)持,真正花時間把人工智能的基礎(chǔ)打好。第二,我們要創(chuàng)新,要做新的東西,不要老是跟在別人后面走。第三,我們要把 ‘漂在上面的東西’落地,最終實(shí)現(xiàn)產(chǎn)業(yè)化。”

  以下根據(jù)湯曉鷗演講實(shí)錄整理:

  今天我講的題目是:《人工智能的明天,中國去哪兒?》我選了一個比較大的題目,希望能壓住場。原來我想的題目比這個還大:人工智能的明天,地球去哪兒?后來發(fā)現(xiàn)“一帶一路”會議剛剛開完,地球去哪兒的問題已經(jīng)解決了,我還是回到我的小題目——中國去哪兒。

  不管是中國人工智能接下來如何發(fā)展,還是年輕人如何創(chuàng)業(yè)或者做研究,我們要做的事情也就是這三件:

  第一,要堅(jiān)持,要花時間把基礎(chǔ)打好。

  第二,要做創(chuàng)新。要做新的東西,不要老是跟在別人后面走。

  第三,要把飄在上面的東西落地,要產(chǎn)業(yè)化。

  今天從我們實(shí)驗(yàn)室的研究成果和公司做的產(chǎn)品,來講講我對這三個方面的理解。

  人工智能和的突破

  首先,什么是人工智能?這個概念現(xiàn)在已經(jīng)非常難定義了,大家?guī)缀醢阉械氖虑槎纪斯ぶ悄苌峡?。從我的理解來講,人工智能真正落地的部分就是深度學(xué)習(xí)。因?yàn)橐郧暗娜斯ぶ悄艽_實(shí)是在很多情況下用不起來,人手設(shè)計(jì)的智能還是比較難超越人來做某一件事情。而有了深度學(xué)習(xí)之后,我們可以把這個過程變成一個數(shù)據(jù)驅(qū)動的過程——當(dāng)做某一件特定事情時數(shù)據(jù)量及參數(shù)量大到一定程度時,機(jī)器就可能在做這件事情上超過人類。很多現(xiàn)實(shí)中落地的產(chǎn)品化的東西,大部分是深度學(xué)習(xí)做出來的。深度學(xué)習(xí)做的東西,成功的案例比較多,一方面是在語音識別領(lǐng)域,另外可能更多的是視覺這方面,所以大家可以看到很多計(jì)算機(jī)視覺方面新的成果。我今天給在座講的人工智能其實(shí)也就是計(jì)算機(jī)視覺,是用深度學(xué)習(xí)去做計(jì)算機(jī)視覺,就變得更窄了。

  大家可以看到“深度學(xué)習(xí)“”這個詞在谷歌上的搜索情況:從2006年才開始有人搜索這個詞,是Hinton(深度學(xué)習(xí)的開山鼻祖Geoffrey Hinton)和Yann LeCun(Facebook人工智能研究院院長、卷積神經(jīng)網(wǎng)絡(luò)之父)們那個時候發(fā)明了這個算法。這中間很長一段時間,2006-2011年曲線是很平穩(wěn)的,只有學(xué)術(shù)界才會去搜索這個詞語,才知道這個事情。2011年突然之間搜索量開始呈現(xiàn)指數(shù)型增長,各行各業(yè)都在討論深度學(xué)習(xí),現(xiàn)在搜索量已經(jīng)非常的巨大。這條曲線形象的演示了深度學(xué)習(xí)的爆發(fā)過程。

  深度學(xué)習(xí)到底在做什么事情?實(shí)際上他所做的事情抽象出來是比較簡單的,就是在做一個從X到Y(jié)的回歸、或者說從A到B的Mapping(對應(yīng))——你給它一個輸入,我怎么樣給出一個對應(yīng)的輸出?特殊的地方就是深度學(xué)習(xí)把這件事情做得非常非常好。以前也有其他算法可以做,只不過一直做不過人,現(xiàn)在深度學(xué)習(xí)做到了極致。比如說給了一張人臉照片,它就可以給你對應(yīng)出這個人的名字;給你一個物體的形狀,它就可以告訴你是什么物體;給一個車的行駛場景,我就可以給你輸出這個車應(yīng)該往哪兒拐;給一個棋局,它能算出下一步怎么走;給一個醫(yī)療的圖像,能幫你判斷這是什么病……實(shí)際上就是這樣的一個過程。不要把人工智能想象成可以超越人類,可以控制人類,這些都是所謂的“好萊塢的人工智能”或者想象中的人工智能,真正人工智能在現(xiàn)在這個階段其實(shí)就是做這么簡單個事。當(dāng)然做成這個簡單的事情其實(shí)已經(jīng)很不簡單了。

  最近這幾年深度學(xué)習(xí)確實(shí)在學(xué)術(shù)界、工業(yè)界取得了重大的突破。第一個突破是在語音識別上。Hinton和微軟的鄧力老師,在2011年用深度學(xué)習(xí)在語音識別上取得了巨大的成功。昨天可能大家在微信也刷屏了,我們中國科大畢業(yè)的師兄鄧力老師從微軟出來到頂級對沖基金工作。我的理解這也是一個A to B的mapping 的過程:把鄧?yán)蠋煹纳疃葘W(xué)習(xí)的經(jīng)驗(yàn)等內(nèi)容都輸入到對沖基金的算法里,這個對沖基金的錢就自動Map到了鄧?yán)蠋熆诖铩?/p>

  語音識別取得了巨大成功以后,緊接著在視覺方面又取得了重大突破。2012年時,Hinton在ImageNet上將圖像識別一下子提高了十幾個點(diǎn),以前我們都一年一個點(diǎn)在推,他一年就推了十年的進(jìn)步,在學(xué)術(shù)界引起了很大的轟動。2014年我們團(tuán)隊(duì)做人臉識別,通過深度學(xué)習(xí),做到算法首次超過人眼的成績。

  最后,在2016年,還是谷歌最厲害,每年120億美金的研發(fā)投入沒有白投,下了一盤棋叫AlphaGo,這盤棋下完之后人工智能就不需要我們解釋了,大家忽然都明白了,人工智能原來是這么回事兒,就是下棋。

  接著人工智能在自動駕駛領(lǐng)域也取得了一些重大的突破?,F(xiàn)在比較熱門的是醫(yī)療影像方面,借助人工智能進(jìn)行診斷。

  深度學(xué)習(xí)的三個核心要素

  深度學(xué)習(xí)有三個核心的要素:

  .學(xué)習(xí)算法的設(shè)計(jì),你設(shè)計(jì)的大腦到底夠不夠聰明;

  .要有高性能的計(jì)算能力,訓(xùn)練一個大的網(wǎng)絡(luò);

  .必須要有大數(shù)據(jù)。

  接下來分享我們在深度學(xué)習(xí)方面做的一些工作。我們從2011年開始做這項(xiàng)工作,一開始沒有開源的框架,所以要自己做很多的工作。做的時間長了,我們就做了一套Parrots系統(tǒng),這個系統(tǒng)目前還不是開源的。

  我們用這套系統(tǒng)訓(xùn)練的網(wǎng)絡(luò)可以做到非常深,原來AlexNet是8層,后來GoogleNet在2014年做到了22層,后來Resnet做到了150多層,去年我們的PolyNet做到了1000多層。大家可以看到這個網(wǎng)絡(luò)發(fā)展趨勢,越來越深。這是我們設(shè)計(jì)的1000多層的網(wǎng)絡(luò),比較細(xì)的線就是整個網(wǎng),中間一個格往下走,放大出來的部分就是網(wǎng)絡(luò)的細(xì)節(jié)結(jié)構(gòu),這個網(wǎng)叫做Polynet,Dahua團(tuán)隊(duì)的這個網(wǎng)絡(luò)設(shè)計(jì)和Facebook的Kaiming團(tuán)隊(duì)的Resnet,在圖像分類上做了目前為止全球最好的結(jié)果,最后基本上成了我們實(shí)驗(yàn)室出來的兩個學(xué)生之間的競賽。這個網(wǎng)絡(luò)的最后形狀有點(diǎn)像 DNA 的雙螺旋。

  在物體檢測上大家也可以看到這個進(jìn)步速度,2013年一開始的時候,200類物體的平均檢測準(zhǔn)確率是22%,但是很快谷歌可以做到43.9%,我們做到50.3%,緊接著微軟是62%,現(xiàn)在我們做到最好結(jié)果是66%。這個速度是幾年之內(nèi)翻了三倍,也是深度學(xué)習(xí)的力量,我們這方面的工作是Xiaogang和Wangli團(tuán)隊(duì)做的。

  我們訓(xùn)練出來這樣一個大腦,可以把它應(yīng)用到各個方向,做出很多不同領(lǐng)域的不同技術(shù)。在人臉方面我們做了人臉檢測、人臉關(guān)鍵點(diǎn)定位、身份證對比、聚類以及人臉屬性、活體檢測等等。智能監(jiān)控方面,做了人,機(jī)動車,非機(jī)動車視頻結(jié)構(gòu)化研究,人體的屬性,我們定義了大約70種。人群定義了90多種屬性。下面這些是衣服的搜索、物體的檢測、場景的分類和車型的檢測,車型檢測我們標(biāo)注了幾千種車型的分類。在文字方面,小票的識別、信用卡的識別、車牌的識別,這些都是由深度學(xué)習(xí)的算法來做的。同時在圖像的處理方面,在去霧、超分辨率、去抖動、去模糊,HDR、各種智能濾鏡的設(shè)計(jì)都是用深度學(xué)習(xí)的算法,我們基本上用一套大腦做很多的任務(wù)。

  深度學(xué)習(xí)另外一個門檻就是高性能計(jì)算,以前高性能計(jì)算大家都是講的CPU集群,現(xiàn)在做深度學(xué)習(xí)都是GPU,把數(shù)百塊GPU連接起來做成集群目前是一個比較大的門檻。我們在北京做了三個GPU的集群,在香港做了一個大的集群,用這些集群,原來一個月才能訓(xùn)練出來的網(wǎng)絡(luò),加速到幾個小時就能訓(xùn)練完,因此我們訓(xùn)練了大量的網(wǎng)絡(luò)。

  深度學(xué)習(xí)第三個門檻就是大數(shù)據(jù),如果把人工智能比喻成一個火箭的話,大數(shù)據(jù)就是這個火箭的原料。

  我們與300多家工業(yè)界的廠商客戶進(jìn)行合作,積累了大量的數(shù)據(jù),數(shù)億的圖片,我們有300多人的團(tuán)隊(duì)專門做這個數(shù)據(jù)標(biāo)注。包括幾千類車型的數(shù)據(jù)、人群的大數(shù)據(jù)以及衣服的搜索和分類的數(shù)據(jù)庫,這些對于學(xué)術(shù)界以及工業(yè)界都是很有益的。實(shí)際上谷歌所做的數(shù)據(jù)體量更大,他們和National Institutes of Health (NIH)合作很快會開放一個非常大的醫(yī)療圖像的數(shù)據(jù)庫。在醫(yī)療方面我相信大家很快會有大量的數(shù)據(jù)進(jìn)行處理,這個時候?qū)τ谖覀兊母咝阅苡?jì)算又提出了一些新的要求。

  實(shí)驗(yàn)室有幸對深度學(xué)習(xí)研究較早。在計(jì)算機(jī)視覺包括人臉檢測等各個方面起步較早,這里列了18項(xiàng)計(jì)算機(jī)視覺領(lǐng)域由我們在全球最早提出來深度學(xué)習(xí)解決方案的問題,也相當(dāng)于對創(chuàng)新的一些貢獻(xiàn)。我們被評為全亞洲唯一的人工智能研究十大先驅(qū)實(shí)驗(yàn)室,非常榮幸跟MIT、斯坦福、伯克利這樣的名校,以及深度學(xué)習(xí)的頂級工業(yè)實(shí)驗(yàn)室臉書、谷歌的深度學(xué)習(xí)負(fù)責(zé)人團(tuán)隊(duì)等等在一起獲選。我們也在研究一些現(xiàn)在沒有的技術(shù),比如說,大家可能以前見過很多依賴深度攝像頭才能做的人體跟蹤算法(比如Kinect)。目前我們團(tuán)隊(duì)做的算法,用很便宜的單個RGB攝像頭就可以做到同樣效果,這是非常不容易的,尤其要做到實(shí)時,在智能家居,自動駕駛等方面都有很大的應(yīng)用前景。

  下面這個工作是去年做的,根據(jù)一張照片里兩個人的姿勢,可以自動判斷兩個人之間的情感,是友好的還是敵對的。同時可以根據(jù)兩個人的表情也可以判斷兩個人的關(guān)系。所以以后如果你把你的照片上載到互聯(lián)網(wǎng)上,實(shí)際上我們可以判斷出來跟你一起照相的這個人和你具體是什么關(guān)系。

  這有什么用途呢?大家經(jīng)常會把照片放到網(wǎng)上,我們用這些照片分析這些人,如果你跟一個非常有名的人,或者跟一個非常有錢的人照了一張合照,那你這個人可信度可能就增加?;蛘吣愫鸵粋€罪犯、或者信譽(yù)不好的人拍了一張照片,你的可信度就下降。我們用這項(xiàng)技術(shù)可以做金融的征信,把不同人的關(guān)系網(wǎng)建立起來,把信用度傳遞出去。這個關(guān)系問題還可以做得更多,把一張圖片任何物體之間,哪個在上面,哪個在后面,互相是什么關(guān)系,可以由一張照片判斷出來。

  下面這是最新的工作,我們以前定義了70種人的特性,根據(jù)這個特性進(jìn)行視頻搜索?,F(xiàn)在定義一個新的搜索模式,是用自然語言來搜索,即我說一段話來描述這個人,把這個人描述出來以后用這段話去搜索我要找的這樣一個人。實(shí)際上,其中涉及的信息量是很大的,尋找也更加精準(zhǔn),我們已經(jīng)建立了一個大的開源的數(shù)據(jù)庫來幫助大家做這個研究。

  在這些數(shù)據(jù)中,從這些自然語言里面我們可以抽出不同的詞,用詞來描述不同的人,其信息量巨大,搜索準(zhǔn)確率也大幅度提高。這是具體的監(jiān)控方面應(yīng)用的結(jié)果。用自然語言做人的搜索。大家可以想像一下在醫(yī)療上的應(yīng)用,如在多模態(tài)的醫(yī)療診斷上。一個是醫(yī)療的圖像,一個是醫(yī)生的文字診斷,可以實(shí)時的識別出來,進(jìn)行自然語言的分析,把兩個進(jìn)行結(jié)合再進(jìn)行診斷。

  下面這個也是一項(xiàng)新的研究工作,根據(jù)這個Video,識別內(nèi)容,判斷劇情屬性。以泰坦尼克號電影為例,你可以看到那兩個曲線,現(xiàn)在是浪漫的場景,代表浪漫的線就上來了,如果是災(zāi)難,那個災(zāi)難的綠線就上來了,實(shí)時根據(jù)這個內(nèi)容判斷劇情,這也是去年的工作。

  今年目前團(tuán)隊(duì)又做了一個新的工作,可以根據(jù)電影的實(shí)時計(jì)算分析,來理解判斷這里面的劇情,可以把一個演員,在整個電影里面,在什么地方出現(xiàn),在那段時間是什么劇情,用自然語言描述出來,把整個電影的內(nèi)容分析,用計(jì)算機(jī)視覺和自然語言自動可以分析出來了。將來可以用來分析和插播廣告,還可以直接用自然語言搜索各種不同的片段。

  我們還有一項(xiàng)工作是超分辨率,就是把很小的圖像放大,最大化還原細(xì)節(jié)。這是好萊塢電影的圖像,視頻抓到一個很模糊的嫌疑罪犯的圖像,然后把它實(shí)時的放大變得很清晰。這只是諜影重重電影上演的效果,還是很震撼的。

  2016年的時候,推特跟谷歌密集發(fā)表了幾篇關(guān)于超分辨率的文章,其核心就是深度學(xué)習(xí)。而我們早于他們,就已經(jīng)做了大量先期研究。我們在2014年發(fā)表了全球第一個用深度學(xué)習(xí)研究超分辨率的論文,在2015年又發(fā)表了一篇相關(guān)文章,2016年發(fā)表了兩篇,取得了更大的突破,而在2017年緊接著發(fā)表了三篇。我們的Cavan教授團(tuán)隊(duì)是第一個做的,也是目前做的最好的。目前超分辨率已經(jīng)走向?qū)崟r以及效果實(shí)用化的階段,利用這項(xiàng)技術(shù)在某些實(shí)時監(jiān)控,公安監(jiān)控?cái)z像頭可以把人看的比較清晰了。

  而在自動駕駛上,我們也做了大量研究,六大類別的技術(shù),有30多個細(xì)分核心技術(shù)。我在這里面就簡單舉幾個例子做演示。比如車的檢測、行人檢測、路道線的檢測、實(shí)時的場景分割……我們也做到前端,用前端的芯片做實(shí)時的效果。

  這是人臉的布控系統(tǒng),目前已在很多城市實(shí)時布控了。還有百米之外抓人,百米之外看到一個目標(biāo)拉近然后進(jìn)行人臉識別。

  這是視頻結(jié)構(gòu)化,把視頻里面的人,機(jī)動車,非機(jī)動車及其特性都檢測出來了,自動標(biāo)注出來了,這樣把整個視頻變成了文檔,就可以進(jìn)行文檔性的搜索。

  下面這些也都是我們所做的技術(shù)的落地產(chǎn)品:在中國移動的實(shí)名認(rèn)證系統(tǒng),去年給中國移動做了三億人的實(shí)名認(rèn)證;小米的寶寶相冊;華為Mat8的智能相冊;FaceU、SNOW等做的特效;微博相機(jī);這絕大部分是基于我們的人臉識別、人臉跟蹤等技術(shù)做出來的。實(shí)際上在人工智能落地方面我們做了許多的落地產(chǎn)品,去年的雙創(chuàng)活動中幾百家企業(yè)里面選了兩家代表中國人工智能,右邊是百度,左邊是商湯科技。

  因?yàn)橹鬓k方希望我講一下學(xué)術(shù)研究和創(chuàng)業(yè)的關(guān)系,我最后總結(jié)一下,在中國創(chuàng)業(yè)是一個什么感受?我覺得中國創(chuàng)業(yè)就像跑百米一樣,要跑的非常快,第一個到達(dá)終點(diǎn)才可以活下來,但是這個跑道并不是塑膠跑道,而是滿地都是坑的土路。這場賽跑有兩個結(jié)局,一個是全力跑到最快,另外一個是剛起步就掉到坑里了。創(chuàng)業(yè)的困難是一定存在的,年輕人要不要創(chuàng)業(yè)?盡管路上的坑比較多,但還是可以試一試。

  另外用什么錢創(chuàng)業(yè)也是個問題?什么錢可以用?什么錢不可以用?我的忠告是,首先父母的錢你不可以用,那是他們養(yǎng)老的血汗錢;你自己掙的錢可以用,你的第一桶金可以用,你們還年輕,用光了可以再去掙。投資人的錢是可以用的,因?yàn)榇蟛糠侄际怯绣X人的錢,我覺得劫富濟(jì)貧人人有責(zé),所以如果大家一定要創(chuàng)業(yè)那就創(chuàng)吧。



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉