湯曉鷗談AI:深度學習三大核心要素
5月20日,以“科研·產業(yè)·融合”為主題的2017CCF青年精英大會在北京召開。本屆大會由中國計算機學會主辦,科技創(chuàng)新產業(yè)服務平臺Xtecher協(xié)辦。
本文引用地址:http://m.butianyuan.cn/article/201705/359583.htm中國工程院院士趙沁平、香港中文大學教授湯曉鷗、百度創(chuàng)始七劍客之一雷鳴、清華大學教授鄭緯民、IEEE Fellow陳熙霖、中國人民大學教授杜小勇、中國計算機學會秘書長杜子德、中國人民大學信息學院院長文繼榮、紅杉資本合伙人周逵、高榕資本創(chuàng)始合伙人岳斌、寰景信息董事長陳擁權、CCF YOCSEF學術委員會學術秘書陳健等近五十位學術界、產業(yè)界、投資界大佬和數(shù)百位計算機領域的科研人才出席了此次活動。
本次CCF青年精英大會進行的“思想秀技術秀”上,共有22位青年學者、科技人才展示了前瞻性的思想觀點以及最新的技術成果。最終,評委會選出了2位優(yōu)秀青年赴 CNCC(2017中國計算機大會,將于10月26-28日在福州舉行)進行演講。
此外,大會還公布了“青竹獎” 獲獎名單,表彰推動科研進步的青年學者,鼓勵產學研各方面創(chuàng)新人才。“青竹獎”由中國計算機學會牽頭,聯(lián)合Xtecher 共同發(fā)起,經過評選委員會李開復、王恩東等17位委員的專業(yè)評審,最終評選出了6位獲得“青竹獎”的最具潛力青年精英:碼隆科技聯(lián)合創(chuàng)始人兼CEO黃鼎隆、真格基金合伙人兼首席投資官李劍威、清華大學芯視界(北京)科技有限公司創(chuàng)始人兼董事長鮑捷、中國科學院計算技術研究所研究員張云泉、云從科技公司創(chuàng)始人周曦、物靈科技公司聯(lián)合創(chuàng)始人兼CEO顧嘉唯。
在會議上,香港中文大學教授湯曉鷗做了主題為《人工智能的明天,中國去哪?》的特邀報告。湯曉鷗在演講中,講述了人工智能和深度學習的發(fā)展,并指出,深度學習的三大核心要素,就是算法設計、高性能的計算能力,以及大數(shù)據(jù)。
湯曉鷗表示:“無論人工智能怎么樣發(fā)展,年輕人選擇創(chuàng)業(yè)還是做研究,其實我們要做的就是三件事情:第一,我們需要花時間把基礎打好。剛才趙沁平院士講得很好,就是要堅持,真正花時間把人工智能的基礎打好。第二,我們要創(chuàng)新,要做新的東西,不要老是跟在別人后面走。第三,我們要把 ‘漂在上面的東西’落地,最終實現(xiàn)產業(yè)化。”
以下根據(jù)湯曉鷗演講實錄整理:
今天我講的題目是:《人工智能的明天,中國去哪兒?》我選了一個比較大的題目,希望能壓住場。原來我想的題目比這個還大:人工智能的明天,地球去哪兒?后來發(fā)現(xiàn)“一帶一路”會議剛剛開完,地球去哪兒的問題已經解決了,我還是回到我的小題目——中國去哪兒。
不管是中國人工智能接下來如何發(fā)展,還是年輕人如何創(chuàng)業(yè)或者做研究,我們要做的事情也就是這三件:
第一,要堅持,要花時間把基礎打好。
第二,要做創(chuàng)新。要做新的東西,不要老是跟在別人后面走。
第三,要把飄在上面的東西落地,要產業(yè)化。
今天從我們實驗室的研究成果和公司做的產品,來講講我對這三個方面的理解。
人工智能和深度學習的突破
首先,什么是人工智能?這個概念現(xiàn)在已經非常難定義了,大家?guī)缀醢阉械氖虑槎纪斯ぶ悄苌峡?。從我的理解來講,人工智能真正落地的部分就是深度學習。因為以前的人工智能確實是在很多情況下用不起來,人手設計的智能還是比較難超越人來做某一件事情。而有了深度學習之后,我們可以把這個過程變成一個數(shù)據(jù)驅動的過程——當做某一件特定事情時數(shù)據(jù)量及參數(shù)量大到一定程度時,機器就可能在做這件事情上超過人類。很多現(xiàn)實中落地的產品化的東西,大部分是深度學習做出來的。深度學習做的東西,成功的案例比較多,一方面是在語音識別領域,另外可能更多的是視覺這方面,所以大家可以看到很多計算機視覺方面新的成果。我今天給在座講的人工智能其實也就是計算機視覺,是用深度學習去做計算機視覺,就變得更窄了。
大家可以看到“深度學習“”這個詞在谷歌上的搜索情況:從2006年才開始有人搜索這個詞,是Hinton(深度學習的開山鼻祖Geoffrey Hinton)和Yann LeCun(Facebook人工智能研究院院長、卷積神經網(wǎng)絡之父)們那個時候發(fā)明了這個算法。這中間很長一段時間,2006-2011年曲線是很平穩(wěn)的,只有學術界才會去搜索這個詞語,才知道這個事情。2011年突然之間搜索量開始呈現(xiàn)指數(shù)型增長,各行各業(yè)都在討論深度學習,現(xiàn)在搜索量已經非常的巨大。這條曲線形象的演示了深度學習的爆發(fā)過程。
深度學習到底在做什么事情?實際上他所做的事情抽象出來是比較簡單的,就是在做一個從X到Y的回歸、或者說從A到B的Mapping(對應)——你給它一個輸入,我怎么樣給出一個對應的輸出?特殊的地方就是深度學習把這件事情做得非常非常好。以前也有其他算法可以做,只不過一直做不過人,現(xiàn)在深度學習做到了極致。比如說給了一張人臉照片,它就可以給你對應出這個人的名字;給你一個物體的形狀,它就可以告訴你是什么物體;給一個車的行駛場景,我就可以給你輸出這個車應該往哪兒拐;給一個棋局,它能算出下一步怎么走;給一個醫(yī)療的圖像,能幫你判斷這是什么病……實際上就是這樣的一個過程。不要把人工智能想象成可以超越人類,可以控制人類,這些都是所謂的“好萊塢的人工智能”或者想象中的人工智能,真正人工智能在現(xiàn)在這個階段其實就是做這么簡單個事。當然做成這個簡單的事情其實已經很不簡單了。
最近這幾年深度學習確實在學術界、工業(yè)界取得了重大的突破。第一個突破是在語音識別上。Hinton和微軟的鄧力老師,在2011年用深度學習在語音識別上取得了巨大的成功。昨天可能大家在微信也刷屏了,我們中國科大畢業(yè)的師兄鄧力老師從微軟出來到頂級對沖基金工作。我的理解這也是一個A to B的mapping 的過程:把鄧老師的深度學習的經驗等內容都輸入到對沖基金的算法里,這個對沖基金的錢就自動Map到了鄧老師口袋里。
語音識別取得了巨大成功以后,緊接著在視覺方面又取得了重大突破。2012年時,Hinton在ImageNet上將圖像識別一下子提高了十幾個點,以前我們都一年一個點在推,他一年就推了十年的進步,在學術界引起了很大的轟動。2014年我們團隊做人臉識別,通過深度學習,做到算法首次超過人眼的成績。
最后,在2016年,還是谷歌最厲害,每年120億美金的研發(fā)投入沒有白投,下了一盤棋叫AlphaGo,這盤棋下完之后人工智能就不需要我們解釋了,大家忽然都明白了,人工智能原來是這么回事兒,就是下棋。
接著人工智能在自動駕駛領域也取得了一些重大的突破?,F(xiàn)在比較熱門的是醫(yī)療影像方面,借助人工智能進行診斷。
深度學習的三個核心要素
深度學習有三個核心的要素:
.學習算法的設計,你設計的大腦到底夠不夠聰明;
.要有高性能的計算能力,訓練一個大的網(wǎng)絡;
.必須要有大數(shù)據(jù)。
接下來分享我們在深度學習方面做的一些工作。我們從2011年開始做這項工作,一開始沒有開源的框架,所以要自己做很多的工作。做的時間長了,我們就做了一套Parrots系統(tǒng),這個系統(tǒng)目前還不是開源的。
我們用這套系統(tǒng)訓練的網(wǎng)絡可以做到非常深,原來AlexNet是8層,后來GoogleNet在2014年做到了22層,后來Resnet做到了150多層,去年我們的PolyNet做到了1000多層。大家可以看到這個網(wǎng)絡發(fā)展趨勢,越來越深。這是我們設計的1000多層的網(wǎng)絡,比較細的線就是整個網(wǎng),中間一個格往下走,放大出來的部分就是網(wǎng)絡的細節(jié)結構,這個網(wǎng)叫做Polynet,Dahua團隊的這個網(wǎng)絡設計和Facebook的Kaiming團隊的Resnet,在圖像分類上做了目前為止全球最好的結果,最后基本上成了我們實驗室出來的兩個學生之間的競賽。這個網(wǎng)絡的最后形狀有點像 DNA 的雙螺旋。
在物體檢測上大家也可以看到這個進步速度,2013年一開始的時候,200類物體的平均檢測準確率是22%,但是很快谷歌可以做到43.9%,我們做到50.3%,緊接著微軟是62%,現(xiàn)在我們做到最好結果是66%。這個速度是幾年之內翻了三倍,也是深度學習的力量,我們這方面的工作是Xiaogang和Wangli團隊做的。
我們訓練出來這樣一個大腦,可以把它應用到各個方向,做出很多不同領域的不同技術。在人臉方面我們做了人臉檢測、人臉關鍵點定位、身份證對比、聚類以及人臉屬性、活體檢測等等。智能監(jiān)控方面,做了人,機動車,非機動車視頻結構化研究,人體的屬性,我們定義了大約70種。人群定義了90多種屬性。下面這些是衣服的搜索、物體的檢測、場景的分類和車型的檢測,車型檢測我們標注了幾千種車型的分類。在文字方面,小票的識別、信用卡的識別、車牌的識別,這些都是由深度學習的算法來做的。同時在圖像的處理方面,在去霧、超分辨率、去抖動、去模糊,HDR、各種智能濾鏡的設計都是用深度學習的算法,我們基本上用一套大腦做很多的任務。
深度學習另外一個門檻就是高性能計算,以前高性能計算大家都是講的CPU集群,現(xiàn)在做深度學習都是GPU,把數(shù)百塊GPU連接起來做成集群目前是一個比較大的門檻。我們在北京做了三個GPU的集群,在香港做了一個大的集群,用這些集群,原來一個月才能訓練出來的網(wǎng)絡,加速到幾個小時就能訓練完,因此我們訓練了大量的網(wǎng)絡。
深度學習第三個門檻就是大數(shù)據(jù),如果把人工智能比喻成一個火箭的話,大數(shù)據(jù)就是這個火箭的原料。
我們與300多家工業(yè)界的廠商客戶進行合作,積累了大量的數(shù)據(jù),數(shù)億的圖片,我們有300多人的團隊專門做這個數(shù)據(jù)標注。包括幾千類車型的數(shù)據(jù)、人群的大數(shù)據(jù)以及衣服的搜索和分類的數(shù)據(jù)庫,這些對于學術界以及工業(yè)界都是很有益的。實際上谷歌所做的數(shù)據(jù)體量更大,他們和National Institutes of Health (NIH)合作很快會開放一個非常大的醫(yī)療圖像的數(shù)據(jù)庫。在醫(yī)療方面我相信大家很快會有大量的數(shù)據(jù)進行處理,這個時候對于我們的高性能計算又提出了一些新的要求。
實驗室有幸對深度學習研究較早。在計算機視覺包括人臉檢測等各個方面起步較早,這里列了18項計算機視覺領域由我們在全球最早提出來深度學習解決方案的問題,也相當于對創(chuàng)新的一些貢獻。我們被評為全亞洲唯一的人工智能研究十大先驅實驗室,非常榮幸跟MIT、斯坦福、伯克利這樣的名校,以及深度學習的頂級工業(yè)實驗室臉書、谷歌的深度學習負責人團隊等等在一起獲選。我們也在研究一些現(xiàn)在沒有的技術,比如說,大家可能以前見過很多依賴深度攝像頭才能做的人體跟蹤算法(比如Kinect)。目前我們團隊做的算法,用很便宜的單個RGB攝像頭就可以做到同樣效果,這是非常不容易的,尤其要做到實時,在智能家居,自動駕駛等方面都有很大的應用前景。
下面這個工作是去年做的,根據(jù)一張照片里兩個人的姿勢,可以自動判斷兩個人之間的情感,是友好的還是敵對的。同時可以根據(jù)兩個人的表情也可以判斷兩個人的關系。所以以后如果你把你的照片上載到互聯(lián)網(wǎng)上,實際上我們可以判斷出來跟你一起照相的這個人和你具體是什么關系。
這有什么用途呢?大家經常會把照片放到網(wǎng)上,我們用這些照片分析這些人,如果你跟一個非常有名的人,或者跟一個非常有錢的人照了一張合照,那你這個人可信度可能就增加?;蛘吣愫鸵粋€罪犯、或者信譽不好的人拍了一張照片,你的可信度就下降。我們用這項技術可以做金融的征信,把不同人的關系網(wǎng)建立起來,把信用度傳遞出去。這個關系問題還可以做得更多,把一張圖片任何物體之間,哪個在上面,哪個在后面,互相是什么關系,可以由一張照片判斷出來。
下面這是最新的工作,我們以前定義了70種人的特性,根據(jù)這個特性進行視頻搜索。現(xiàn)在定義一個新的搜索模式,是用自然語言來搜索,即我說一段話來描述這個人,把這個人描述出來以后用這段話去搜索我要找的這樣一個人。實際上,其中涉及的信息量是很大的,尋找也更加精準,我們已經建立了一個大的開源的數(shù)據(jù)庫來幫助大家做這個研究。
在這些數(shù)據(jù)中,從這些自然語言里面我們可以抽出不同的詞,用詞來描述不同的人,其信息量巨大,搜索準確率也大幅度提高。這是具體的監(jiān)控方面應用的結果。用自然語言做人的搜索。大家可以想像一下在醫(yī)療上的應用,如在多模態(tài)的醫(yī)療診斷上。一個是醫(yī)療的圖像,一個是醫(yī)生的文字診斷,可以實時的識別出來,進行自然語言的分析,把兩個進行結合再進行診斷。
下面這個也是一項新的研究工作,根據(jù)這個Video,識別內容,判斷劇情屬性。以泰坦尼克號電影為例,你可以看到那兩個曲線,現(xiàn)在是浪漫的場景,代表浪漫的線就上來了,如果是災難,那個災難的綠線就上來了,實時根據(jù)這個內容判斷劇情,這也是去年的工作。
今年目前團隊又做了一個新的工作,可以根據(jù)電影的實時計算分析,來理解判斷這里面的劇情,可以把一個演員,在整個電影里面,在什么地方出現(xiàn),在那段時間是什么劇情,用自然語言描述出來,把整個電影的內容分析,用計算機視覺和自然語言自動可以分析出來了。將來可以用來分析和插播廣告,還可以直接用自然語言搜索各種不同的片段。
我們還有一項工作是超分辨率,就是把很小的圖像放大,最大化還原細節(jié)。這是好萊塢電影的圖像,視頻抓到一個很模糊的嫌疑罪犯的圖像,然后把它實時的放大變得很清晰。這只是諜影重重電影上演的效果,還是很震撼的。
2016年的時候,推特跟谷歌密集發(fā)表了幾篇關于超分辨率的文章,其核心就是深度學習。而我們早于他們,就已經做了大量先期研究。我們在2014年發(fā)表了全球第一個用深度學習研究超分辨率的論文,在2015年又發(fā)表了一篇相關文章,2016年發(fā)表了兩篇,取得了更大的突破,而在2017年緊接著發(fā)表了三篇。我們的Cavan教授團隊是第一個做的,也是目前做的最好的。目前超分辨率已經走向實時以及效果實用化的階段,利用這項技術在某些實時監(jiān)控,公安監(jiān)控攝像頭可以把人看的比較清晰了。
而在自動駕駛上,我們也做了大量研究,六大類別的技術,有30多個細分核心技術。我在這里面就簡單舉幾個例子做演示。比如車的檢測、行人檢測、路道線的檢測、實時的場景分割……我們也做到前端,用前端的芯片做實時的效果。
這是人臉的布控系統(tǒng),目前已在很多城市實時布控了。還有百米之外抓人,百米之外看到一個目標拉近然后進行人臉識別。
這是視頻結構化,把視頻里面的人,機動車,非機動車及其特性都檢測出來了,自動標注出來了,這樣把整個視頻變成了文檔,就可以進行文檔性的搜索。
下面這些也都是我們所做的技術的落地產品:在中國移動的實名認證系統(tǒng),去年給中國移動做了三億人的實名認證;小米的寶寶相冊;華為Mat8的智能相冊;FaceU、SNOW等做的特效;微博相機;這絕大部分是基于我們的人臉識別、人臉跟蹤等技術做出來的。實際上在人工智能落地方面我們做了許多的落地產品,去年的雙創(chuàng)活動中幾百家企業(yè)里面選了兩家代表中國人工智能,右邊是百度,左邊是商湯科技。
因為主辦方希望我講一下學術研究和創(chuàng)業(yè)的關系,我最后總結一下,在中國創(chuàng)業(yè)是一個什么感受?我覺得中國創(chuàng)業(yè)就像跑百米一樣,要跑的非??欤谝粋€到達終點才可以活下來,但是這個跑道并不是塑膠跑道,而是滿地都是坑的土路。這場賽跑有兩個結局,一個是全力跑到最快,另外一個是剛起步就掉到坑里了。創(chuàng)業(yè)的困難是一定存在的,年輕人要不要創(chuàng)業(yè)?盡管路上的坑比較多,但還是可以試一試。
另外用什么錢創(chuàng)業(yè)也是個問題?什么錢可以用?什么錢不可以用?我的忠告是,首先父母的錢你不可以用,那是他們養(yǎng)老的血汗錢;你自己掙的錢可以用,你的第一桶金可以用,你們還年輕,用光了可以再去掙。投資人的錢是可以用的,因為大部分都是有錢人的錢,我覺得劫富濟貧人人有責,所以如果大家一定要創(chuàng)業(yè)那就創(chuàng)吧。
評論