和谷歌搶人,挖微軟墻角,F(xiàn)acebook AI實(shí)驗(yàn)室5年逆襲之路
堅(jiān)持5年能得到什么?
本文引用地址:http://m.butianyuan.cn/article/201812/395461.htm馬云說(shuō),“對(duì)于一家創(chuàng)業(yè)公司而言,能堅(jiān)持做5年,就一定是‘?!??!?/p>
同理,對(duì)于一家傳統(tǒng)互聯(lián)網(wǎng)公司而言,能堅(jiān)持5年用新技術(shù)為原有業(yè)務(wù)改頭換面,更牛。
而從2013年12月10日對(duì)外正式宣布成立AI實(shí)驗(yàn)室FAIR至今,Facebook真真正正做AI正好5年時(shí)間了。這家在科技創(chuàng)新上素來(lái)以“落后、跟隨”之姿發(fā)展的公司,如今也正在期待著憑借AI再創(chuàng)互聯(lián)網(wǎng)社交傳奇。
傳統(tǒng)社交數(shù)據(jù)的爆發(fā)式增長(zhǎng)
“沒(méi)有深度學(xué)習(xí),現(xiàn)在的Facebook就無(wú)法正常運(yùn)營(yíng),因?yàn)樗呀?jīng)深入到Facebook的方方面面了。”FAIR創(chuàng)辦者&首席AI科學(xué)家、卷積神經(jīng)網(wǎng)絡(luò)發(fā)明者之一的Yann LeCun在總結(jié)Facebook這5年發(fā)展時(shí)說(shuō)道,“但實(shí)際上,在2013年之前,F(xiàn)acebook高層并不贊同成立這個(gè)實(shí)驗(yàn)室?!?/p>
眾所周知,F(xiàn)acebook以傳統(tǒng)社交互聯(lián)網(wǎng)起家。而因初初創(chuàng)立時(shí),扎克伯格還是哈佛大學(xué)的一名學(xué)生,所以這個(gè)社交平臺(tái)一開(kāi)始也只在哈佛大學(xué)的學(xué)生中被廣泛熟知。
得益于互聯(lián)網(wǎng)的快速發(fā)展,以及社交這一“有點(diǎn)就可擴(kuò)散至面”的特性,F(xiàn)acebook很快便成為了美國(guó)高校學(xué)生日常社交的常用工具。
隨著用戶范圍的擴(kuò)大、開(kāi)辟?gòu)V告業(yè)務(wù)以及接入第三方服務(wù),到2009年年初,F(xiàn)acebook的用戶數(shù)就已超1.5億,用當(dāng)時(shí)扎克伯格的話說(shuō),“如果Facebook是一個(gè)國(guó)家,那么它將是世界上人口第八多的國(guó)家,比日本、俄羅斯和尼日利亞等國(guó)都多。”
但1.5億的用戶量和主要以圖片為信息承載的社交模式,顯然還不足以讓扎克伯格為數(shù)據(jù)優(yōu)化及處理憂心,而素來(lái)“后知后覺(jué)”的公司高層最關(guān)心也依舊是產(chǎn)品線的拓展。直到2013年的一次宴會(huì),這一現(xiàn)狀才有所改變。
其實(shí),F(xiàn)acebook并不是不重視技術(shù)的發(fā)展,只是真的很“后知后覺(jué)”。這點(diǎn),從歷年來(lái)的F8大會(huì)就可以窺見(jiàn)一二。
2007年,F(xiàn)acebook召開(kāi)了第一屆F8大會(huì),推出了面向開(kāi)發(fā)者的社交圖譜。次年,又推出了社交工具Facebook Connect。但實(shí)際上,這些只是基于Facebook現(xiàn)有業(yè)務(wù)所做的調(diào)整,而非技術(shù)創(chuàng)新性突破。
也因此,2009年的F8大會(huì)因沒(méi)有新進(jìn)展而停辦。
此后兩年時(shí)間里,雖然其做了多番調(diào)整,相繼推出了新社交插件、Timeline、開(kāi)放式圖譜協(xié)議、圖譜API等。但依舊可以看出,這些技術(shù)及產(chǎn)品不具備創(chuàng)新改革的能力。
為此,2013年的F8大會(huì)再次停辦了,這對(duì)才上市不久的Facebook,是個(gè)不小的打擊。
相關(guān)數(shù)據(jù)統(tǒng)計(jì),到2013年年初,F(xiàn)acebook全球日活躍用戶數(shù)已然超過(guò)了6.5億。加之第三方服務(wù)、廣告業(yè)務(wù)、視頻直播、Instagram等產(chǎn)品線的發(fā)展,以及各產(chǎn)品間數(shù)據(jù)共享需求的增加,傳統(tǒng)互聯(lián)網(wǎng)技術(shù)儼然開(kāi)始無(wú)法繼續(xù)支撐下去了。
而此時(shí),諸如谷歌、微軟、蘋(píng)果等同類(lèi)互聯(lián)網(wǎng)公司,早已開(kāi)始向科技公司轉(zhuǎn)型,如谷歌早在2010年就成立了谷歌X實(shí)驗(yàn)室,更是在2011年成立了谷歌大腦。而蘋(píng)果更是在2011年就推出了智能語(yǔ)音助理Siri,將機(jī)器語(yǔ)音學(xué)習(xí)從實(shí)驗(yàn)室?guī)У搅舜蟊姷纳钪小?/p>
此時(shí)的Facebook,顯然已經(jīng)落后了。
“Facebook CTO Mike Schroepfer此前一直不同意成立AI實(shí)驗(yàn)室,但事實(shí)顯示,AI對(duì)于Facebook未來(lái)發(fā)展越來(lái)越重要?!盠eCun回憶說(shuō),“在去扎克伯格家赴宴時(shí),我和他詳談了AI的重要性。幸運(yùn)的是,扎克伯格當(dāng)時(shí)也認(rèn)為‘開(kāi)放創(chuàng)新’應(yīng)該成為Facebook發(fā)展的重點(diǎn)?!?/p>
“之后沒(méi)多久,F(xiàn)AIR就成立了。”
追趕深度學(xué)習(xí)
從成立之初,F(xiàn)AIR的定位便是一個(gè)負(fù)責(zé)研究技術(shù)的部門(mén),其研究重點(diǎn)也大多聚焦在解決推理、預(yù)測(cè)、規(guī)劃、無(wú)監(jiān)督學(xué)習(xí)等底層技術(shù)問(wèn)題上。
當(dāng)然,技術(shù)研發(fā)離不開(kāi)人才,但Facebook于AI方面的積累幾乎為0。所幸,扎克伯格肯投入,除LeCun外,5年時(shí)間里,F(xiàn)AIR還相繼吸引來(lái)了包括VC維和SVM的締造者Vladimir Vapnik,提出隨機(jī)梯度下降法的Léon Bottou,做出高性能PHP虛擬機(jī)HHVM的Keith Adams、ICCV 2017最佳論文得主何凱明等在內(nèi)的多位深度學(xué)習(xí)頂級(jí)專(zhuān)家,甚至還用7位數(shù)年薪與Deepmind展開(kāi)了搶人大戰(zhàn)以及大力挖角微軟。截止到目前,F(xiàn)AIR的團(tuán)隊(duì)規(guī)模就已擴(kuò)大至了近200人。
如此大的人才投入下去,成果自然也不會(huì)少。
· Caffe2
沿襲Caffe的大量設(shè)計(jì),2017年4月FAIR推出了兼具擴(kuò)展性、高性能和便攜性的Caffe2,一個(gè)輕量化和模塊化的深度學(xué)習(xí)框架,可在移動(dòng)設(shè)備上進(jìn)行訓(xùn)練和預(yù)測(cè)。
· PyTorch
2017 年初,F(xiàn)AIR發(fā)布了基于Python開(kāi)發(fā)的PyTorch。因其集成了Caffe2和ONNX 的模塊化、面向生產(chǎn)的功能,提供從研究原型到生產(chǎn)部署的無(wú)縫路徑,并與云服務(wù)和技術(shù)提供商進(jìn)行深度集成,在GPU速度和內(nèi)存使用率方面都極具優(yōu)勢(shì)。
今年10 月,F(xiàn)acebook還舉辦了第一屆 PyTorch開(kāi)發(fā)者大會(huì),來(lái)自加州理工學(xué)院、FAIR、fast.ai、谷歌、微軟、英偉達(dá)、特斯拉等多位行業(yè)頂級(jí)專(zhuān)家均有參與。
· FastText
為了加快機(jī)器文本分類(lèi)和學(xué)習(xí)速度,2016 年FAIR推出FastText,可對(duì)數(shù)十億個(gè)單詞量文本進(jìn)行快速分類(lèi)。截止到目前,F(xiàn)astText已經(jīng)可以對(duì)157 種語(yǔ)言的文本進(jìn)行分類(lèi),也被應(yīng)用于諸如“消息回復(fù)建議”等的場(chǎng)景中。除此之外,F(xiàn)astText還和DeepText相結(jié)合,進(jìn)行自然語(yǔ)言理解和翻譯。
· Fairseq機(jī)器翻譯模型
基于CNN,F(xiàn)AIR推出了集速度、準(zhǔn)確性和學(xué)習(xí)能力為一體的NMT神經(jīng)機(jī)器翻譯架構(gòu)——Fairseq,其速度較谷歌的RNN提高了9倍。
而為了避免需要翻譯大量的數(shù)據(jù)集(通常稱(chēng)為語(yǔ)料庫(kù)),F(xiàn)AIR在去年發(fā)布了MUSE,通過(guò)監(jiān)督和無(wú)監(jiān)督式學(xué)習(xí)的方式,學(xué)習(xí)和翻譯110種雙語(yǔ)詞典以及自我構(gòu)建新的雙語(yǔ)詞典。
· bAbI
長(zhǎng)期記憶能力不足是神經(jīng)網(wǎng)絡(luò)的缺陷之一,為此,F(xiàn)AIR開(kāi)發(fā)了一個(gè)支持內(nèi)存網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型,它能夠參考此前的對(duì)話內(nèi)容做記憶性回答。比如,在學(xué)習(xí)了《魔界》這部電影的劇情后,其就能概括出故事的最后戒指是出現(xiàn)在了Mount Doom中。
而為了讓模型有足夠的數(shù)據(jù)學(xué)習(xí),F(xiàn)AIR還構(gòu)建了一個(gè)問(wèn)答任務(wù)數(shù)據(jù)集——bAbI,包含數(shù)千個(gè)對(duì)話示例,可以提高模型理解文本的準(zhǔn)確性。
· Mask R-CNN
作為一個(gè)以圖片分享為核心的社交平臺(tái),每天上傳至Facebook上的圖片數(shù)據(jù)量是極為龐大的。而為了在合適的時(shí)間為用戶展示合適的圖片,F(xiàn)AIR通過(guò)理解圖片中的不同部分的像素,以理解圖片的特殊含義,比如分析人手部動(dòng)作的具體含義,實(shí)現(xiàn)圖像實(shí)例分割。
目前,Mask R-CNN已被應(yīng)用于檢測(cè)劣質(zhì)內(nèi)容等場(chǎng)景中。未來(lái),F(xiàn)acebook還將會(huì)應(yīng)用它為AR、智能相機(jī)等業(yè)務(wù)賦能。
5年堅(jiān)持下的“煥新”
可以看到,5年時(shí)間,F(xiàn)acebook在AI,尤其是深度學(xué)習(xí)基礎(chǔ)技術(shù)研發(fā)上已初具規(guī)模。當(dāng)然,任何高端技術(shù)在走出實(shí)驗(yàn)室之前,都無(wú)法創(chuàng)造實(shí)際價(jià)值。為此,在FAIR技術(shù)成果轉(zhuǎn)化過(guò)程中,F(xiàn)acebook還成立了其第二大人工智能實(shí)驗(yàn)室AML,旨在研究AI技術(shù)的具體應(yīng)用。
一般而言,如這樣分成兩個(gè)部門(mén)應(yīng)該存在著很大的溝通交流問(wèn)題,不過(guò)很顯然,F(xiàn)acebook在這方面做的很好。所有來(lái)自FAIR的預(yù)測(cè)推理、視覺(jué)、語(yǔ)義理解技術(shù)都被廣泛應(yīng)用到Facebook的各個(gè)產(chǎn)品中,如其圖片濾鏡已可以跟Snapchat媲美,不同用戶主頁(yè)News Feed上呈現(xiàn)的內(nèi)容是由機(jī)器圖像分析后決定的以及清除垃圾數(shù)據(jù)、內(nèi)容及郵件翻譯、智能攝像監(jiān)控、簡(jiǎn)化版數(shù)字助理“M”等,都是AI賦能的結(jié)果。
而在Facebook近年大力發(fā)展的VR/AR業(yè)務(wù)方面,上述中多項(xiàng)技術(shù)都有所應(yīng)用。甚至還有消息稱(chēng),F(xiàn)acebook內(nèi)部已經(jīng)在緊鑼密鼓的研發(fā)語(yǔ)音助理,代號(hào)為 “Aloha”。
可以說(shuō),AI已經(jīng)成為了互聯(lián)網(wǎng)社交外,F(xiàn)acebook最核心的部分。從2014年開(kāi)始,即便在今年遭遇重大數(shù)據(jù)泄露問(wèn)題的情況下,F(xiàn)8大會(huì)再未出現(xiàn)停辦的情況,也或多或少都有較為亮眼的新產(chǎn)品或技術(shù)推出。Facebook也終于在2016年發(fā)布的“十年版圖”中,將AI、VR等技術(shù)放在了戰(zhàn)略核心的位置上。
就連那位此前一直反對(duì)成立人工智能實(shí)驗(yàn)室的Mike Schroepfer也終于承認(rèn),“AI是Facebook未來(lái)三大重點(diǎn)發(fā)展領(lǐng)域之一,其余兩個(gè)是虛擬現(xiàn)實(shí)和讓更多的人連上網(wǎng)絡(luò)。”
成果來(lái)之不易,堅(jiān)持更是難上加難。雖然較之于谷歌、微軟這樣在底層技術(shù)方面素來(lái)領(lǐng)先的公司而言,F(xiàn)acebook目前還未能有突破性領(lǐng)先成果,但5年時(shí)間里,F(xiàn)AIR的多項(xiàng)成果及相關(guān)應(yīng)用也足以說(shuō)明,F(xiàn)acebook正在試圖,或者說(shuō)期待憑借AI再創(chuàng)其在互聯(lián)網(wǎng)時(shí)代的社交傳奇。
就連LeCun都說(shuō),“在FAIR創(chuàng)辦之前,F(xiàn)acebook做的都是一些短期的工程項(xiàng)目,最長(zhǎng)的項(xiàng)目周期也不過(guò)6個(gè)月?!庇纱丝梢云诖?,下一個(gè)5年,F(xiàn)AIR或許能給我們帶來(lái)更多的驚喜。
評(píng)論