專訪UC伯克利馬毅:一場為了探究智能本質的個人戰(zhàn)爭
人工智能領域正在掀起一場思維的戰(zhàn)爭,雙方卻并不勢均力敵。
上周一,加州大學伯克利分校教授馬毅、同校教授曹穎,和粵港澳大灣區(qū)數(shù)字經濟研究院 (IDEA) 的創(chuàng)院理事長沈向洋博士,三人共同發(fā)表了一篇立場論文《關于形成智能的簡約和自洽原則》(On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence)。
作者提出所有智能——無論人工還是自然智能——都應當遵循簡約和自洽的原則,并進一步指出這兩條原則結合之后形成了一種切實有效的計算框架,名為“壓縮閉環(huán)轉錄”(compressive closed-loop transcription),并指出了當前流行的深度神經網絡實現(xiàn)思路過度依賴算力,過于臃腫,可解釋性差的弊端。
當學/業(yè)界的大部分人都把堆參數(shù)、堆算力作為實現(xiàn)智能的唯一路徑時,馬毅對此尖銳地反駁:“智能應該是最普及化 (democratized) 的技術,螞蟻運動,能搜索,能識別物體,不會走丟,還是社會性動物,具有分工的能力。它的資源有多少?它需要有‘云’嗎?”
這篇立場論文,其實是他希望在整個學術界對“智能”這個命題以正視聽:地球上的70億人以及數(shù)以成千上萬億計的其它生物都具備智能??紤]到這一背景,智能不應該,也不可能通過大量資源實現(xiàn)。
馬毅在UC伯克利辦公室 圖片來源:杜晨 | 品玩&硅星人
| 尋找智能的真理
馬毅接受品玩/硅星人采訪表示,由于過去十年里深度學習突然爆發(fā),讓相當一部分這幾年取得了成就的人形成了一種錯覺,認為自己做的東西比前人發(fā)明的東西更好。比如他在教課的時候就發(fā)現(xiàn),在高維數(shù)據(jù)優(yōu)化算法上面,來自前十年的算法總是比后十年的算法更快,結果今天深度學習用的一些基礎算法其實全都是在50、60年代提出來的。
“以前都是用計算尺算。每一次迭代都要人來算,耗費很多時間精力,所以算法必須保證是最高效率的。以前的計算機也是,計算能力就那么多,內存就這么多,計算機不動腦,人得動腦子,”他說道。
“現(xiàn)在反而大家都在炒作了,最后能提高一兩個點就可以發(fā)篇文章——是因為方法好嗎?不是,而是因為用更快的計算機在算?!?/span>
在深度學習爆炸式發(fā)展的過去十年里,人工智能方面的進步的確大多來自于使用同質化的、粗暴工程的方式訓練出來的深度神經網絡。問題在于它們太重度依賴統(tǒng)計學近似的方法,成了一個個巨大的黑箱,難以用數(shù)學解釋;并且訓練數(shù)據(jù)量需求太高,計算成本太高,訓練也缺乏穩(wěn)定性,訓練出來的模型過大且缺乏適應性,容易受到攻擊。
這不是智能應該有的樣子,至少我們在大自然當中看到的生物智能,都不是這樣的。馬毅認為智能的核心是學習,而學習的核心是觀察高維度的外部世界,從中識別出通用的低維度的結構,用緊湊的方式將它們準確地存儲下來,并且在后續(xù)的使用中仍然能夠忠實體現(xiàn)外部世界的情況。
這種學習能力不應該具有計算資源門檻。比如一只螞蟻最多可能只有幾十萬個神經元,然而在自然中我們看到螞蟻都能夠表現(xiàn)出非常復雜和令人驚嘆的智能行為,并且這些行為能力不是它在窩里花多久的時間訓練出來的,而是一生下來就具備,以及不斷的獨立和社會生活過程中進一步學習和模仿獲得。
如果像螞蟻這樣資源極其有限的生物智能在大自然當中都可以存在,構建人工智能還不得不用大量計算資源,就是一件很離譜的事了。
前幾天,馬毅在新開設沒多久的 Twitter 賬號上,發(fā)表了一個會讓很多追趕深度學習時髦的人不舒服的觀點:如果一個學者只讀過去五六年里發(fā)表的文章的話,這輩子能夠產生真正突破性想法的可能性幾乎為零。與其這樣做學問,還不如去****城玩角子機****的概率大。
這位UC伯克利駐校教授,也是這一觀點的踐行者。他是誕生于上世紀4、50年代的控制論、信息論、博弈論等忠實信徒,也是發(fā)展出這些理論的維納、香農、馮·諾伊曼等人的擁躉。
他堅信當今以深度學習為主要方向的人工智能的發(fā)展,特別是發(fā)展過程中已經出現(xiàn)的一些問題(比如深度網絡作為開環(huán)系統(tǒng)缺乏魯棒性、存在“災難性遺忘”等問題)早在六七十年前就已經得到了預示。
不僅如此,他認為智能系統(tǒng)的必要元素(包括緊湊編碼、錯誤反饋、博弈論、非線性和平移不變性等),維納早在在《控制論》一書中都已經提到并且講對了。
“一個人得有多么自大,以為自己花半年想到的想法,在過去70年里那些比你更聰明,更會動腦筋,(計算)資源比你更少的人沒有想到?現(xiàn)在被大家認為世界上最聰明的這樣一群人,實際上反而變得最沒有常識了,這是一個非常不幸的事情,”馬毅表示。
圖片來源:@YiMaTweets
| 不求成為主流,但求真正行家的共鳴
盡管身為 IEEE、ACM、SIAM 三個計算機和數(shù)學方面頂級學會的會士 (fellow),馬毅對來自學術和產業(yè)界的質疑和疏遠并不陌生。過去五六年里他所發(fā)表的研究和提出的觀點,經常讓他成為學術挑戰(zhàn)的對象。
這次也不例外。雖然論文發(fā)表之后引起了不小的影響,有人回帖表示對自己的研究很有啟發(fā)——但這篇文章依舊延續(xù)了馬毅多年以來堅持的思路,并且直言了對深度學習當下流行思路的批評,還是被一些深度學習研究者和從業(yè)者評價為“小題大做”。
當然,在學術界沒有人能一下子就說服所有人。馬毅還是對這次研究的成效感到滿意。特別考慮到美國國家科學院成員,前不久剛加入 UC伯克利的神經生物學專家曹穎 (Doris Tsao),不僅認可他的觀點,還以第二作者的身份為論文提供了巨大的幫助。
作為更習慣用數(shù)字說話,以結果論英雄的“工程師思維”學者,馬毅表示,這還是他第一次跟更“純粹”的科學家合寫論文,感受非常獨特:
“我們做數(shù)學或者做工程的人都用結果說話,你看我這個算法比之前的好了10%,那它一定有道理對不對?然而在曹穎的面前,我必須要說服她我提的這個智能的工作原理,不是一個更好的選項,而是唯一的選項,是非此不可的?!?/span>
首先,馬毅和課題組學生在研究智能基本原則中發(fā)現(xiàn)的最合理數(shù)據(jù)表達方式,跟曹穎過去在靈長類動物大腦里看到的一些現(xiàn)象非常相似,比如人腦和猴腦也是在用子空間的形式對學到的東西進行表達。
曹穎在論文中提供了從神經科學角度的一些觀察和意見。具體來說,大腦用于建構世界的模型,在解剖學上也是高度結構化的,而且根本不會使用反向傳播,因為需要的神經元對稱突出太多,反饋機制過于復雜——換言之,現(xiàn)在很多人認為用深度神經網絡就能模仿大腦工作的實現(xiàn)方式,完全有可能從根本上就是錯的。
“我喜歡像這樣‘非此不可’的思想體系和重要研究,”曹穎在她的推特賬號上寫道。
曹穎 圖片來源:西蒙斯基金會
在論文中,馬毅引用了物理學家費曼等人的名言。有趣的是,對于自己一生的成就,費曼曾表示因為發(fā)展出重整化方法而獲得的名譽,本應屬于另一位在當時岌岌無名的同行斯提克爾堡。而觀點不是當今深度學習主流的馬毅,和斯提克爾堡的經歷頗有幾分相似。
雖然在社交網絡上偶爾“出言不遜”,現(xiàn)實中馬毅還是平和地看到自己的遭遇,“倒未必說我發(fā)的文章大家一定要相信,科學界都是會有質疑的,這是很自然的現(xiàn)象,包括我自己也對別人做的東西有質疑的態(tài)度?!?/span>
他在智能基本原則問題上發(fā)表一篇又一篇論文,在網上做出一些“過激"的表述,其實更多是希望大家能夠看到一個糟糕的現(xiàn)狀:
太多深度學習學者過于依賴反向傳播、梯度下降等通用方法, 認為在局部找到最優(yōu)解的思路就能夠解決所有問題,甚至把深度學習當成研究對象(而不是實現(xiàn)研究目標的工具),這是一種“盲人摸象”、“一葉障目”的行為。
“大家現(xiàn)在都在說深度學習可以解決世界上的所有問題。甚至有人說什么 attention/reward is all you need。這就是只見樹木不見森林的一個典型表現(xiàn)。而我們所做的是把所有的模塊都整合起來,讓大家看到智能不是單個的模塊,而是一個整體的系統(tǒng),它包括控制、對策(博弈)、優(yōu)化,加上深度網絡,四個放在一起形成一個閉環(huán)系統(tǒng),每一塊都是必要的?!?/span>
在華人科學家群體當中,包括菲爾茲獎得主丘成桐教授在內的一些專家都認可或欣賞馬毅的觀點,支持和邀請他在這方面做更深的研究。在國際上,他的觀點得到了深度學習奠基人物 Yann LeCun 等人的關注,他的學生和實習生也收到了 LeCun 組(NYU/Meta)的邀請。
“這是很好的事情。我們這里資源有限已經快做到頭了,他們有更多的資源,我們的研究可以在他們那得到繼續(xù)研究驗證,”馬毅表示。
| 關鍵性的基石原則,背后的研究新勢力
另一在這篇論文中扮演了關鍵角色的,就是文章的第三作者 "Heung-Yeung Shum"——他不是別人,正是前微軟全球執(zhí)行副總裁沈向洋博士。
這不是沈向洋和馬毅在學術課題上的首次交集。
馬毅2006年來微軟亞洲研究院 (MSRA) 訪問研究,2009年正式加入擔任首席研究員和經理,也接手了由沈向洋創(chuàng)辦的視覺計算組 (VCG)。他在任期間的一些下屬同事,如何愷明、孫劍等,后來成為了國際上知名的計算機視覺專家。
馬毅與在 MSRA 訪問期間輔導的學生合影 圖片來源:馬毅
沈、馬在 MSRA 不只是師徒和上下級關系,更是研究伙伴。二人在大學本科主修的都是控制和自動化,這讓他們在研究思路上承襲了相似的傳統(tǒng)。在 MSRA 訪問期間,馬毅提出的從壓縮的觀點來看高維數(shù)據(jù)分類聚類工作的思路,得到了沈向洋的贊同,二人也合作進行了相關的研究。
“我們發(fā)現(xiàn)閉環(huán)系統(tǒng) work 得很好,當時我們倆一下子就意識到這個事情(的重要性)了,因為我們都是學控制的,這個事情在我們看來就很有道理?!?/span>
沈向洋是 MSRA 創(chuàng)始成員之一,在他的領導和影響下,MSRA 成為了當代科技公司學術研究部門當中,成績最優(yōu)秀、和母公司的產研結合最有機融洽、對社會和對產業(yè)帶來的積極影響最大的一家。很多科技公司都曾效仿 AT&T 和施樂,打造屬于自己的“貝爾實驗室”或“PARC 研究中心”,但沒有一家像微軟-MSRA 這樣成功。
2019年,沈向洋從微軟“退休”,將更多精力放在科研創(chuàng)新和產研結合上,并于2020年11月正式創(chuàng)立了粵港澳大灣區(qū)數(shù)字經濟研究院,即 IDEA 研究院。
沈向洋在2021年IDEA 大會 圖片來源:IDEA
馬毅直言表示,國外大公司的研發(fā)機構勢力整體比較強,國內公司最近幾年也在模仿。但是一段時間后發(fā)現(xiàn),很多國內公司想要研究部門的“光環(huán)”,卻不愿意付出代價,或者沒有持久的信心。
“一些國內公司,招了一個優(yōu)秀的研究員進來,過兩年再問起來,發(fā)現(xiàn)這個人已經被調去做開發(fā)了。結果他開發(fā)也不是最好的開發(fā),學術的知識也不是最領先的了,整個人廢掉了……”
“像何愷明、孫劍這樣的人才,都曾經在我們的組里,研究院培養(yǎng)了他們十年,給他們擋子彈,讓他們可以專心搞科研。當時我們隔壁的中國公司,跳槽工資就漲一倍,他們卻不愿意離開,可想而知為什么。”
這也是為什么馬毅非常欣賞沈向洋發(fā)起的 IDEA 這樣一家機構,為那些聰明、有抱負的人提供一個不急功近利環(huán)境,可以做真正有意義和前瞻性的研究工作,同時在組織層面,仍能保留敏銳的行業(yè)觸角和實現(xiàn)能力。他用深度學習做蛋白質折疊舉例,這個領域知識對于一個計算機學者和工程師來說可能需要好幾年才能搞清楚,甚至做了幾年下來可能沒有一個可以發(fā)表的結果。
所以,做類似的前瞻研究必須要能夠忍得住寂寞,能夠承受風險,“誰能做這個事情?至少我在中國還沒有看到。但是 Harry(沈向洋)有這方面的經歷,他知道這里面的重要性,知道沒有人去推動,這些事情永遠不可能去發(fā)生,”馬毅告訴硅星人。
過去十年間,深度學習方面的研究已然成為顯學。太多人忙著做數(shù)據(jù)集、加碼算力、調參、發(fā)論文、追求 SOTA (state-of-the-art 最佳成績),反而真正關注基石性理論研究的人,少之又少(至少在馬毅看來一些所謂的“基石模型”并不是真正基石性的研究,因為深度神經網絡應該是實現(xiàn)目標的工具,而不應該成為被研究的對象。)
在應用研究的潮流面前,理論研究者注定形單影只。在這場探究智能的基本原則,挑戰(zhàn)深度學習主流的戰(zhàn)爭中扮演大衛(wèi),既驚險刺激,感受良多,卻也十分殘酷。
馬毅最近表示,雖然在加入UC伯克利之后已經完成當初給自己設立的目標,這五年在腦力付出上也是極為痛苦的五年?!耙苍S到明年我也想休息一下,仔細想想接下來該做些什么?!?br />
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。