朱晨光:一個(gè)從不通宵的AI研究員(1)
[ 導(dǎo)語(yǔ) ]從斯坦福計(jì)算機(jī)系博士畢業(yè)后第4年,朱晨光便已升為微軟的首席研究經(jīng)理,管理認(rèn)知服務(wù)研究部門下的知識(shí)與語(yǔ)言研究組。而在讀博期間,他的研究方向并不是自然語(yǔ)言處理。
學(xué)習(xí)、競(jìng)賽、打乒乓、搞科研、寫書(shū)、工作……朱晨光的生活總是同時(shí)被其中至少3件事情占據(jù),給人一種很活躍的印象,所以,在聽(tīng)到他曾與趙薇同臺(tái)參加1994年安徽省蕪湖市的春節(jié)聯(lián)歡晚會(huì)時(shí),筆者也沒(méi)有太吃驚:
“那一年是狗年,我演狗,是我們幼兒園的領(lǐng)舞,而她是她們學(xué)校(蕪湖師范學(xué)校)的領(lǐng)舞?!闭勂鸺亦l(xiāng)蕪湖,朱晨光首先想到的不是三只松鼠,而是蕪湖老鄉(xiāng)、《還珠格格》里的小燕子。
緊接著是出于興趣,他從8歲就開(kāi)始學(xué)習(xí)LOGO語(yǔ)言。這是一門面向兒童的編程語(yǔ)言,由3位知名計(jì)算機(jī)科學(xué)家(Wally Feurzeig、Seymour Papert與Cynthia Solomon)在1967年設(shè)計(jì)而成。
最開(kāi)始他是用LOGO在電腦上畫(huà)圖,敲鍵盤就能畫(huà)出一個(gè)正方形或圓形,讓他覺(jué)得很有趣,于是小學(xué)就參加競(jìng)賽,拿了市區(qū)第一名。自然而然地,小升初進(jìn)入蕪湖一中時(shí),他被選入學(xué)校的信息學(xué)競(jìng)賽隊(duì)伍,一路打到市賽、省賽、全國(guó)賽,初三就進(jìn)入NOI國(guó)家集訓(xùn)隊(duì),獲得清華大學(xué)預(yù)錄取的資格。
朱晨光是一名80后。在他8歲那年(1996年),許多人的家里都還沒(méi)有安裝電腦,而他的父親就已堅(jiān)定地認(rèn)為計(jì)算機(jī)在未來(lái)一定會(huì)有非常大的發(fā)展。果不其然,隨著互聯(lián)網(wǎng)浪潮的興起,計(jì)算機(jī)成為信息時(shí)代的技術(shù)奠基,“碼農(nóng)”成為21世紀(jì)收入最高的行業(yè)之一。
但朱晨光沒(méi)有成為一名“碼農(nóng)”,而是成了一名“NLPer”,進(jìn)入了人工智能領(lǐng)域,在Windows的老東家微軟研究自然語(yǔ)言處理(NLP)。但實(shí)際上,他在斯坦福大學(xué)讀博期間的研究方向并不是NLP,而是交通優(yōu)化。
2016年博士畢業(yè)后,朱晨光入職微軟,先是做自然語(yǔ)言理解(NLU),出了一本NLU相關(guān)的入門書(shū)籍,叫《機(jī)器閱讀理解:算法與實(shí)踐》。2019年,他又從NLU轉(zhuǎn)向研究文本總結(jié)與知識(shí)圖譜。
“如果你問(wèn)我未來(lái)5年的研究方向是否還會(huì)轉(zhuǎn)變,我的答案是肯定的。”朱晨光答道。在他看來(lái),在企業(yè)做研究與在高校做研究的一個(gè)區(qū)別就在于:你需要根據(jù)公司的業(yè)務(wù)來(lái)調(diào)整自己的研究方向,而市場(chǎng)是瞬息萬(wàn)變的。
1 源于競(jìng)賽的自學(xué)能力
從交通優(yōu)化到自然語(yǔ)言處理,再到知識(shí)圖譜與文本總結(jié),朱晨光認(rèn)為,自己能夠快速上手新的研究?jī)?nèi)容,主要?dú)w功于他從小參加信息學(xué)競(jìng)賽所鍛煉出來(lái)的自學(xué)能力。
“當(dāng)時(shí)上競(jìng)賽訓(xùn)練課時(shí),我們并不是老老實(shí)實(shí)地坐在底下聽(tīng)老師講課,而是需要自己找學(xué)習(xí)資料,發(fā)現(xiàn)問(wèn)題,主動(dòng)與老師、學(xué)生討論?!彼劶?,在這個(gè)過(guò)程中,競(jìng)賽選手往往很早就鍛煉了自己主動(dòng)學(xué)習(xí)的能力。
比如,進(jìn)入微軟后,面對(duì)人工智能領(lǐng)域的迅速發(fā)展,他很自覺(jué)就養(yǎng)成了一個(gè)習(xí)慣:每天至少閱讀一篇論文,以此來(lái)掌握NLP領(lǐng)域的最新知識(shí)與研究動(dòng)態(tài)。既是為了能夠及時(shí)調(diào)整自己的研究?jī)?nèi)容、以適應(yīng)產(chǎn)品的需求,也是為了緊跟潮流、不被時(shí)代淘汰。
朱晨光從初一開(kāi)始就參加信息學(xué)競(jìng)賽。競(jìng)賽是他在中學(xué)時(shí)代的主旋律:初中那會(huì)是一邊學(xué)習(xí)一邊搞競(jìng)賽;到了高中,他直接脫產(chǎn)搞競(jìng)賽,“我一共就在班里待了半年,上完高一上學(xué)期的課我就把所有時(shí)間放在競(jìng)賽上了。但其實(shí)我文化課的成績(jī)也不錯(cuò),在班上待的那半年也拿了一個(gè)全班第一名?!?/p>
初三那年(2003年),他第一次參加NOI就獲得銀牌,進(jìn)入前20名選手組成的國(guó)家集訓(xùn)隊(duì)。之后,他又連續(xù)兩年參賽,分別獲得一枚金牌與一枚銀牌。然而,盡管朱晨光連續(xù)3年進(jìn)入國(guó)家集訓(xùn)隊(duì),卻沒(méi)有一次進(jìn)入IOI國(guó)家隊(duì)4人名單:2004年NOI,他考了477分,拿了全國(guó)第8名;2005年NOI,“前期成績(jī)是第一名,但最后一次大考沒(méi)有發(fā)揮好,非常遺憾與國(guó)家隊(duì)擦肩而過(guò)?!被貞洰?dāng)年,朱晨光感慨道。
盡管如此,朱晨光也覺(jué)得自己非常幸運(yùn)有機(jī)會(huì)參加3次集訓(xùn),得以認(rèn)識(shí)3批優(yōu)秀的競(jìng)賽選手。他們中的許多人都被引以為NOI競(jìng)賽的榜樣,比如樓天城、胡偉棟、鬲融、朱澤園、唐文斌等人。他們至今仍保持緊密聯(lián)系,而其中與他關(guān)系最好的,要數(shù)同屆的朱澤園與唐文斌。
朱澤園來(lái)自南京外國(guó)語(yǔ)學(xué)校,與朱晨光的參賽節(jié)奏完全一致,都是2003年至2005年的信息學(xué)國(guó)家集訓(xùn)隊(duì)成員。他們同時(shí)去了清華,本科時(shí)一起組隊(duì)參加過(guò)ACM/ICPC;大三那會(huì),兩個(gè)人都去了微軟亞洲研究院實(shí)習(xí),一起發(fā)表了5篇頂會(huì)論文;大四申請(qǐng)學(xué)校時(shí),兩個(gè)人都拿到了去斯坦福讀博的offer,但朱澤園最終選擇了MIT。如今,他們兩個(gè)又都在位于美國(guó)西雅圖的微軟總部工作。
唐文斌來(lái)自紹興市第一中學(xué),高中畢業(yè)那年,朱晨光與他曾一起給NOI出題;上了清華后,他們一起組隊(duì)參加了兩岸清華程序設(shè)計(jì)競(jìng)賽,代表北京與來(lái)自臺(tái)灣、香港的隊(duì)伍一起比賽,并獲得了第一名。如今,唐文斌在曠視科技擔(dān)任聯(lián)合創(chuàng)始人與CTO。
圖注:2007年,朱晨光(最左)與唐文斌(中間)、劉賀組隊(duì)參加兩岸清華編程競(jìng)賽
除了自學(xué)能力的鍛煉,朱晨光認(rèn)為,NOI競(jìng)賽對(duì)歷屆選手的影響還體現(xiàn)在計(jì)算機(jī)基礎(chǔ)與英語(yǔ)學(xué)習(xí)上。就他個(gè)人的經(jīng)歷來(lái)說(shuō),NOI競(jìng)賽內(nèi)容涉及到數(shù)據(jù)結(jié)構(gòu)、算法等大學(xué)階段才有的計(jì)算機(jī)課程,所以后來(lái)他在清華讀計(jì)算機(jī)專業(yè)時(shí),覺(jué)得學(xué)習(xí)很輕松,因?yàn)椤坝行┱n程在高中時(shí)已經(jīng)學(xué)過(guò)了”。
此外,當(dāng)時(shí)他們備考NOI時(shí),90%以上的題目都是英文的,這對(duì)他的英語(yǔ)閱讀與理解能力有很大提升。剛上大一時(shí),他參加GRE考試,滿分1600,他考了1520分;托福滿分120,他考了115。朱晨光因此談道:“我們搞競(jìng)賽的,英語(yǔ)都不差?!?/p>
但在參加競(jìng)賽的過(guò)程中,對(duì)朱晨光產(chǎn)生最大影響的,并不是知識(shí)的增長(zhǎng),而是他的競(jìng)賽教練江濤老師,以及行萬(wàn)里路所形成的開(kāi)闊眼界。
朱晨光從初一開(kāi)始就跟著江濤學(xué)習(xí),一直到高三畢業(yè)?!八塘宋液芏?,不僅僅是信息競(jìng)賽方面的知識(shí),在意志品質(zhì)、為人處世方面,我也從江濤老師那受益彌久。”雖然遠(yuǎn)在西雅圖,但朱晨光仍與老師保持聯(lián)系,逢年過(guò)節(jié)都會(huì)送上祝福與問(wèn)候。
江濤是信息學(xué)競(jìng)賽界一號(hào)響當(dāng)當(dāng)?shù)娜宋铩?5歲那年,他在一次造火箭的實(shí)驗(yàn)事故中失去了雙手,但是他非常堅(jiān)毅,靠自己的努力上了大學(xué)、學(xué)了計(jì)算機(jī),畢業(yè)后分配到蕪湖一中任教。
在他的組織下,蕪湖一中成為歷年IOI國(guó)家隊(duì)最能打的中學(xué)之一。他的學(xué)生一共進(jìn)入國(guó)家集訓(xùn)隊(duì)29次,7人代表中國(guó)參加IOI比賽、獲得7枚國(guó)際獎(jiǎng)牌。
江濤老師對(duì)科學(xué)的熱愛(ài),對(duì)自我的要求,以及堅(jiān)毅的精神,一直影響著朱晨光在知識(shí)的道路上不斷求索。從江老師的身上,他認(rèn)識(shí)到,人生路上所遇到的小磨小難,似乎是不值一提的。
而行萬(wàn)里路,則是競(jìng)賽地點(diǎn)散布在全國(guó)不同城市,因?yàn)閰①悾粌H結(jié)識(shí)了來(lái)自五湖四海的朋友,還去了省內(nèi)省外的許多地方,甚至因?yàn)橐淮闻既坏臋C(jī)會(huì),遠(yuǎn)赴美國(guó)科羅拉多州參加信息學(xué)奧林匹克競(jìng)賽的集訓(xùn)。
2005年,17歲的朱晨光在網(wǎng)上報(bào)名參加了美國(guó)信息學(xué)奧林匹克競(jìng)賽,名列前茅,作為國(guó)際學(xué)生,被主辦方邀請(qǐng)去科羅拉多州的一所大學(xué)里與美國(guó)的學(xué)生一起參加集訓(xùn)。在這次集訓(xùn)中,他最終獲得了第二名,達(dá)到了進(jìn)入美國(guó)國(guó)家隊(duì)的水平,但由于他是中國(guó)人,所以并未入隊(duì)。
“與國(guó)內(nèi)相比,我覺(jué)得美國(guó)的選拔比較科學(xué),考6次,算綜合成績(jī),萬(wàn)一哪次發(fā)揮不好,后面還可以再趕上來(lái)。國(guó)內(nèi)是一錘定音,有很多偶然性。而且美國(guó)的題目比較有趣,可能比國(guó)內(nèi)的要容易些。”
這次集訓(xùn)經(jīng)歷對(duì)朱晨光的影響很大。在之前,他對(duì)美國(guó)沒(méi)有感性的認(rèn)識(shí),以為發(fā)達(dá)的美國(guó)到處都是高樓大廈、鱗次櫛比;去了美國(guó)科羅拉多州之后,他發(fā)現(xiàn),到處都很干凈,建筑都不高,很開(kāi)闊,與國(guó)內(nèi)的氛圍很不一樣,這激發(fā)了他以后想到美國(guó)學(xué)習(xí)的念頭。
2 發(fā)表8篇論文的姚班學(xué)生
2006年,朱晨光從安徽蕪湖來(lái)到首都北京上學(xué),成為清華大學(xué)計(jì)算機(jī)系的一名新生。那一年,與朱晨光一同來(lái)到清華園的NOI選手,還有朱澤園、唐文斌、龍凡等10人。
大二那年,久仰于圖靈獎(jiǎng)得主姚期智的風(fēng)采,朱晨光又通過(guò)考試選拔,考入了當(dāng)時(shí)由姚期智發(fā)起、成立還不到三年的軟件科學(xué)實(shí)驗(yàn)班,也就是傳說(shuō)中的“姚班”。那一屆,姚班一共有27名同學(xué),除了朱晨光,還有包括唐文斌在內(nèi)的4名NOI集訓(xùn)隊(duì)成員。
當(dāng)時(shí),交叉信息研究院還未成立,姚班仍屬于計(jì)算機(jī)系,朱晨光等人的上課內(nèi)容一半由姚班老師授予,一半是計(jì)算機(jī)系的其他課程。在姚班的10門核心課程中,姚期智教授其中的2門,其余課程則由來(lái)自微軟亞洲研究院的高級(jí)研究人員負(fù)責(zé)。這對(duì)朱晨光起到了很大的影響。
“姚先生在我心中就是大神,成就高山仰止,我非常榮幸能夠做他的學(xué)生?!敝斐抗飧锌V钡浆F(xiàn)在,他仍然每年都會(huì)與姚先生聯(lián)系,每當(dāng)取得好成績(jī)時(shí)都會(huì)與恩師匯報(bào)。
朱晨光談到,姚先生非常重視對(duì)姚班學(xué)生的培養(yǎng),雖然他有很多繁雜事務(wù),但還是堅(jiān)持每周都親自給姚班的學(xué)生上課。在姚先生教授的兩門課(《理論計(jì)算機(jī)》上下)中,朱晨光考得特別好,第一門滿分100,第二門99分,兩門課都是全班第一。
此外,姚先生一直鼓勵(lì)姚班學(xué)生盡早接觸科研,與領(lǐng)域里的大師多交流。姚先生每年都會(huì)舉辦幾次高級(jí)別的計(jì)算機(jī)會(huì)議,邀請(qǐng)國(guó)內(nèi)外知名的學(xué)者來(lái)交流,并讓姚班的本科生也參加。在“中國(guó)計(jì)算機(jī)科學(xué)2020”的論壇現(xiàn)場(chǎng),朱晨光便有幸與1985年圖靈獎(jiǎng)得主、UC Berkeley的教授Richard Karp進(jìn)行了交流。
圖注:2010年臨近畢業(yè)之際,朱晨光與姚期智合影
除了北京的學(xué)術(shù)交流活動(dòng),姚班還會(huì)組織與港澳大學(xué)進(jìn)行交流的冬令營(yíng)活動(dòng)。大三那年寒假,朱晨光便與姚班的同學(xué)一起去了香港科技大學(xué),待了一個(gè)星期,與港科大的學(xué)生一起上課、交流,開(kāi)闊眼界。
姚班的授課教材幾乎是全英文,課程內(nèi)容前沿,難度也比較高。因?yàn)楹茉缇兔劝l(fā)出國(guó)讀書(shū)的念頭,出國(guó)申請(qǐng)要求高績(jī)點(diǎn),所以朱晨光從大一開(kāi)始就很用功,在專業(yè)課與英語(yǔ)學(xué)習(xí)上投入了大量的時(shí)間與精力,希望每門課都能拿高分。
最后,功夫不負(fù)有心人,他的平均分達(dá)到92.2/100,排名全班第2、全級(jí)第4,榮獲清華大學(xué)優(yōu)秀學(xué)術(shù)獎(jiǎng)學(xué)金(授予排名前2%的學(xué)生),成為當(dāng)年清華計(jì)算機(jī)系唯一拿到斯坦福博士offer的學(xué)生。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。