ChatGPT成功背后的技術(shù)原因及其對生命科學(xué)領(lǐng)域的啟發(fā)
文章作者:碳硅智慧CEO 鄧亞峰
圖. DALLE2生成效果
時間來到了2022年11月底,OpenAI發(fā)布了ChatGPT。ChatGPT發(fā)布后,大家發(fā)現(xiàn)這個聊天機(jī)器人很不一般,經(jīng)常給出令人驚艷的回答。對話機(jī)器人領(lǐng)域曾出現(xiàn)過很多個對話機(jī)器人,比如蘋果的Siri,微軟的小冰小娜等,這些通用對話系統(tǒng)的體驗(yàn)都不是非常理想,大家拿來調(diào)戲一下就扔到了一邊。而智能音箱等產(chǎn)品中使用的指令執(zhí)行式問答機(jī)器人,系統(tǒng)框架是基于規(guī)則驅(qū)動的對話管理系統(tǒng),存在大量的手工規(guī)則,使得這些系統(tǒng)一方面無法擴(kuò)展到通用領(lǐng)域,只能進(jìn)行簡單程式化的回答,另一方面,無法處理多輪對話的環(huán)境語義信息(Context)。從技術(shù)層面看,ChatGPT和原來主流的對話系統(tǒng)完全不同,整個系統(tǒng)基于一個深度生成大模型,對于給定的輸入,經(jīng)過深度模型的處理,直接輸出抽象總結(jié)性的回答。而在產(chǎn)品體驗(yàn)上,ChatGPT也遠(yuǎn)遠(yuǎn)超越了過去的聊天系統(tǒng)。作為一個通用聊天機(jī)器人,它幾乎可以回答任何領(lǐng)域的問題,而且準(zhǔn)確率已經(jīng)達(dá)到人類愿意持續(xù)使用的要求,在多輪對話的場景下依然保持非常好的體驗(yàn)。當(dāng)然,ChatGPT并不完美,作為一個深度學(xué)習(xí)模型,ChatGPT存在無法百分之百精準(zhǔn)的缺陷,對于一些需要精確回答的問題(比如數(shù)學(xué)計算、邏輯推理或人名等),會出現(xiàn)一些可感知的明顯錯誤。后面又出現(xiàn)了一些改進(jìn)工作,比如有些工作會提供信息的參考網(wǎng)頁鏈接,而在Facebook最新的工作ToolFormer中,則嘗試在生成模型中,將特定任務(wù)交給特定API去計算,不走通用模型,這有望克服模型無法百分之百精準(zhǔn)的問題。如果這條路走通,深度生成模型有望成為AGI的核心框架,用插件方式集成其他技能API,想想就很激動人心。商業(yè)上,ChatGPT一方面引發(fā)了對于Google等搜索引擎挑戰(zhàn)的暢想,另一方面,大家看到了各種自然語言理解有關(guān)的垂直產(chǎn)品應(yīng)用機(jī)會。無疑,ChatGPT在自然語言理解領(lǐng)域正掀起一次可能媲美搜索推薦的新商業(yè)機(jī)會。ChatGPT為什么能有這樣驚艷的效果?其中一個核心原因是ChatGPT基于生成大模型GPT3.5構(gòu)建,這應(yīng)該是當(dāng)前自然語言理解領(lǐng)域文本生成最好的模型(GPT3.5比GPT3.0使用了更多的數(shù)據(jù)和更大的模型,具有更好的效果)。第二個核心原因則是基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù),即Reinforcement Learning from Human Feedback(簡寫作RLHF)。由于OpenAI并沒有發(fā)表ChatGPT的論文,也沒有代碼公開,大家一般認(rèn)為其與之前的一篇文章InstructGPT(https://arxiv.org/pdf/2203.02155.pdf)中批露的技術(shù)最為相近。如下圖所示,按照InstructGPT中的描述,第一步,先收集用戶對于同一問題不同答案的偏好數(shù)據(jù);第二步,利用這個偏好數(shù)據(jù)重新訓(xùn)練GPT模型,這一步是基于監(jiān)督信息的精調(diào);第三步,根據(jù)用戶對于不同答案的偏好,訓(xùn)練一個打分函數(shù),對于ChatGPT的答案會給出分?jǐn)?shù),這個分?jǐn)?shù)會體現(xiàn)出用戶對于不同答案的偏好;第四步,用這個打分函數(shù)作為強(qiáng)化學(xué)習(xí)的反饋(Reward)訓(xùn)練強(qiáng)化學(xué)習(xí)模型,使得ChatGPT最終輸出的答案更偏向于用戶喜歡的答案。通過上述過程,ChatGPT在GPT3.5的基礎(chǔ)上,針對用戶輸入,輸出對用戶更友好的回答。ChatGPT第一階段訓(xùn)練GPT生成模型使用的訓(xùn)練數(shù)據(jù)非常多,大約在幾十TB,訓(xùn)練一次模型需要花費(fèi)千萬美元,而第二個階段,基于強(qiáng)化學(xué)習(xí)的少量優(yōu)質(zhì)數(shù)據(jù)反饋則只需要數(shù)萬條優(yōu)質(zhì)數(shù)據(jù)。我們可以看到,ChatGPT技術(shù),是在自監(jiān)督預(yù)訓(xùn)練大模型基礎(chǔ)上結(jié)合基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù),取得了非常顯著的進(jìn)展。這種新的范式,有可能成為第三階段人工智能的核心驅(qū)動技術(shù),即首先基于自監(jiān)督預(yù)訓(xùn)練的大模型,再結(jié)合基于少量優(yōu)質(zhì)數(shù)據(jù)反饋的強(qiáng)化學(xué)習(xí)技術(shù),形成模型和數(shù)據(jù)的閉環(huán)反饋,獲得進(jìn)一步的技術(shù)突破。關(guān)于ChatGPT,我們的觀點(diǎn)如下:(1)ChatGPT確實(shí)是這個時代最偉大的工作之一,讓我們看到了基于自監(jiān)督預(yù)訓(xùn)練的生成大模型與基于少量優(yōu)質(zhì)數(shù)據(jù)強(qiáng)化學(xué)習(xí)反饋策略結(jié)果后AI的驚艷效果,某種意義上改變了我們的認(rèn)知。(2)ChatGPT相關(guān)技術(shù)具有非常大的商業(yè)價值,使得搜索引擎在內(nèi)的很多產(chǎn)品都面臨被重構(gòu)或者顛覆的機(jī)會,無疑會帶來很多新的商業(yè)機(jī)會,整個NLP領(lǐng)域都會受益。(3)基于自監(jiān)督預(yù)訓(xùn)練的生成大模型與基于少量優(yōu)質(zhì)數(shù)據(jù)強(qiáng)化學(xué)習(xí)反饋策略的學(xué)習(xí)范式,有望成為未來推動各個領(lǐng)域前進(jìn)的動力,除NLP領(lǐng)域外,有望在生命科學(xué)、機(jī)器人、自動駕駛等各個領(lǐng)域引發(fā)新一輪人工智能熱潮。(4)ChatGPT并不能證明人工智能已經(jīng)有了人類心智,ChatGPT表現(xiàn)出來的一些創(chuàng)造性和心智,是因?yàn)樽匀徽Z言理解語料中包含了語義、邏輯,基于自然語言語料訓(xùn)練出來的生成模型,統(tǒng)計意義上學(xué)習(xí)到了這些對應(yīng)關(guān)系,看起來似乎有了智能,但并不是真的有人類心智。ChatGPT很棒,但說他智力等于幾歲小朋友的說法,都不夠嚴(yán)謹(jǐn)。因?yàn)閺母旧现v,人學(xué)習(xí)新知識、進(jìn)行邏輯推理、想象、運(yùn)動反饋這些能力,目前AI還沒有具備。過度炒作ChatGPT的智能和能力,會劣幣驅(qū)逐良幣,損害整個行業(yè)。(5)在這個領(lǐng)域,中國的技術(shù)還有差距,過去兩年,我們還沒有看到真正復(fù)制出GPT3.0效果的文本生成模型,而沒有GPT3.0和3.5,就不會有ChatGPT。GPT3、GPT3.5和ChatGPT等工作都沒有開源,甚至API都對中國做了封鎖,這都是復(fù)制工作實(shí)際面臨的困難。說得悲觀一點(diǎn),大部分想復(fù)制ChatGPT效果的團(tuán)隊,都不會成功。(6)ChatGPT并不是一兩個研究人員做出的算法突破,而是在先進(jìn)理念指導(dǎo)下,非常復(fù)雜的算法工程體系創(chuàng)造出來的成果,需要在團(tuán)隊和組織上匹配(類比OpenAI和DeepMind)。純研究型的團(tuán)隊恐怕不能成功,對深度學(xué)習(xí)理解不夠、太工程化的團(tuán)隊也不會成功。這只團(tuán)隊需要:第一要有足夠資源支持,可以支撐昂貴的深度學(xué)習(xí)訓(xùn)練和人才招聘;第二要有真正在工業(yè)界領(lǐng)導(dǎo)過工程化大模型團(tuán)隊的專家領(lǐng)導(dǎo),ChatGPT不僅有算法創(chuàng)新,更是工程體系創(chuàng)新;第三,也可能是最重要的,需要一個團(tuán)結(jié)協(xié)作有統(tǒng)一領(lǐng)導(dǎo)且不追求論文發(fā)表的組織(松散型的組織利于算法創(chuàng)新,但不利于工程化算法攻堅),且配備足夠多優(yōu)秀的工程和算法人才。(7)我們不僅追求做一個ChatGPT,更要持續(xù)追求其背后的技術(shù)創(chuàng)新,即大力發(fā)展自監(jiān)督預(yù)訓(xùn)練生成大模型和基于少量優(yōu)質(zhì)數(shù)據(jù)的強(qiáng)化學(xué)習(xí)反饋策略技術(shù),這既是下一代ChatGPT的核心技術(shù),也是推動人工智能領(lǐng)域整體進(jìn)步的技術(shù)。最擔(dān)心的是,由于投機(jī)追風(fēng),造成力量分散而使大量資源被浪費(fèi),或者過度宣傳ChatGPT損害了行業(yè)。(8) ChatGPT還存在改進(jìn)空間,也不是唯一值得關(guān)注和期待的技術(shù)。對于AI,最常見的誤區(qū)是,高估其短期表現(xiàn),而低估其長期表現(xiàn)。這是一個AI成為核心推動力的偉大時代,但AI并不會那么快無所不能,需要我們長期努力。這里,我們簡單總結(jié)一下2012年以來深度學(xué)習(xí)引起的新一代人工智能浪潮里面的關(guān)鍵技術(shù)演進(jìn):(1)第一個階段,關(guān)鍵進(jìn)展是標(biāo)記數(shù)據(jù)驅(qū)動的有監(jiān)督深度學(xué)習(xí)模型,大幅提高了模型表示能力,從而推動人工智能技術(shù)顯著進(jìn)步,這個階段最活躍的是計算機(jī)視覺和語音識別領(lǐng)域,主要的局限是有標(biāo)記數(shù)據(jù)比較貴,限制了可以獲得的數(shù)據(jù)量,進(jìn)而限制了數(shù)據(jù)能支撐的有效模型大小。(2)第二個階段,關(guān)鍵進(jìn)展是自監(jiān)督預(yù)訓(xùn)練大數(shù)據(jù)驅(qū)動的通用大模型,自監(jiān)督預(yù)訓(xùn)練技術(shù)使得可用訓(xùn)練數(shù)據(jù)有了幾個數(shù)量級的提升,從而支撐著模型大小也有了數(shù)個數(shù)量級的提高,成為無需依賴下游任務(wù)領(lǐng)域數(shù)據(jù)再訓(xùn)練的通用模型,這個階段進(jìn)步最大、最活躍的是自然語言理解領(lǐng)域;主要的局限在于需要海量數(shù)據(jù)訓(xùn)練,且模型非常大,訓(xùn)練和使用都非常昂貴,重新訓(xùn)練垂直場景模型也非常不方便。(3)第三個階段,目前雖然還不能蓋棺論定,但呈現(xiàn)出一定趨勢。未來非常重要的技術(shù)關(guān)鍵在于,能否在大模型的基礎(chǔ)上,用強(qiáng)化學(xué)習(xí)、Prompting等方式,僅通過少量優(yōu)質(zhì)數(shù)據(jù)就能顯著影響大模型的輸出結(jié)果。如果這個技術(shù)走通,那么無人駕駛、機(jī)器人以及生命科學(xué)等數(shù)據(jù)獲取昂貴的領(lǐng)域?qū)@著受益。過去,如果想改善AI模型存在的問題,必須采集大量的數(shù)據(jù)重新訓(xùn)練模型。假如,在需要線下交互的機(jī)器人領(lǐng)域,在預(yù)訓(xùn)練大模型的基礎(chǔ)上,僅通過告知機(jī)器人真實(shí)場景中一些正確和錯誤的動作選擇就能影響機(jī)器人的決策,那么無人駕駛和機(jī)器人領(lǐng)域在技術(shù)迭代上會更加高效。生命科學(xué)領(lǐng)域,如果僅通過少量的試驗(yàn)數(shù)據(jù)反饋,就能顯著影響模型預(yù)測結(jié)果的話,整個生命科學(xué)領(lǐng)域與計算融合的革命將會來得更快一些。在這一點(diǎn)上,ChatGPT是非常重要的里程碑,相信后面還會有非常多的工作出現(xiàn)。讓我們把目光回到我們更關(guān)注的生命科學(xué)領(lǐng)域。由于ChatGPT帶來的技術(shù)進(jìn)步改善了大多數(shù)NLP相關(guān)領(lǐng)域,所以,生命科學(xué)領(lǐng)域內(nèi)和信息查詢檢索抽取有關(guān)的技術(shù)和產(chǎn)品,會優(yōu)先受益。例如,在未來有沒有可能出現(xiàn)一個生命科學(xué)領(lǐng)域?qū)υ挿绞降拇怪彼阉饕?,專家可以向它詢問任何問題(比如關(guān)于疾病、靶點(diǎn)、蛋白等有關(guān)的問題),它一方面可以給出綜合趨勢的判定(也許沒有那么精確,但大概正確,有助于我們快速了解一個領(lǐng)域),另一方面可以給出關(guān)于某個話題的相關(guān)有價值資料,這無疑會顯著改善專家的信息處理效率。還例如,能否構(gòu)建一個AI醫(yī)生,病人可以咨詢有關(guān)疾病的知識和處理辦法(限于技術(shù)的局限,AI無法給出精確的答案,更無法代替醫(yī)生),但可以給出很多信息參考和后續(xù)該做什么的建議,其體驗(yàn)一定會顯著優(yōu)于現(xiàn)在的搜索引擎。生命科學(xué)領(lǐng)域本身還存在很多沒有被解決的重要任務(wù),比如小分子-蛋白結(jié)合構(gòu)象和親和力預(yù)測、蛋白-蛋白相互作用預(yù)測、小分子表示和性質(zhì)預(yù)測、蛋白質(zhì)性質(zhì)預(yù)測、小分子生成、蛋白質(zhì)設(shè)計、逆合成路線設(shè)計等任務(wù)。目前看這些問題還沒有被完美解決,如果在這些任務(wù)上取得突破,那么****物發(fā)現(xiàn)甚至整個生命科學(xué)領(lǐng)域,都會迎來巨大變化。基于大模型的AIGC領(lǐng)域,以及基于專家或試驗(yàn)反饋的RLHF領(lǐng)域,受益于ChatGPT的推動,一定會引來一輪新的技術(shù)進(jìn)步。其中AIGC(人工智能內(nèi)容生成)技術(shù),在過去一年中,已經(jīng)在小分子生成、蛋白質(zhì)設(shè)計等領(lǐng)域取得了不錯的進(jìn)展。我們預(yù)測,在不遠(yuǎn)的未來,下列任務(wù)將顯著受益于AIGC生成技術(shù)的發(fā)展,產(chǎn)生技術(shù)階躍:(1)小分子生成和優(yōu)化技術(shù),即如何不依賴活性配體信息,而是基于蛋白口袋結(jié)構(gòu)信息生成綜合考慮活性、成****性、可合成性等多種條件約束的配體小分子,這部分技術(shù)將顯著受益于AIGC領(lǐng)域的發(fā)展;(2)構(gòu)象預(yù)測某種意義上可以看作是生成問題,小分子和蛋白結(jié)合構(gòu)象預(yù)測任務(wù)也會受益于AIGC相關(guān)技術(shù)的發(fā)展;(3)蛋白質(zhì)、多肽、AAV等序列設(shè)計領(lǐng)域,也一定會受益于AIGC技術(shù)的發(fā)展。上述AIGC相關(guān)任務(wù),以及幾乎所有需要試驗(yàn)驗(yàn)證反饋的任務(wù),包括但不限于活性預(yù)測、性質(zhì)預(yù)測、合成路線設(shè)計等,都將有機(jī)會受益于RLHF技術(shù)帶來的紅利。當(dāng)然也存在很多挑戰(zhàn)。受限于可用數(shù)據(jù)數(shù)量,當(dāng)前生命科學(xué)領(lǐng)域使用的生成模型還比較淺,主要使用的是GNN等淺層深度學(xué)習(xí)模型(GNN受限于消息傳遞的平滑性,層數(shù)只能使用到3層左右),生成效果上雖然體現(xiàn)了很好的潛力,但依然沒有ChatGPT那樣驚艷。而基于專家或試驗(yàn)反饋的強(qiáng)化學(xué)習(xí)技術(shù),受限于試驗(yàn)數(shù)據(jù)產(chǎn)生速度以及生成模型表示能力不夠的影響,驚艷效果呈現(xiàn)也會需要一定的時間。但從ChatGPT技術(shù)演進(jìn)趨勢推演,如果能訓(xùn)練足夠深、表示能力足夠強(qiáng)的生成大模型,并且利用強(qiáng)化學(xué)習(xí),基于少量優(yōu)質(zhì)試驗(yàn)數(shù)據(jù)或者專家反饋來進(jìn)一步提升生成大模型的效果,我們可以預(yù)期AIDD領(lǐng)域一定會迎來一次革命。簡而言之,ChatGPT不僅是自然語言理解領(lǐng)域的一項(xiàng)技術(shù)進(jìn)步,會引發(fā)新一輪信息服務(wù)和內(nèi)容生成領(lǐng)域的商業(yè)潮流,同時,其背后基于海量數(shù)據(jù)的深度生成技術(shù),以及基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù),是更長遠(yuǎn)的進(jìn)步動力,會引起生命科學(xué)等領(lǐng)域的長足發(fā)展。我們會再迎來一次AI技術(shù)進(jìn)步和產(chǎn)業(yè)落地的浪潮。*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。