GPT-4 即將亮相?聊聊目前已知的一切
大數(shù)據(jù)文摘轉(zhuǎn)載自 AI 前線
作者:Alberto Romero
GPT-3 首度亮相于大約兩年之前的 2020 年 5 月,當(dāng)時(shí)正值 GPT-2 發(fā)布的一年之后。而 GPT-2 距離最初 GPT 研究論文的發(fā)表也是相隔一年。如果這種周期性趨勢(shì)繼續(xù)保持不變,那 GPT-4 肯定也快跟大家見面了。但 OpenAI 公司 CEO Sam Altman 幾個(gè)月前已經(jīng)打過預(yù)防針,表示 GPT-4 預(yù)計(jì)會(huì)在 2022 年年內(nèi)推出,具體可能是在 7 月到 8 月左右。
雖然備受矚目,但 GPT-4 目前的公開消息確實(shí)相當(dāng)有限:它會(huì)是什么樣子、帶來怎樣的特性或能力,一概不知。Altman 去年曾在一場(chǎng)問答中談到過 OpenAI 對(duì)于 GPT-4 項(xiàng)目的規(guī)劃,但同時(shí)也提醒與會(huì)者盡量保持冷靜、不要過度樂觀。如今七個(gè)月已經(jīng)過去,咱們可以回頭看看他的發(fā)言了。Altman 首先確認(rèn),GPT-4 的參數(shù)量不會(huì)達(dá)到 100 萬億,畢竟規(guī)模真到那個(gè)程度、今年年內(nèi)也就不用指望了。
OpenAI 很有一段時(shí)間沒聊過 GPT-4 的事了,但結(jié)合 AI 領(lǐng)域、特別是 NLP 領(lǐng)域獲得高度關(guān)注的熱門趨勢(shì),我們倒是可以推斷一下 GPT-4 的開發(fā)思路??紤]到這些方法大獲成功、OpenAI 又都有參與其中,咱們可以從 Altman 的發(fā)言中整理出點(diǎn)線索。先說結(jié)論:我覺得 GPT-4 不會(huì)繼續(xù)走模型越來越大的老路。
下面來看關(guān)于 GPT-4 的具體預(yù)測(cè)。
模型大?。篏PT-4 不會(huì)走越來越大的老路
GPT-4 不會(huì)在規(guī)模上刷新語言模型的新紀(jì)錄。Altman 提到 GPT-4 不會(huì)比 GPT-3 大多少。雖然跟前幾代神經(jīng)網(wǎng)絡(luò)相比,GPT-4 肯定也不算小,但其發(fā)展思路應(yīng)該有所改變。我猜 GPT-4 可能介于 GPT-3 和 Gopher(1750 億到 2800 億參數(shù))之間。
這可不是亂說的,我有恰當(dāng)?shù)睦碛伞?/span>
英偉達(dá)和微軟去年建立的 Megatron-Turing NLG 以 5300 億參數(shù)獲得了最大密集神經(jīng)網(wǎng)絡(luò)的稱號(hào),體量已經(jīng)達(dá)到 GPT-3 的 3 倍。直到最近,谷歌的 PaLM 才以 5400 億參數(shù)將其擠下寶座。但值得注意的是,MT-NLG 之后相繼出現(xiàn)了一些體量較小、但性能水平更高的新模型。
時(shí)代變了,更大不再等于更好。
這些更小卻更好的模型,給我們帶來了兩個(gè)啟示。
首先,企業(yè)們意識(shí)到用做大模型的方式提高代理性能既不是唯一的方法、也不再是最好的方法。2020 年,OpenAI 的 Jared Kaplan 和同事們就已經(jīng)得出結(jié)論,當(dāng)算力規(guī)模的增加主要用于根據(jù)冪律關(guān)系擴(kuò)展參數(shù)數(shù)量時(shí),性能提升效果最佳。谷歌、英偉達(dá)、微軟、OpenAI、DeepMind 等語言模型開發(fā)公司明顯走的都是這個(gè)路子。
然而,MT-NLG 的出現(xiàn)證明參數(shù)更多并不一定代表性能更好。事實(shí)上,它在任何單一基準(zhǔn)測(cè)試類別中都拿不到最高分。反而是 Gopher(2800 億參數(shù))或 Chinchilla(700 億參數(shù))等相對(duì)較小的模型,在實(shí)際表現(xiàn)上遠(yuǎn)超 MT-NLG。
這就帶來了第二點(diǎn)啟發(fā)。
企業(yè)開始對(duì)“越大越好”的僵化教條說不。事實(shí)證明,參數(shù)量的增加只是提高性能的多種因素之一。而由此帶來的負(fù)面影響(例如碳排放增加、計(jì)算成本膨脹、準(zhǔn)入門檻過高)已經(jīng)讓這種看似簡(jiǎn)單的方法不再簡(jiǎn)單。于是乎,各家企業(yè)只會(huì)在沒法通過較小模型獲得相似或更佳表現(xiàn)時(shí),才考慮構(gòu)建巨大模型。
Altman 表示,他們也決定由此轉(zhuǎn)型、探索怎樣讓更小的模型發(fā)揮更佳效能。OpenAI 的研究人員們?cè)?jīng)是“規(guī)模擴(kuò)張”派的早期支持者,但現(xiàn)在他們可能也意識(shí)到還有其他模型改進(jìn)路線值得探索。
正因?yàn)槿绱耍珿PT-4 才不會(huì)比 GPT-3 大很多。OpenAI 將把關(guān)注重點(diǎn)轉(zhuǎn)向其他方面——例如數(shù)據(jù)、算法、參數(shù)化或者對(duì)齊,這些反而更有希望帶來顯著改進(jìn)。所以傳說中的 100 萬億參數(shù)模型恐怕暫時(shí)沒戲嘍。
優(yōu)化:發(fā)掘 GPT-4 的全部潛能
語言模型優(yōu)化一直是個(gè)惱人的問題。因?yàn)槟P偷挠?xùn)練成本過高,企業(yè)不得不在準(zhǔn)確性與成本之間做出權(quán)衡,這又往往導(dǎo)致模型優(yōu)化程度不夠理想。
GPT-3 只訓(xùn)練過一次,后續(xù)只會(huì)在特殊情況下針對(duì)錯(cuò)誤進(jìn)行重新訓(xùn)練。OpenAI 決定不這么搞了,因?yàn)槌杀咎^高昂、研究人員也沒辦法找到模型的最佳超參數(shù)集(例如學(xué)習(xí)率、批次大小、序列長(zhǎng)度等)。
高訓(xùn)練成本帶來的另一個(gè)后果,就是難以對(duì)模型行為開展分析。當(dāng)初 Kaplan 團(tuán)隊(duì)認(rèn)定模型大小將成為性能提升的關(guān)鍵變量時(shí),并沒有考慮到訓(xùn)練 token 的數(shù)量——即模型輸入的數(shù)據(jù)量。這明顯需要消耗大量計(jì)算資源。
而科技巨頭們之所以走上 Kaplan 的這條道路,就是因?yàn)樽约菏掷镎莆罩罅克懔ΑVS刺的是,谷歌、微軟、Facebook 等大廠在這些碩大無比的模型身上“浪費(fèi)”了數(shù)百萬美元,由此造成的污染更是難以估計(jì),但最初的目的卻是為了省錢。
如今,以 DeepMind 和 OpenAI 為代表的企業(yè)開始探索其他方法,希望找到最佳、而非最大的模型。
最優(yōu)參數(shù)化
上個(gè)月,微軟和 OpenAI 已經(jīng)證明只要用最佳超參數(shù)訓(xùn)練模型,GPT-3 還有進(jìn)一步改進(jìn)的空間。他們發(fā)現(xiàn) GPT-3 的 67 億參數(shù)版本能夠借此實(shí)現(xiàn)性能飛躍,表現(xiàn)甚至不遜于最早 130 億參數(shù)的版本。由此可見,在大型模型中根本不可行的超參數(shù)調(diào)優(yōu)其實(shí)前景光明,完全能夠?qū)崿F(xiàn)相當(dāng)于參數(shù)倍增的性能提升。
雙方還發(fā)現(xiàn)一種新的參數(shù)化方法 (μP),證明小模型中的最佳超參數(shù)在同家族的較大模型中同樣適用。μP 能夠以更低的訓(xùn)練成本對(duì)任意大小的模型進(jìn)行優(yōu)化,之后以幾乎零成本方式將得出的超參數(shù)遷移至更大的模型當(dāng)中。
最優(yōu)計(jì)算模型
幾周之前,DeepMind 重新審查了 Kaplan 的發(fā)現(xiàn),并意識(shí)到與人們的普遍認(rèn)知相反,訓(xùn)練 token 數(shù)量對(duì)于性能的影響基本等同于模型大小。他們由此得出結(jié)論,認(rèn)為隨著算力資源的提升,最好是把這些資源平均分配給新增的參數(shù)和數(shù)據(jù)。他們還通過訓(xùn)練 Chinchilla 來驗(yàn)證這一假設(shè)——Chinchilla 是一個(gè)包含 700 億參數(shù)的模型(相當(dāng)于 Gopher 的四分之一),但訓(xùn)練用的數(shù)據(jù)量卻是自 GPT-3 以來所有大型語言模型的 4 倍(共使用 1.4 萬億個(gè) token,遠(yuǎn)超常規(guī)的 3000 億水平)。
結(jié)果令人欣喜。Chinchilla 在眾多語言基準(zhǔn)測(cè)試中“穩(wěn)定且顯著”優(yōu)于 Gopher、GPT-3、MT-NLG 等因體量過大而無法充分訓(xùn)練的其他語言模型。
考慮到 GPT-4 終歸還是要比 GPE-3 略大,所以讓它達(dá)到最優(yōu)計(jì)算水平所需要的訓(xùn)練 token 量應(yīng)該在 5 萬億左右(根據(jù) DeepMind 的發(fā)現(xiàn)),這要比當(dāng)前數(shù)據(jù)集高出一個(gè)量級(jí)。而達(dá)成最小訓(xùn)練損失所需要的算力總量則相當(dāng)于 GPT-3 的約 10 至 20 倍(按 Gopher 的算力消耗來推斷)。
Altman 在問答中提到 GPT-4 占用的算力總量要超過 GPT-3,也許說的就是這個(gè)意思。
OpenAI 肯定會(huì)在 GPT-4 中充分發(fā)掘最優(yōu)方案,但由于不知道他們劃定了多少資源預(yù)算,所以很難給出確切的推斷。不過可以肯定的是,OpenAI 一定會(huì)專注于優(yōu)化除模型大小之外的其他變量。只要能找到最優(yōu)超參數(shù)集、計(jì)算模型大小以及參數(shù)數(shù)量,那 GPT-4 完全有希望在全部基準(zhǔn)測(cè)試中帶來超出想象的優(yōu)異表現(xiàn)。如果它真能獲得這樣集萬千優(yōu)勢(shì)于一身的形態(tài),那么 GPT-4 就是毫無疑問的語言模型之王。
Altman 還提到,人們一直覺得更大的模型肯定就更好,言下之意可能是規(guī)模擴(kuò)張的道路將由此終結(jié)。
多模態(tài):GPT-4 將是一個(gè)純文本模型
深度學(xué)習(xí)的未來在于多模態(tài)模型。人類的大腦包含多種感官系統(tǒng),為的正是適應(yīng)現(xiàn)實(shí)中的多模世界。但只能支持一種模態(tài)、理解一種感知的 AI 模型,明顯無法在理解與分析能力方面再上一個(gè)臺(tái)階。
必須承認(rèn),良好的多模態(tài)模型要比純語言或純視覺模型更難構(gòu)建。光是把視覺和文本信息組成成單一表示本身,就已經(jīng)是項(xiàng)異常艱巨的任務(wù)。我們甚至不清楚人腦是怎么做到這一點(diǎn)的(當(dāng)然,深度學(xué)習(xí)社區(qū)其實(shí)也沒有深入鉆研認(rèn)知學(xué)意義上的大腦結(jié)構(gòu)和功能分區(qū)),當(dāng)然沒辦法在神經(jīng)網(wǎng)絡(luò)中重現(xiàn)這種能力。
Altman 在問答中提到,GPT-4 不會(huì)是像 DALL·E 或者 LaMDA 那樣的多模態(tài)模型,而是一個(gè)純文本模型。我猜他們希望把語言模型推到極致,在轉(zhuǎn)向下一代多模態(tài) AI 之前先搞定模型調(diào)優(yōu)與數(shù)據(jù)集大小等問題。
稀疏性:GPT-4 將是個(gè)密集模型
稀疏模型采取的是有條件計(jì)算思路,即使用模型中的不同部分來處理不同類型的輸入。這種方法近期取得了巨大成功,相關(guān)模型甚至能夠輕松擴(kuò)展到超萬億參數(shù)規(guī)模,卻又不會(huì)受到高計(jì)算成本的影響。這相當(dāng)于是在模型大小和算力預(yù)算之間找到了理想的平衡點(diǎn)。然而,這種 MoE 方法的優(yōu)勢(shì)在超大規(guī)模模型中往往會(huì)急劇減弱。
考慮到 OpenAI 多年來一直堅(jiān)持探索密集語言模型,所以我們有理由相信未來的 GPT-4 也會(huì)是密集模型。Altman 還提到 GPT-4 不會(huì)比 GPT-3 大太多,所以我們認(rèn)為 OpenAI 不會(huì)在 GPT-4 上走稀疏模型的道路——至少這次內(nèi)不會(huì)。
但人腦其實(shí)就高度依賴于稀疏處理,所以跟多模態(tài)相似,稀疏模型也很可能在未來幾代神經(jīng)網(wǎng)絡(luò)中成為主流。
對(duì)齊:GPT-4 對(duì)齊度將高于 GPT-3
OpenAI 在 AI 對(duì)齊問題上做出了諸多努力,其核心在于探索如何讓語言模型遵循人類的意圖、符合人類價(jià)值觀。這不只是個(gè)數(shù)學(xué)難題(即如何讓 AI 準(zhǔn)確理解我們想要的結(jié)果),同時(shí)也屬于哲學(xué)挑戰(zhàn)(由于不同人類群體間的價(jià)值觀存在巨大差異、甚至相互矛盾,所以不可能存在一種能讓 AI 與人類永遠(yuǎn)保持一致的通用方法)。
但 OpenAI 仍然勇敢做出了嘗試,最初的探索就是 InstructGPT。這是一個(gè)經(jīng)過更新的 GPT-3 模型,能夠接收人工反饋以學(xué)會(huì)遵循指令(但暫不考慮這些指令是否友善)。
InstructGPT 的核心突破,在于無論它在語言基準(zhǔn)測(cè)試上得分如何,生成的結(jié)果都更符合人類評(píng)判者的喜好(但 OpenAI 員工基本都說英語,所以這個(gè)結(jié)論也仍然不完全可靠)。從這個(gè)角度看,也許我們未來不該單純用基準(zhǔn)測(cè)試作為 AI 能力評(píng)估的唯一指標(biāo)。人類的感受可能同樣重要、甚至更加重要。
之前 Altman 與 OpenAI 都曾經(jīng)對(duì)有益人工通用智能(AGI)發(fā)表過嚴(yán)肅承諾,所以我相信 GPT-4 肯定會(huì)借用一部分從 InstructGPT 中獲得的發(fā)現(xiàn)。
他們會(huì)改進(jìn)模型的對(duì)齊方式,突破只順應(yīng)“說英語的內(nèi)部員工”的樊籬。真正的對(duì)齊必須能夠順應(yīng)不同性別、不同種族、不同國(guó)籍、不同宗教信仰等各類群體的習(xí)慣。這當(dāng)然是個(gè)嚴(yán)苛挑戰(zhàn),而朝這個(gè)目標(biāo)邁出的任何一步都將是可喜的進(jìn)展。
情報(bào)總結(jié)
模型大?。篏PT-4 會(huì)比 GPT-3 更大,但應(yīng)該小于當(dāng)前最大的語言模型(5300 億參數(shù)的 MT-NLG 與 5400 億參數(shù)的 PaLM)。總之,GPT-4 不再?gòu)?qiáng)調(diào)以大取勝。
優(yōu)化:GPT-4 消耗的算力比 GPT-3 更多。它將在參數(shù)化(最優(yōu)超參數(shù))與規(guī)模擴(kuò)展(訓(xùn)練 token 數(shù)量與模型大小同等重要)方面做出新的最優(yōu)性探索。
多模態(tài):GPT-4 將是一個(gè)純文本模型(而非多模態(tài)模型)。OpenAI 正努力將語言模型發(fā)揮到極致,之后再逐步轉(zhuǎn)向 DALL·E 等有望全面超越單模態(tài)系統(tǒng)的多模態(tài)模型。
稀疏性:GPT-4 將延續(xù) GPT-2 與 GPT-3 的趨勢(shì),仍然保持密集模型的身份(使用全部參數(shù)來處理任何給定輸入)。但未來稀疏性可能逐漸占據(jù)主導(dǎo)地位。
對(duì)齊:GPT-4 的對(duì)齊程度將高于 GPT-3。借助從 InstructGPT 中總結(jié)出的知識(shí),GPT-4 也將獲得由人工反饋訓(xùn)練得出的寶貴經(jīng)驗(yàn)。但 AI 對(duì)齊難題的徹底解決還有很長(zhǎng)的路要走,目前仍在探索階段、不宜大肆宣揚(yáng)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。