GPT-4 即將亮相？聊聊目前已知的一切

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2022-04-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

大數(shù)據(jù)文摘轉(zhuǎn)載自 AI 前線

作者：Alberto Romero

GPT-3 首度亮相于大約兩年之前的 2020 年 5 月，當(dāng)時(shí)正值 GPT-2 發(fā)布的一年之后。而 GPT-2 距離最初 GPT 研究論文的發(fā)表也是相隔一年。如果這種周期性趨勢(shì)繼續(xù)保持不變，那 GPT-4 肯定也快跟大家見面了。但 OpenAI 公司 CEO Sam Altman 幾個(gè)月前已經(jīng)打過預(yù)防針，表示 GPT-4 預(yù)計(jì)會(huì)在 2022 年年內(nèi)推出，具體可能是在 7 月到 8 月左右。

雖然備受矚目，但 GPT-4 目前的公開消息確實(shí)相當(dāng)有限：它會(huì)是什么樣子、帶來怎樣的特性或能力，一概不知。Altman 去年曾在一場(chǎng)問答中談到過 OpenAI 對(duì)于 GPT-4 項(xiàng)目的規(guī)劃，但同時(shí)也提醒與會(huì)者盡量保持冷靜、不要過度樂觀。如今七個(gè)月已經(jīng)過去，咱們可以回頭看看他的發(fā)言了。Altman 首先確認(rèn)，GPT-4 的參數(shù)量不會(huì)達(dá)到 100 萬億，畢竟規(guī)模真到那個(gè)程度、今年年內(nèi)也就不用指望了。

OpenAI 很有一段時(shí)間沒聊過 GPT-4 的事了，但結(jié)合 AI 領(lǐng)域、特別是 NLP 領(lǐng)域獲得高度關(guān)注的熱門趨勢(shì)，我們倒是可以推斷一下 GPT-4 的開發(fā)思路?？紤]到這些方法大獲成功、OpenAI 又都有參與其中，咱們可以從 Altman 的發(fā)言中整理出點(diǎn)線索。先說結(jié)論：我覺得 GPT-4 不會(huì)繼續(xù)走模型越來越大的老路。

下面來看關(guān)于 GPT-4 的具體預(yù)測(cè)。

模型大?。篏PT-4 不會(huì)走越來越大的老路

GPT-4 不會(huì)在規(guī)模上刷新語言模型的新紀(jì)錄。Altman 提到 GPT-4 不會(huì)比 GPT-3 大多少。雖然跟前幾代神經(jīng)網(wǎng)絡(luò)相比，GPT-4 肯定也不算小，但其發(fā)展思路應(yīng)該有所改變。我猜 GPT-4 可能介于 GPT-3 和 Gopher（1750 億到 2800 億參數(shù)）之間。

這可不是亂說的，我有恰當(dāng)?shù)睦碛伞?/span>

英偉達(dá)和微軟去年建立的 Megatron-Turing NLG 以 5300 億參數(shù)獲得了最大密集神經(jīng)網(wǎng)絡(luò)的稱號(hào)，體量已經(jīng)達(dá)到 GPT-3 的 3 倍。直到最近，谷歌的 PaLM 才以 5400 億參數(shù)將其擠下寶座。但值得注意的是，MT-NLG 之后相繼出現(xiàn)了一些體量較小、但性能水平更高的新模型。

時(shí)代變了，更大不再等于更好。

這些更小卻更好的模型，給我們帶來了兩個(gè)啟示。

首先，企業(yè)們意識(shí)到用做大模型的方式提高代理性能既不是唯一的方法、也不再是最好的方法。2020 年，OpenAI 的 Jared Kaplan 和同事們就已經(jīng)得出結(jié)論，當(dāng)算力規(guī)模的增加主要用于根據(jù)冪律關(guān)系擴(kuò)展參數(shù)數(shù)量時(shí)，性能提升效果最佳。谷歌、英偉達(dá)、微軟、OpenAI、DeepMind 等語言模型開發(fā)公司明顯走的都是這個(gè)路子。

然而，MT-NLG 的出現(xiàn)證明參數(shù)更多并不一定代表性能更好。事實(shí)上，它在任何單一基準(zhǔn)測(cè)試類別中都拿不到最高分。反而是 Gopher（2800 億參數(shù)）或 Chinchilla（700 億參數(shù)）等相對(duì)較小的模型，在實(shí)際表現(xiàn)上遠(yuǎn)超 MT-NLG。

這就帶來了第二點(diǎn)啟發(fā)。

企業(yè)開始對(duì)“越大越好”的僵化教條說不。事實(shí)證明，參數(shù)量的增加只是提高性能的多種因素之一。而由此帶來的負(fù)面影響（例如碳排放增加、計(jì)算成本膨脹、準(zhǔn)入門檻過高）已經(jīng)讓這種看似簡(jiǎn)單的方法不再簡(jiǎn)單。于是乎，各家企業(yè)只會(huì)在沒法通過較小模型獲得相似或更佳表現(xiàn)時(shí)，才考慮構(gòu)建巨大模型。

Altman 表示，他們也決定由此轉(zhuǎn)型、探索怎樣讓更小的模型發(fā)揮更佳效能。OpenAI 的研究人員們?cè)?jīng)是“規(guī)模擴(kuò)張”派的早期支持者，但現(xiàn)在他們可能也意識(shí)到還有其他模型改進(jìn)路線值得探索。

正因?yàn)槿绱耍珿PT-4 才不會(huì)比 GPT-3 大很多。OpenAI 將把關(guān)注重點(diǎn)轉(zhuǎn)向其他方面——例如數(shù)據(jù)、算法、參數(shù)化或者對(duì)齊，這些反而更有希望帶來顯著改進(jìn)。所以傳說中的 100 萬億參數(shù)模型恐怕暫時(shí)沒戲嘍。

優(yōu)化：發(fā)掘 GPT-4 的全部潛能

語言模型優(yōu)化一直是個(gè)惱人的問題。因?yàn)槟Ｐ偷挠?xùn)練成本過高，企業(yè)不得不在準(zhǔn)確性與成本之間做出權(quán)衡，這又往往導(dǎo)致模型優(yōu)化程度不夠理想。

GPT-3 只訓(xùn)練過一次，后續(xù)只會(huì)在特殊情況下針對(duì)錯(cuò)誤進(jìn)行重新訓(xùn)練。OpenAI 決定不這么搞了，因?yàn)槌杀咎^高昂、研究人員也沒辦法找到模型的最佳超參數(shù)集（例如學(xué)習(xí)率、批次大小、序列長(zhǎng)度等）。

高訓(xùn)練成本帶來的另一個(gè)后果，就是難以對(duì)模型行為開展分析。當(dāng)初 Kaplan 團(tuán)隊(duì)認(rèn)定模型大小將成為性能提升的關(guān)鍵變量時(shí)，并沒有考慮到訓(xùn)練 token 的數(shù)量——即模型輸入的數(shù)據(jù)量。這明顯需要消耗大量計(jì)算資源。

而科技巨頭們之所以走上 Kaplan 的這條道路，就是因?yàn)樽约菏掷镎莆罩罅克懔ΑＶS刺的是，谷歌、微軟、Facebook 等大廠在這些碩大無比的模型身上“浪費(fèi)”了數(shù)百萬美元，由此造成的污染更是難以估計(jì)，但最初的目的卻是為了省錢。

如今，以 DeepMind 和 OpenAI 為代表的企業(yè)開始探索其他方法，希望找到最佳、而非最大的模型。

最優(yōu)參數(shù)化

上個(gè)月，微軟和 OpenAI 已經(jīng)證明只要用最佳超參數(shù)訓(xùn)練模型，GPT-3 還有進(jìn)一步改進(jìn)的空間。他們發(fā)現(xiàn) GPT-3 的 67 億參數(shù)版本能夠借此實(shí)現(xiàn)性能飛躍，表現(xiàn)甚至不遜于最早 130 億參數(shù)的版本。由此可見，在大型模型中根本不可行的超參數(shù)調(diào)優(yōu)其實(shí)前景光明，完全能夠?qū)崿F(xiàn)相當(dāng)于參數(shù)倍增的性能提升。

雙方還發(fā)現(xiàn)一種新的參數(shù)化方法 (μP)，證明小模型中的最佳超參數(shù)在同家族的較大模型中同樣適用。μP 能夠以更低的訓(xùn)練成本對(duì)任意大小的模型進(jìn)行優(yōu)化，之后以幾乎零成本方式將得出的超參數(shù)遷移至更大的模型當(dāng)中。

最優(yōu)計(jì)算模型

幾周之前，DeepMind 重新審查了 Kaplan 的發(fā)現(xiàn)，并意識(shí)到與人們的普遍認(rèn)知相反，訓(xùn)練 token 數(shù)量對(duì)于性能的影響基本等同于模型大小。他們由此得出結(jié)論，認(rèn)為隨著算力資源的提升，最好是把這些資源平均分配給新增的參數(shù)和數(shù)據(jù)。他們還通過訓(xùn)練 Chinchilla 來驗(yàn)證這一假設(shè)——Chinchilla 是一個(gè)包含 700 億參數(shù)的模型（相當(dāng)于 Gopher 的四分之一），但訓(xùn)練用的數(shù)據(jù)量卻是自 GPT-3 以來所有大型語言模型的 4 倍（共使用 1.4 萬億個(gè) token，遠(yuǎn)超常規(guī)的 3000 億水平）。

結(jié)果令人欣喜。Chinchilla 在眾多語言基準(zhǔn)測(cè)試中“穩(wěn)定且顯著”優(yōu)于 Gopher、GPT-3、MT-NLG 等因體量過大而無法充分訓(xùn)練的其他語言模型。

考慮到 GPT-4 終歸還是要比 GPE-3 略大，所以讓它達(dá)到最優(yōu)計(jì)算水平所需要的訓(xùn)練 token 量應(yīng)該在 5 萬億左右（根據(jù) DeepMind 的發(fā)現(xiàn)），這要比當(dāng)前數(shù)據(jù)集高出一個(gè)量級(jí)。而達(dá)成最小訓(xùn)練損失所需要的算力總量則相當(dāng)于 GPT-3 的約 10 至 20 倍（按 Gopher 的算力消耗來推斷）。

Altman 在問答中提到 GPT-4 占用的算力總量要超過 GPT-3，也許說的就是這個(gè)意思。

OpenAI 肯定會(huì)在 GPT-4 中充分發(fā)掘最優(yōu)方案，但由于不知道他們劃定了多少資源預(yù)算，所以很難給出確切的推斷。不過可以肯定的是，OpenAI 一定會(huì)專注于優(yōu)化除模型大小之外的其他變量。只要能找到最優(yōu)超參數(shù)集、計(jì)算模型大小以及參數(shù)數(shù)量，那 GPT-4 完全有希望在全部基準(zhǔn)測(cè)試中帶來超出想象的優(yōu)異表現(xiàn)。如果它真能獲得這樣集萬千優(yōu)勢(shì)于一身的形態(tài)，那么 GPT-4 就是毫無疑問的語言模型之王。

Altman 還提到，人們一直覺得更大的模型肯定就更好，言下之意可能是規(guī)模擴(kuò)張的道路將由此終結(jié)。

多模態(tài)：GPT-4 將是一個(gè)純文本模型

深度學(xué)習(xí)的未來在于多模態(tài)模型。人類的大腦包含多種感官系統(tǒng)，為的正是適應(yīng)現(xiàn)實(shí)中的多模世界。但只能支持一種模態(tài)、理解一種感知的 AI 模型，明顯無法在理解與分析能力方面再上一個(gè)臺(tái)階。

必須承認(rèn)，良好的多模態(tài)模型要比純語言或純視覺模型更難構(gòu)建。光是把視覺和文本信息組成成單一表示本身，就已經(jīng)是項(xiàng)異常艱巨的任務(wù)。我們甚至不清楚人腦是怎么做到這一點(diǎn)的（當(dāng)然，深度學(xué)習(xí)社區(qū)其實(shí)也沒有深入鉆研認(rèn)知學(xué)意義上的大腦結(jié)構(gòu)和功能分區(qū)），當(dāng)然沒辦法在神經(jīng)網(wǎng)絡(luò)中重現(xiàn)這種能力。

Altman 在問答中提到，GPT-4 不會(huì)是像 DALL·E 或者 LaMDA 那樣的多模態(tài)模型，而是一個(gè)純文本模型。我猜他們希望把語言模型推到極致，在轉(zhuǎn)向下一代多模態(tài) AI 之前先搞定模型調(diào)優(yōu)與數(shù)據(jù)集大小等問題。

稀疏性：GPT-4 將是個(gè)密集模型

稀疏模型采取的是有條件計(jì)算思路，即使用模型中的不同部分來處理不同類型的輸入。這種方法近期取得了巨大成功，相關(guān)模型甚至能夠輕松擴(kuò)展到超萬億參數(shù)規(guī)模，卻又不會(huì)受到高計(jì)算成本的影響。這相當(dāng)于是在模型大小和算力預(yù)算之間找到了理想的平衡點(diǎn)。然而，這種 MoE 方法的優(yōu)勢(shì)在超大規(guī)模模型中往往會(huì)急劇減弱。

考慮到 OpenAI 多年來一直堅(jiān)持探索密集語言模型，所以我們有理由相信未來的 GPT-4 也會(huì)是密集模型。Altman 還提到 GPT-4 不會(huì)比 GPT-3 大太多，所以我們認(rèn)為 OpenAI 不會(huì)在 GPT-4 上走稀疏模型的道路——至少這次內(nèi)不會(huì)。

但人腦其實(shí)就高度依賴于稀疏處理，所以跟多模態(tài)相似，稀疏模型也很可能在未來幾代神經(jīng)網(wǎng)絡(luò)中成為主流。

對(duì)齊：GPT-4 對(duì)齊度將高于 GPT-3

OpenAI 在 AI 對(duì)齊問題上做出了諸多努力，其核心在于探索如何讓語言模型遵循人類的意圖、符合人類價(jià)值觀。這不只是個(gè)數(shù)學(xué)難題（即如何讓 AI 準(zhǔn)確理解我們想要的結(jié)果），同時(shí)也屬于哲學(xué)挑戰(zhàn)（由于不同人類群體間的價(jià)值觀存在巨大差異、甚至相互矛盾，所以不可能存在一種能讓 AI 與人類永遠(yuǎn)保持一致的通用方法）。

但 OpenAI 仍然勇敢做出了嘗試，最初的探索就是 InstructGPT。這是一個(gè)經(jīng)過更新的 GPT-3 模型，能夠接收人工反饋以學(xué)會(huì)遵循指令（但暫不考慮這些指令是否友善）。

InstructGPT 的核心突破，在于無論它在語言基準(zhǔn)測(cè)試上得分如何，生成的結(jié)果都更符合人類評(píng)判者的喜好（但 OpenAI 員工基本都說英語，所以這個(gè)結(jié)論也仍然不完全可靠）。從這個(gè)角度看，也許我們未來不該單純用基準(zhǔn)測(cè)試作為 AI 能力評(píng)估的唯一指標(biāo)。人類的感受可能同樣重要、甚至更加重要。

之前 Altman 與 OpenAI 都曾經(jīng)對(duì)有益人工通用智能（AGI）發(fā)表過嚴(yán)肅承諾，所以我相信 GPT-4 肯定會(huì)借用一部分從 InstructGPT 中獲得的發(fā)現(xiàn)。

他們會(huì)改進(jìn)模型的對(duì)齊方式，突破只順應(yīng)“說英語的內(nèi)部員工”的樊籬。真正的對(duì)齊必須能夠順應(yīng)不同性別、不同種族、不同國(guó)籍、不同宗教信仰等各類群體的習(xí)慣。這當(dāng)然是個(gè)嚴(yán)苛挑戰(zhàn)，而朝這個(gè)目標(biāo)邁出的任何一步都將是可喜的進(jìn)展。

情報(bào)總結(jié)

模型大?。篏PT-4 會(huì)比 GPT-3 更大，但應(yīng)該小于當(dāng)前最大的語言模型（5300 億參數(shù)的 MT-NLG 與 5400 億參數(shù)的 PaLM）。總之，GPT-4 不再?gòu)?qiáng)調(diào)以大取勝。

優(yōu)化：GPT-4 消耗的算力比 GPT-3 更多。它將在參數(shù)化（最優(yōu)超參數(shù)）與規(guī)模擴(kuò)展（訓(xùn)練 token 數(shù)量與模型大小同等重要）方面做出新的最優(yōu)性探索。

多模態(tài)：GPT-4 將是一個(gè)純文本模型（而非多模態(tài)模型）。OpenAI 正努力將語言模型發(fā)揮到極致，之后再逐步轉(zhuǎn)向 DALL·E 等有望全面超越單模態(tài)系統(tǒng)的多模態(tài)模型。

稀疏性：GPT-4 將延續(xù) GPT-2 與 GPT-3 的趨勢(shì)，仍然保持密集模型的身份（使用全部參數(shù)來處理任何給定輸入）。但未來稀疏性可能逐漸占據(jù)主導(dǎo)地位。

對(duì)齊：GPT-4 的對(duì)齊程度將高于 GPT-3。借助從 InstructGPT 中總結(jié)出的知識(shí)，GPT-4 也將獲得由人工反饋訓(xùn)練得出的寶貴經(jīng)驗(yàn)。但 AI 對(duì)齊難題的徹底解決還有很長(zhǎng)的路要走，目前仍在探索階段、不宜大肆宣揚(yáng)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

GPT-4 即將亮相？聊聊目前已知的一切

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

GPT-4 即將亮相？聊聊目前已知的一切

相關(guān)推薦

技術(shù)專區(qū)

GPT-4 即將亮相？聊聊目前已知的一切