3.6萬(wàn)億token、3400億參數(shù),谷歌大模型PaLM 2細(xì)節(jié)遭曝光
谷歌內(nèi)部文件又泄露了,這次是谷歌新一代大模型 PaLM 2 的訓(xùn)練細(xì)節(jié):訓(xùn)練數(shù)據(jù)量是前代的近 5 倍、參數(shù)量是前代的三分之二左右。
轉(zhuǎn)自《機(jī)器之心》
上周四,在 2023 谷歌 I/O 大會(huì)上,谷歌 CEO 皮查伊宣布推出對(duì)標(biāo) GPT-4 的大模型 PaLM 2,并正式發(fā)布預(yù)覽版本,改進(jìn)了數(shù)學(xué)、代碼、推理、多語(yǔ)言翻譯和自然語(yǔ)言生成能力。PaLM 2 模型提供了不同尺寸規(guī)模的四個(gè)版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對(duì)各種用例進(jìn)行部署。其中輕量級(jí)的 Gecko 模型可以在移動(dòng)設(shè)備上運(yùn)行,速度非???,不聯(lián)網(wǎng)也能在設(shè)備上運(yùn)行出色的交互式應(yīng)用程序。不過(guò)會(huì)上,谷歌并沒(méi)有給出有關(guān) PaLM 2 的具體技術(shù)細(xì)節(jié),只說(shuō)明了它是構(gòu)建在谷歌最新 JAX 和 TPU v4 之上。昨日,據(jù)外媒 CNBC 看到的內(nèi)部文件稱,PaLM 2 是在 3.6 萬(wàn)億個(gè) token 上訓(xùn)練。作為對(duì)比,上代 PaLM 接受了 7800 億 token 的訓(xùn)練。此外,谷歌之前表示 PaLM 2 比以前的 LLM 規(guī)模更小,這意味著在完成更復(fù)雜任務(wù)的同時(shí)變得更加高效。這一點(diǎn)也在內(nèi)部文件中得到了驗(yàn)證,PaLM 2 的訓(xùn)練參數(shù)量為 3400 億,遠(yuǎn)小于 PaLM 的 5400 億。PaLM 2 的訓(xùn)練 token 和參數(shù)量與其他家的 LLM 相比如何呢?作為對(duì)比,Meta 在 2 月發(fā)布的 LLaMA 接受了 1.4 萬(wàn)億 token 的訓(xùn)練。OpenAI 1750 億參數(shù)的 GPT-3 是在 3000 億 token 上訓(xùn)練的。雖然谷歌一直渴望展示其 AI 技術(shù)的強(qiáng)大能力以及如何嵌入到搜索、電子郵件、文件處理和電子表格中,但也不愿公布其訓(xùn)練數(shù)據(jù)的大小或其他細(xì)節(jié)。其實(shí)這樣做的不只谷歌一家,OpenAI 也緘口不言其最新多模態(tài)大模型 GPT-4 的細(xì)節(jié)。他們都表示不披露細(xì)節(jié)是源于業(yè)務(wù)的競(jìng)爭(zhēng)屬性。不過(guò),隨著 AI 軍備競(jìng)賽的持續(xù)升溫,研究界越來(lái)越要求提高透明度。并且在前段時(shí)間泄露的一份谷歌內(nèi)部文件中,谷歌內(nèi)部研究人員表達(dá)了這樣一種觀點(diǎn):雖然表面看起來(lái) OpenAI 和谷歌在 AI 大模型上你追我趕,但真正的贏家未必會(huì)從這兩家中產(chǎn)生,因?yàn)榈谌搅α俊搁_源」正在悄然崛起。目前,這份內(nèi)部文件的真實(shí)性尚未得到驗(yàn)證,谷歌也并未對(duì)相關(guān)內(nèi)容置評(píng)。網(wǎng)友評(píng)論在官宣 PaLM 2 之初,就有網(wǎng)友根據(jù) Chinchilla 定律預(yù)測(cè)其參數(shù)量,ta 預(yù)測(cè) PaLM 2 模型家族的參數(shù)結(jié)果為 80B / 90B / 100B 不等,和這次爆料的 340B 還是差距很大的。還有人對(duì) PaLM 2 的訓(xùn)練成本進(jìn)行了一波預(yù)測(cè),根據(jù)歷代大模型的發(fā)展來(lái)看,這位網(wǎng)友表示,打造 PaLM 2 需要耗資 1 億美元。PaLM 2 參數(shù)都泄密了,可以試著推測(cè) Bard 了,這位網(wǎng)友表示:隨著 PaLM 2 token 數(shù)的泄露,網(wǎng)友不禁疑問(wèn),在 AGI 到來(lái)之前,多少 token 才能迎來(lái)一次大轉(zhuǎn)折?
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。