更強(qiáng)的Llama 2開源,可直接商用:一夜之間,大模型格局變了(1)
已上微軟 Azure,即將要上 AWS、Hugging Face。
一夜之間,大模型格局再次發(fā)生巨變。
一直以來 Llama 可以說是 AI 社區(qū)內(nèi)最強(qiáng)大的開源大模型。但因為開源協(xié)議問題,一直不可免費(fèi)商用。
今日,Meta 終于發(fā)布了大家期待已久的免費(fèi)可商用版本 Llama 2。
此次 Meta 發(fā)布的 Llama 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體。此外還訓(xùn)練了 340 億參數(shù)變體,但并沒有發(fā)布,只在技術(shù)報告中提到了。
據(jù)介紹,相比于 Llama 1,Llama 2 的訓(xùn)練數(shù)據(jù)多了 40%,上下文長度也翻倍,并采用了分組查詢注意力機(jī)制。具體來說,Llama 2 預(yù)訓(xùn)練模型是在 2 萬億的 token 上訓(xùn)練的,精調(diào) Chat 模型是在 100 萬人類標(biāo)記數(shù)據(jù)上訓(xùn)練的。
公布的測評結(jié)果顯示,Llama 2 在包括推理、編碼、精通性和知識測試等許多外部基準(zhǔn)測試中都優(yōu)于其他開源語言模型。
接下來,我們就從 Meta 公布的技術(shù)報告中,詳細(xì)了解下 Llama 2。
論文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
項目地址:https://github.com/facebookresearch/llama
總的來說,作為一組經(jīng)過預(yù)訓(xùn)練和微調(diào)的大語言模型(LLM),Llama 2 模型系列的參數(shù)規(guī)模從 70 億到 700 億不等。其中的 Llama 2-Chat 針對對話用例進(jìn)行了專門優(yōu)化。
Llama 2-Chat 的訓(xùn)練 pipeline。
Llama 2 模型系列除了在大多數(shù)基準(zhǔn)測試中優(yōu)于開源模型之外,根據(jù) Meta 對有用性和安全性的人工評估,它或許也是閉源模型的合適替代品。
Llama 2-Chat 與其他開源和閉源模型在安全性人類評估上的結(jié)果。
Meta 詳細(xì)介紹了 Llama 2-Chat 的微調(diào)和安全改進(jìn)方法,使社區(qū)可以在其工作基礎(chǔ)上繼續(xù)發(fā)展,為大語言模型的負(fù)責(zé)任發(fā)展做出貢獻(xiàn)。
預(yù)訓(xùn)練
為了創(chuàng)建全新的 Llama 2 模型系列,Meta 以 Llama 1 論文中描述的預(yù)訓(xùn)練方法為基礎(chǔ),使用了優(yōu)化的自回歸 transformer,并做了一些改變以提升性能。
具體而言,Meta 執(zhí)行了更穩(wěn)健的數(shù)據(jù)清理,更新了混合數(shù)據(jù),訓(xùn)練 token 總數(shù)增加了 40%,上下文長度翻倍。下表 1 比較了 Llama 2 與 Llama 1 的詳細(xì)數(shù)據(jù)。
Llama 2 的訓(xùn)練語料庫包含了來自公開可用資源的混合數(shù)據(jù),并且不包括 Meta 產(chǎn)品或服務(wù)相關(guān)的數(shù)據(jù)。Llama 2 采用了 Llama 1 中的大部分預(yù)訓(xùn)練設(shè)置和模型架構(gòu),包括標(biāo)準(zhǔn) Transformer 架構(gòu)、使用 RMSNorm 的預(yù)歸一化、SwiGLU 激活函數(shù)和旋轉(zhuǎn)位置嵌入。
在超參數(shù)方面,Meta 使用 AdamW 優(yōu)化器進(jìn)行訓(xùn)練,其中 β_1 = 0.9,β_2 = 0.95,eps = 10^?5。同時使用余弦學(xué)習(xí)率計劃(預(yù)熱 2000 步),并將最終學(xué)習(xí)率衰減到了峰值學(xué)習(xí)率的 10%。
下圖 5 為這些超參數(shù)設(shè)置下 Llama 2 的訓(xùn)練損失曲線。
在訓(xùn)練硬件方面,Meta 在其研究超級集群(Research Super Cluster, RSC)以及內(nèi)部生產(chǎn)集群上對模型進(jìn)行了預(yù)訓(xùn)練。兩個集群均使用了 NVIDIA A100。
在預(yù)訓(xùn)練的碳足跡方面,Meta 根據(jù)以往的研究方法,利用 GPU 設(shè)備的功耗估算和碳效率,計算了 Llama 2 模型預(yù)訓(xùn)練所產(chǎn)生的碳排放量。
預(yù)訓(xùn)練期間 Llama 2 各個模型的碳排放量。
Llama 2 預(yù)訓(xùn)練模型評估
Meta 報告了 Llama 1、Llama 2 基礎(chǔ)模型、MPT(MosaicML)和 Falcon 等開源模型在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上的結(jié)果。
下表 3 總結(jié)了這些模型在一系列流行基準(zhǔn)上的整體性能,結(jié)果表明,Llama 2 優(yōu)于 Llama 1 。
除了開源模型之外,Meta 還將 Llama 2 70B 的結(jié)果與閉源模型進(jìn)行了比較,結(jié)果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5,但在編碼基準(zhǔn)上存在顯著差距。
此外,在幾乎所有基準(zhǔn)上,Llama 2 70B 的結(jié)果均與谷歌 PaLM (540B) 持平或表現(xiàn)更好,不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。