更強(qiáng)的Llama 2開源，可直接商用：一夜之間，大模型格局變了（1）

發(fā)布人：機(jī)器之心時間：2023-07-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

已上微軟 Azure，即將要上 AWS、Hugging Face。

一夜之間，大模型格局再次發(fā)生巨變。

一直以來 Llama 可以說是 AI 社區(qū)內(nèi)最強(qiáng)大的開源大模型。但因為開源協(xié)議問題，一直不可免費(fèi)商用。

今日，Meta 終于發(fā)布了大家期待已久的免費(fèi)可商用版本 Llama 2。

此次 Meta 發(fā)布的 Llama 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體。此外還訓(xùn)練了 340 億參數(shù)變體，但并沒有發(fā)布，只在技術(shù)報告中提到了。

據(jù)介紹，相比于 Llama 1，Llama 2 的訓(xùn)練數(shù)據(jù)多了 40%，上下文長度也翻倍，并采用了分組查詢注意力機(jī)制。具體來說，Llama 2 預(yù)訓(xùn)練模型是在 2 萬億的 token 上訓(xùn)練的，精調(diào) Chat 模型是在 100 萬人類標(biāo)記數(shù)據(jù)上訓(xùn)練的。

公布的測評結(jié)果顯示，Llama 2 在包括推理、編碼、精通性和知識測試等許多外部基準(zhǔn)測試中都優(yōu)于其他開源語言模型。

接下來，我們就從 Meta 公布的技術(shù)報告中，詳細(xì)了解下 Llama 2。

論文地址：https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
項目地址：https://github.com/facebookresearch/llama

總的來說，作為一組經(jīng)過預(yù)訓(xùn)練和微調(diào)的大語言模型（LLM），Llama 2 模型系列的參數(shù)規(guī)模從 70 億到 700 億不等。其中的 Llama 2-Chat 針對對話用例進(jìn)行了專門優(yōu)化。

Llama 2-Chat 的訓(xùn)練 pipeline。

Llama 2 模型系列除了在大多數(shù)基準(zhǔn)測試中優(yōu)于開源模型之外，根據(jù) Meta 對有用性和安全性的人工評估，它或許也是閉源模型的合適替代品。

Llama 2-Chat 與其他開源和閉源模型在安全性人類評估上的結(jié)果。

Meta 詳細(xì)介紹了 Llama 2-Chat 的微調(diào)和安全改進(jìn)方法，使社區(qū)可以在其工作基礎(chǔ)上繼續(xù)發(fā)展，為大語言模型的負(fù)責(zé)任發(fā)展做出貢獻(xiàn)。

預(yù)訓(xùn)練

為了創(chuàng)建全新的 Llama 2 模型系列，Meta 以 Llama 1 論文中描述的預(yù)訓(xùn)練方法為基礎(chǔ)，使用了優(yōu)化的自回歸 transformer，并做了一些改變以提升性能。

具體而言，Meta 執(zhí)行了更穩(wěn)健的數(shù)據(jù)清理，更新了混合數(shù)據(jù)，訓(xùn)練 token 總數(shù)增加了 40%，上下文長度翻倍。下表 1 比較了 Llama 2 與 Llama 1 的詳細(xì)數(shù)據(jù)。

Llama 2 的訓(xùn)練語料庫包含了來自公開可用資源的混合數(shù)據(jù)，并且不包括 Meta 產(chǎn)品或服務(wù)相關(guān)的數(shù)據(jù)。Llama 2 采用了 Llama 1 中的大部分預(yù)訓(xùn)練設(shè)置和模型架構(gòu)，包括標(biāo)準(zhǔn) Transformer 架構(gòu)、使用 RMSNorm 的預(yù)歸一化、SwiGLU 激活函數(shù)和旋轉(zhuǎn)位置嵌入。

在超參數(shù)方面，Meta 使用 AdamW 優(yōu)化器進(jìn)行訓(xùn)練，其中 β_1 = 0.9，β_2 = 0.95，eps = 10^?5。同時使用余弦學(xué)習(xí)率計劃（預(yù)熱 2000 步），并將最終學(xué)習(xí)率衰減到了峰值學(xué)習(xí)率的 10%。

下圖 5 為這些超參數(shù)設(shè)置下 Llama 2 的訓(xùn)練損失曲線。

在訓(xùn)練硬件方面，Meta 在其研究超級集群（Research Super Cluster, RSC）以及內(nèi)部生產(chǎn)集群上對模型進(jìn)行了預(yù)訓(xùn)練。兩個集群均使用了 NVIDIA A100。

在預(yù)訓(xùn)練的碳足跡方面，Meta 根據(jù)以往的研究方法，利用 GPU 設(shè)備的功耗估算和碳效率，計算了 Llama 2 模型預(yù)訓(xùn)練所產(chǎn)生的碳排放量。

預(yù)訓(xùn)練期間 Llama 2 各個模型的碳排放量。

Llama 2 預(yù)訓(xùn)練模型評估

Meta 報告了 Llama 1、Llama 2 基礎(chǔ)模型、MPT（MosaicML）和 Falcon 等開源模型在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上的結(jié)果。

下表 3 總結(jié)了這些模型在一系列流行基準(zhǔn)上的整體性能，結(jié)果表明，Llama 2 優(yōu)于 Llama 1 。

除了開源模型之外，Meta 還將 Llama 2 70B 的結(jié)果與閉源模型進(jìn)行了比較，結(jié)果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5，但在編碼基準(zhǔn)上存在顯著差距。

此外，在幾乎所有基準(zhǔn)上，Llama 2 70B 的結(jié)果均與谷歌 PaLM (540B) 持平或表現(xiàn)更好，不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

更強(qiáng)的Llama 2開源，可直接商用：一夜之間，大模型格局變了（1）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

更強(qiáng)的Llama 2開源，可直接商用：一夜之間，大模型格局變了（1）

相關(guān)推薦

技術(shù)專區(qū)

更強(qiáng)的Llama 2開源，可直接商用：一夜之間，大模型格局變了（1）