晶圓級(jí)AI芯片WSE-3性能公布：80億參數(shù)模型上每秒生成1800個(gè)Token

發(fā)布人：芯智訊時(shí)間：2024-10-24 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

今年3月，新創(chuàng)AI芯片公司Cerebras Systems推出了其第三代的晶圓級(jí)AI芯片WSE-3，性能達(dá)到了上一代WSE-2的兩倍，可用于訓(xùn)練業(yè)內(nèi)一些最大的人工智能模型。在近日的Hot Chips 2024大會(huì)上，Cerebras Systems詳細(xì)介紹了這款芯片在AI推理方面的性能。

根據(jù)官方資料顯示，WSE-3依然是采用了一整張12英寸晶圓來制作，基于臺(tái)積電5nm制程，芯片面積為46225平方毫米，擁有的晶體管數(shù)量達(dá)到了4萬億個(gè)，擁有90萬個(gè)AI核心，44GB片上SRAM，整體的內(nèi)存帶寬為21PB/s，結(jié)構(gòu)帶寬高達(dá)214PB/s。使得WSE-3具有125 FP16 PetaFLOPS的峰值性能，相比上一代的WSE-2提升了1倍。

作為對(duì)比，WSE-2芯片面積同樣是46225平方毫米，基于臺(tái)積電7nm制程，晶體管數(shù)量為2.6萬億個(gè)，AI內(nèi)核數(shù)量為85萬個(gè)，片上內(nèi)存SRAM為40GB，內(nèi)存帶寬為20PB/s，結(jié)構(gòu)帶寬高達(dá)220PB/s。

如果將其與英偉達(dá)的H100相比，WSE-3面積將是H100的57倍，內(nèi)核數(shù)量是H100的52倍，片上內(nèi)存是H100的880倍，內(nèi)存帶寬是H100的7000倍，結(jié)構(gòu)帶寬是H100的3715倍。（ H200 的 HBM3e 僅擁有 4.8TBps 的帶寬。）

在此次的Hot Chips 2024大會(huì)上，Cerebras公布了更多關(guān)于WSE-3在運(yùn)行AI大模型上的性能表現(xiàn)。

Cerebras表示，它在Llama3.1-8B上的推理速度比微軟Azure等公司使用NVIDIA H100快了20倍。需要指出的是，在許多現(xiàn)代生成式 AI 工作負(fù)載中，推理性能通常更得益于內(nèi)存帶寬的大小，而不單單是計(jì)算能力。也就是說，擁有更大的內(nèi)存帶寬，模型的推理速度就越快。

Cerebra Systems首席執(zhí)行官 Andrew Feldman 稱，WSE-3通過使用 44GB片上SRAM，使得其能夠以 16 位精度運(yùn)行 Llama 3.1 8B 時(shí)，每秒能夠生成超過 1,800 個(gè)Token，而性能最好的基于英偉達(dá)H100的實(shí)例每秒只能生成超過 242 個(gè)Token。

與此同時(shí)，Cerebras還推出了基于WSE-3的CS-3超級(jí)計(jì)算機(jī)，可用于訓(xùn)練參數(shù)高達(dá)24萬億的人工智能模型，這比相比基于WSE-2和其他現(xiàn)代人工智能處理器的超級(jí)計(jì)算機(jī)有了重大飛躍。該超級(jí)計(jì)算機(jī)可以支持1.5TB、12TB或1.2PB的外部內(nèi)存，這使它能夠在單個(gè)邏輯空間中存儲(chǔ)大量模型，而無需分區(qū)或重構(gòu)，從而簡化了訓(xùn)練過程，提高了開發(fā)人員的效率。

最新的 Cerebras 軟件框架可以為PyTorch 2.0 和最新的 AI 模型和技術(shù)（如多模態(tài)模型、視覺轉(zhuǎn)換器、專家混合和擴(kuò)散）提供原生支持。Cerebras 仍然是唯一為動(dòng)態(tài)和非結(jié)構(gòu)化稀疏性提供本機(jī)硬件加速的平臺(tái)，相比英偉達(dá)的DGX-100計(jì)算機(jī)系統(tǒng)，將訓(xùn)練速度提高了8 倍。

在運(yùn)行分布在四個(gè)CS-3加速器上的 700 億參數(shù)版本的 Llama 3.1 大模型時(shí)，也能夠?qū)崿F(xiàn)每秒 450 個(gè)Token。相比之下，H100 可以管理的最佳狀態(tài)是每秒 128 個(gè)Token。

Feldman 認(rèn)為，這種性能水平，就像寬帶的興起一樣，將為 AI 的采用開辟新的機(jī)會(huì)?！敖裉?，我認(rèn)為我們正處于 Gen AI 的撥號(hào)時(shí)代，”他說，并指出了生成式 AI 的早期應(yīng)用，其中提示的響應(yīng)會(huì)有明顯的延遲。

他認(rèn)為，如果能夠足夠快地處理請(qǐng)求，就可以基于多個(gè)模型構(gòu)建代理應(yīng)用程序，而不會(huì)因?yàn)檠舆t變得難以為繼。Feldman 認(rèn)為這種性能有益的另一個(gè)應(yīng)用是允許 LLM 在多個(gè)步驟中迭代他們的答案，而不僅僅是吐出他們的第一個(gè)響應(yīng)。如果您可以足夠快地處理Token，則可以在幕后做更多的處理。

雖然WSE-3能夠以 16 位精度運(yùn)行 Llama 3.1 8B 時(shí)，每秒能夠生成超過 1,800 個(gè)Token，但是如果不是因?yàn)橄到y(tǒng)受計(jì)算限制，WSE-3的速度應(yīng)該能夠更快。

該產(chǎn)品代表了 Cerebras 的一些轉(zhuǎn)變，因?yàn)榇饲?，Cerebras 主要專注于 AI 訓(xùn)練。雖然現(xiàn)在也開始應(yīng)用于AI推理，但是硬件本身實(shí)際上并沒有改變。Feldman表示，他們正在使用相同的 WSE-3 芯片和 CS-3 系統(tǒng)進(jìn)行推理和訓(xùn)練。

“我們所做的是擴(kuò)展了編譯器的功能，可以同時(shí)在芯片上放置多個(gè)層，”Feldman解釋說。

SRAM 速度很快，但使 HBM 容量更大

雖然 SRAM 在性能方面比 HBM 具有明顯的優(yōu)勢(shì)，但它的不足之處在于容量。對(duì)于大型語言模型（LLM）來說，44GB的容量并不多，因?yàn)楸仨毧紤]到鍵值緩存在WSE-3所針對(duì)的高批處理大小下占用了相當(dāng)多的空間。

Meta 的 Llama 3 8B 模型是 WSE-3 的理想化場景，因?yàn)榇笮?16GB（FP16），整個(gè)模型可以安裝在芯片的 SRAM 中，為鍵值緩存留下大約 28GB 的空間。

Feldman 聲稱，除了極高的吞吐量外，WSE-3 還可以擴(kuò)展到更高的批量大小。盡管它究竟可以擴(kuò)展到多大程度并保持每個(gè)用戶Token的生成率，這家初創(chuàng)公司不愿透露。“我們目前的批次大小經(jīng)常變化。我們預(yù)計(jì)第四季度的批量規(guī)模將達(dá)到兩位數(shù)，“Cerebras說道。

當(dāng)被追問更多細(xì)節(jié)時(shí)，Feldman補(bǔ)充說：“我們目前的批量大小還不成熟，因此我們寧愿不提供它。系統(tǒng)架構(gòu)旨在以高批量運(yùn)行，我們預(yù)計(jì)在未來幾周內(nèi)實(shí)現(xiàn)這一目標(biāo)。”

與現(xiàn)代 GPU 非常相似，Cerebras 通過跨多個(gè) CS-3 系統(tǒng)并行化模型來應(yīng)對(duì)這一挑戰(zhàn)。具體來說，Cerebras 正在使用管道并行性將模型的層分布到多個(gè)系統(tǒng)。

對(duì)于需要 140GB 內(nèi)存的 Llama 3 70B，該模型的 80 層分布在四個(gè)通過以太網(wǎng)互連的 CS-3 系統(tǒng)中。這確實(shí)會(huì)帶來性能損失，因?yàn)閿?shù)據(jù)必須通過這些鏈接。

△由于單個(gè)WSE-3只有 44GB SRAM，因此需要將多個(gè)加速器連接在一起以支持更大的模型

然而，根據(jù) Feldman 的說法，節(jié)點(diǎn)到節(jié)點(diǎn)的延遲并不像您想象的那么大?！斑@里的延遲是真實(shí)的，但很小，并且它與通過芯片上所有其他層的Token分?jǐn)?，”他解釋說?！白詈螅琓oken上的晶圓到晶圓延遲約占總數(shù)的 5%。”

對(duì)于更大的模型，例如最近宣布的 4050 億參數(shù)變體的 Llama 3，Cerebras 估計(jì)它將能夠使用 12 個(gè) CS-3 系統(tǒng)實(shí)現(xiàn)每秒約 350 個(gè)Token。

利用更高速的片上SRAM來替代HBM并不是一個(gè)新鮮事，Cerebra的競爭對(duì)手 Groq也是這么做的。

Groq 的語言處理單元（LPU）實(shí)際上使用了片上SRAM。不同之處在于，由于單個(gè) Groq LPU SRAM 容量較低，因此需要通過光纖連接更多的加速器來支持更大的模型。

Cerebras 需要四個(gè) CS-3 系統(tǒng)才能以每秒 450 個(gè)令牌的速度運(yùn)行 Llama 3 70B，Groq 此前曾表示，它需要 576 個(gè) LPU 才能實(shí)現(xiàn)每秒300個(gè)Token。而Cerebras 引用的人工智能分析 Groq 基準(zhǔn)測(cè)試略低，為每秒 250 個(gè)Token。

Feldman 還指出，Cerebras 能夠在不求助于量化的情況下做到這一點(diǎn)。認(rèn)為Groq 正在使用 8bit量化來達(dá)到他們的性能目標(biāo)，這減少了模型大小、計(jì)算開銷和內(nèi)存壓力，但代價(jià)是準(zhǔn)確性有所損失。

不過，僅比較性能，而忽略整體的成本是不公平的對(duì)比。畢竟單個(gè)晶圓級(jí)的WSE-3芯片的成本也遠(yuǎn)遠(yuǎn)高于Groq LPU的成本。

編輯：芯智訊-浪客劍

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

晶圓級(jí)AI芯片WSE-3性能公布：80億參數(shù)模型上每秒生成1800個(gè)Token

相關(guān)推薦

技術(shù)專區(qū)