AI 推理競賽白熱化
雖然 Nvidia GPU 在 AI 訓練中的主導地位仍然是無可爭議的,但我們可能會看到早期跡象,表明在 AI 推理方面,這家科技巨頭的競爭正在加劇,尤其是在能效方面。然而,Nvidia 新 Blackwell 芯片的純粹性能可能很難被擊敗。
本文引用地址:http://m.butianyuan.cn/article/202409/462746.htm今天早上,ML Commons 發(fā)布了其最新的 AI 推理競賽 ML Perf Inference v4.1 的結果。本輪融資包括使用 AMD Instinct 加速器、最新 Google Trillium 加速器、多倫多初創(chuàng)公司 UntetherAI 的芯片以及 Nvidia 新 Blackwell 芯片的首次試用團隊的首次提交。另外兩家公司 Cerebras 和 FuriosaAI 宣布推出新的推理芯片,但沒有提交給 MLPerf。
就像奧林匹克運動一樣,MLPerf 有許多類別和子類別。提交數(shù)量最多的是 “datacenter-closed” 類別。封閉類別(而不是開放類別)要求提交者按原樣對給定模型運行推理,而無需對軟件進行重大修改。數(shù)據(jù)中心類別測試提交者對查詢的批量處理,而邊緣類別則側重于最大限度地減少延遲。
在每個類別中,有 9 個不同的基準測試,適用于不同類型的 AI 任務。其中包括圖像生成(想想 Midjourney)和 LLM 問答(想想 ChatGPT)等流行的用例,以及同樣重要但不太引人注目的任務,例如圖像分類、對象檢測和推薦引擎。
本輪比賽包括一個名為 Mix of Expert 的新基準。這是 LLM 部署的一個增長趨勢,其中語言模型被分解為幾個較小的獨立語言模型,每個模型都針對特定任務進行了微調,例如定期對話、解決數(shù)學問題和協(xié)助編碼。該模型可以將每個查詢定向到較小模型的適當子集,即“專家”。MLPerf 推理工作組主席兼 AMD 高級技術人員 Miroslav Hodak 說,這種方法可以減少每個查詢的資源使用,從而降低成本并提高吞吐量。
在流行的數(shù)據(jù)中心封閉基準測試中,每個基準測試的獲勝者仍然是基于 Nvidia 的 H200 GPU 和 GH200 超級芯片的提交,它們將 GPU 和 CPU 組合在同一個封裝中。然而,仔細觀察性能結果會描繪出更復雜的畫面。一些提交者使用了許多加速器芯片,而另一些則只使用了一種。如果我們根據(jù)使用的加速器數(shù)量對每個提交者每秒能夠處理的查詢數(shù)量進行標準化,并僅保留每種加速器類型的性能最佳的提交,就會出現(xiàn)一些有趣的細節(jié)。(請務必注意,此方法忽略了 CPU 和互連的作用。
在每個加速器的基礎上,Nvidia 的 Blackwell 在 LLM Q&A 任務上的表現(xiàn)比之前的所有芯片迭代高出 2.5 倍,這是它提交的唯一基準測試。Untether AI 的 speedAI240 Preview 芯片在其唯一的提交任務(圖像識別)中的性能幾乎與 H200 相當。Google 的 Trillium 在圖像生成方面的表現(xiàn)略高于 H100 和 H200 的一半,AMD 的 Instinct 在 LLM 問答任務中的表現(xiàn)與 H100 差不多。
Blackwell 的力量
Nvidia Blackwell 成功的原因之一是它能夠使用 4 位浮點精度運行 LLM。Nvidia 及其競爭對手一直在降低 ChatGPT 等 transformer 模型部分用于表示數(shù)據(jù)的位數(shù),以加快計算速度。Nvidia 在 H100 中引入了 8 位數(shù)學,此次提交標志著 MLPerf 基準測試中首次演示 4 位數(shù)學。
使用這種低精度數(shù)字的最大挑戰(zhàn)是保持準確性,Nvidia 的產(chǎn)品營銷總監(jiān) Dave Salvator 說。他說,為了保持 MLPerf 提交所需的高精度,Nvidia 團隊必須在軟件方面進行重大創(chuàng)新。
Blackwell 成功的另一個重要貢獻是它的內存帶寬幾乎翻了一番,為 8 TB/秒,而 H200 的內存帶寬為 4.8 TB/秒。
英偉達 GB2800 格蕾絲布萊克威爾超級芯片英偉達
Nvidia 提交的 Blackwell 使用了單個芯片,但 Salvator 表示,它是為網(wǎng)絡和擴展而構建的,并且在與 Nvidia 的 NVLink 互連結合使用時性能最佳。Blackwell GPU 支持多達 18 個 NVLink 每秒 100 GB 連接,總帶寬為每秒 1.8TB,大約是 H100 互連帶寬的兩倍。
Salvatore 認為,隨著大型語言模型規(guī)模的增加,即使是推理也需要多 GPU 平臺來滿足需求,而 Blackwell 就是為這種可能性而構建的?!癇lackwell 是一個平臺,”Salvator 說。
Nvidia 在預覽子類別中提交了他們基于 Blackwell 芯片的系統(tǒng),這意味著它尚未出售,但預計將在六個月后的下一個 MLPerf 版本之前上市。
Untether AI 在功耗和邊緣領域大放異彩
對于每個基準測試,MLPerf 還包括一個電能測量對應物,它系統(tǒng)地測試每個系統(tǒng)在執(zhí)行任務時消耗的電能。主賽事(數(shù)據(jù)中心封閉能源類別)本輪只有兩個提交者:Nvidia 和 Untether AI。雖然 Nvidia 參加了所有基準測試,但 Untether 只提交了圖像識別。
提交者 | 加速器 | 加速器數(shù)量 | 每秒查詢數(shù) | 瓦 | 每秒每 Watt 的查詢數(shù) |
英偉達 | 英偉達 H200-SXM-141GB | 8 | 480,131.00 | 5,013.79 | 95.76 |
UntetherAI | UntetherAI 速度AI240 Slim | 6 | 309,752.00 | 985.52 | 314.30 |
這家初創(chuàng)公司通過使用一種稱為內存計算的方法構建芯片,實現(xiàn)了這種令人印象深刻的效率。UntetherAI 的芯片構建為內存元件網(wǎng)格,小型處理器直接散布在它們旁邊。處理器是并行化的,每個處理器都與附近內存單元中的數(shù)據(jù)同時工作,從而大大減少了在內存和計算內核之間來回切換模型數(shù)據(jù)所花費的時間和精力。
“我們看到的是,執(zhí)行 AI 工作負載的 90% 的能源只是將數(shù)據(jù)從 DRAM 移動到緩存再到處理元件,”Untether AI 產(chǎn)品副總裁 Robert Beachler 說?!八?Untether 所做的就是扭轉這種情況......我不是將數(shù)據(jù)移動到計算中,而是將計算中移到數(shù)據(jù)中。
事實證明,這種方法在 MLPerf 的另一個子類別中特別成功:邊緣閉合。Beachler 說,此類別面向更多的實際用例,例如工廠車間的機器檢查、導視機器人和自動駕駛汽車,這些應用對低能耗和快速處理至關重要。
提交者 | GPU 類型 | GPU 數(shù)量 | 單流延遲 (ms) | 多流延遲 (ms) | 采樣/秒 |
聯(lián)想 | NVIDIA L4 | 2 | 0.39 | 0.75 | 25,600.00 |
聯(lián)想 | 英偉達 L40S | 2 | 0.33 | 0.53 | 86,304.60 |
UntetherAI | UntetherAI speedAI240 預覽 | 2 | 0.12 | 0.21 | 140,625.00 |
在圖像識別任務上,SpeedAI240 Preview 芯片再次是唯一報告結果的 UntetherAI 芯片,其延遲性能比 NVIDIA L40S 高出 2.8 倍,其吞吐量(每秒樣本數(shù))高出 1.6 倍。這家初創(chuàng)公司也提交了該類別的強大結果,但他們的 Nvidia 加速競爭對手沒有,因此很難進行直接比較。然而,UntetherAI 的 speedAI240 Preview 芯片每個芯片的標稱功耗為 150 瓦,而 Nvidia 的 L40s 為 350 瓦,導致標稱功耗降低 2.3 倍,延遲得到改善。
Cerebras、Furiosa 跳過 MLPerf 但宣布推出新芯片
Furiosa 的新芯片以一種不同的、更高效的方式實現(xiàn)了 AI 推理的基本數(shù)學功能,即矩陣乘法。 FURIOSA (飛躍)
昨天在斯坦福大學舉行的 IEEE Hot Chips 會議上,Cerebras 推出了自己的推理服務。這家位于加利福尼亞州桑尼維爾的公司生產(chǎn)硅晶片允許的巨型芯片,從而避免了芯片之間的互連,并大大增加了其設備的內存帶寬,這些設備主要用于訓練大規(guī)模神經(jīng)網(wǎng)絡?,F(xiàn)在,它已經(jīng)升級了其軟件堆棧,以使用其最新的計算機 CS3 進行推理。
盡管 Cerebras 沒有提交給 MLPerf,但該公司聲稱其平臺在每秒生成的 LLM 代幣方面比 H100 高 7 倍,比競爭對手的 AI 初創(chuàng)公司 Groq 的芯片高出 2 倍?!敖裉?,我們正處于 Gen AI 的撥號時代,”Cerebras 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Andrew Feldman 說?!斑@是因為存在內存帶寬障礙。無論是 Nvidia 的 H100 還是 MI 300 或 TPU,它們都使用相同的片外內存,并且會產(chǎn)生相同的限制。我們突破了這一點,我們之所以這樣做,是因為我們是晶圓級的。
Hot Chips 還看到了首爾 Furiosa 的公告,展示了他們的第二代芯片 RNGD(發(fā)音為“renegade”)。Furiosa 芯片的不同之處在于其張量收縮處理器 (TCP) 架構。AI 工作負載中的基本操作是矩陣乘法,通常作為硬件中的基元實現(xiàn)。但是,矩陣的大小和形狀(通常稱為張量)可能會有很大差異。RNGD 將這個更廣義的版本 Tensors 的乘法實現(xiàn)為基元。“在推理過程中,批量大小差異很大,因此利用給定張量形狀的固有并行性和數(shù)據(jù)重用非常重要,”Furiosa 創(chuàng)始人兼首席執(zhí)行官 June Paik 在 Hot Chips 上說。
雖然沒有提交給 MLPerf,但 Furiosa 在內部將其 RNGD 芯片的性能與 MLPerf 的 LLM 摘要基準測試進行了比較。它的性能與 Nvidia 面向邊緣的 L40S 芯片相當,而 L40S 的功率為 185 瓦,而 L40S 為 320 瓦。而且,Paik 說,隨著軟件的進一步優(yōu)化,性能將得到提高。
IBM 還宣布了其專為企業(yè)生成式 AI 工作負載設計的新型 Spyre 芯片,將于 2025 年第一季度上市。
至少,在可預見的未來,AI 推理芯片市場上的購物者不會感到無聊。
評論