新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > Nvidia 征服了最新的 AI 測試

Nvidia 征服了最新的 AI 測試

—— GPU 制造商在圖神經(jīng)網(wǎng)絡(luò)和 LLM 微調(diào)方面超越了新的 MLPerf 基準測試
作者:Samuel K. Moore 時間:2024-06-26 來源: 收藏

多年來,在許多機器學(xué)習(xí)中占據(jù)主導(dǎo)地位,現(xiàn)在它又多了兩個檔次。
,有時被稱為“機器學(xué)習(xí)的奧林匹克”的人工智能套件,已經(jīng)發(fā)布了一套新的訓(xùn)練測試,以幫助在競爭計算機系統(tǒng)之間進行更多更好的同類比較。 的一項新測試涉及對大型語言模型的微調(diào),該過程采用現(xiàn)有的訓(xùn)練模型,并用專業(yè)知識對其進行更多訓(xùn)練,使其適合特定目的。另一個是圖,一種機器學(xué)習(xí),一些文獻數(shù)據(jù)庫背后的一種機器學(xué)習(xí),金融系統(tǒng)中的欺詐檢測,以及社交網(wǎng)絡(luò)。
即使使用谷歌和英特爾的人工智能加速器的計算機增加和參與,由的Hopper架構(gòu)驅(qū)動的系統(tǒng)再次主導(dǎo)了結(jié)果。一個包含 11,616 個 Nvidia H100 的系統(tǒng)(迄今為止最大的集合)在九個中名列前茅,其中五個(包括兩個新基準測試)創(chuàng)下了記錄。
“如果你只是把硬件扔到這個問題上,你就不能肯定地要改進?!狣AVE SALVATOR,
11,616-H100系統(tǒng)是“我們做過的最大系統(tǒng)”,英偉達加速計算產(chǎn)品總監(jiān)Dave Salvator說。它在不到 3.5 分鐘的時間內(nèi)就完成了 GPT-3 訓(xùn)練試驗。相比之下,512 系統(tǒng)大約需要 51 分鐘。(請注意,GPT-3 任務(wù)不是完整的訓(xùn)練,可能需要數(shù)周時間并花費數(shù)百萬美元。取而代之的是,計算機在完成之前在商定的點上對數(shù)據(jù)的代表性部分進行訓(xùn)練。
與英偉達去年在 GPT-3 上最大的參賽者——一臺 3,584 臺 H100 計算機相比,3.5 分鐘的結(jié)果代表了 3.2 倍的改進。你可能會從這些系統(tǒng)大小的差異中預(yù)料到這一點,但在人工智能計算中,情況并非總是如此,Salvator解釋說?!叭绻阒皇前延布拥竭@個問題上,你就不能肯定地要改進,”他說。
“我們基本上是線性擴展的,”Salvator 說。他的意思是,兩倍的 會導(dǎo)致訓(xùn)練時間減半?!癧這]代表了我們工程團隊的一項偉大成就,”他補充道。
競爭對手也越來越接近線性縮放。這一輪英特爾部署了一個使用 1,024 個 GPU 的系統(tǒng),該系統(tǒng)在 67 分鐘內(nèi)執(zhí)行了 GPT-3 任務(wù),而計算機的大小僅為六個月前 224 分鐘的四分之一。谷歌最大的 GPT-3 條目使用了 12 倍的 TPU v5p 加速器作為其最小條目,執(zhí)行任務(wù)的速度是其 9 倍。
Salvator 說,線性擴展對于即將擁有 100,000 個或更多 GPU 的“AI 工廠”尤為重要。他表示,預(yù)計今年將有一個這樣的數(shù)據(jù)中心上線,另一個使用英偉達的下一個架構(gòu)Blackwell的數(shù)據(jù)中心將在2025年啟動。
英偉達的連勝勢頭仍在繼續(xù)
盡管使用與去年訓(xùn)練結(jié)果相同的架構(gòu) Hopper,Nvidia 仍繼續(xù)延長訓(xùn)練時間。這一切都歸功于軟件的改進,Salvator 說?!巴ǔ#谛录軜?gòu)發(fā)布后,我們會從軟件中獲得 2-2.5 倍的 [提升],”他說。
對于 GPT-3 訓(xùn)練,Nvidia 比 2023 年 6 月的 基準測試提高了 27%。Salvator說,在提升的背后有幾個軟件變化。例如,Nvidia 工程師通過修剪 8 位和 16 位數(shù)字之間不必要的轉(zhuǎn)換,并更好地確定的哪些層可以使用較低精度的數(shù)字格式,調(diào)整了 Hopper 對不太準確的 8 位浮點運算的使用。他們還找到了一種更智能的方法來調(diào)整每個芯片計算引擎的功率預(yù)算,并加快了GPU之間的通信速度,Salvator將其比作“在烤面包機中涂黃油”。
此外,該公司還實施了一項稱為“閃光關(guān)注”的計劃。閃速注意力是由Samba Nova創(chuàng)始人Chris Re在斯坦福大學(xué)實驗室發(fā)明的,是一種通過最大限度地減少對內(nèi)存的寫入來加速Transformer網(wǎng)絡(luò)的算法。當(dāng)它首次出現(xiàn)在 MLPerf 基準測試中時,閃光注意力比訓(xùn)練時間縮短了 10%。(英特爾也使用了 flash attention 的一個版本,但不是 GPT-3。相反,它將該算法用于其中一個新基準測試,即微調(diào)。
與 2023 年 11 月提交的相比,使用其他軟件和網(wǎng)絡(luò)技巧,Nvidia 在文本到圖像測試 Stable Diffusion 中實現(xiàn)了 80% 的加速。
新基準
MLPerf 添加了新的基準并升級了舊的基準,以保持與 AI 行業(yè)正在發(fā)生的事情相關(guān)。今年增加了微調(diào)和圖
微調(diào)需要已經(jīng)訓(xùn)練過的 ,并將其專門用于特定領(lǐng)域。例如,英偉達(Nvidia)采用了一個經(jīng)過訓(xùn)練的430億參數(shù)模型,并在GPU制造商的設(shè)計文件和文檔上對其進行了訓(xùn)練,以創(chuàng)建ChipNeMo,這是一種旨在提高其芯片設(shè)計人員生產(chǎn)力的AI。當(dāng)時,該公司的首席技術(shù)官比爾·達利(Bill Dally)表示,培訓(xùn)法學(xué)碩士就像給它提供文科教育,而微調(diào)就像把它送到研究生院。
MLPerf 基準測試采用預(yù)訓(xùn)練的 Llama-2-70B 模型,并要求系統(tǒng)使用政府文檔數(shù)據(jù)集對其進行微調(diào),以生成更準確的文檔摘要。
有幾種方法可以進行微調(diào)。MLPerf 選擇了一種稱為低秩適應(yīng) (LoRA) 的方法。據(jù)該組織稱,該方法最終只訓(xùn)練了 參數(shù)的一小部分,與其他方法相比,硬件負擔(dān)降低了 3 倍,內(nèi)存和存儲的使用量減少了 3 倍。
另一個新的基準測試涉及圖神經(jīng)網(wǎng)絡(luò)(GNN)。這些是針對可以由一組非常大的互連節(jié)點表示的問題,例如社交網(wǎng)絡(luò)或推薦系統(tǒng)。與其他 AI 任務(wù)相比,GNN 需要計算機中節(jié)點之間的大量通信。
該基準測試在一個數(shù)據(jù)庫上訓(xùn)練了 GNN,該數(shù)據(jù)庫顯示了學(xué)術(shù)作者、論文和機構(gòu)之間的關(guān)系——一個具有 5.47 億個節(jié)點和 58 億條邊的圖形。然后對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,以預(yù)測圖中每個節(jié)點的正確標簽。
未來的戰(zhàn)斗
2025 年的訓(xùn)練輪可能會看到比較 AMD、英特爾和 Nvidia 的新加速器的正面交鋒。AMD 的 MI300 系列大約在六個月前推出,計劃于 2024 年底對 MI325x 進行內(nèi)存增強升級,下一代 MI350 計劃于 2025 年推出。英特爾表示,今年晚些時候向計算機制造商推出的Gaudi 3將出現(xiàn)在MLPerf即將推出的推理基準測試中。英特爾高管表示,新芯片有能力在訓(xùn)練時擊敗H100。但勝利可能是短暫的,因為英偉達已經(jīng)推出了一種新的架構(gòu)Blackwell,該架構(gòu)計劃于今年晚些時候推出。

本文引用地址:http://m.butianyuan.cn/article/202406/460369.htm


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉