老黃深夜炸場,世界最強(qiáng)AI芯片H200震撼發(fā)布!性能飆升90%,Llama 2推理速度翻倍,大批超算中心來襲
英偉達(dá)的節(jié)奏,越來越可怕了。就在剛剛,老黃又一次在深夜炸場——發(fā)布目前世界最強(qiáng)的AI芯片H200!較前任霸主H100,H200的性能直接提升了60%到90%。不僅如此,這兩款芯片還是互相兼容的。這意味著,使用H100訓(xùn)練/推理模型的企業(yè),可以無縫更換成最新的H200。全世界的AI公司都陷入算力荒,英偉達(dá)的GPU已經(jīng)千金難求。英偉達(dá)此前也表示,兩年一發(fā)布的架構(gòu)節(jié)奏將轉(zhuǎn)變?yōu)橐荒暌话l(fā)布。就在英偉達(dá)宣布這一消息之際,AI公司們正為尋找更多H100而焦頭爛額。英偉達(dá)的高端芯片價(jià)值連城,已經(jīng)成為貸款的抵押品。誰擁有H100,是硅谷最引人注目的頂級八卦至于H200系統(tǒng),英偉達(dá)表示預(yù)計(jì)將于明年二季度上市。同在明年,英偉達(dá)還會(huì)發(fā)布基于Blackwell架構(gòu)的B100,并計(jì)劃在2024年將H100的產(chǎn)量增加兩倍,目標(biāo)是生產(chǎn)200多萬塊H100。而在發(fā)布會(huì)上,英偉達(dá)甚至全程沒有提任何競爭對手,只是不斷強(qiáng)調(diào)「英偉達(dá)的AI超級計(jì)算平臺,能夠更快地解決世界上一些最重要的挑戰(zhàn)?!?/span>隨著生成式AI的大爆炸,需求只會(huì)更大,而且,這還沒算上H200呢。贏麻了,老黃真的贏麻了!
141GB超大顯存,性能直接翻倍!
H200,將為全球領(lǐng)先的AI計(jì)算平臺增添動(dòng)力。它基于Hopper架構(gòu),配備英偉達(dá)H200 Tensor Core GPU和先進(jìn)的顯存,因此可以為生成式AI和高性能計(jì)算工作負(fù)載處理海量數(shù)據(jù)。英偉達(dá)H200是首款采用HBM3e的GPU,擁有高達(dá)141GB的顯存。與A100相比,H200的容量幾乎翻了一番,帶寬也增加了2.4倍。與H100相比,H200的帶寬則從3.35TB/s增加到了4.8TB/s。英偉達(dá)大規(guī)模與高性能計(jì)算副總裁Ian Buck表示——要利用生成式人工智能和高性能計(jì)算應(yīng)用創(chuàng)造智能,必須使用大型、快速的GPU顯存,來高速高效地處理海量數(shù)據(jù)。借助H200,業(yè)界領(lǐng)先的端到端人工智能超算平臺的速度會(huì)變得更快,一些世界上最重要的挑戰(zhàn),都可以被解決。Llama 2推理速度提升近100%跟前代架構(gòu)相比,Hopper架構(gòu)已經(jīng)實(shí)現(xiàn)了前所未有的性能飛躍,而H100持續(xù)的升級,和TensorRT-LLM強(qiáng)大的開源庫,都在不斷提高性能標(biāo)準(zhǔn)。H200的發(fā)布,讓性能飛躍又升了一級,直接讓Llama2 70B模型的推理速度比H100提高近一倍!H200基于與H100相同的Hopper架構(gòu)。這就意味著,除了新的顯存功能外,H200還具有與H100相同的功能,例如Transformer Engine,它可以加速基于Transformer架構(gòu)的LLM和其他深度學(xué)習(xí)模型。HGX H200采用英偉達(dá)NVLink和NVSwitch高速互連技術(shù),8路HGX H200可提供超過32 Petaflops的FP8深度學(xué)習(xí)計(jì)算能力和1.1TB的超高顯存帶寬。當(dāng)用H200代替H100,與英偉達(dá)Grace CPU搭配使用時(shí),就組成了性能更加強(qiáng)勁的GH200 Grace Hopper超級芯片——專為大型HPC和AI應(yīng)用而設(shè)計(jì)的計(jì)算模塊。下面我們就來具體看看,相較于H100,H200的性能提升到底體現(xiàn)在哪些地方。首先,H200的性能提升最主要體現(xiàn)在大模型的推理性能表現(xiàn)上。如上所說,在處理Llama 2等大語言模型時(shí),H200的推理速度比H100提高了接近1倍。因?yàn)橛?jì)算核心更新幅度不大,如果以訓(xùn)練175B大小的GPT-3為例,性能提升大概在10%左右。顯存帶寬對于高性能計(jì)算(HPC)應(yīng)用程序至關(guān)重要,因?yàn)樗梢詫?shí)現(xiàn)更快的數(shù)據(jù)傳輸,減少復(fù)雜任務(wù)的處理瓶頸。對于模擬、科學(xué)研究和人工智能等顯存密集型HPC應(yīng)用,H200更高的顯存帶寬可確保高效地訪問和操作數(shù)據(jù),與CPU相比,獲得結(jié)果的時(shí)間最多可加快110倍。相較于H100,H200在處理高性能計(jì)算的應(yīng)用程序上也有20%以上的提升。而對于用戶來說非常重要的推理能耗,H200相比H100直接腰斬。這樣,H200能大幅降低用戶的使用成本,繼續(xù)讓用戶「買的越多,省的越多」!上個(gè)月,外媒SemiAnalysis曾曝出一份英偉達(dá)未來幾年的硬件路線圖,包括萬眾矚目的H200、B100和「X100」GPU。而英偉達(dá)官方,也公布了官方的產(chǎn)品路線圖,將使用同一構(gòu)架設(shè)計(jì)三款芯片,在明年和后年會(huì)繼續(xù)推出B100和X100。B100,性能已經(jīng)望不到頭了這次,英偉達(dá)更是在官方公告中宣布了全新的H200和B100,將過去數(shù)據(jù)中心芯片兩年一更新的速率直接翻倍。以推理1750億參數(shù)的GPT-3為例,今年剛發(fā)布的H100是前代A100性能的11倍,明年即將上市的H200相對于H100則有超過60%的提升,而再之后的B100,性能更是望不到頭。至此,H100也成為了目前在位最短的「旗艦級」GPU。如果說H100現(xiàn)在就是科技行業(yè)的「黃金」,那么英偉達(dá)又成功制造了「鉑金」和「鉆石」。
H200加持,新一代AI超算中心大批來襲
英偉達(dá)、AMD、英特爾:三巨頭決戰(zhàn)AI芯片
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。