NVIDIA兩款全新GPU首秀:刷新AI推理紀(jì)錄、性能314倍于CPU
時(shí)隔半年,MLPerf組織發(fā)布最新的MLPerf Inference v1.0結(jié)果,V1.0引入了新的功率測(cè)量技術(shù)、工具和度量標(biāo)準(zhǔn),以補(bǔ)充性能基準(zhǔn),新指標(biāo)更容易比較系統(tǒng)的能耗,性能和功耗。
本文引用地址:http://m.butianyuan.cn/article/202104/424788.htmV1.0版本的基準(zhǔn)測(cè)試內(nèi)容云端推理依舊包括推薦系統(tǒng)、自然語言處理、語音識(shí)別和醫(yī)療影像等一系列工作負(fù)載,邊緣AI推理測(cè)試則不包括推薦系統(tǒng)。
MLPerf Inference v1.0
所有主要的OEM都提交了MLPerf測(cè)試結(jié)果,其中,在AI領(lǐng)域占有優(yōu)勢(shì)地位的NVIDIA此次是唯一一家提交了從數(shù)據(jù)中心到邊緣所有MLPerf基準(zhǔn)測(cè)試類別數(shù)據(jù)的公司,并且憑借A100 GPU刷新了紀(jì)錄。
不僅如此,超過一半提交成績(jī)的系統(tǒng)都采用了NVIDIA的AI平臺(tái)。
不過,初創(chuàng)公司提交其AI芯片推理性能Benchmark的依舊很少。
AI推理最高性能半年提升45%
雷鋒網(wǎng)在MLPerf Inference v0.7結(jié)果發(fā)布的時(shí)候已經(jīng)介紹過,NVIDIA去年5月發(fā)布的安培架構(gòu)A100 Tensor Core GPU在云端推理的基準(zhǔn)測(cè)試性能是最先進(jìn)英特爾CPU的237倍。
經(jīng)過半年的優(yōu)化,NVIDIA又將推薦系統(tǒng)模型DLRM、語音識(shí)別模型RNN-T和醫(yī)療影像3D U-Net模型的性能進(jìn)一步提升,提升幅度達(dá)最高達(dá)45%,與CPU的性能差距也提升至314倍。
從架構(gòu)的角度看,GPU架構(gòu)用于推理優(yōu)勢(shì)并不明顯,但NVIDIA依舊憑借其架構(gòu)設(shè)計(jì)配合軟件優(yōu)化刷新了MLPerf AI云端和邊緣推理的Benchmark紀(jì)錄。
MLPerf的Benchmark證明了A100 GPU性能,但其不菲的售價(jià)也是許多公司難以承受的。
今天,更具性價(jià)比的NVIDIAA30(功耗165W)和A10(功耗150W)GPU也在MLPerf Inference v1.0中首秀。
A30 GPU強(qiáng)于計(jì)算,支持廣泛的AI推理和主流企業(yè)級(jí)計(jì)算工作負(fù)載,如推薦系統(tǒng)、對(duì)話式AI和計(jì)算機(jī)視覺。
A10 GPU更側(cè)重圖像性能,可加速深度學(xué)習(xí)推理、交互式渲染、計(jì)算機(jī)輔助設(shè)計(jì)和云游戲?yàn)榛旌闲虯I和圖形工作負(fù)載提供支持??梢詰?yīng)用于AI推理和訓(xùn)練的A30和A10 GPU今年夏天開始會(huì)應(yīng)用于各類服務(wù)器中。
A100云端AI推理性能比CPU高314倍
A100經(jīng)過半年的優(yōu)化,與CPU的性能差距從v0.7時(shí)最多237倍的差距增加到了最高314倍。
具體來看,在數(shù)據(jù)中心推理的Benchmark中,在離線(Offline)測(cè)試,A100比最新發(fā)布的A10有1-3倍的性能提升,在服務(wù)器(Server)測(cè)試中,A100的性能最高是A10的近5倍,在兩種模式下,A30的性能都比A10高。
值得注意的是,英特爾本月初最新發(fā)布的第三代至強(qiáng)可擴(kuò)展CPU Ice Lake的推理性能相比上一代Cooper Lake在離線測(cè)試的ResNet-50和SSD-Large模型下有顯著提升,但相比A100 GPU體現(xiàn)出17-314倍的性能差距。
高通AI 100的云端AI推理在MLPerf Inference v1.0測(cè)試下表現(xiàn)不錯(cuò),其提交的離線和服務(wù)器測(cè)試下的ResNet-50和SSD-Large模型成績(jī)顯示,高通AI 100的推理性能均比NVIDIA新推出的A10 GPU高,其它模型的成績(jī)高通并未提交。
從每瓦性能來看,高通A100在提交成績(jī)的ResNet-50和SSD-Large模型中比A100更高,但性能比A100低。
賽靈思的VCK5000 FPGA在圖像分類ResNet-50的測(cè)試中表現(xiàn)不錯(cuò)。
Jetson系列是唯一提交所有邊緣推理測(cè)試成績(jī)的芯片
A系列GPU在云端AI推理的性能優(yōu)勢(shì)可以延續(xù)至邊緣端。MLPerf的邊緣AI推理Benchmark分為Single-Stream和Multi-Stream,A100 PCIe、A30、A10在Single-Stream的所有模型下都有顯著的性能優(yōu)勢(shì),高通A100在ResNet-50模型下也優(yōu)勢(shì)明顯,不過高通也僅提交了這一模型的成績(jī)。
這些產(chǎn)品用于邊緣AI推理有些大材小用,NVIDIA的Jetson家族的AGX Xavier和Xavier NX更適合邊緣場(chǎng)景,根據(jù)提交的數(shù)據(jù),Centaur公司在ResNet-50模型中優(yōu)勢(shì)明顯,SSD-Small模型下的性能與Jetson Xavier NX性能相當(dāng)。
邊緣AI推理的Multi-Stream Benchmark,只有NVIDIA提交了成績(jī),A100 PCIe版本的性能最高是Jetson AGX Xavier和Xavier NX的60倍。
在NVIDIA此次提交的結(jié)果中,多項(xiàng)是基于Triton推理服務(wù)器,其支持所有主要框架的模型,可在GPU及CPU上運(yùn)行,還針對(duì)批處理、實(shí)時(shí)和串流傳輸?shù)炔煌牟樵冾愋瓦M(jìn)行了優(yōu)化,可簡(jiǎn)化在應(yīng)用中部署AI的復(fù)雜性。
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))了解到,在配置相當(dāng)?shù)那闆r下,采用Triton的提交結(jié)果所達(dá)到的性能接近于最優(yōu)化GPU能夠達(dá)到性能的95%,和最優(yōu)化CPU99%的性能。
另外,NVIDIA還使用Ampere架構(gòu)的多實(shí)例GPU性能,在單一GPU上使用7個(gè)MIG實(shí)例,同時(shí)運(yùn)行所有7項(xiàng)MLPerf離線測(cè)試,實(shí)現(xiàn)了與單一MIG實(shí)例獨(dú)立運(yùn)行幾乎完全相同的性能。
小結(jié)
MLPerf Benchmark結(jié)果的持續(xù)更新,可以為在IT基礎(chǔ)設(shè)施投資的企業(yè)提供一些有價(jià)值的參考,也能推動(dòng)AI的應(yīng)用和普及。
在這個(gè)過程中,軟件對(duì)于AI性能的提升非常重要,同樣是A100 GPU,通過有針對(duì)性的優(yōu)化,半年實(shí)現(xiàn)了45%的性能提升。
同時(shí)也不難發(fā)現(xiàn),NVIDIA正在通過持續(xù)的軟硬件優(yōu)化,以及更豐富的產(chǎn)品組合,保持其在AI領(lǐng)域的領(lǐng)導(dǎo)力,在AI領(lǐng)域想要超越NVIDIA似乎正在變得越來越難。
評(píng)論