博客專欄

EEPW首頁(yè) > 博客 > 六大門(mén)派,圍攻云端AI芯片光明頂

六大門(mén)派,圍攻云端AI芯片光明頂

發(fā)布人:芯東西 時(shí)間:2022-09-15 來(lái)源:工程師 發(fā)布文章
英偉達(dá)江湖地位穩(wěn)固,國(guó)產(chǎn)AI芯片新勢(shì)力發(fā)起沖鋒。

作者 |  ZeR0
編輯 |  漠影
AI芯片的戰(zhàn)場(chǎng),明顯更熱鬧了。就在上周五,國(guó)際權(quán)威人工智能(AI)性能基準(zhǔn)測(cè)試MLPerf公布了最新的數(shù)據(jù)中心及邊緣場(chǎng)景AI推理榜單結(jié)果,無(wú)論是參與評(píng)選的企業(yè)還是實(shí)際AI芯片表現(xiàn),都比往屆多了不少看頭。

圖片

打頭陣的自然還是國(guó)際AI計(jì)算巨頭英偉達(dá)。這是英偉達(dá)(NVIDIA)第一次讓其今年剛發(fā)布的最新旗艦AI加速器H100 Tensor Core GPU提交成績(jī),AI推理性能足足比上一代GPU高出4.5倍。高通則通過(guò)云端AI芯片Cloud AI 100的最新評(píng)測(cè)成績(jī),證明其在高能效方面依然很能打。國(guó)內(nèi)AI芯片企業(yè)也不示弱,這次壁仞科技、墨芯人工智能均首次“參戰(zhàn)”,并且戰(zhàn)績(jī)不俗,在部分模型的成績(jī)甚至超過(guò)了英偉達(dá)旗艦AI芯片A100和H100。壁仞科技共提交了數(shù)據(jù)中心場(chǎng)景ResNet和BERT 99.90%精度兩個(gè)模型的數(shù)據(jù),同時(shí)包括Offline模式和Server模式,其離線模式8卡整機(jī)性能在BERT模型下達(dá)到英偉達(dá)8卡A100機(jī)型性能的1.58倍。墨芯的S30計(jì)算卡則在ResNet-50 95784 FPS的單卡算力奪得第一,達(dá)到英偉達(dá)H100的1.2倍、A100的2倍。還有韓國(guó)SK電訊在2020年11月推出的韓國(guó)首個(gè)AI芯片Sapeon X220,這次也通過(guò)參與測(cè)試展現(xiàn)出超過(guò)英偉達(dá)入門(mén)級(jí)AI加速卡A2性能的表現(xiàn)。不過(guò),在今年6月訓(xùn)練基準(zhǔn)測(cè)試榜單中大秀高性能、高能效成績(jī)的谷歌TPU v4芯片,并沒(méi)有出現(xiàn)在此次推理榜單中。此外,英特爾、阿里也分別展示了僅基于其服務(wù)器CPU的系統(tǒng)在加速AI推理方面的性能表現(xiàn)。總的來(lái)說(shuō),英偉達(dá)A100依然是橫掃各大測(cè)試成績(jī)的全能選手,還未上市的H100此次只是初露鋒芒,預(yù)計(jì)訓(xùn)練性能的提升會(huì)更加“夸張”。國(guó)產(chǎn)AI芯片雖然只參加了ResNet、BERT等部分AI模型的評(píng)測(cè),但單點(diǎn)戰(zhàn)績(jī)已經(jīng)能與英偉達(dá)旗艦計(jì)算產(chǎn)品比肩,展現(xiàn)出在跑特定模型時(shí)替代國(guó)際先進(jìn)產(chǎn)品的能力。

MLPerf數(shù)據(jù)中心推理榜單:

https://mlcommons.org/en/inference-datacenter-21/

MLPerf邊緣推理榜單:

https://mlcommons.org/en/inference-edge-21/



01.H100王者登場(chǎng),英偉達(dá)仍然稱雄


MLPerf基準(zhǔn)測(cè)試按部署方式分為數(shù)據(jù)中心、邊緣、移動(dòng)、物聯(lián)網(wǎng)四類場(chǎng)景,覆蓋六類最具代表性的主流AI模型——圖像分類(ResNet50)、自然語(yǔ)言處理(BERT)、語(yǔ)音識(shí)別(RNN-T)、目標(biāo)物體檢測(cè)(RetinaNet)、醫(yī)學(xué)影像分割(3D-UNet)、智能推薦(DLRM)。其中,自然語(yǔ)言理解、醫(yī)學(xué)影像分割和智能推薦3個(gè)任務(wù)設(shè)置了99%與99.9%兩種精度要求,以考察提升AI推理精度要求對(duì)計(jì)算性能的影響。截至目前,英偉達(dá)是唯一一家在每輪MLPerf基準(zhǔn)測(cè)試都參與所有主流算法測(cè)試的公司。英偉達(dá)A100在最新MLPerf AI推理測(cè)試榜單中依然大殺四方,在多類模型榜單的性能表現(xiàn)均名列前茅。A100的繼任者H100首次在MLPerf亮相,連破多項(xiàng)世界記錄,其性能比A100高出4.5倍。

圖片

▲英偉達(dá)H100性能比A100高出4.5倍(圖源:英偉達(dá))

英偉達(dá)基于H100 GPU單芯片提交了兩個(gè)系統(tǒng),一個(gè)系統(tǒng)配備AMD EPYC CPU作為主機(jī)處理器,另一個(gè)系統(tǒng)配備英特爾至強(qiáng)CPU。可以看到,雖然采用英偉達(dá)最新Hopper架構(gòu)的H100 GPU這次只展示了單芯片的測(cè)試成績(jī),其性能已經(jīng)在多個(gè)情況下超過(guò)有2、4、8顆A100芯片的系統(tǒng)的性能。

圖片

▲英偉達(dá)H100在數(shù)據(jù)中心場(chǎng)景所有工作負(fù)載都刷新性能記錄(圖源:英偉達(dá))

特別是用在對(duì)更大規(guī)模、更高性能提出要求的自然語(yǔ)言處理BERT-Large模型上,H100的性能比A100和壁仞科技GPU超出一大截,這主要?dú)w功于其Transformer Engine。H100 GPU預(yù)計(jì)在今年年底發(fā)布,后續(xù)還會(huì)參加MLPerf的訓(xùn)練基準(zhǔn)測(cè)試。此外,在邊緣計(jì)算方面,將英偉達(dá)Ampere架構(gòu)和Arm CPU內(nèi)核集成在一塊芯片的英偉達(dá)Orin,運(yùn)行了所有MLPerf基準(zhǔn)測(cè)試,是所有低功耗系統(tǒng)級(jí)芯片中贏得測(cè)試最多的芯片。值得一提的是,相比今年4月在MLPerf上首次亮相的成績(jī),英偉達(dá)Orin芯片的邊緣AI推理能效進(jìn)一步提高了50%。

圖片

▲在能效方面,Orin邊緣AI推理性能提升多達(dá)50%(圖源:英偉達(dá))

從英偉達(dá)往屆在MLPerf提交的測(cè)試結(jié)果,可以看出AI軟件帶來(lái)的性能提升越來(lái)越顯著。自2020年7月在MLPerf上首次亮相以來(lái),得益于NVIDIA AI軟件的不斷改進(jìn),A100的性能已經(jīng)提升6倍。目前,NVIDIA AI是唯一能在數(shù)據(jù)中心和邊緣計(jì)算中運(yùn)行所有MLPerf推理工作負(fù)載和場(chǎng)景的平臺(tái)。通過(guò)軟硬協(xié)同優(yōu)化,英偉達(dá)GPU在數(shù)據(jù)中心及邊緣計(jì)算中實(shí)現(xiàn)AI推理加速的成績(jī)更加突出。
02.壁仞科技通用GPU參戰(zhàn)ResNet和BERT模型性能超A100


壁仞科技今年8月剛發(fā)布的通用GPU芯片BR104,亦在MLPerf首次公開(kāi)亮相。MLPerf推理榜單分為Closed(固定任務(wù))和Open(開(kāi)放優(yōu)化)兩類,固定任務(wù)主要考察參測(cè)廠商的硬件系統(tǒng)和軟件優(yōu)化的能力,開(kāi)放優(yōu)化則著重考察參測(cè)廠商的AI技術(shù)創(chuàng)新力。此次壁仞科技參加的是數(shù)據(jù)中心場(chǎng)景的固定任務(wù)評(píng)測(cè),參評(píng)機(jī)型是搭載8張壁礪104-300W板卡的浪潮NF5468M6服務(wù)器,壁礪104板卡內(nèi)置BR104芯片。壁仞科技提交了ResNet和BERT 99.9%精度模型的評(píng)測(cè),同時(shí)包括Offline模式和Server模式。

圖片

Offline模式對(duì)應(yīng)數(shù)據(jù)在本地可用的情況,比如在ResNet-50、BERT模型中,Offline模式更為重要;Server模式的數(shù)據(jù)則來(lái)自即時(shí)數(shù)據(jù),數(shù)據(jù)以突發(fā)和間歇的方式在線送達(dá),比如在DLRM中,Server模式更重要。據(jù)悉,壁仞科技這次只選擇這兩類模型參評(píng),主要考慮到兩者是目前壁仞科技的目標(biāo)客戶應(yīng)用最廣泛、最重要的模型,特別是BERT模型。

圖片

▲壁仞科技BR104在BERT模型評(píng)選中同時(shí)拿下離線和在線模式的整機(jī)性能領(lǐng)先(圖源:壁仞科技)

從測(cè)試結(jié)果來(lái)看,在BERT模型的評(píng)選中,相較于英偉達(dá)提交的基于8張A100的機(jī)型,基于8張壁仞科技BR104的機(jī)型,性能達(dá)到了前者的1.58倍。

圖片

▲壁仞B(yǎng)R104在ResNet-50和BERT模型評(píng)選中單卡性能超過(guò)A100

總體來(lái)看,壁仞科技8卡PCle解決方案的性能表現(xiàn),估計(jì)會(huì)介乎英偉達(dá)8卡A100與8卡H100之間。除了壁仞科技自己提交的8卡機(jī)型外,知名服務(wù)器提供商浪潮信息還提交了一款搭載4張壁礪104板卡的服務(wù)器,這也是浪潮信息首次提交基于國(guó)產(chǎn)廠商芯片的服務(wù)器測(cè)試成績(jī)。在所有的4卡機(jī)型中,浪潮提交的服務(wù)器在ResNet50(Offline)和BERT(Offline & Server, 99.9%精度)兩個(gè)模型下,也奪得了全球第一。

圖片

對(duì)于一家初出茅廬、首次推出芯片的初創(chuàng)公司來(lái)說(shuō),這個(gè)成績(jī)已經(jīng)非常驚人了。
03.墨芯S30奪魁圖像分類單卡算力95784 FPS遠(yuǎn)超H100


另一家中國(guó)云端AI芯片企業(yè)墨芯人工智能同樣首次參評(píng)MLPerf,而且在圖像分類模型的推理任務(wù)上取得了超過(guò)英偉達(dá)H100的單卡算力表現(xiàn)。墨芯設(shè)計(jì)AI芯片英騰處理器(ANTOUM)時(shí)采用了自研雙稀疏化技術(shù)來(lái)實(shí)現(xiàn)底層的芯片架構(gòu)創(chuàng)新,從而兼顧數(shù)據(jù)中心對(duì)高性能和高能效比的需求。在今年的GTIC 2022全球AI芯片峰會(huì)上,墨芯人工智能首次向業(yè)內(nèi)全面發(fā)布其首批面向數(shù)據(jù)中心AI推理應(yīng)用的高稀疏率計(jì)算卡S4、S10和S30,分別為單****、雙****和三****。

圖片

▲墨芯人工智能S30計(jì)算卡

此次墨芯參加的是開(kāi)放優(yōu)化類的測(cè)試。根據(jù)最新MLPerf推理榜單,墨芯S30計(jì)算卡以95784FPS的單卡算力,奪得ResNet-50模型算力第一,是H100的1.2倍、A100的2倍。在運(yùn)行BERT-Large高精度模型(99.9%)方面,墨芯S30雖未戰(zhàn)勝H100,卻實(shí)現(xiàn)了高于A100性能2倍的成績(jī),S30單卡算力達(dá)3837SPS。

圖片

▲運(yùn)行ResNet-50和BERT-Large模型時(shí),墨芯S30與A100、H100的對(duì)比(圖源:墨芯人工智能)

值得一提的是,墨芯S30采用的是12nm制程,而英偉達(dá)H100采用的是更先進(jìn)的4nm制程,能夠在制程工藝存在代際差的情況下追平兩大數(shù)據(jù)中心主流AI模型的性能表現(xiàn),主要得益于墨芯自主研發(fā)的稀疏化算法及架構(gòu)。MLPerf的測(cè)試要求非常嚴(yán)格,不僅考驗(yàn)各產(chǎn)品算力,同時(shí)設(shè)置精度要求在99%以上,以考察AI推理精度的高要求對(duì)計(jì)算性能的影響,也就是說(shuō)參賽廠商不能以犧牲精度的方式換取算力提升。這亦證明了墨芯能做到在實(shí)現(xiàn)稀疏化計(jì)算的同時(shí)兼顧精度無(wú)損。
04.高能效,高通云端AI芯片的王牌


高通早在2019年就發(fā)布的首款云端AI芯片Cloud AI 100,繼續(xù)堅(jiān)挺地參評(píng)MLPerf,與一眾新AI加速器同場(chǎng)競(jìng)技。從測(cè)試成績(jī)來(lái)看,單論在圖像處理上的高能效,采用7nm制程的高通Cloud AI 100芯片依然可以笑傲江湖。

圖片

▲高通Cloud AI 100

MLPerf最新披露的評(píng)測(cè)結(jié)果中,富士康、創(chuàng)通聯(lián)達(dá)(Thundercomm)、英業(yè)達(dá)(Inventec)、戴爾、HPE和聯(lián)想都提交了使用高通Cloud AI 100芯片的測(cè)試成績(jī)??梢钥闯?,高通的AI芯片已經(jīng)在被亞洲云服務(wù)器市場(chǎng)接納。高通Cloud AI 100有兩個(gè)版本,專業(yè)版(400 TOPS)或標(biāo)準(zhǔn)版(300 TOPS),都具有高能效的優(yōu)勢(shì)。在圖像處理方面,該芯片的每瓦性能比標(biāo)準(zhǔn)部件的NVIDIA Jetson Orin高1倍,在自然語(yǔ)言處理BERT-99模型方面的能效亦是略勝一籌。

圖片

▲高通Cloud AI 100在ResNet-50及BERT-99模型測(cè)試中的能效比領(lǐng)先(圖源:高通)

在保持高能效的同時(shí),高通的AI芯片并沒(méi)有以犧牲高性能為代價(jià),一臺(tái)5卡服務(wù)器功耗75W,可實(shí)現(xiàn)的性能比2卡A100服務(wù)器高出近50%。而單臺(tái)2卡A100服務(wù)器的功耗高達(dá)300W。

圖片

▲高通Cloud AI 100的每瓦性能表現(xiàn)(圖源:高通)

面向邊緣計(jì)算,高通Cloud AI 100在圖形處理方面展現(xiàn)出的高能效已經(jīng)非常有競(jìng)爭(zhēng)力,不過(guò)大型數(shù)據(jù)中心對(duì)芯片的通用性會(huì)有更高要求,如果高通想要進(jìn)一步打入云端市場(chǎng),可能得在下一代云邊AI芯片的設(shè)計(jì)上擴(kuò)展對(duì)推薦引擎等更多主流AI模型的支持。

圖片

▲實(shí)現(xiàn)邊緣服務(wù)器高能效,不以犧牲高性能為代價(jià)(圖源:高通)


05.韓國(guó)首款A(yù)I芯片亮相對(duì)打英偉達(dá)入門(mén)級(jí)AI加速卡


這次MLPerf榜單中,我們還看到了在AI芯片領(lǐng)域相對(duì)缺乏存在感的韓國(guó)企業(yè)的身影。Sapeon X220是韓國(guó)知名科技企業(yè)SK電訊自主研發(fā)的AI芯片,也是韓國(guó)第一顆用于數(shù)據(jù)中心的非存儲(chǔ)類商用芯片,能夠高速、低功耗地執(zhí)行AI服務(wù)所需的大規(guī)模計(jì)算。

圖片

▲Sapeon X220部分參數(shù)

其測(cè)試結(jié)果也很有意思。Sapeon X220搭載于Supermicro服務(wù)器上,在數(shù)據(jù)中心推理基準(zhǔn)測(cè)試中的性能超過(guò)了英偉達(dá)去年年底發(fā)布的入門(mén)級(jí)AI加速卡A2 GPU。其中,X220-Compact的性能比A2高2.3倍,X220-Enterprise的性能比A2提升4.6倍。能效表現(xiàn)同樣不錯(cuò),在基于最大功耗的每瓦性能方面,X220-Compact的能效是A2的2.2倍,X220-Enterprise的能效是A2的2.0倍。

圖片

▲Sapeon X220系列與英偉達(dá)A2的性能及能效對(duì)比(圖源:SAPEON)

值得一提的是,英偉達(dá)A2采用的是先進(jìn)的8nm制程,而Sapeon X220采用的是28nm成熟制程。據(jù)悉,Sapeon芯片已經(jīng)應(yīng)用在智能音箱、智能視頻安全解決方案、基于AI的媒體質(zhì)量?jī)?yōu)化解決方案等應(yīng)用中。今年SK電訊還將AI芯片業(yè)務(wù)獨(dú)立出來(lái),成立了一家名為SAPEON的公司。SAPEON首席執(zhí)行官Soojung Ryu透露說(shuō),未來(lái)該公司計(jì)劃拓展X220的各個(gè)應(yīng)用領(lǐng)域,有信心在明年下半年用下一代芯片X330與競(jìng)品拉開(kāi)差距,進(jìn)一步提高性能。
06.英特爾預(yù)覽下一代服務(wù)器CPU阿里倚天710 CPU首參評(píng)


盡管云端AI推理芯片正呈百家爭(zhēng)鳴之勢(shì),但截至目前,服務(wù)器CPU仍是AI推理市場(chǎng)的主導(dǎo)者。在此次MLPerf榜單中,我們看到僅搭載英特爾至強(qiáng)、阿里自研CPU倚天710的系統(tǒng)參評(píng),這些系統(tǒng)沒(méi)有搭載任何AI加速器,可以較真實(shí)的反映出這些服務(wù)器CPU的AI推理加速能力。在固定任務(wù)榜單中,英特爾提交了一個(gè)預(yù)覽版Sapphire Rapids 2-socket搭配PyTorch軟件的系統(tǒng),推理性能雖被H100“虐殺”,但已經(jīng)足夠打敗A2。畢竟這是一款服務(wù)器CPU,AI推理加速能力只是它的加分項(xiàng),這樣看來(lái)英特爾至強(qiáng)CPU的加速能力已經(jīng)足夠應(yīng)對(duì)常規(guī)的AI推理任務(wù)需求。

圖片

在開(kāi)放優(yōu)化類榜單中,一家名為NeuralMagic的初創(chuàng)公司通過(guò)提交僅有英特爾至強(qiáng)CPU的系統(tǒng),展示了其基于剪枝技術(shù)實(shí)現(xiàn)更精細(xì)的軟件,用更少的算力就能實(shí)現(xiàn)與其他軟件同等的性能。

圖片

阿里巴巴亦首次展示了整個(gè)集群作為單機(jī)運(yùn)行的結(jié)果,在總吞吐量上超過(guò)其他結(jié)果。其自研倚天710 CPU芯片首次出現(xiàn)在MLPerf榜單中。

圖片

另外從各廠商參評(píng)這次MLPerf的系統(tǒng)配置,我們可以看到,AMD EPYC服務(wù)器CPU在數(shù)據(jù)中心推理應(yīng)用中的存在感越來(lái)越高,大有與英特爾至強(qiáng)并駕齊驅(qū)的勢(shì)頭。
07.結(jié)語(yǔ):英偉達(dá)江湖地位穩(wěn)固國(guó)產(chǎn)AI芯片新勢(shì)力發(fā)起沖鋒


總的來(lái)看,英偉達(dá)繼續(xù)穩(wěn)定發(fā)揮,霸榜MLPerf推理基準(zhǔn)測(cè)試,是毫無(wú)爭(zhēng)議的大贏家。雖說(shuō)部分單點(diǎn)性能成績(jī)被其他競(jìng)品趕超,但若論通用性,英偉達(dá)A100和H100依然是能將其他一眾AI芯片“按地摩擦”的存在。目前英偉達(dá)還沒(méi)有提交H100的推理能效測(cè)試數(shù)據(jù),以及其在訓(xùn)練方面的性能表現(xiàn),等這些成績(jī)出來(lái),H100預(yù)計(jì)會(huì)風(fēng)頭更盛。國(guó)產(chǎn)AI芯片企業(yè)也嶄露鋒芒。繼阿里平頭哥自研云端AI芯片含光800的單卡算力在2019年登頂MLPerf ResNet-50模型推理測(cè)試后,壁仞科技、墨芯也分別通過(guò)第三方權(quán)威AI基準(zhǔn)測(cè)試平臺(tái)展示出其AI芯片的實(shí)測(cè)性能實(shí)力。從這次開(kāi)放優(yōu)化類榜單展示的性能成績(jī),我們看到稀疏性計(jì)算已經(jīng)成數(shù)據(jù)中心AI推理的一個(gè)熱門(mén)趨勢(shì),我們期待接下來(lái)這類具有創(chuàng)新力的技術(shù)能進(jìn)入固定任務(wù)榜單,通過(guò)更精細(xì)、更公平地比較系統(tǒng)實(shí)力,進(jìn)一步驗(yàn)證其落地價(jià)值。隨著參評(píng)機(jī)構(gòu)、系統(tǒng)規(guī)模、系統(tǒng)配置的增加和走向多元化,MLPerf基準(zhǔn)測(cè)試正變得越來(lái)越復(fù)雜。這些歷屆的榜單結(jié)果,也能反映出全球AI芯片的技術(shù)及產(chǎn)業(yè)格局之變遷。
芯東西
芯東西專注報(bào)道芯片、半導(dǎo)體產(chǎn)業(yè)創(chuàng)新,尤其是以芯片設(shè)計(jì)創(chuàng)新引領(lǐng)的計(jì)算新革命和國(guó)產(chǎn)替代浪潮;我們是一群追“芯”人,帶你一起遨游“芯”辰大海。
680篇原創(chuàng)內(nèi)容
公眾號(hào)


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 芯片光明

技術(shù)專區(qū)

關(guān)閉