新聞中心

EEPW首頁 > 智能計(jì)算 > 編輯觀點(diǎn) > Habana攜超強(qiáng)AI芯片入局,向CPU、GPU大鱷亮劍

Habana攜超強(qiáng)AI芯片入局,向CPU、GPU大鱷亮劍

作者:王瑩 時(shí)間:2019-06-21 來源:電子產(chǎn)品世界 收藏

      初創(chuàng)公司以色列Habana Labs從隱身變?yōu)楦哒{(diào),近日在京舉辦新聞發(fā)布會(huì),首席商務(wù)官Eitan Medina介紹了兩款芯片及解決方案,分別用于推理和訓(xùn)練,適合、自動(dòng)駕駛等應(yīng)用,競(jìng)爭(zhēng)目標(biāo)直指用領(lǐng)域最高性能的CPU和英偉達(dá)GPU,號(hào)稱性能同比高三四倍,延遲更低,且擴(kuò)展性超強(qiáng),集成度更高。

本文引用地址:http://m.butianyuan.cn/article/201906/401790.htm

1561098898320916.png

照片:Habana首席商務(wù)官Eitan Medina

      Habana的芯片推出周期為9個(gè)月,2018年9月宣布推理芯片Goya,2019年6月宣布訓(xùn)練處理器Gaudi。

      該公司盡管2016年成立,已有兩輪投資,第二輪投資由Intel等參與,現(xiàn)在有約1.2億美元資金,主要用于招募眾多優(yōu)秀的DSP、處理器人才。公司已有一百余人,大部分為開發(fā)人員。公司開始做軟件和算法,積累兩年后,于2018年9月推出第一代芯片Goya。兩代芯片皆采用16 nm工藝,在臺(tái)積電流片。

1561098995761489.png

      1  Goya:高性能的AI推理處理器

      Goya有基于PCIe的卡,用于服務(wù)器的推理和預(yù)測(cè)。通過和CPU、英偉達(dá)GPU相比,Goya性能有3倍的優(yōu)勢(shì),功耗和延遲也很低,可以實(shí)時(shí)處理圖片。

1561099073705302.png

圖片4.png

      迄今,Goya仍是市場(chǎng)上最強(qiáng)性能的產(chǎn)品。3片Goya卡相當(dāng)于8片Tesla(特斯拉)V100 GPU,169個(gè)CPU服務(wù)器。

圖片5.png

      那么,為何Habana的芯片性能領(lǐng)先?通常有兩種方式可以保證領(lǐng)先,一種是架構(gòu),另一種靠工藝。Goya屬于前者,依靠架構(gòu)。首先,不像GPU,Goya是完全針對(duì)AI和全可編程設(shè)計(jì)的,并且有Tensor(張量)處理核心(TPC)。

圖片6.png

      AI的性能主要體現(xiàn)在兩方面:計(jì)算能力和延遲。batch size直接影響了處理器性能。在中,GPU的batch size要定得很大,否則會(huì)影響性能。為了實(shí)現(xiàn)大的batch size,需要把很大數(shù)量的數(shù)據(jù)讀到內(nèi)存中,這帶來了延遲。Goya可以用較小的batch size,甚至一張圖片即可,因此延遲低,這特別適合自動(dòng)駕駛這類實(shí)時(shí)性強(qiáng)的應(yīng)用。

      推理的一個(gè)重要指標(biāo)是精度。在整形化(quantization)方面,Goya由于很強(qiáng)的算法團(tuán)隊(duì),2018年在國際學(xué)報(bào)上曾發(fā)布了四篇論文。

      在生態(tài)方面,很多客戶過去是在GPU和CPU上做的算法,現(xiàn)在轉(zhuǎn)到Goya也很容易,Habana公司有軟件堆棧(SynapseAI),支持客戶在不同處理器(GPU、CPU、FPGA等)上的訓(xùn)練,然后在Goya上運(yùn)行。

      很多人不相信Habana這家小公司,但實(shí)際上Goya產(chǎn)品非常成熟,有很多客戶采用,例如facebook開源了Glow,并在官網(wǎng)上認(rèn)可了Goya,因?yàn)镚oya為Glow機(jī)器學(xué)習(xí)編譯器實(shí)現(xiàn)后端開源。另外,Goya把驅(qū)動(dòng)提供給了Linux,獲得了Linux的支持。

圖片7.png

      盡管現(xiàn)在很多客戶在用CPU和GPU,但是正在尋找更好的處理器,因此Goya還可以給客戶提供定制化的產(chǎn)品,因此要給客戶最大權(quán)限的開放。

      總之,Goya讓客戶在CPU和GPU上實(shí)現(xiàn)AI的推理和預(yù)測(cè)工作,可以容易地移植到Goya上。過去90%的推理和預(yù)測(cè)是在CPU和GPU上做的,現(xiàn)在有了專用的AI推理處理器。

      2  Gaudi:處理能力強(qiáng)大4倍的AI訓(xùn)練處理器

      Gaudi性能是最新的英偉達(dá)GPU的4倍,且在很小的batch size情況下實(shí)現(xiàn)的。

圖片8.png

      支持RDMA是AI訓(xùn)練芯片的下一代發(fā)展方向。為此,AI訓(xùn)練處理器的領(lǐng)頭羊——英偉達(dá)已于2019年3月收購了Habana的老鄉(xiāng)——以色列Mellanox公司,以獲得RDMA技術(shù),使之可以運(yùn)行在以太網(wǎng)環(huán)境中。Gaudi更進(jìn)一步,集成了RDMA over Converged Ethernet(即RoCE v2)功能,從而讓AI系統(tǒng)能夠使用標(biāo)準(zhǔn)以太網(wǎng)擴(kuò)展至任何規(guī)模。不僅如此,Gaudi的獨(dú)特之處是集成了10個(gè)RDMA,而英偉達(dá)需要外接一個(gè)PCIe switch(如下圖)。

圖片9.png

      Gaudi有芯片、卡(子卡和PCIe卡)及系統(tǒng)方案,通過PCIe,可以做垂直及橫向擴(kuò)展,使性能倍增。例如,Habana推出了一款名為HLS-1的8-Gaudi系統(tǒng),與英偉達(dá)DCX-1(注:英偉達(dá)已出DCX-2)比較,基于Gaudi的HLS-1系統(tǒng)在擴(kuò)展性、總線效率等方面最高的。

圖片10.png

      應(yīng)用案例,可以16個(gè)Gaudi芯片并用;或通過數(shù)據(jù)并行化和層級(jí)化處理提高處理效率,因此可以建立1千片Gaudi芯片的系統(tǒng)。在AI中,除了數(shù)據(jù)的并行化處理之外,還有模型的并行化處理,把大模型分成多個(gè)小模型,挑戰(zhàn)是之間的通訊,由于Gaudi有很多通訊接口,因此保證了通訊帶寬。而英偉達(dá)GDX-2沒有這么強(qiáng)的能力,因?yàn)橛ミ_(dá)的通訊接口有限,且采用了私有的協(xié)議。而Gaudi采用了內(nèi)置的RDMA方案,可以靈活擴(kuò)展,例如2千個(gè)芯片連接。因此,可以單機(jī)或幾百芯片互聯(lián),進(jìn)行大型模型的訓(xùn)練,可謂沒有應(yīng)用的邊界。而傳統(tǒng)CPU很難超過16個(gè)互聯(lián)。

      另外建議客戶不要用私有協(xié)議互聯(lián),而在通用協(xié)議下,這樣可以在AI生態(tài)圈里選擇更多的處理器。

圖片11.png



關(guān)鍵詞: AI 數(shù)據(jù)中心

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉