Habana攜超強(qiáng)AI芯片入局，向CPU、GPU大鱷亮劍

作者：王瑩時(shí)間：2019-06-21 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

初創(chuàng)公司以色列Habana Labs從隱身變?yōu)楦哒{(diào)，近日在京舉辦新聞發(fā)布會(huì)，首席商務(wù)官Eitan Medina介紹了兩款AI芯片及解決方案，分別用于推理和訓(xùn)練，適合數(shù)據(jù)中心、自動(dòng)駕駛等應(yīng)用，競(jìng)爭(zhēng)目標(biāo)直指用AI領(lǐng)域最高性能的CPU和英偉達(dá)GPU，號(hào)稱性能同比高三四倍，延遲更低，且擴(kuò)展性超強(qiáng)，集成度更高。

本文引用地址：http://m.butianyuan.cn/article/201906/401790.htm

照片：Habana首席商務(wù)官Eitan Medina

Habana的AI芯片推出周期為9個(gè)月，2018年9月宣布推理芯片Goya，2019年6月宣布訓(xùn)練處理器Gaudi。

該公司盡管2016年成立，已有兩輪投資，第二輪投資由Intel等參與，現(xiàn)在有約1.2億美元資金，主要用于招募眾多優(yōu)秀的DSP、處理器人才。公司已有一百余人，大部分為開發(fā)人員。公司開始做軟件和算法，積累兩年后，于2018年9月推出第一代芯片Goya。兩代芯片皆采用16 nm工藝，在臺(tái)積電流片。

1 Goya：高性能的AI推理處理器

Goya有基于PCIe的卡，用于服務(wù)器的推理和預(yù)測(cè)。通過(guò)和CPU、英偉達(dá)GPU相比，Goya性能有3倍的優(yōu)勢(shì)，功耗和延遲也很低，可以實(shí)時(shí)處理圖片。

圖片4.png

迄今，Goya仍是市場(chǎng)上最強(qiáng)性能的產(chǎn)品。3片Goya卡相當(dāng)于8片Tesla（特斯拉）V100 GPU，169個(gè)CPU服務(wù)器。

圖片5.png

那么，為何Habana的芯片性能領(lǐng)先？通常有兩種方式可以保證領(lǐng)先，一種是架構(gòu)，另一種靠工藝。Goya屬于前者，依靠架構(gòu)。首先，不像GPU，Goya是完全針對(duì)AI和全可編程設(shè)計(jì)的，并且有Tensor（張量）處理核心（TPC）。

圖片6.png

AI的性能主要體現(xiàn)在兩方面：計(jì)算能力和延遲。batch size直接影響了處理器性能。在數(shù)據(jù)中心中，GPU的batch size要定得很大，否則會(huì)影響性能。為了實(shí)現(xiàn)大的batch size，需要把很大數(shù)量的數(shù)據(jù)讀到內(nèi)存中，這帶來(lái)了延遲。Goya可以用較小的batch size，甚至一張圖片即可，因此延遲低，這特別適合自動(dòng)駕駛這類實(shí)時(shí)性強(qiáng)的應(yīng)用。

推理的一個(gè)重要指標(biāo)是精度。在整形化（quantization）方面，Goya由于很強(qiáng)的算法團(tuán)隊(duì)，2018年在國(guó)際學(xué)報(bào)上曾發(fā)布了四篇論文。

在生態(tài)方面，很多客戶過(guò)去是在GPU和CPU上做的算法，現(xiàn)在轉(zhuǎn)到Goya也很容易，Habana公司有軟件堆棧（SynapseAI），支持客戶在不同處理器（GPU、CPU、FPGA等）上的訓(xùn)練，然后在Goya上運(yùn)行。

很多人不相信Habana這家小公司，但實(shí)際上Goya產(chǎn)品非常成熟，有很多客戶采用，例如facebook開源了Glow，并在官網(wǎng)上認(rèn)可了Goya，因?yàn)镚oya為Glow機(jī)器學(xué)習(xí)編譯器實(shí)現(xiàn)后端開源。另外，Goya把驅(qū)動(dòng)提供給了Linux，獲得了Linux的支持。

圖片7.png

盡管現(xiàn)在很多客戶在用CPU和GPU，但是正在尋找更好的處理器，因此Goya還可以給客戶提供定制化的產(chǎn)品，因此要給客戶最大權(quán)限的開放。

總之，Goya讓客戶在CPU和GPU上實(shí)現(xiàn)AI的推理和預(yù)測(cè)工作，可以容易地移植到Goya上。過(guò)去90%的推理和預(yù)測(cè)是在CPU和GPU上做的，現(xiàn)在有了專用的AI推理處理器。

2 Gaudi：處理能力強(qiáng)大4倍的AI訓(xùn)練處理器

Gaudi性能是最新的英偉達(dá)GPU的4倍，且在很小的batch size情況下實(shí)現(xiàn)的。

圖片8.png

支持RDMA是AI訓(xùn)練芯片的下一代發(fā)展方向。為此，AI訓(xùn)練處理器的領(lǐng)頭羊——英偉達(dá)已于2019年3月收購(gòu)了Habana的老鄉(xiāng)——以色列Mellanox公司，以獲得RDMA技術(shù)，使之可以運(yùn)行在以太網(wǎng)環(huán)境中。Gaudi更進(jìn)一步，集成了RDMA over Converged Ethernet（即RoCE v2）功能，從而讓AI系統(tǒng)能夠使用標(biāo)準(zhǔn)以太網(wǎng)擴(kuò)展至任何規(guī)模。不僅如此，Gaudi的獨(dú)特之處是集成了10個(gè)RDMA，而英偉達(dá)需要外接一個(gè)PCIe switch（如下圖）。

圖片9.png

Gaudi有芯片、卡（子卡和PCIe卡）及系統(tǒng)方案，通過(guò)PCIe，可以做垂直及橫向擴(kuò)展，使性能倍增。例如，Habana推出了一款名為HLS-1的8-Gaudi系統(tǒng)，與英偉達(dá)DCX-1（注：英偉達(dá)已出DCX-2）比較，基于Gaudi的HLS-1系統(tǒng)在擴(kuò)展性、總線效率等方面最高的。

圖片10.png

應(yīng)用案例，可以16個(gè)Gaudi芯片并用；或通過(guò)數(shù)據(jù)并行化和層級(jí)化處理提高處理效率，因此可以建立1千片Gaudi芯片的系統(tǒng)。在AI中，除了數(shù)據(jù)的并行化處理之外，還有模型的并行化處理，把大模型分成多個(gè)小模型，挑戰(zhàn)是之間的通訊，由于Gaudi有很多通訊接口，因此保證了通訊帶寬。而英偉達(dá)GDX-2沒(méi)有這么強(qiáng)的能力，因?yàn)橛ミ_(dá)的通訊接口有限，且采用了私有的協(xié)議。而Gaudi采用了內(nèi)置的RDMA方案，可以靈活擴(kuò)展，例如2千個(gè)芯片連接。因此，可以單機(jī)或幾百芯片互聯(lián)，進(jìn)行大型模型的訓(xùn)練，可謂沒(méi)有應(yīng)用的邊界。而傳統(tǒng)CPU很難超過(guò)16個(gè)互聯(lián)。

另外建議客戶不要用私有協(xié)議互聯(lián)，而在通用協(xié)議下，這樣可以在AI生態(tài)圈里選擇更多的處理器。

圖片11.png

新聞中心

Habana攜超強(qiáng)AI芯片入局，向CPU、GPU大鱷亮劍

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)