【E問E答】英特爾的CPU+FPGA能否打敗谷歌TPU？

作者：時間：2017-04-13 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　近日，英特爾宣布與科大訊飛達成技術(shù)合作，共同優(yōu)化在機器學(xué)習(xí)與深度學(xué)習(xí)領(lǐng)域的離線訓(xùn)練與在線預(yù)測，并在上周舉辦電博會上進行了展示。本文是網(wǎng)易智能對英特爾技術(shù)專家與科大訊飛深度學(xué)習(xí)平臺研發(fā)總監(jiān)張致江的采訪，值得一讀。

本文引用地址：http://m.butianyuan.cn/article/201704/346533.htm

　　英特爾AI芯片技術(shù)布局：CPU+FPGA

　　據(jù)了解，2016年11月，英特爾和訊飛簽署了一個為期是三年的人工智能技術(shù)合作框架。英特爾與科大訊飛的技術(shù)合作涵蓋了深度學(xué)習(xí)的完整流程，包括數(shù)據(jù)采集，離線訓(xùn)練(Traning)，在線預(yù)測(Inferencing)，采集新數(shù)據(jù)組，進行新的離線訓(xùn)練。

　　機器學(xué)習(xí)/深度學(xué)習(xí)中最重要的技術(shù)是離線訓(xùn)練和在線推理。針對離線訓(xùn)練，英特爾和訊飛主要是針對現(xiàn)在的KNL和即將要發(fā)布的KNM來提升訊飛在深度學(xué)習(xí)平臺的性能?？拼笥嶏w深度學(xué)習(xí)平臺研發(fā)總監(jiān)張致江表示，英特爾下一代的處理器KNL和KNM這方面去做這樣的事情效果非常好，目前在這個上面做的跟主流的深度學(xué)習(xí)處理方案水平相差很小，同時下一代的KNL、KNM因為有很大的顯存、編程的特性，未來可能考慮用這種方案去做平臺建設(shè)。張致江稱，現(xiàn)在主流的一些加速方案可能會限制整個計算的memory，而KNL、KNM實際上是打破了這樣一個限制。

　　在線推理方面，主要是用英特爾的FPGA技術(shù)。張致江稱，在線預(yù)測傳統(tǒng)的方法基本上都是用CPU的方式去做這樣的事情，但是隨著業(yè)務(wù)量的增長整個服務(wù)器的數(shù)量也是隨著線性增長的，成本太高。張致江稱，我們在用CPU加FPGA的方案去做的時候，一臺服務(wù)器里面就插了一張FPGA的加速處理器，整個性能是遠遠超過于兩臺甚至三臺、四臺CPU機器的性能，成本也會降低很多。

　　也就是說，英特爾將人工智能芯片的技術(shù)路徑分為離線訓(xùn)練與在線推理兩方面，針對離線訓(xùn)練會主推至強融核KNL/KNM處理器(KNM尚未上市)，特點是針對單精度操作進行了優(yōu)化，支持自啟動，能夠獨立運行操作系統(tǒng)和應(yīng)用軟件，內(nèi)置片上內(nèi)存，直接通過內(nèi)存控制器從DDR4內(nèi)存讀取數(shù)據(jù)到處理器緩存，對行業(yè)標(biāo)準(zhǔn)的開源深度學(xué)習(xí)框架進行了優(yōu)化。在線預(yù)測階段，英特爾主推至強CPU+Arria10FPGA的方案，聲稱可以實現(xiàn)低延遲高通量在線處理，因為英特爾A10FPGA原生支持并行多通道任務(wù)處理，超過1500個單精度浮點計算單元會同片上/本地存儲提供穩(wěn)定的低處理遲延，成本更低。

　　基于CPU+FPGA，能替代GPU嗎?

　　英特爾人工智能事業(yè)部(AIPG)首席技術(shù)官Amir Khosrowshahi在最近接受媒體采訪時表示，目前所使用GPU太低級了，半導(dǎo)體行業(yè)需要構(gòu)建全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)。Khosrowshahi認為，在執(zhí)行圖形渲染過程中輔助圖形處理單元的部分功能是沒有必要的，比如大容量緩存，頂點處理，渲染和紋理等等，從能源利用率上考慮也產(chǎn)生了相當(dāng)高的成本。Khosrowshahi稱，“神經(jīng)網(wǎng)絡(luò)則相當(dāng)簡單，利用小巧的矩陣乘法和非線性就能直接創(chuàng)建半導(dǎo)體來實現(xiàn)GPU的功能，而且你所創(chuàng)建的半導(dǎo)體非常忠誠于神經(jīng)網(wǎng)絡(luò)架構(gòu)，顯然這是GPU所無法給予的?！?/p>

　　而CPU+FPGA的優(yōu)勢在于，對于開發(fā)人員CPU的編程是相對比較容易的。如果說是用CPU加另外一個企業(yè)的加速處理器，往往這個加速處理器跟CPU不是編程體系或者不是一個優(yōu)化體系，那么就要選另外一套優(yōu)化體系。張致江稱，如果你不是學(xué)計算機專業(yè)的，這相當(dāng)于另外一個，它是一個異構(gòu)體系，你去優(yōu)化這個異構(gòu)體系的性能，實際上還是非常吃力的，它甚至跟CPU完全不一樣。英特爾出了KNL、KNM這樣的東西，你在CPU上寫的程序直接放上去就可以了，只要再學(xué)習(xí)一點點優(yōu)化方法效率就能很好，所以我覺得這個接受程度會更高。

　　但顯然，GPU是占了先機的，NVIDIA的方案是目前人工智能的主流。張致江坦言，人工智能剛剛興起也就是這幾年，剛剛興起之初業(yè)內(nèi)很多人都是用GPU這個方案去做的，但是AI有自己的一些計算特點，這時候我們就看了KNL和FPGA，我們做的KNL、FPGA不能說是比它多好或者比它差，它是兩種不同應(yīng)用領(lǐng)域的東西，有擅長、有適合的地方，GPU有些地方走的時間比較早一點，可能它的庫各方面會成熟一些。因為FPGA的原因，在編程方式各方面更加容易，會更加適合這樣一些特殊應(yīng)用場景的需求。

　　英特爾技術(shù)專家認為，F(xiàn)PGA最初是用在通訊領(lǐng)域，在英特爾收購的Altera這家公司出的這一代產(chǎn)品，當(dāng)時很多人普遍認為他們出的這一代東西不是很好，為什么不是很好呢?是因為在通訊領(lǐng)域另外一些發(fā)現(xiàn)會更好，但是后來我們做過研究發(fā)現(xiàn)A10這一代更加適合深度學(xué)習(xí)和大數(shù)據(jù)的應(yīng)用場景，而且獲得了非常好的效果。

　谷歌TPU秒殺CPU/GPU，CPU+FPGA能招架嗎?

　　英特爾用CPU+FPGA叫板GPU，但谷歌的TPU成了螳螂后面的黃雀。

　　近日，谷歌首次透露TPU細節(jié)，其執(zhí)行谷歌常規(guī)機器學(xué)習(xí)工作負載的處理速度比GPU/CPU快15-30倍。這一消息表明隨著人工智能的發(fā)展，以往的GPU/CPU架構(gòu)已經(jīng)相對落后。

　　不過除了Google，英特爾通過不斷的收購也在進行相關(guān)的研發(fā)。Khosrowshahi給出的答案：就是目前尚在開發(fā)中的LakeCrest，這是英特爾今年會面向部分客戶提供離散加速器。但伴隨著時間的推移，它將會成為Xeon處理器的最佳伴侶。

　　另外，軟件的優(yōu)化和整合也是英特爾、英偉達、谷歌搶占市場的關(guān)鍵。張致江稱，無論在前端還是后端，英特爾擅長的其實是底層的計算架構(gòu)、硬件這一塊，訊飛特別擅長的在于軟件這一塊，包括有自己的算法、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)結(jié)構(gòu)模型、處理方式等等。