2016人工智能技術(shù)發(fā)展進(jìn)程梳理
Intel人工智能布局
本文引用地址:http://m.butianyuan.cn/article/201702/343473.htmIntel收購(gòu)Nervana
8月9日,Intel宣布收購(gòu)創(chuàng)業(yè)公司Nervana Systems。Nervana的IP和加速深度學(xué)習(xí)算法經(jīng)驗(yàn)可幫助Intel在人工智能領(lǐng)域獲得一席之地。
Nervana提供基于云的服務(wù)用于深度學(xué)習(xí),使用獨(dú)立開(kāi)發(fā)的、使用匯編級(jí)別優(yōu)化的、支持多GPU的Neon軟件,在卷積計(jì)算時(shí)采用了Winograd算法,數(shù)據(jù)載入也做了很多優(yōu)化。該公司宣稱(chēng),訓(xùn)練模型時(shí),Neon比使用最普遍的Caffe快2倍。不僅如此,Nervana準(zhǔn)備推出深度學(xué)習(xí)定制芯片Nervana Engine,相比GPU在訓(xùn)練方面可以提升10倍性能。與Tesla P100類(lèi)似,該芯片也利用16-bit半精度浮點(diǎn)計(jì)算單元和大容量高帶寬內(nèi)存(HBM,計(jì)劃為32GB,是競(jìng)品P100的兩倍),摒棄了大量深度學(xué)習(xí)不需要的通用計(jì)算單元。
在硬件基礎(chǔ)上,Nervana于11月份推出了Intel Nervana Graph平臺(tái)(簡(jiǎn)稱(chēng)ngraph)。該框架由三部分組成:一個(gè)用于創(chuàng)建計(jì)算圖的API、用于處理常見(jiàn)深度學(xué)習(xí)工作流的前端API(目前支持TensorFlow和Neon)、用于在 CPU/GPU/Nervana Engine上編譯執(zhí)行計(jì)算圖的轉(zhuǎn)換器API。
與此同時(shí)宣布成立Intel Nervana人工智能委員會(huì),加拿大蒙特利爾大學(xué)Yoshua Bengio教授擔(dān)任創(chuàng)始會(huì)員。
圖7 Nervana Engine芯片架構(gòu)
8月17日,在Intel開(kāi)發(fā)者峰會(huì)(IDF)上,Intel透露了面向深度學(xué)習(xí)應(yīng)用的新Xeon Phi處理器,名為Knights Mill(縮寫(xiě)為 KNM)。它不是Knights Landing和Knights Hill的競(jìng)品,而是定位在神經(jīng)網(wǎng)絡(luò)云服務(wù)中與NVIDIA Tesla GPU一較高下。
圖8 ngraph框架
9月6日,Intel收購(gòu)計(jì)算機(jī)視覺(jué)創(chuàng)業(yè)公司Movidius。
Movidius是人工智能芯片廠商,提供低能耗計(jì)算機(jī)視覺(jué)芯片組。Google眼鏡內(nèi)配置了Movidius計(jì)算機(jī)視覺(jué)芯片。Movidius芯片可以應(yīng)用在可穿戴設(shè)備、無(wú)人機(jī)和機(jī)器人中,完成目標(biāo)識(shí)別和深度測(cè)量等任務(wù)。除了Google之外Movidius與國(guó)內(nèi)聯(lián)想和大疆等公司簽訂了協(xié)議。Movidius的Myriad 2系列圖形處理器已經(jīng)被聯(lián)想用來(lái)開(kāi)發(fā)下一代虛擬現(xiàn)實(shí)產(chǎn)品。
9月8日,Intel FPGA技術(shù)大會(huì)(IFTD)杭州站宣布了Xeon-FPGA集成芯片項(xiàng)目。這是Intel并購(gòu)Altera后最大的整合舉動(dòng),Intel將推出CPU+FPGA架構(gòu)的硬件平臺(tái),該平臺(tái)預(yù)計(jì)于2017年量產(chǎn),屆時(shí),一片Skylake架構(gòu)的Xeon CPU和一片Stratix10的FPGA將“合二為一”,通過(guò)QPI Cache一致性互聯(lián)使FPGA獲得高帶寬、低延遲的數(shù)據(jù)通路。在這種形態(tài)中,F(xiàn)PGA本身就成為了CPU的一部分,甚至CPU上的軟件無(wú)需“感知”到FPGA的存在,直接調(diào)用mkl庫(kù)就可以利用 FPGA來(lái)加速某些計(jì)算密集的任務(wù)。
Xeon-FPGA樣機(jī)已經(jīng)在世界七大云廠商(Amazon、Google、微軟、Facebook、百度、阿里、騰訊)試用,用于加速各自業(yè)務(wù)熱點(diǎn)和基礎(chǔ)設(shè)施,包括機(jī)器學(xué)習(xí)、搜索算法、數(shù)據(jù)庫(kù)、存儲(chǔ)、壓縮、加密、高速網(wǎng)絡(luò)互連等。
除了上面CPU+FPGA集成的解決方案,Altera也有基于PCIe加速卡的解決方案。
圖9 Xeon-FPGA集成芯片架構(gòu)
11月8日ISDF大會(huì)上宣布,預(yù)計(jì)明年將銷(xiāo)售深度學(xué)習(xí)預(yù)測(cè)加速器(DLIA,Deep Learning Inference Accelerator)。該加速器為軟硬件集成的解決方案,用于加速卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)(即前向計(jì)算)。軟件基于Intel MKL-DNN軟件庫(kù)和Caffe框架,便于二次開(kāi)發(fā),基于PCIe的FPGA加速卡提供硬件加速。該產(chǎn)品將直接同Google TPU、NVIDIA Tesla P4/M4展開(kāi)競(jìng)爭(zhēng)。
小結(jié): Intel在人工智能領(lǐng)域的動(dòng)作之大(All in AI),品類(lèi)之全(面向訓(xùn)練、預(yù)測(cè),面向服務(wù)器、嵌入式),涉獵之廣(Xeon Phi,F(xiàn)PGA,ASIC)令人為之一振。冰凍三尺非一日之寒,AI硬件和上層軟件的推廣與普及還有很長(zhǎng)一段路要走。
NVIDIA人工智能布局
NVIDIA財(cái)報(bào)顯示,深度學(xué)習(xí)用戶(hù)目前占據(jù)數(shù)據(jù)中心銷(xiāo)售額一半,而HPC占三分之一,剩下的為虛擬化(例如虛擬桌面)。這也驅(qū)動(dòng)NVIDIA在硬件架構(gòu)和軟件庫(kù)方面不斷加強(qiáng)深度學(xué)習(xí)性能,典型例子是在Maxwell處理器中最大化單精度性能,而在Pascal架構(gòu)中增加了半精度運(yùn)算單元。與HPC不同,深度學(xué)習(xí)軟件能夠利用較低精度實(shí)現(xiàn)較高吞吐。
Pascal架構(gòu)
在4月5日GTC(GPU Technology Conference)2016大會(huì)上,NVIDIA發(fā)布了16nm FinFET制程超級(jí)核彈帕斯卡(Pascal)顯卡,最讓人驚嘆的還是一款定位于深度學(xué)習(xí)的超級(jí)計(jì)算機(jī)DGX-1。DGX-1擁有8顆帕斯卡架構(gòu)GP100核心的Tesla P100 GPU,以及7TB的SSD,兩顆16核心的Xeon E5-2698 v3以及512GB的DDR4內(nèi)存,半精度浮點(diǎn)處理能力170TFLOPS,功耗3.2kW。售價(jià)129000美元,現(xiàn)已面市。
9月13日,NVIDIA在GTC中國(guó)北京站發(fā)布了Tesla P4和P40。這兩個(gè)處理器也基于最新的Pascal架構(gòu),是去年發(fā)布的M4和M40的升級(jí)版,包括了面向深度學(xué)習(xí)預(yù)測(cè)計(jì)算的功能單元,丟掉了64位雙精度浮點(diǎn)計(jì)算單元,取而代之的是8-bit整數(shù)算法單元。詳細(xì)參數(shù)如下。
圖10 DGX-1外觀
Tesla P4為半高半長(zhǎng)卡,功耗只有50~75W,便于安裝到已有的Web Server提供高效的預(yù)測(cè)服務(wù)。同時(shí),P4包括一個(gè)視頻解碼引擎和兩個(gè)視頻編碼引擎,對(duì)基于視頻的預(yù)測(cè)服務(wù)更為適合。
Tesla P40與P4用途稍有不同,絕對(duì)性能高,適合訓(xùn)練+預(yù)測(cè),使用GoogLeNet評(píng)估時(shí)相比上一代M40有8倍性能提升。
圖11 Tesla P4/P40參數(shù)對(duì)比
Tesla P100仍然是最合適訓(xùn)練的GPU,自帶NVLink多GPU快速互聯(lián)接口和HBM2。這些特性是P40和P4不具備的,因?yàn)槊嫦蝾A(yù)測(cè)的GPU不需要這些。
Pascal家族從P100到P4,相對(duì)三年前的Kepler架構(gòu)提速達(dá)到40~60倍。
在硬件之外,NVIDIA軟件方面也不遺余力。
圖12 NVIDIA Pascal架構(gòu)軟硬件加速情況
cuDNN
NVIDIA CUDA深度神經(jīng)網(wǎng)絡(luò)庫(kù)(cuDNN)是一個(gè)GPU上的深度神經(jīng)網(wǎng)絡(luò)原語(yǔ)加速庫(kù)。cuDNN提供高度優(yōu)化的標(biāo)準(zhǔn)功能(例如卷積、下采樣、歸一化、激活層、LSTM的前向和后向計(jì)算)實(shí)現(xiàn)。目前cuDNN支持絕大多數(shù)廣泛使用的深度學(xué)習(xí)框架如Caffe、TensorFlow、Theano、Torch和CNTK等。對(duì)使用頻率高的計(jì)算,如VGG模型中的3x3卷積做了特別優(yōu)化。支持Windows/Linux/MacOS系統(tǒng),支持Pascal/Maxwell/Kepler硬件架構(gòu),支持嵌入式平臺(tái)Tegra K1/X1。在Pascal架構(gòu)上使用FP16實(shí)現(xiàn),以減少內(nèi)存占用并提升計(jì)算性能。
TensorRT
TensorRT是一個(gè)提供更快響應(yīng)時(shí)間的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)引擎,適合深度學(xué)習(xí)應(yīng)用產(chǎn)品上線(xiàn)部署。開(kāi)發(fā)者可以使用TensorRT實(shí)現(xiàn)高效預(yù)測(cè),利用INT8或FP16優(yōu)化過(guò)的低精度計(jì)算,可以顯著降低延遲。
圖13 TensorRT的使用方式
DeepStream SDK支持深度學(xué)習(xí)視頻分析,在送入預(yù)測(cè)引擎之前做解碼、預(yù)處理。
這兩個(gè)軟件庫(kù)都是與Pascal GPU一起使用的。
小結(jié): NVIDIA是最早在AI發(fā)力的硬件廠商,但從未停止在軟件上的開(kāi)發(fā)和探索,不斷向上發(fā)展,蠶食、擴(kuò)充自己在AI的地盤(pán),目前已經(jīng)涵蓋服務(wù)器/嵌入式平臺(tái),面向多個(gè)專(zhuān)用領(lǐng)域(自動(dòng)駕駛、醫(yī)療健康、超算),具備極強(qiáng)的爆發(fā)力(從今年NVIDIA股票也能看出這一點(diǎn))。
評(píng)論