清華AI芯片報(bào)告：人才技術(shù)趨勢(shì)都在這里

作者：時(shí)間：2018-11-26 來源：智東西

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

　　深鑒科技。深鑒科技成立于 2016 年，總部在北京。由清華大學(xué)與斯坦福大學(xué)的世界頂尖深度學(xué)習(xí)硬件研究者創(chuàng)立。深鑒科技于 2018 年 7 月被賽靈思收購。深鑒科技將其開發(fā)的基于 FPGA 的神經(jīng)網(wǎng)絡(luò)處理器稱為 DPU。到目前為止，深鑒公開發(fā)布了兩款 DPU：亞里士多德架構(gòu)和笛卡爾架構(gòu)，其中，亞里士多德架構(gòu)是針對(duì)卷積神經(jīng)網(wǎng)絡(luò) CNN 而設(shè)計(jì);笛卡爾架構(gòu)專為處理 DNN/RNN 網(wǎng)絡(luò)而設(shè)計(jì)，可對(duì)經(jīng)過結(jié)構(gòu)壓縮后的稀疏神經(jīng)網(wǎng)絡(luò)進(jìn)行極致高效的硬件加速。相對(duì)于 Intel XeonCPU 與 Nvidia TitanX GPU，應(yīng)用笛卡爾架構(gòu)的處理器在計(jì)算速度上分別提高 189 倍與 13 倍，具有 24,000 倍與 3,000 倍的更高能效。

本文引用地址：http://m.butianyuan.cn/article/201811/394833.htm

　　靈汐科技。靈汐科技于 2018 年 1 月在北京成立，聯(lián)合創(chuàng)始人包括清華大學(xué)的世界頂尖類腦計(jì)算研究者。公司致力于新一代神經(jīng)網(wǎng)絡(luò)處理器(Tianjic) 開發(fā)，特點(diǎn)在于既能夠高效支撐現(xiàn)有流行的機(jī)器學(xué)習(xí)算法(包括 CNN， MLP， LSTM 等網(wǎng)絡(luò)架構(gòu))，也能夠支撐更仿腦的、更具成長潛力的脈沖神經(jīng)網(wǎng)絡(luò)算法; 使芯片具有高計(jì)算力、高多任務(wù)并行度和較低功耗等優(yōu)點(diǎn)。軟件工具鏈方面支持由 Caffe、 TensorFlow 等算法平臺(tái)直接進(jìn)行神經(jīng)網(wǎng)絡(luò)的映射編譯，開發(fā)友善的用戶交互界面。 Tianjic 可用于云端計(jì)算和終端應(yīng)用場(chǎng)景，助力人工智能的落地和推廣。

　　啟英泰倫。啟英泰倫于2015年 11月在成都成立，是一家語音識(shí)別芯片研發(fā)商。啟英泰倫的 CI1006是基于 ASIC 架構(gòu)的人工智能語音識(shí)別芯片，包含了腦神經(jīng)網(wǎng)絡(luò)處理硬件單元，能夠完美支持 DNN 運(yùn)算架構(gòu)，進(jìn)行高性能的數(shù)據(jù)并行計(jì)算，可極大的提高人工智能深度學(xué)習(xí)語音技術(shù)對(duì)大量數(shù)據(jù)的處理效率。

　　百度。百度 2017 年 8 月 Hot Chips 大會(huì)上發(fā)布了 XPU，這是一款 256 核、基于 FPGA 的云計(jì)算加速芯片。合作伙伴是賽思靈(Xilinx)。 XPU 采用新一代 AI 處理架構(gòu)，擁有 GPU 的通用性和 FPGA 的高效率和低能耗，對(duì)百度的深度學(xué)習(xí)平臺(tái) PaddlePaddle 做了高度的優(yōu)化和加速。據(jù)介紹， XPU 關(guān)注計(jì)算密集型、基于規(guī)則的多樣化計(jì)算任務(wù)，希望提高效率和性能，并帶來類似 CPU 的靈活性。

　　華為。麒麟 970 搭載的神經(jīng)網(wǎng)絡(luò)處理器 NPU 采用了寒武紀(jì) IP，如圖 12 所示。麒麟 970 采用了 TSMC 10nm 工藝制程，擁有 55 億個(gè)晶體管，功耗相比上一代芯片降低 20%。 CPU 架構(gòu)方面為 4 核 A73+4 核 A53 組成 8 核心，能耗同比上一代芯片得到 20%的提升; GPU 方面采用了 12 核 Mali G72 MP12GPU，在圖形處理以及能效兩項(xiàng)關(guān)鍵指標(biāo)方面分別提升 20%和50%; NPU 采用 HiAI移動(dòng)計(jì)算架構(gòu)，在 FP16 下提供的運(yùn)算性能可以達(dá)到 1.92 TFLOPs，相比四個(gè) Cortex-A73 核心，處理同樣的 AI 任務(wù)，有大約具備 50 倍能效和 25 倍性能優(yōu)勢(shì)。

　　英偉達(dá)(Nvidia)。英偉達(dá)創(chuàng)立于 1993 年，總部位于美國加利福尼亞州圣克拉拉市。早在 1999 年，英偉達(dá)發(fā)明了 GPU，重新定義了現(xiàn)代計(jì)算機(jī)圖形技術(shù)，徹底改變了并行計(jì)算。深度學(xué)習(xí)對(duì)計(jì)算速度有非?？量痰囊螅?而英偉達(dá)的 GPU 芯片可以讓大量處理器并行運(yùn)算，速度比 CPU 快十倍甚至幾十倍，因而成為絕大部分人工智能研究者和開發(fā)者的首選。自從 Google Brain 采用 1.6 萬個(gè) GPU 核訓(xùn)練 DNN 模型，并在語音和圖像識(shí)別等領(lǐng)域獲得巨大成功以來，英偉達(dá)已成為 AI 芯片市場(chǎng)中無可爭(zhēng)議的領(lǐng)導(dǎo)者。

　　AMD。美國 AMD 半導(dǎo)體公司專門為計(jì)算機(jī)、通信和消費(fèi)電子行業(yè)設(shè)計(jì)和制造各種創(chuàng)新的微處理器(CPU、 GPU、 APU、主板芯片組、電視卡芯片等)，以及提供閃存和低功率處理器解決方案，公司成立于 1969 年。 AMD 致力為技術(shù)用戶——從企業(yè)、政府機(jī)構(gòu)到個(gè)人消費(fèi)者——提供基于標(biāo)準(zhǔn)的、以客戶為中心的解決方案。

　　2017 年 12 月 Intel 和 AMD 宣布將聯(lián)手推出一款結(jié)合英特爾處理器和 AMD 圖形單元的筆記本電腦芯片。目前 AMD 擁有針對(duì) AI 和機(jī)器學(xué)習(xí)的高性能 Radeon Instinc 加速卡，開放式軟件平臺(tái) ROCm 等。

　　Google。Google 在 2016 年宣布獨(dú)立開發(fā)一種名為 TPU 的全新的處理系統(tǒng)。 TPU 是專門為機(jī)器學(xué)習(xí)應(yīng)用而設(shè)計(jì)的專用芯片。通過降低芯片的計(jì)算精度，減少實(shí)現(xiàn)每個(gè)計(jì)算操作所需晶體管數(shù)量的方式，讓芯片的每秒運(yùn)行的操作個(gè)數(shù)更高，這樣經(jīng)過精細(xì)調(diào)優(yōu)的機(jī)器學(xué)習(xí)模型就能在芯片上運(yùn)行得更快，進(jìn)而更快地讓用戶得到更智能的結(jié)果。在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯杰的阿爾法狗，就是采用了谷歌的 TPU 系列芯片。

　　Google I/O-2018 開發(fā)者大會(huì)期間，正式發(fā)布了第三代人工智能學(xué)習(xí)專用處理器 TPU 3.0。TPU3.0 采用 8 位低精度計(jì)算以節(jié)省晶體管數(shù)量，對(duì)精度影響很小但可以大幅節(jié)約功耗、加快速度，同時(shí)還有脈動(dòng)陣列設(shè)計(jì)，優(yōu)化矩陣乘法與卷積運(yùn)算，并使用更大的片上內(nèi)存，減少對(duì)系統(tǒng)內(nèi)存的依賴。速度能加快到最高 100PFlops(每秒 1000 萬億次浮點(diǎn)計(jì)算)。

　　高通。在智能手機(jī)芯片市場(chǎng)占據(jù)絕對(duì)優(yōu)勢(shì)的高通公司，也在人工智能芯片方面積極布局。據(jù)高通提供的資料顯示，其在人工智能方面已投資了 Clarifai 公司和中國“專注于物聯(lián)網(wǎng)人工智能服務(wù)” 的云知聲。而早在 2015 年 CES 上，高通就已推出了一款搭載驍龍 SoC 的飛行機(jī)器人——Snapdragon Cargo。高通認(rèn)為在工業(yè)、農(nóng)業(yè)的監(jiān)測(cè)以及航拍對(duì)拍照、攝像以及視頻新需求上，公司恰好可以發(fā)揮其在計(jì)算機(jī)視覺領(lǐng)域的能力。此外，高通的驍龍 820 芯片也被應(yīng)用于 VR頭盔中。事實(shí)上，高通已經(jīng)在研發(fā)可以在本地完成深度學(xué)習(xí)的移動(dòng)端設(shè)備芯片。

　　Nervana Systems。Nervana 創(chuàng)立于 2014 年，公司推出的 The Nervana Engine 是一個(gè)為深度學(xué)習(xí)專門定制和優(yōu)化的 ASIC 芯片。這個(gè)方案的實(shí)現(xiàn)得益于一項(xiàng)叫做 High Bandwidth Memory 的新型內(nèi)存技術(shù)，這項(xiàng)技術(shù)同時(shí)擁有高容量和高速度，提供 32GB 的片上儲(chǔ)存和 8TB 每秒的內(nèi)存訪問速度。該公司目前提供一個(gè)人工智能服務(wù)“in the cloud” ，他們聲稱這是世界上最快的且目前已被金融服務(wù)機(jī)構(gòu)、醫(yī)療保健提供者和政府機(jī)構(gòu)所使用的服務(wù)。他們的新型芯片將會(huì)保證 Nervana 云平臺(tái)在未來的幾年內(nèi)仍保持最快的速度。

　　Movidius(被 Intel 收購)。2016 年 9 月， Intel 發(fā)表聲明收購了 Movidius。 Movidius 專注于研發(fā)高性能視覺處理芯片。其最新一代的 Myriad2 視覺處理器主要由 SPARC 處理器作為主控制器，加上專門的DSP 處理器和硬件加速電路來處理專門的視覺和圖像信號(hào)。這是一款以 DSP 架構(gòu)為基礎(chǔ)的視覺處理器，在視覺相關(guān)的應(yīng)用領(lǐng)域有極高的能耗比，可以將視覺計(jì)算普及到幾乎所有的嵌入式系統(tǒng)中。

　　該芯片已被大量應(yīng)用在 Google 3D 項(xiàng)目的 Tango 手機(jī)、大疆無人機(jī)、 FLIR 智能紅外攝像機(jī)、?？瞪铐盗袛z像機(jī)、華睿智能工業(yè)相機(jī)等產(chǎn)品中。

　　IBM。IBM 很早以前就發(fā)布過 watson，投入了很多的實(shí)際應(yīng)用。除此之外，還啟動(dòng)了類腦芯片的研發(fā)，即 TrueNorth。TrueNorth 是 IBM 參與 DARPA 的研究項(xiàng)目 SyNapse 的最新成果。 SyNapse 全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng)，而 SyNapse 正好是突觸的意思)，其終極目標(biāo)是開發(fā)出打破馮·諾依曼體系結(jié)構(gòu)的計(jì)算機(jī)體系結(jié)構(gòu)。

　　ARM。ARM 推出全新芯片架構(gòu) DynamIQ，通過這項(xiàng)技術(shù)， AI 芯片的性能有望在未來三到五年內(nèi)提升 50 倍。

　　ARM的新CPU架構(gòu)將會(huì)通過為不同部分配置軟件的方式將多個(gè)處理核心集聚在一起，這其中包括一個(gè)專門為 AI 算法設(shè)計(jì)的處理器。芯片廠商將可以為新處理器配置最多 8 個(gè)核心。同時(shí)為了能讓主流 AI 在自己的處理器上更好地運(yùn)行， ARM 還將推出一系列軟件庫。

　　CEVA。CEVA 是專注于 DSP 的 IP 供應(yīng)商，擁有眾多的產(chǎn)品線。其中，圖像和計(jì)算機(jī)視覺 DSP產(chǎn)品 CEVA-XM4是第一個(gè)支持深度學(xué)習(xí)的可編程 DSP，而其發(fā)布的新一代型號(hào) CEVA-XM6，具有更優(yōu)的性能、更強(qiáng)大的計(jì)算能力以及更低的能耗。CEVA 指出，智能手機(jī)、汽車、安全和商業(yè)應(yīng)用，如無人機(jī)、自動(dòng)化將是其業(yè)務(wù)開展的主要目標(biāo)。

　　MIT/Eyeriss。Eyeriss 事實(shí)上是 MIT 的一個(gè)項(xiàng)目，還不是一個(gè)公司，從長遠(yuǎn)來看，如果進(jìn)展順利，很可能孵化出一個(gè)新的公司。Eyeriss 是一個(gè)高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件，該芯片內(nèi)建 168 個(gè)核心，專門用來部署神經(jīng)網(wǎng)路(neural network)，效能為一般 GPU 的 10 倍。其技術(shù)關(guān)鍵在于最小化 GPU 核心和記憶體之間交換數(shù)據(jù)的頻率(此運(yùn)作過程通常會(huì)消耗大量的時(shí)間與能量)：一般 GPU 內(nèi)的核心通常共享單一記憶體，但 Eyeriss 的每個(gè)核心擁有屬于自己的記憶體。

　　目前， Eyeriss 主要定位在人臉識(shí)別和語音識(shí)別，可應(yīng)用在智能手機(jī)、穿戴式設(shè)備、機(jī)器人、自動(dòng)駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上。

　　蘋果。在 iPhone 8 和 iPhone X 的發(fā)布會(huì)上，蘋果明確表示其中所使用的 A11 處理器集成了一個(gè)專用于機(jī)器學(xué)習(xí)的硬件——“神經(jīng)網(wǎng)絡(luò)引擎(Neural Engine) ”，每秒運(yùn)算次數(shù)最高可達(dá)6000 億次。這塊芯片將能夠改進(jìn)蘋果設(shè)備在處理需要人工智能的任務(wù)時(shí)的表現(xiàn)，比如面部識(shí)別和語音識(shí)別等。

　　三星。2017 年，華為海思推出了麒麟 970 芯片，據(jù)知情人士透露，為了對(duì)標(biāo)華為，三星已經(jīng)研發(fā)了許多種類的人工智能芯片。三星計(jì)劃在未來三年內(nèi)新上市的智能手機(jī)中都采用人工智能芯片，并且他們還將為人工智能設(shè)備建立新的組件業(yè)務(wù)。三星還投資了Graphcore、深鑒科技等人工智能芯片企業(yè)。

　　3、技術(shù)趨勢(shì)

　　目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation，乘加計(jì)算) 加速陣列來實(shí)現(xiàn)對(duì) CNN(卷積神經(jīng)網(wǎng)絡(luò))中最主要的卷積運(yùn)算的加速。這一代 AI 芯片主要有如下 3 個(gè)方面的問題。

　　(1)深度學(xué)習(xí)計(jì)算所需數(shù)據(jù)量巨大，造成內(nèi)存帶寬成為整個(gè)系統(tǒng)的瓶頸，即所謂“memory wall” 問題。

　　(2)與第一個(gè)問題相關(guān)，內(nèi)存大量訪問和 MAC陣列的大量運(yùn)算，造成 AI芯片整體功耗的增加。

　　(3)深度學(xué)習(xí)對(duì)算力要求很高，要提升算力，最好的方法是做硬件加速，但是同時(shí)深度學(xué)習(xí)算法的發(fā)展也是日新月異，新的算法可能在已經(jīng)固化的硬件加速器上無法得到很好的支持，即性能和靈活度之間的平衡問題。

　　因此可以預(yù)見下一代 AI 芯片將有如下的五個(gè)發(fā)展趨勢(shì)。

　　(1)、更高效的大卷積解構(gòu)/復(fù)用

　　在標(biāo)準(zhǔn) SIMD 的基礎(chǔ)上， CNN 由于其特殊的復(fù)用機(jī)制，可以進(jìn)一步減少總線上的數(shù)據(jù)通信。而復(fù)用這一概念，在超大型神經(jīng)網(wǎng)絡(luò)中就顯得格外重要。如何合理地分解、映射這些超大卷積到有效的硬件上成為了一個(gè)值得研究的方向，

　　(2)、更低的 Inference 計(jì)算/存儲(chǔ)位寬

　　AI 芯片最大的演進(jìn)方向之一可能就是神經(jīng)網(wǎng)絡(luò)參數(shù)/計(jì)算位寬的迅速減少——從 32 位浮點(diǎn)到 16 位浮點(diǎn)/定點(diǎn)、 8 位定點(diǎn)，甚至是 4 位定點(diǎn)。在理論計(jì)算領(lǐng)域， 2 位甚至 1 位參數(shù)位寬，都已經(jīng)逐漸進(jìn)入實(shí)踐領(lǐng)域。

　　(3)、更多樣的存儲(chǔ)器定制設(shè)計(jì)

　　當(dāng)計(jì)算部件不再成為神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)瓶頸時(shí)，如何減少存儲(chǔ)器的訪問延時(shí)將會(huì)成為下一個(gè)研究方向。通常，離計(jì)算越近的存儲(chǔ)器速度越快，每字節(jié)的成本也越高，同時(shí)容量也越受限，因此新型的存儲(chǔ)結(jié)構(gòu)也將應(yīng)運(yùn)而生。

　　(4)、更稀疏的大規(guī)模向量實(shí)現(xiàn)

　　神經(jīng)網(wǎng)絡(luò)雖然大，但是，實(shí)際上有很多以零為輸入的情況，此時(shí)稀疏計(jì)算可以高效的減少無用能效。來自哈佛大學(xué)的團(tuán)隊(duì)就該問題提出了優(yōu)化的五級(jí)流水線結(jié)，在最后一級(jí)輸出了觸發(fā)信號(hào)。在 Activation層后對(duì)下一次計(jì)算的必要性進(jìn)行預(yù)先判斷，如果發(fā)現(xiàn)這是一個(gè)稀疏節(jié)點(diǎn)，則觸發(fā) SKIP 信號(hào)，避免乘法運(yùn)算的功耗，以達(dá)到減少無用功耗的目的。

　　(5)、計(jì)算和存儲(chǔ)一體化

　　計(jì)算和存儲(chǔ)一體化(process-in-memory)技術(shù)，其要點(diǎn)是通過使用新型非易失性存儲(chǔ)(如 ReRAM)器件，在存儲(chǔ)陣列里面加上神經(jīng)網(wǎng)絡(luò)計(jì)算功能，從而省去數(shù)據(jù)搬移操作，即實(shí)現(xiàn)了計(jì)算存儲(chǔ)一體化的神經(jīng)網(wǎng)絡(luò)處理，在功耗性能方面可以獲得顯著提升。

　　智東西認(rèn)為，近幾年，AI技術(shù)不斷取得突破性進(jìn)展。作為AI技術(shù)的重要物理基礎(chǔ)，AI芯片擁有巨大的產(chǎn)業(yè)價(jià)值和戰(zhàn)略地位。但從大趨勢(shì)來看，目前尚處于AI芯片發(fā)展的初級(jí)階段，無論是科研還是產(chǎn)業(yè)應(yīng)用都有巨大的創(chuàng)新空間?，F(xiàn)在不僅英偉達(dá)、谷歌等國際巨頭相繼推出新產(chǎn)品，國內(nèi)百度、阿里等紛紛布局這一領(lǐng)域，也誕生了寒武紀(jì)等AI芯片創(chuàng)業(yè)公司。在CPU、GPU等傳統(tǒng)芯片領(lǐng)域與國際相差較多的情況下，中國AI芯片被寄望能實(shí)現(xiàn)彎道超車。

新聞中心

清華AI芯片報(bào)告：人才技術(shù)趨勢(shì)都在這里

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)