新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 清華AI芯片報(bào)告:人才技術(shù)趨勢(shì)都在這里

清華AI芯片報(bào)告:人才技術(shù)趨勢(shì)都在這里

作者: 時(shí)間:2018-11-26 來源:智東西 收藏

  深鑒科技。深鑒科技成立于 2016 年,總部在北京。由清華大學(xué)與斯坦福大學(xué)的世界頂尖深度學(xué)習(xí)硬件研究者創(chuàng)立。深鑒科技于 2018 年 7 月被賽靈思收購。深鑒科技將其開發(fā)的基于 FPGA 的神經(jīng)網(wǎng)絡(luò)處理器稱為 DPU。到目前為止,深鑒公開發(fā)布了兩款 DPU:亞里士多德架構(gòu)和笛卡爾架構(gòu),其中,亞里士多德架構(gòu)是針對(duì)卷積神經(jīng)網(wǎng)絡(luò) CNN 而設(shè)計(jì);笛卡爾架構(gòu)專為處理 DNN/RNN 網(wǎng)絡(luò)而設(shè)計(jì),可對(duì)經(jīng)過結(jié)構(gòu)壓縮后的稀疏神經(jīng)網(wǎng)絡(luò)進(jìn)行極致高效的硬件加速。相對(duì)于 Intel XeonCPU 與 Nvidia TitanX GPU,應(yīng)用笛卡爾架構(gòu)的處理器在計(jì)算速度上分別提高 189 倍與 13 倍,具有 24,000 倍與 3,000 倍的更高能效。

本文引用地址:http://m.butianyuan.cn/article/201811/394833.htm

  靈汐科技。靈汐科技于 2018 年 1 月在北京成立,聯(lián)合創(chuàng)始人包括清華大學(xué)的世界頂尖類腦計(jì)算研究者。公司致力于新一代神經(jīng)網(wǎng)絡(luò)處理器(Tianjic) 開發(fā), 特點(diǎn)在于既能夠高效支撐現(xiàn)有流行的機(jī)器學(xué)習(xí)算法(包括 CNN, MLP, LSTM 等網(wǎng)絡(luò)架構(gòu)),也能夠支撐更仿腦的、更具成長潛力的脈沖神經(jīng)網(wǎng)絡(luò)算法; 使具有高計(jì)算力、高多任務(wù)并行度和較低功耗等優(yōu)點(diǎn)。 軟件工具鏈方面支持由 Caffe、 TensorFlow 等算法平臺(tái)直接進(jìn)行神經(jīng)網(wǎng)絡(luò)的映射編譯,開發(fā)友善的用戶交互界面。 Tianjic 可用于云端計(jì)算和終端應(yīng)用場(chǎng)景,助力人工智能的落地和推廣。

  啟英泰倫。啟英泰倫于2015年 11月在成都成立,是一家語音識(shí)別研發(fā)商。啟英泰倫的 CI1006是基于 ASIC 架構(gòu)的人工智能語音識(shí)別,包含了腦神經(jīng)網(wǎng)絡(luò)處理硬件單元,能夠完美支持 DNN 運(yùn)算架構(gòu),進(jìn)行高性能的數(shù)據(jù)并行計(jì)算,可極大的提高人工智能深度學(xué)習(xí)語音技術(shù)對(duì)大量數(shù)據(jù)的處理效率。

  百度。百度 2017 年 8 月 Hot Chips 大會(huì)上發(fā)布了 XPU,這是一款 256 核、基于 FPGA 的云計(jì)算加速芯片。合作伙伴是賽思靈(Xilinx)。 XPU 采用新一代 處理架構(gòu),擁有 GPU 的通用性和 FPGA 的高效率和低能耗,對(duì)百度的深度學(xué)習(xí)平臺(tái) PaddlePaddle 做了高度的優(yōu)化和加速。據(jù)介紹, XPU 關(guān)注計(jì)算密集型、基于規(guī)則的多樣化計(jì)算任務(wù),希望提高效率和性能,并帶來類似 CPU 的靈活性。

  華為。麒麟 970 搭載的神經(jīng)網(wǎng)絡(luò)處理器 NPU 采用了寒武紀(jì) IP,如圖 12 所示。麒麟 970 采用了 TSMC 10nm 工藝制程,擁有 55 億個(gè)晶體管,功耗相比上一代芯片降低 20%。 CPU 架構(gòu)方面為 4 核 A73+4 核 A53 組成 8 核心,能耗同比上一代芯片得到 20%的提升; GPU 方面采用了 12 核 Mali G72 MP12GPU,在圖形處理以及能效兩項(xiàng)關(guān)鍵指標(biāo)方面分別提升 20%和50%; NPU 采用 Hi移動(dòng)計(jì)算架構(gòu),在 FP16 下提供的運(yùn)算性能可以達(dá)到 1.92 TFLOPs,相比四個(gè) Cortex-A73 核心,處理同樣的 任務(wù),有大約具備 50 倍能效和 25 倍性能優(yōu)勢(shì)。

  英偉達(dá)(Nvidia)。英偉達(dá)創(chuàng)立于 1993 年,總部位于美國加利福尼亞州圣克拉拉市。 早在 1999 年, 英偉達(dá)發(fā)明了 GPU,重新定義了現(xiàn)代計(jì)算機(jī)圖形技術(shù),徹底改變了并行計(jì)算。深度學(xué)習(xí)對(duì)計(jì)算速度有非??量痰囊螅?而英偉達(dá)的 GPU 芯片可以讓大量處理器并行運(yùn)算,速度比 CPU 快十倍甚至幾十倍,因而成為絕大部分人工智能研究者和開發(fā)者的首選。自從 Google Brain 采用 1.6 萬個(gè) GPU 核訓(xùn)練 DNN 模型, 并在語音和圖像識(shí)別等領(lǐng)域獲得巨大成功以來, 英偉達(dá)已成為 AI 芯片市場(chǎng)中無可爭(zhēng)議的領(lǐng)導(dǎo)者。

  AMD。美國 AMD 半導(dǎo)體公司專門為計(jì)算機(jī)、 通信和消費(fèi)電子行業(yè)設(shè)計(jì)和制造各種創(chuàng)新的微處理器(CPU、 GPU、 APU、 主板芯片組、 電視卡芯片等),以及提供閃存和低功率處理器解決方案, 公司成立于 1969 年。 AMD 致力為技術(shù)用戶——從企業(yè)、 政府機(jī)構(gòu)到個(gè)人消費(fèi)者——提供基于標(biāo)準(zhǔn)的、 以客戶為中心的解決方案。

  2017 年 12 月 Intel 和 AMD 宣布將聯(lián)手推出一款結(jié)合英特爾處理器和 AMD 圖形單元的筆記本電腦芯片。 目前 AMD 擁有針對(duì) AI 和機(jī)器學(xué)習(xí)的高性能 Radeon Instinc 加速卡,開放式軟件平臺(tái) ROCm 等。

  Google。Google 在 2016 年宣布獨(dú)立開發(fā)一種名為 TPU 的全新的處理系統(tǒng)。 TPU 是專門為機(jī)器學(xué)習(xí)應(yīng)用而設(shè)計(jì)的專用芯片。通過降低芯片的計(jì)算精度,減少實(shí)現(xiàn)每個(gè)計(jì)算操作所需晶體管數(shù)量的方式,讓芯片的每秒運(yùn)行的操作個(gè)數(shù)更高,這樣經(jīng)過精細(xì)調(diào)優(yōu)的機(jī)器學(xué)習(xí)模型就能在芯片上運(yùn)行得更快,進(jìn)而更快地讓用戶得到更智能的結(jié)果。 在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯杰的阿爾法狗,就是采用了谷歌的 TPU 系列芯片。

  Google I/O-2018 開發(fā)者大會(huì)期間,正式發(fā)布了第三代人工智能學(xué)習(xí)專用處理器 TPU 3.0。TPU3.0 采用 8 位低精度計(jì)算以節(jié)省晶體管數(shù)量, 對(duì)精度影響很小但可以大幅節(jié)約功耗、加快速度,同時(shí)還有脈動(dòng)陣列設(shè)計(jì),優(yōu)化矩陣乘法與卷積運(yùn)算, 并使用更大的片上內(nèi)存,減少對(duì)系統(tǒng)內(nèi)存的依賴。 速度能加快到最高 100PFlops(每秒 1000 萬億次浮點(diǎn)計(jì)算)。

  高通。在智能手機(jī)芯片市場(chǎng)占據(jù)絕對(duì)優(yōu)勢(shì)的高通公司,也在人工智能芯片方面積極布局。據(jù)高通提供的資料顯示,其在人工智能方面已投資了 Clarifai 公司和中國“專注于物聯(lián)網(wǎng)人工智能服務(wù)” 的云知聲。而早在 2015 年 CES 上,高通就已推出了一款搭載驍龍 SoC 的飛行機(jī)器人——Snapdragon Cargo。高通認(rèn)為在工業(yè)、農(nóng)業(yè)的監(jiān)測(cè)以及航拍對(duì)拍照、攝像以及視頻新需求上,公司恰好可以發(fā)揮其在計(jì)算機(jī)視覺領(lǐng)域的能力。此外,高通的驍龍 820 芯片也被應(yīng)用于 VR頭盔中。事實(shí)上,高通已經(jīng)在研發(fā)可以在本地完成深度學(xué)習(xí)的移動(dòng)端設(shè)備芯片。

  Nervana Systems。Nervana 創(chuàng)立于 2014 年, 公司推出的 The Nervana Engine 是一個(gè)為深度學(xué)習(xí)專門定制和優(yōu)化的 ASIC 芯片。這個(gè)方案的實(shí)現(xiàn)得益于一項(xiàng)叫做 High Bandwidth Memory 的新型內(nèi)存技術(shù), 這項(xiàng)技術(shù)同時(shí)擁有高容量和高速度,提供 32GB 的片上儲(chǔ)存和 8TB 每秒的內(nèi)存訪問速度。該公司目前提供一個(gè)人工智能服務(wù)“in the cloud” ,他們聲稱這是世界上最快的且目前已被金融服務(wù)機(jī)構(gòu)、醫(yī)療保健提供者和政府機(jī)構(gòu)所使用的服務(wù)。 他們的新型芯片將會(huì)保證 Nervana 云平臺(tái)在未來的幾年內(nèi)仍保持最快的速度。

  Movidius(被 Intel 收購)。2016 年 9 月, Intel 發(fā)表聲明收購了 Movidius。 Movidius 專注于研發(fā)高性能視覺處理芯片。其最新一代的 Myriad2 視覺處理器主要由 SPARC 處理器作為主控制器,加上專門的DSP 處理器和硬件加速電路來處理專門的視覺和圖像信號(hào)。這是一款以 DSP 架構(gòu)為基礎(chǔ)的視覺處理器,在視覺相關(guān)的應(yīng)用領(lǐng)域有極高的能耗比,可以將視覺計(jì)算普及到幾乎所有的嵌入式系統(tǒng)中。

  該芯片已被大量應(yīng)用在 Google 3D 項(xiàng)目的 Tango 手機(jī)、大疆無人機(jī)、 FLIR 智能紅外攝像機(jī)、??瞪铐盗袛z像機(jī)、華睿智能工業(yè)相機(jī)等產(chǎn)品中。

  IBM。IBM 很早以前就發(fā)布過 watson,投入了很多的實(shí)際應(yīng)用。除此之外,還啟動(dòng)了類腦芯片的研發(fā), 即 TrueNorth。TrueNorth 是 IBM 參與 DARPA 的研究項(xiàng)目 SyNapse 的最新成果。 SyNapse 全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng),而 SyNapse 正好是突觸的意思),其終極目標(biāo)是開發(fā)出打破馮·諾依曼體系結(jié)構(gòu)的計(jì)算機(jī)體系結(jié)構(gòu)。

  ARM。ARM 推出全新芯片架構(gòu) DynamIQ,通過這項(xiàng)技術(shù), AI 芯片的性能有望在未來三到五年內(nèi)提升 50 倍。

  ARM的新CPU架構(gòu)將會(huì)通過為不同部分配置軟件的方式將多個(gè)處理核心集聚在一起,這其中包括一個(gè)專門為 AI 算法設(shè)計(jì)的處理器。芯片廠商將可以為新處理器配置最多 8 個(gè)核心。同時(shí)為了能讓主流 AI 在自己的處理器上更好地運(yùn)行, ARM 還將推出一系列軟件庫。

  CEVA。CEVA 是專注于 DSP 的 IP 供應(yīng)商,擁有眾多的產(chǎn)品線。其中,圖像和計(jì)算機(jī)視覺 DSP產(chǎn)品 CEVA-XM4是第一個(gè)支持深度學(xué)習(xí)的可編程 DSP,而其發(fā)布的新一代型號(hào) CEVA-XM6,具有更優(yōu)的性能、更強(qiáng)大的計(jì)算能力以及更低的能耗。CEVA 指出,智能手機(jī)、汽車、安全和商業(yè)應(yīng)用,如無人機(jī)、自動(dòng)化將是其業(yè)務(wù)開展的主要目標(biāo)。

  MIT/Eyeriss。Eyeriss 事實(shí)上是 MIT 的一個(gè)項(xiàng)目,還不是一個(gè)公司, 從長遠(yuǎn)來看,如果進(jìn)展順利,很可能孵化出一個(gè)新的公司。Eyeriss 是一個(gè)高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件,該芯片內(nèi)建 168 個(gè)核心,專門用來部署神經(jīng)網(wǎng)路(neural network),效能為一般 GPU 的 10 倍。其技術(shù)關(guān)鍵在于最小化 GPU 核心和記憶體之間交換數(shù)據(jù)的頻率(此運(yùn)作過程通常會(huì)消耗大量的時(shí)間與能量):一般 GPU 內(nèi)的核心通常共享單一記憶體,但 Eyeriss 的每個(gè)核心擁有屬于自己的記憶體。

  目前, Eyeriss 主要定位在人臉識(shí)別和語音識(shí)別,可應(yīng)用在智能手機(jī)、穿戴式設(shè)備、機(jī)器人、自動(dòng)駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上。

  蘋果。在 iPhone 8 和 iPhone X 的發(fā)布會(huì)上,蘋果明確表示其中所使用的 A11 處理器集成了一個(gè)專用于機(jī)器學(xué)習(xí)的硬件——“神經(jīng)網(wǎng)絡(luò)引擎(Neural Engine) ”, 每秒運(yùn)算次數(shù)最高可達(dá)6000 億次。這塊芯片將能夠改進(jìn)蘋果設(shè)備在處理需要人工智能的任務(wù)時(shí)的表現(xiàn),比如面部識(shí)別和語音識(shí)別等。

  三星。2017 年,華為海思推出了麒麟 970 芯片,據(jù)知情人士透露,為了對(duì)標(biāo)華為,三星已經(jīng)研發(fā)了許多種類的人工智能芯片。 三星計(jì)劃在未來三年內(nèi)新上市的智能手機(jī)中都采用人工智能芯片,并且他們還將為人工智能設(shè)備建立新的組件業(yè)務(wù)。三星還投資了Graphcore、深鑒科技等人工智能芯片企業(yè)。

  3、技術(shù)趨勢(shì)

  目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation, 乘加計(jì)算) 加速陣列來實(shí)現(xiàn)對(duì) CNN(卷積神經(jīng)網(wǎng)絡(luò))中最主要的卷積運(yùn)算的加速。這一代 AI 芯片主要有如下 3 個(gè)方面的問題。

  (1)深度學(xué)習(xí)計(jì)算所需數(shù)據(jù)量巨大,造成內(nèi)存帶寬成為整個(gè)系統(tǒng)的瓶頸,即所謂“memory wall” 問題。

  (2)與第一個(gè)問題相關(guān), 內(nèi)存大量訪問和 MAC陣列的大量運(yùn)算,造成 AI芯片整體功耗的增加。

  (3)深度學(xué)習(xí)對(duì)算力要求很高,要提升算力,最好的方法是做硬件加速,但是同時(shí)深度學(xué)習(xí)算法的發(fā)展也是日新月異,新的算法可能在已經(jīng)固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題。

  因此可以預(yù)見下一代 AI 芯片將有如下的五個(gè)發(fā)展趨勢(shì)。

  (1)、更高效的大卷積解構(gòu)/復(fù)用

  在標(biāo)準(zhǔn) SIMD 的基礎(chǔ)上, CNN 由于其特殊的復(fù)用機(jī)制,可以進(jìn)一步減少總線上的數(shù)據(jù)通信。而復(fù)用這一概念,在超大型神經(jīng)網(wǎng)絡(luò)中就顯得格外重要。 如何合理地分解、 映射這些超大卷積到有效的硬件上成為了一個(gè)值得研究的方向,

  (2)、更低的 Inference 計(jì)算/存儲(chǔ)位寬

  AI 芯片最大的演進(jìn)方向之一可能就是神經(jīng)網(wǎng)絡(luò)參數(shù)/計(jì)算位寬的迅速減少——從 32 位浮點(diǎn)到 16 位浮點(diǎn)/定點(diǎn)、 8 位定點(diǎn),甚至是 4 位定點(diǎn)。在理論計(jì)算領(lǐng)域, 2 位甚至 1 位參數(shù)位寬,都已經(jīng)逐漸進(jìn)入實(shí)踐領(lǐng)域。

  (3)、更多樣的存儲(chǔ)器定制設(shè)計(jì)

  當(dāng)計(jì)算部件不再成為神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)瓶頸時(shí),如何減少存儲(chǔ)器的訪問延時(shí)將會(huì)成為下一個(gè)研究方向。通常,離計(jì)算越近的存儲(chǔ)器速度越快,每字節(jié)的成本也越高,同時(shí)容量也越受限,因此新型的存儲(chǔ)結(jié)構(gòu)也將應(yīng)運(yùn)而生。

  (4)、更稀疏的大規(guī)模向量實(shí)現(xiàn)

  神經(jīng)網(wǎng)絡(luò)雖然大,但是,實(shí)際上有很多以零為輸入的情況, 此時(shí)稀疏計(jì)算可以高效的減少無用能效。來自哈佛大學(xué)的團(tuán)隊(duì)就該問題提出了優(yōu)化的五級(jí)流水線結(jié),在最后一級(jí)輸出了觸發(fā)信號(hào)。在 Activation層后對(duì)下一次計(jì)算的必要性進(jìn)行預(yù)先判斷,如果發(fā)現(xiàn)這是一個(gè)稀疏節(jié)點(diǎn),則觸發(fā) SKIP 信號(hào),避免乘法運(yùn)算的功耗,以達(dá)到減少無用功耗的目的。

  (5)、計(jì)算和存儲(chǔ)一體化

  計(jì)算和存儲(chǔ)一體化(process-in-memory)技術(shù),其要點(diǎn)是通過使用新型非易失性存儲(chǔ)(如 ReRAM)器件,在存儲(chǔ)陣列里面加上神經(jīng)網(wǎng)絡(luò)計(jì)算功能,從而省去數(shù)據(jù)搬移操作,即實(shí)現(xiàn)了計(jì)算存儲(chǔ)一體化的神經(jīng)網(wǎng)絡(luò)處理,在功耗性能方面可以獲得顯著提升。

  智東西認(rèn)為,近幾年,AI技術(shù)不斷取得突破性進(jìn)展。作為AI技術(shù)的重要物理基礎(chǔ),AI芯片擁有巨大的產(chǎn)業(yè)價(jià)值和戰(zhàn)略地位。但從大趨勢(shì)來看,目前尚處于AI芯片發(fā)展的初級(jí)階段,無論是科研還是產(chǎn)業(yè)應(yīng)用都有巨大的創(chuàng)新空間?,F(xiàn)在不僅英偉達(dá)、谷歌等國際巨頭相繼推出新產(chǎn)品,國內(nèi)百度、阿里等紛紛布局這一領(lǐng)域,也誕生了寒武紀(jì)等AI芯片創(chuàng)業(yè)公司。在CPU、GPU等傳統(tǒng)芯片領(lǐng)域與國際相差較多的情況下,中國AI芯片被寄望能實(shí)現(xiàn)彎道超車。


上一頁 1 2 下一頁

關(guān)鍵詞: AI 芯片

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉