國(guó)內(nèi)AI芯片百家爭(zhēng)鳴，何以抗衡全球技術(shù)寡頭

作者：時(shí)間：2018-04-04 來(lái)源：中科院自動(dòng)化所集成中心

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：在人工智能芯片領(lǐng)域，國(guó)外芯片巨頭占據(jù)了絕大部分市場(chǎng)份額，不論是在人才聚集還是公司合并等方面，都具有絕對(duì)的領(lǐng)先優(yōu)勢(shì)。而國(guó)內(nèi)人工智能初創(chuàng)公司則又呈現(xiàn)百家爭(zhēng)鳴、各自為政的紛亂局面。

　　對(duì)標(biāo)谷歌 TPU——比特大陸算豐

本文引用地址：http://m.butianyuan.cn/article/201804/377915.htm

　　作為比特幣獨(dú)角獸的比特大陸，在 2015 年開始涉足人工智能領(lǐng)域，其在 2017 年發(fā)布的面向 AI 應(yīng)用的張量處理器算豐 Sophon BM1680，是繼谷歌 TPU 之后，全球又一款專門用于張量計(jì)算加速的專用芯片(ASIC)，適用于 CNN / RNN / DNN 的訓(xùn)練和推理。

　　BM1680 單芯片能夠提供 2TFlops 單精度加速計(jì)算能力，芯片由 64 NPU 構(gòu)成，特殊設(shè)計(jì)的 NPU 調(diào)度引擎(Scheduling Engine)可以提供強(qiáng)大的數(shù)據(jù)吞吐能力，將數(shù)據(jù)輸入到神經(jīng)元核心(Neuron Processor Cores)。BM1680 采用改進(jìn)型脈動(dòng)陣列結(jié)構(gòu)。2018 年比特大陸將發(fā)布第 2 代算豐 AI 芯片 BM1682，計(jì)算力將有大幅提升。

　　百家爭(zhēng)鳴——百度、地平線及其他

　　在 2017 年的 HotChips 大會(huì)上，百度發(fā)布了XPU，這是一款 256 核、基于 FPGA 的云計(jì)算加速芯片，用于百度的人工智能、數(shù)據(jù)分析、云計(jì)算以及無(wú)人駕駛業(yè)務(wù)。在會(huì)上，百度研究員歐陽(yáng)劍表示，百度設(shè)計(jì)的芯片架構(gòu)突出多樣性，著重于計(jì)算密集型、基于規(guī)則的任務(wù)，同時(shí)確保效率、性能和靈活性的最大化。

　　歐陽(yáng)劍表示：“FPGA 是高效的，可以專注于特定計(jì)算任務(wù)，但缺乏可編程能力。傳統(tǒng) CPU 擅長(zhǎng)通用計(jì)算任務(wù)，尤其是基于規(guī)則的計(jì)算任務(wù)，同時(shí)非常靈活。GPU 瞄準(zhǔn)了并行計(jì)算，因此有很強(qiáng)大的性能。XPU 則關(guān)注計(jì)算密集型、基于規(guī)則的多樣化計(jì)算任務(wù)，希望提高效率和性能，并帶來(lái)類似 CPU 的靈活性。

　　在 2018 年百度披露更多關(guān)于 XPU 的相關(guān)信息。

　　2017 年 12 月底，人工智能初創(chuàng)企業(yè)地平線發(fā)布了中國(guó)首款全球領(lǐng)先的嵌入式人工智能芯片——面向智能駕駛的征程(Journey)1.0 處理器和面向智能攝像頭的旭日(Sunrise)1.0 處理器，還有針對(duì)智能駕駛、智能城市和智能商業(yè)三大應(yīng)用場(chǎng)景的人工智能解決方案。“旭日 1.0”和 “征程 1.0” 是完全由地平線自主研發(fā)的人工智能芯片，具有全球領(lǐng)先的性能。

　　為了解決應(yīng)用場(chǎng)景中的問(wèn)題，地平線將算法與芯片做了強(qiáng)耦合，用算法來(lái)定義芯片，提升芯片的效率，在高性能的情況下可以保證它的低功耗、低成本。具體芯片參數(shù)尚無(wú)公開數(shù)據(jù)。

國(guó)內(nèi)AI芯片百家爭(zhēng)鳴，何以抗衡全球技術(shù)寡頭

　　除了百度和地平線，國(guó)內(nèi)研究機(jī)構(gòu)如中國(guó)科學(xué)院、北京大學(xué)和清華大學(xué)也有人工智能處理器相關(guān)的成果發(fā)布。

　　北京大學(xué)聯(lián)合商湯科技等提出一種基于 FPGA 的快速 Winograd 算法，可以大幅降低算法復(fù)雜度，改善 FPGA 上的 CNN 性能。論文中的實(shí)驗(yàn)使用當(dāng)前最優(yōu)的多種 CNN 架構(gòu)(如 AlexNet 和 VGG16)，從而實(shí)現(xiàn)了 FPGA 加速之下的最優(yōu)性能和能耗。在 Xilinx ZCU102 平臺(tái)上達(dá)到了卷積層平均處理速度 1006.4 GOP/s，整體 AlexNet 處理速度 854.6 GOP/s，卷積層平均處理速度 3044.7 GOP/s，整體 VGG16 的處理速度 2940.7 GOP/s。

　　中國(guó)科學(xué)院計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室在頂級(jí)會(huì)議 HPCA2017 上提出了一種基于數(shù)據(jù)流的神經(jīng)網(wǎng)絡(luò)處理器架構(gòu)，以便適應(yīng)特征圖、神經(jīng)元和突觸等不同層級(jí)的并行計(jì)算，為了實(shí)現(xiàn)這一目標(biāo)，該團(tuán)隊(duì)對(duì)單個(gè)處理單元 PE 進(jìn)行重新設(shè)計(jì)，使得操作數(shù)可以直接通過(guò)橫向或縱向的總線從片上存儲(chǔ)器獲取，而非傳統(tǒng) PE 只能從上至下或從左至右由相鄰單元獲取。該芯片采用了 TMSC 65nm 工藝，峰值性能為 490.7 GOPs/W。