人工智能芯片:發(fā)展史、CPU、FPGA和專(zhuān)用集成電路
人工智能芯片(一):發(fā)展史
本文引用地址:http://m.butianyuan.cn/article/201709/363960.htm人工智能算法的實(shí)現(xiàn)需要強(qiáng)大的計(jì)算能力支撐,特別是深度學(xué)習(xí)算法的大規(guī)模使用,對(duì)計(jì)算能力提出了更高的要求。深度學(xué)習(xí)模型參數(shù)多、計(jì)算量大、數(shù)據(jù)的規(guī)模更大,在早期使用深度學(xué)習(xí)算法進(jìn)行語(yǔ)音識(shí)別的模型中,擁有429個(gè)神經(jīng)元的輸入層,整個(gè)網(wǎng)絡(luò)擁有156M個(gè)參數(shù),訓(xùn)練時(shí)間超過(guò)75天;人工智能領(lǐng)軍人物Andrew Ng和Jeff Dean打造的Google Brain項(xiàng)目,使用包含16000個(gè)CPU核的并行計(jì)算平臺(tái),訓(xùn)練超過(guò)10億個(gè)神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò)。下一步,如果模擬人類(lèi)大腦的神經(jīng)系統(tǒng),需要模擬1000億個(gè)神經(jīng)元,計(jì)算能力將有數(shù)個(gè)量級(jí)的提升。
除此之外,隨著以智能手機(jī)為代表的移動(dòng)終端快速發(fā)展,人們也希望將人工智能應(yīng)用于移動(dòng)終端,而這對(duì)硬件的計(jì)算能力和能耗提出了更高的要求。傳統(tǒng)實(shí)現(xiàn)移動(dòng)終端人工智能的方法是通過(guò)網(wǎng)絡(luò)把終端數(shù)據(jù)全部傳送到云端,之后在云端計(jì)算后再把結(jié)果發(fā)回移動(dòng)端,例如蘋(píng)果的Siri服務(wù)。然而,這樣的方式會(huì)遇到一些問(wèn)題:第一,使用網(wǎng)絡(luò)傳輸數(shù)據(jù)會(huì)產(chǎn)生延遲,很可能數(shù)據(jù)計(jì)算的結(jié)果會(huì)需要等待數(shù)秒甚至數(shù)十秒才能傳回終端。這樣一來(lái),那些需要立刻得到計(jì)算結(jié)果的應(yīng)用就不能用這種方式。例如無(wú)人機(jī)上使用的深度學(xué)習(xí)躲避障礙物算法,ADAS系統(tǒng)中使用的圖像識(shí)別算法等,如果計(jì)算過(guò)程不是本地進(jìn)行而是依賴(lài)云端,那么云端和終端的通訊延遲、可靠性等問(wèn)題有可能對(duì)汽車(chē)和無(wú)人機(jī)造成非常嚴(yán)重的后果。第二,一旦使用網(wǎng)絡(luò)傳送數(shù)據(jù),那么數(shù)據(jù)就有被劫持的風(fēng)險(xiǎn)。因此,那些要求低計(jì)算延遲以及對(duì)于數(shù)據(jù)安全性非常敏感的應(yīng)用就需要把人工智能算法全部在終端實(shí)現(xiàn),或者至少在終端完成一些預(yù)處理運(yùn)算然后再把少量運(yùn)算結(jié)果(而不是大量的原始數(shù)據(jù))傳送到云端完成最終計(jì)算,這就需要移動(dòng)終端硬件能夠快速完成這些運(yùn)算。因此,移動(dòng)端硬件完成這些運(yùn)算必須同時(shí)滿足高速度和低功耗的要求。
針對(duì)這些需求,人工智能核心計(jì)算芯片也經(jīng)歷了四次大的變化。2007年以前,人工智能研究和應(yīng)用經(jīng)歷了數(shù)次起伏,一直沒(méi)有發(fā)展成為成熟的產(chǎn)業(yè);同時(shí)受限于當(dāng)時(shí)算法、數(shù)據(jù)等因素,這一階段人工智能對(duì)于芯片并沒(méi)有特別強(qiáng)烈的需求,通用的CPU芯片即可提供足夠的計(jì)算能力。之后,由于高清視頻、游戲等行業(yè)的發(fā)展,GPU產(chǎn)品取得快速的突破;同時(shí)人們發(fā)現(xiàn)GPU的并行計(jì)算特性恰好適應(yīng)人工智能算法大數(shù)據(jù)并行計(jì)算的要求,如GPU比之前傳統(tǒng)的CPU在深度學(xué)習(xí)算法的運(yùn)算上可以提高9倍到72倍的效率,因此開(kāi)始嘗試使用GPU進(jìn)行人工智能的計(jì)算。進(jìn)入2010年后,云計(jì)算廣泛推廣,人工智能的研究人員可以通過(guò)云計(jì)算借助大量CPU和GPU進(jìn)行混合運(yùn)算,事實(shí)上今天人工智能主要的計(jì)算平臺(tái)還是云計(jì)算。但人工智能業(yè)界對(duì)于計(jì)算能力的要求不斷快速地提升,因此進(jìn)入2015年后,業(yè)界開(kāi)始研發(fā)針對(duì)人工智能的專(zhuān)用芯片,通過(guò)更好的硬件和芯片架構(gòu),在計(jì)算效率上進(jìn)一步帶來(lái)10倍的提升。
人工智能核心計(jì)算芯片發(fā)展趨勢(shì)
目前,根據(jù)計(jì)算模式,人工智能核心計(jì)算芯片的發(fā)展分為兩個(gè)方向:一個(gè)是利用人工神經(jīng)網(wǎng)絡(luò)從功能層面模仿大腦的能力,其主要產(chǎn)品就是通常的CPU、GPU、FPGA及專(zhuān)用定制芯片ASIC。另一個(gè)神經(jīng)擬態(tài)計(jì)算則是從結(jié)構(gòu)層面去逼近大腦,其結(jié)構(gòu)還可進(jìn)一步分為兩個(gè)層次,一是神經(jīng)網(wǎng)絡(luò)層面,與之相應(yīng)的是神經(jīng)擬態(tài)架構(gòu)和處理器,如IBM的TrueNorth芯片,這種芯片把數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸。與傳統(tǒng)馮諾依曼結(jié)構(gòu)不同,它的內(nèi)存、CPU和通信部件完全集成在一起,因此信息的處理完全在本地進(jìn)行,克服了傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU之間的瓶頸。同時(shí)神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過(guò)來(lái)的脈沖(動(dòng)作電位),這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作。二是神經(jīng)元層面,與之相應(yīng)的是元器件層面的創(chuàng)新。如IBM蘇黎世研究中心宣布制造出世界上首個(gè)人造納米尺度隨機(jī)相變神經(jīng)元,可實(shí)現(xiàn)高速無(wú)監(jiān)督學(xué)習(xí)。
人工智能類(lèi)腦芯片主要類(lèi)型
從人工智能芯片所處的發(fā)展階段來(lái)看,從結(jié)構(gòu)層面去模仿大腦運(yùn)算雖然是人工智能追求的終極目標(biāo),但距離現(xiàn)實(shí)應(yīng)用仍然較為遙遠(yuǎn),功能層面的模仿才是當(dāng)前主流。因此CPU、GPU和FPGA等通用芯片是目前人工智能領(lǐng)域的主要芯片,而針對(duì)神經(jīng)網(wǎng)絡(luò)算法的專(zhuān)用芯片ASIC也正在被Intel、Google、英偉達(dá)和眾多初創(chuàng)公司陸續(xù)推出,并有望將在今后數(shù)年內(nèi)取代當(dāng)前的通用芯片成為人工智能芯片的主力。
人工智能芯片(二):GPU
“人工智能算法的實(shí)現(xiàn)需要強(qiáng)大的計(jì)算能力支撐,特別是深度學(xué)習(xí)算法的大規(guī)模使用,對(duì)計(jì)算能力提出了更高的要求?!?/p>
傳統(tǒng)的通用CPU之所以不適合人工智能算法的執(zhí)行,主要原因在于其計(jì)算指令遵循串行執(zhí)行的方式,沒(méi)能發(fā)揮出芯片的全部潛力。與之不同的是,GPU具有高并行結(jié)構(gòu),在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比CPU更高的效率。對(duì)比GPU和CPU在結(jié)構(gòu)上的差異,CPU大部分面積為控制器和寄存器,而GPU擁有更多的ALU(ARITHMETIC LOGIC UNIT,邏輯運(yùn)算單元)用于數(shù)據(jù)處理,這樣的結(jié)構(gòu)適合對(duì)密集型數(shù)據(jù)進(jìn)行并行處理。CPU執(zhí)行計(jì)算任務(wù)時(shí),一個(gè)時(shí)刻只處理一個(gè)數(shù)據(jù),不存在真正意義上的并行,而GPU具有多個(gè)處理器核,在一個(gè)時(shí)刻可以并行處理多個(gè)數(shù)據(jù)。程序在GPU系統(tǒng)上的運(yùn)行速度相較于單核CPU往往提升幾十倍乃至上千倍。隨著英偉達(dá)、AMD等公司不斷推進(jìn)其GPU的大規(guī)模并行架構(gòu)支持,面向通用計(jì)算的GPU(即GPGPU,GENERAL PURPOSE GPU,通用計(jì)算圖形處理器)已成為加速可并行應(yīng)用程序的重要手段。
CPU及GPU結(jié)構(gòu)及功能對(duì)比
GPU的發(fā)展經(jīng)歷了三個(gè)階段:第一代GPU(1999年以前),部分功能從CPU分離,實(shí)現(xiàn)硬件加速,以GE(GEOMETRY ENGINE)為代表,只能起到3D 圖像處理的加速作用,不具有軟件編程特性。
第二代GPU(1999-2005年),實(shí)現(xiàn)進(jìn)一步的硬件加速和有限的編程性。1999年英偉達(dá)GEFORCE 256將T&L(TRANSFORM AND LIGHTING)等功能從CPU分離出來(lái),實(shí)現(xiàn)了快速變換,這成為GPU真正出現(xiàn)的標(biāo)志;2001年英偉達(dá)和ATI分別推出的GEFORCE3和RADEON 8500,圖形硬件的流水線被定義為流處理器,出現(xiàn)了頂點(diǎn)級(jí)可編程性,同時(shí)像素級(jí)也具有有限的編程性,但GPU 的編程性比較有限。
第三代GPU(2006年以后),GPU實(shí)現(xiàn)方便的編程環(huán)境可以直接編寫(xiě)程序;2006年英偉達(dá)與ATI分別推出了CUDA(COMPUTER UNIFIED DEVICE ARCHITECTURE,統(tǒng)一計(jì)算架構(gòu))編程環(huán)境和CTM(CLOSE TO THE METAL)編程環(huán)境;2008年,蘋(píng)果公司提出一個(gè)通用的并行計(jì)算編程平臺(tái)OPENCL(OPEN COMPUTING LANGUAGE,開(kāi)放運(yùn)算語(yǔ)言),與CUDA綁定在英偉達(dá)的顯卡上不同,OPENCL和具體的計(jì)算設(shè)備沒(méi)有關(guān)系。
GPU芯片的發(fā)展階段
目前,GPU已經(jīng)發(fā)展到較為成熟的階段。谷歌、FACEBOOK、微軟、TWITTER和百度等公司都在使用GPU分析圖片、視頻和音頻文件,以改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能。GPU也被應(yīng)用于VR/AR 相關(guān)的產(chǎn)業(yè)。此外,很多汽車(chē)生產(chǎn)商也在使用GPU芯片發(fā)展無(wú)人駕駛。
根據(jù)研究公司TRACTICA LLC 預(yù)測(cè),用于人工智能的GPU將從2016年的不到一億美元增長(zhǎng)到2025年的140億美元,GPU將出現(xiàn)爆炸式增長(zhǎng)。
2016-2025年不同區(qū)域人工智能GPU收入預(yù)測(cè)(來(lái)源:TRACTICA)
近十年來(lái),人工智能的通用計(jì)算GPU完全由英偉達(dá)引領(lǐng)。2010年英偉達(dá)就開(kāi)始布局人工智能產(chǎn)品,2014年宣布了新一代PASCAL GPU芯片架構(gòu),這是英偉達(dá)的第五代GPU架構(gòu),也是首個(gè)為深度學(xué)習(xí)而設(shè)計(jì)的GPU,它支持所有主流的深度學(xué)習(xí)計(jì)算框架。2016年上半年,英偉達(dá)又針對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程推出了基于PASCAL架構(gòu)的TESLA P100芯片以及相應(yīng)的超級(jí)計(jì)算機(jī)DGX-1。對(duì)于TESLA P100,英偉達(dá)首席執(zhí)行官黃仁勛稱(chēng)這款GPU的開(kāi)發(fā)費(fèi)用高達(dá)20億美元,而英偉達(dá)全年的營(yíng)收也不過(guò)才50億美元。深度學(xué)習(xí)超級(jí)計(jì)算機(jī)DGX-1包含TESLA P100 GPU加速器,并采用英偉達(dá)NVLINK互聯(lián)技術(shù),軟件堆棧包含主要深度學(xué)習(xí)框架、深度學(xué)習(xí)SDK、DIGITS GPU訓(xùn)練系統(tǒng)、驅(qū)動(dòng)程序和CUDA,能夠快速設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)(DNN)。擁有高達(dá)170TFLOPS的半精度浮點(diǎn)運(yùn)算能力,相當(dāng)于250臺(tái)傳統(tǒng)服務(wù)器,可以將深度學(xué)習(xí)的訓(xùn)練速度加快75倍,將CPU性能提升56倍,報(bào)價(jià)12.9萬(wàn)美元。2016年9月北京GTC大會(huì)上,英偉達(dá)針對(duì)神經(jīng)網(wǎng)絡(luò)推理過(guò)程又推出了基于PASCAL的產(chǎn)品TESLA P4/P40。
AMD則在2016年底集中發(fā)布了一系列人工智能產(chǎn)品,包括3款圖形加速卡(品牌名MI),4款OEM機(jī)箱和一系列開(kāi)源軟件,以及下一代VEGA架構(gòu)的GPU芯片。未來(lái),AMD希望MI系列硬件加速器、ROCM 軟件平臺(tái)和基于ZEN的32核以及64核服務(wù)器CPU三者合力,為超算客戶(hù)提供一整套基于AMD產(chǎn)品線的解決方案。
除了英偉達(dá)和AMD之外,INTEL計(jì)劃在2017年將深度學(xué)習(xí)推理加速器和72核至強(qiáng)XEON PHI芯片推向市場(chǎng)。除了傳統(tǒng)的CPU、GPU大廠,移動(dòng)領(lǐng)域的眾巨頭在GPU的布局也非常值得關(guān)注。據(jù)說(shuō)蘋(píng)果也在搜羅GPU開(kāi)發(fā)人才以進(jìn)軍VR市場(chǎng),目前蘋(píng)果A9的GPU性能與驍龍820相當(dāng),A9 GPU采用
除了英偉達(dá)和AMD之外,INTEL計(jì)劃在2017年將深度學(xué)習(xí)推理加速器和72核至強(qiáng)XEON PHI芯片推向市場(chǎng)。除了傳統(tǒng)的CPU、GPU大廠,移動(dòng)領(lǐng)域的眾巨頭在GPU的布局也非常值得關(guān)注。據(jù)說(shuō)蘋(píng)果也在搜羅GPU開(kāi)發(fā)人才以進(jìn)軍VR市場(chǎng),目前蘋(píng)果A9的GPU性能與驍龍820相當(dāng),A9 GPU采用的是POWERVR ROGUE家族的另外一種設(shè)計(jì)——GT7600,而蘋(píng)果開(kāi)發(fā)的A9X處理器性能與INTEL的酷睿M處理器相當(dāng),斷了移動(dòng)處理器市場(chǎng)的ARM也開(kāi)始重視GPU市場(chǎng),其推出的MALI系列GPU憑借低功耗、低價(jià)等優(yōu)勢(shì)逐漸崛起。
人工智能芯片(三):FPGA
FPGA(FIELD-PROGRAMMABLE GATE ARRAY),即現(xiàn)場(chǎng)可編程門(mén)陣列,它是在PAL、GAL、CPLD 等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。用戶(hù)可以通過(guò)燒入FPGA配置文件來(lái)定義這些門(mén)電路以及存儲(chǔ)器之間的連線。這種燒入不是一次性的,即用戶(hù)可以把FPGA配置成一個(gè)微控制器MCU,使用完畢后可以編輯配置文件把同一個(gè)FPGA配置成一個(gè)音頻編解碼器。因此它既解決了定制電路靈活性的不足,又克服了原有可編程器件門(mén)電路數(shù)有限的缺點(diǎn)。
FPGA內(nèi)部包含大量重復(fù)的IOB、CLB和布線信道等基本單元。FPGA在出廠時(shí)是“萬(wàn)能芯片”,用戶(hù)可根據(jù)自身需求,用硬件描述語(yǔ)言(HDL)對(duì)FPGA的硬件電路進(jìn)行設(shè)計(jì);每完成一次燒錄,F(xiàn)PGA內(nèi)部的硬件電路就有了確定的連接方式,具有了一定的功能;輸入的數(shù)據(jù)只需要依次經(jīng)過(guò)各個(gè)門(mén)電路,就可以得到輸出結(jié)果。換言之,F(xiàn)PGA的輸入到輸出之間并沒(méi)有計(jì)算過(guò)程,只是通過(guò)燒錄好的硬件電路完成信號(hào)的傳輸,因此對(duì)于計(jì)算任務(wù)的針對(duì)性非常強(qiáng),速度很高。而正是因?yàn)镕PGA的這種工作模式,決定了需要預(yù)先布置大量門(mén)陣列以滿足用戶(hù)的設(shè)計(jì)需求,因此有“以面積換速度”的說(shuō)法:使用大量的門(mén)電路陣列,消耗更多的FPGA內(nèi)核資源,用來(lái)提升整個(gè)系統(tǒng)的運(yùn)行速度。
FPGA在人工智能領(lǐng)域的應(yīng)用
FPGA可同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算,在處理特定應(yīng)用時(shí)有更加明顯的效率。對(duì)于某個(gè)特定運(yùn)算,通用CPU可能需要多個(gè)時(shí)鐘周期;而FPGA可以通過(guò)編程重組電路,直接生成專(zhuān)用電路,僅消耗少量甚至一次時(shí)鐘周期就可完成運(yùn)算。
在功耗方面,F(xiàn)PGA也具有明顯優(yōu)勢(shì),其能耗比是 CPU的10倍以上、GPU的3倍。究其原因,在FPGA中沒(méi)有去指令與指令譯碼操作,在INTEL的CPU里,由于使用了CISC架構(gòu),僅僅譯碼就占整個(gè)芯片能耗的約50%;在GPU里,取指與譯碼也消耗10%至20%的能耗。
此外,由于FPGA的靈活性,很多使用通用處理器或ASIC難以實(shí)現(xiàn)的下層硬件控制操作技術(shù)利用FPGA可以很方便的實(shí)現(xiàn),從而為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大空間。同時(shí)FPGA一次性成本(光刻掩模制作成本)遠(yuǎn)低于ASIC,在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定需要不斷迭代改進(jìn)的情況下,利用具備可重構(gòu)特性的FPGA芯片來(lái)實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇。
由于FPGA靈活快速的特點(diǎn),在眾多領(lǐng)域都有替代ASIC的趨勢(shì),據(jù)市場(chǎng)機(jī)構(gòu)GRANDVIEW RESEARCH的數(shù)據(jù),F(xiàn)PGA市場(chǎng)將從2015年的63.6億增長(zhǎng)到2024年的約110億美元,年均增長(zhǎng)率在6%。
2014-2024年全球FPGA市場(chǎng)規(guī)模預(yù)測(cè)(來(lái)源:GRANDVIEW RESEARCH)
目前,F(xiàn)PGA市場(chǎng)基本上全部被國(guó)外XILINX、ALTERA(現(xiàn)并入INTEL)、LATTICE、MICROSEMI四家占據(jù)。其中XILINX和ALTERA兩大公司對(duì)FPGA的技術(shù)與市場(chǎng)占據(jù)絕對(duì)壟斷地位。在ALTERA尚未被INTEL收購(gòu)的2014年,XILINX和ALTERA分別實(shí)現(xiàn)23.8億美元和19.3億美元的營(yíng)收,分別占有48%和41%的市場(chǎng)份額,而同年LATTICE和MICROSEMI(僅FPGA業(yè)務(wù)部分)兩公司營(yíng)收為3.66億美元和2.75億美元,前兩大廠商占據(jù)了近90%的市場(chǎng)份額。
2015年FPGA廠商市場(chǎng)份額分析(來(lái)源:IHS)
人工智能芯片(四):專(zhuān)用集成電路
目前以深度學(xué)習(xí)為代表的人工智能計(jì)算需求,主要采用GPU、FPGA等已有適合并行計(jì)算的通用芯片來(lái)實(shí)現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒(méi)有大規(guī)模興起之時(shí),使用這類(lèi)已有的通用芯片可以避免專(zhuān)門(mén)研發(fā)定制芯片(ASIC)的高投入和高風(fēng)險(xiǎn)。但是,由于這類(lèi)通用芯片設(shè)計(jì)初衷并非專(zhuān)門(mén)針對(duì)深度學(xué)習(xí),因而天然存在性能、功耗等方面的瓶頸。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大,這類(lèi)問(wèn)題將日益突出。
GPU 作為圖像處理器,設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中需要大規(guī)模并行計(jì)算。因此,其在應(yīng)用于深度學(xué)習(xí)算法時(shí),有三個(gè)方面的局限性:第一, 應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和應(yīng)用兩個(gè)計(jì)算環(huán)節(jié),GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效,但在應(yīng)用時(shí)一次性只能對(duì)于一張輸入圖像進(jìn)行處理,并行度的優(yōu)勢(shì)不能完全發(fā)揮。 第二, 硬件結(jié)構(gòu)固定不具備可編程性。深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU無(wú)法像FPGA一樣可以靈活的配制硬件結(jié)構(gòu); 第三, 運(yùn)行深度學(xué)習(xí)算法能效遠(yuǎn)低于FPGA。
盡管FPGA倍受看好,甚至新一代百度大腦也是基于FPGA平臺(tái)研發(fā),但其畢竟不是專(zhuān)門(mén)為了適用深度學(xué)習(xí)算法而研發(fā),實(shí)際仍然存在不少局限:第一,基本單元的計(jì)算能力有限。為了實(shí)現(xiàn)可重構(gòu)特性,F(xiàn)PGA內(nèi)部有大量極細(xì)粒度的基本單元,但是每個(gè)單元的計(jì)算能力(主要依靠LUT查找表)都遠(yuǎn)遠(yuǎn)低于CPU和GPU中的ALU模塊。第二,速度和功耗相對(duì)專(zhuān)用定制芯片(ASIC)仍然存在不小差距; 第三,F(xiàn)PGA價(jià)格較為昂貴,在規(guī)模放量的情況下單塊FPGA的成本要遠(yuǎn)高于專(zhuān)用定制芯片。
因此,隨著人工智能算法和應(yīng)用技術(shù)的日益發(fā)展,以及人工智能專(zhuān)用芯片ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟,人工智能ASIC將成為人工智能計(jì)算芯片發(fā)展的必然趨勢(shì)。
首先,定制芯片的性能提升非常明顯。例如英偉達(dá)首款專(zhuān)門(mén)為深度學(xué)習(xí)從零開(kāi)始設(shè)計(jì)的芯片Tesla P100數(shù)據(jù)處理速度是其2014年推出GPU系列的12倍。谷歌為機(jī)器學(xué)習(xí)定制的芯片TPU將硬件性能提升至相當(dāng)于當(dāng)前芯片按摩爾定律發(fā)展7年后的水平。正如CPU改變了當(dāng)年龐大的計(jì)算機(jī)一樣,人工智能ASIC芯片也將大幅改變?nèi)缃馎I硬件設(shè)備的面貌。如大名鼎鼎的AlphaGo使用了約170個(gè)圖形處理器(GPU)和1200 個(gè)中央處理器(CPU),這些設(shè)備需要占用一個(gè)機(jī)房,還要配備大功率的空調(diào),以及多名專(zhuān)家進(jìn)行系統(tǒng)維護(hù)。而如果全部使用專(zhuān)用芯片,非常可能只需要一個(gè)盒子大小,且功耗也會(huì)大幅降低。
第二,下游需求促進(jìn)人工智能芯片專(zhuān)用化。從服務(wù)器,計(jì)算機(jī)到無(wú)人駕駛汽車(chē)、無(wú)人機(jī)再到智能家居的各類(lèi)家電,至少數(shù)十倍于智能手機(jī)體量的設(shè)備需要引入感知交互能力和人工智能計(jì)算能力。而出于對(duì)實(shí)時(shí)性的要求以及訓(xùn)練數(shù)據(jù)隱私等考慮,這些能力不可能完全依賴(lài)云端,必須要有本地的軟硬件基礎(chǔ)平臺(tái)支撐,這將帶來(lái)海量的人工智能芯片的需求。
近兩年,國(guó)內(nèi)國(guó)外人工智能芯片層出不窮。英偉達(dá)在2016年宣布研發(fā)投入超過(guò)20億美元用于深度學(xué)習(xí)專(zhuān)用芯片,而谷歌為深度學(xué)習(xí)定制的TPU芯片甚至已經(jīng)秘密運(yùn)行一年,該芯片直接支撐了震驚全球的人機(jī)圍棋大戰(zhàn)。無(wú)論是英偉達(dá)、谷歌、IBM、高通還是國(guó)內(nèi)的中星微、寒武紀(jì),巨頭和新創(chuàng)企業(yè)都將人工智能芯片視為具有戰(zhàn)略意義的關(guān)鍵技術(shù)進(jìn)行布局,人工智能芯片正呈現(xiàn)百花齊放的局面。
人工智能專(zhuān)用芯片研發(fā)情況一覽
目前人工智能專(zhuān)用芯片的發(fā)展方向包括:主要基于FPGA的半定制、針對(duì)深度學(xué)習(xí)算法的全定制和類(lèi)腦計(jì)算芯片三個(gè)階段。
在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定需要不斷迭代改進(jìn)的情況下,利用具備可重構(gòu)特性的FPGA芯片來(lái)實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇。這類(lèi)芯片中的杰出代表是國(guó)內(nèi)初創(chuàng)公司深鑒科技,該公司設(shè)計(jì)了“深度學(xué)習(xí)處理單元”(Deep Processing Unit,DPU)的芯片,希望以ASIC級(jí)別的功耗來(lái)達(dá)到優(yōu)于GPU的性能,其第一批產(chǎn)品就是基于FPGA平臺(tái)。這種半定制芯片雖然依托于FPGA平臺(tái),但是利用抽象出了指令集與編譯器,可以快速開(kāi)發(fā)、快速迭代,與專(zhuān)用的FPGA加速器產(chǎn)品相比,也具有非常明顯的優(yōu)勢(shì)。
在針對(duì)深度學(xué)習(xí)算法的全定制階段,芯片是完全采用 ASIC 設(shè)計(jì)方法全定制,性能、功耗和面積等指標(biāo)面向深度學(xué)習(xí)算法都做到了最優(yōu)。谷歌的TPU芯片、我國(guó)中科院計(jì)算所的寒武紀(jì)深度學(xué)習(xí)處理器芯片就是這類(lèi)芯片的典型代表。
在類(lèi)腦計(jì)算階段,芯片的設(shè)計(jì)目的不再局限于僅僅加速深度學(xué)習(xí)算法,而是在芯片基本結(jié)構(gòu)甚至器件層面上希望能夠開(kāi)發(fā)出新的類(lèi)腦計(jì)算機(jī)體系結(jié)構(gòu),比如會(huì)采用憶阻器和ReRAM等新器件來(lái)提高存儲(chǔ)密度。這類(lèi)芯片的研究離成為市場(chǎng)上可以大規(guī)模廣泛使用的成熟技術(shù)還有很大的差距,甚至有很大的風(fēng)險(xiǎn),但是長(zhǎng)期來(lái)看類(lèi)腦芯片有可能會(huì)帶來(lái)計(jì)算體系的革命。 這類(lèi)芯片的典型代表是IBM的Truenorh芯片。類(lèi)腦計(jì)算芯片市場(chǎng)空間巨大。根據(jù)第三方預(yù)測(cè),包含消費(fèi)終端的類(lèi)腦計(jì)算芯片市場(chǎng)將在2022年以前達(dá)到千億美元的規(guī)模,其中消費(fèi)終端是最大市場(chǎng),占整體98%,其他需求包括工業(yè)檢測(cè)、航空、軍事與國(guó)防等領(lǐng)域。
評(píng)論