AI駕臨人間 四大芯片流派華山論劍
FPGA一幫
本文引用地址:http://m.butianyuan.cn/article/201704/346166.htmGPU美中不足的是就是太貴了,太貴了,而且有副作用,降溫是大個問題。怎么辦?
賽靈思等公司改進了FPGA許多技術(shù),使之價格便宜功耗又很低,操練起來更有趣。于是,跟隨FPGA的越來越多,形成了一大流派。
FPGA是從哪里來的呢?
原來早在1984年賽靈思就發(fā)布世界上首款FPGA,當時的FPGA晶片尺寸很大,但成本卻不低。1992年后,F(xiàn)PGA因采用新工藝節(jié)點,第一次出現(xiàn)了在FPGA上實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)。但直到2000年后,F(xiàn)PGA丹法結(jié)合了“易容術(shù)”后才略有小成,易容術(shù)是指FPGA 已不僅是門陣列,還是集成有可編程邏輯的復(fù)雜功能集。2008以來,F(xiàn)PGA不光可以越來越多地整合系統(tǒng)模塊,集成重要的控制功能,還可以使用更高效的系統(tǒng)編程語言,如OpenCL和C語言,通過類似軟件的流程來編程,降低了硬件編程的難度。于是,自2011年開始,出現(xiàn)了大規(guī)?;贔PGA的算法研究。
簡單來說,F(xiàn)PGA 全稱“現(xiàn)場可編程門陣列”(Field Programmable GateArray),其基本原理是在 FPGA 芯片內(nèi)集成大量的數(shù)字電路基本門電路以及存儲器,而用戶可以通過更新FPGA 配置文件,來定義這些門電路以及存儲器之間的連線。
這里提及的“可編程”,完全就是“可變成”。這意味著你今天可以把 FPGA 配置成一個微控制器MCU,明天就可以更新配置文件把同一個 FPGA 配置成一個音頻編解碼器。你是不是想起了孫悟空七十二變,今天是個老頭明天是個少女?此乃易容術(shù)也。
不同于GPU的運行原理,F(xiàn)PGA是以門電路直接運算的,即編程中的語言在執(zhí)行時會被翻譯成電路,優(yōu)勢是運算速度快。
在很多領(lǐng)域FPGA的性能表現(xiàn)優(yōu)異,以至于有人說FPGA可能會取代CPU和GPU成為將來機器人研發(fā)領(lǐng)域的主要芯片。當然,這事有點夸張。目前來看FPGA也多作為CPU的協(xié)處理器而出現(xiàn),沖擊GPU是顯而易見的,但要說取代CPU,還得等等。
目前,國內(nèi)有許多創(chuàng)業(yè)企業(yè),自動加入FPGA陣營,提供基于FPGA的解決方案。比如源于清華大學(xué)的深鑒科技,專注于深度學(xué)習(xí)處理器與編譯器技術(shù),深鑒科技研發(fā)了一種名為“深度壓縮”的技術(shù),它不僅可以將神經(jīng)網(wǎng)絡(luò)壓縮數(shù)十倍而不影響準確度,還可以使用“片上存儲”來存儲深度學(xué)習(xí)算法模型,減少內(nèi)存讀取,大幅度減少功耗。
FPGA流派的廠商有兩大兩小,兩大廠分別是賽靈思、Altera(英特爾于2015年以167億美元收購Altera),兩小是Lattice和Microsemi。
其中,賽靈思和Altera占據(jù)了近90%的市場份額,兩人旗下的專利超過6000項。而剩下約10%的市場份額,由Microsemi和Lattice瓜分,這兩位的專利也有3000余項。由此可以看出,極高的技術(shù)門檻將其它希望進入FPGA市場的廠商牢牢擋在門外。
FPGA也有兩大局限性。
第一,F(xiàn)PGA的峰值性能不如GPU。即便使用高端的服務(wù)器做FPGA編譯都會需要數(shù)分鐘的時間,放到移動端速度還會更慢。但FPGA的功耗低于GPU,若FPGA的架構(gòu)和配置合理,從能耗比的角度上來看,則能超過GPU。
第二,F(xiàn)PGA的編程難度較高。編程人員需要同時精通軟件和硬件兩種編程語言,更適合于高段位的的資深技術(shù)玩家。FPGA芯片主要面向企業(yè)客戶,如百度、微軟、IBM 等公司都有專門做FPGA的團隊為服務(wù)器加速。
就未來發(fā)展來看,F(xiàn)PGA的崛起指日可待。理由有三個:
首先,在人工智能起步階段,算法大致每三個月迭代一次,單憑這一點來說,F(xiàn)PGA可以靈活調(diào)整電路配置以適應(yīng)新的算法,具有一定優(yōu)勢;
其次,相比于GPU,F(xiàn)PGA更適用于深度學(xué)習(xí)的應(yīng)用階段;
最后,為了降低FPGA的編程難度,F(xiàn)PGA廠商賽靈思專門研發(fā)了可重配置加速棧堆,提供基于FPGA的硬件加速方案,這類似于一個App Store,賽靈思是一個平臺,用戶使用時直接從商店里挑選方案,不需要再自己設(shè)計布局布線了。
ASIC:由吸星大法突破
雖然GPU在并行計算方面有不少優(yōu)勢,但畢竟不是為機器學(xué)習(xí)專門設(shè)計的,F(xiàn)PGA則是需要用戶自主編程,主要面向?qū)I(yè)領(lǐng)域的企業(yè)用戶,門檻太高。
大眾消費領(lǐng)域怎辦?如應(yīng)用到無人駕駛汽車上或是智能家居終端,這款芯片還要同時滿足高性能和低功耗的要求,甚至不需要將數(shù)據(jù)傳回服務(wù)器端,不必連入互聯(lián)網(wǎng),本地即時計算即可。
ASIC挺身而出。
ASIC的全稱是專用集成電路 (Application-Specific Integrated Circuit)。
玩過比特幣的都知道著名的挖礦大戰(zhàn)。ASIC在比特幣挖礦領(lǐng)域,展現(xiàn)出了得天獨厚的優(yōu)勢。2013年1月Avalon項目團隊交付了世界上第一臺商用比特幣ASIC礦機,轟動了挖礦世界。CPU、GPU礦機幾乎在一夜之間消失的無影無蹤,引發(fā)了比特幣挖礦行業(yè)第二次重大升級,比特幣網(wǎng)絡(luò)核心開發(fā)者Jeff Garzik有幸成為了第一個商業(yè)ASIC礦機的擁有者,據(jù)說當時收到Avalon礦機的用戶在一兩天內(nèi)就回了本。而傳說中隱藏在農(nóng)村的土豪,能動用的ASIC礦機達到了數(shù)千臺。
人工智能深度學(xué)習(xí)和比特幣挖礦有類似之處,都是依賴于底層的芯片進行大規(guī)模的并行計算。
ASIC分為全定制和半定制。全定制設(shè)計需要設(shè)計者完成所有電路的設(shè)計,因此需要大量人力物力,靈活性好但開發(fā)周期長,上市速度慢。專為機器學(xué)習(xí)設(shè)計的ASIC芯片,從設(shè)計到制造,對資金和技術(shù)的要求都更高。一般來說,基于FPGA的開發(fā)周期大約為六個月,而相同規(guī)格的ASIC則需要一年左右,需要經(jīng)過多步驗證,可想而知,在這樣精細的打磨下,其性能自然也更為出色。
評論