AI駕臨人間四大芯片流派華山論劍

作者：時間：2017-04-04 來源：騰訊研究院

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：隨著AI產(chǎn)業(yè)快速突破，各大公司在AI領(lǐng)域的人才動向也在引起極大關(guān)注，你來我往、歸去來兮，AI江湖上大有一片血雨腥風之勢，AI芯片是人工智能產(chǎn)業(yè)的演武場。

　　FPGA一幫

本文引用地址：http://m.butianyuan.cn/article/201704/346166.htm

　　GPU美中不足的是就是太貴了，太貴了，而且有副作用，降溫是大個問題。怎么辦?

　　賽靈思等公司改進了FPGA許多技術(shù)，使之價格便宜功耗又很低，操練起來更有趣。于是，跟隨FPGA的越來越多，形成了一大流派。

　　FPGA是從哪里來的呢?

　　原來早在1984年賽靈思就發(fā)布世界上首款FPGA，當時的FPGA晶片尺寸很大，但成本卻不低。1992年后，F(xiàn)PGA因采用新工藝節(jié)點，第一次出現(xiàn)了在FPGA上實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)。但直到2000年后，F(xiàn)PGA丹法結(jié)合了“易容術(shù)”后才略有小成，易容術(shù)是指FPGA 已不僅是門陣列，還是集成有可編程邏輯的復(fù)雜功能集。2008以來，F(xiàn)PGA不光可以越來越多地整合系統(tǒng)模塊，集成重要的控制功能，還可以使用更高效的系統(tǒng)編程語言，如OpenCL和C語言，通過類似軟件的流程來編程，降低了硬件編程的難度。于是，自2011年開始，出現(xiàn)了大規(guī)?；贔PGA的算法研究。

　　簡單來說，F(xiàn)PGA 全稱“現(xiàn)場可編程門陣列”(Field Programmable GateArray)，其基本原理是在 FPGA 芯片內(nèi)集成大量的數(shù)字電路基本門電路以及存儲器，而用戶可以通過更新FPGA 配置文件，來定義這些門電路以及存儲器之間的連線。

　　這里提及的“可編程”，完全就是“可變成”。這意味著你今天可以把 FPGA 配置成一個微控制器MCU，明天就可以更新配置文件把同一個 FPGA 配置成一個音頻編解碼器。你是不是想起了孫悟空七十二變，今天是個老頭明天是個少女?此乃易容術(shù)也。

　　不同于GPU的運行原理，F(xiàn)PGA是以門電路直接運算的，即編程中的語言在執(zhí)行時會被翻譯成電路，優(yōu)勢是運算速度快。

　　在很多領(lǐng)域FPGA的性能表現(xiàn)優(yōu)異，以至于有人說FPGA可能會取代CPU和GPU成為將來機器人研發(fā)領(lǐng)域的主要芯片。當然，這事有點夸張。目前來看FPGA也多作為CPU的協(xié)處理器而出現(xiàn)，沖擊GPU是顯而易見的，但要說取代CPU，還得等等。

　　目前，國內(nèi)有許多創(chuàng)業(yè)企業(yè)，自動加入FPGA陣營，提供基于FPGA的解決方案。比如源于清華大學(xué)的深鑒科技，專注于深度學(xué)習處理器與編譯器技術(shù)，深鑒科技研發(fā)了一種名為“深度壓縮”的技術(shù)，它不僅可以將神經(jīng)網(wǎng)絡(luò)壓縮數(shù)十倍而不影響準確度，還可以使用“片上存儲”來存儲深度學(xué)習算法模型，減少內(nèi)存讀取，大幅度減少功耗。

　　FPGA流派的廠商有兩大兩小，兩大廠分別是賽靈思、Altera(英特爾于2015年以167億美元收購Altera)，兩小是Lattice和Microsemi。

　　其中，賽靈思和Altera占據(jù)了近90%的市場份額，兩人旗下的專利超過6000項。而剩下約10%的市場份額，由Microsemi和Lattice瓜分，這兩位的專利也有3000余項。由此可以看出，極高的技術(shù)門檻將其它希望進入FPGA市場的廠商牢牢擋在門外。

　　FPGA也有兩大局限性。

　　第一，F(xiàn)PGA的峰值性能不如GPU。即便使用高端的服務(wù)器做FPGA編譯都會需要數(shù)分鐘的時間，放到移動端速度還會更慢。但FPGA的功耗低于GPU，若FPGA的架構(gòu)和配置合理，從能耗比的角度上來看，則能超過GPU。

　　第二，F(xiàn)PGA的編程難度較高。編程人員需要同時精通軟件和硬件兩種編程語言，更適合于高段位的的資深技術(shù)玩家。FPGA芯片主要面向企業(yè)客戶，如百度、微軟、IBM 等公司都有專門做FPGA的團隊為服務(wù)器加速。

　　就未來發(fā)展來看，F(xiàn)PGA的崛起指日可待。理由有三個：

　　首先，在人工智能起步階段，算法大致每三個月迭代一次，單憑這一點來說，F(xiàn)PGA可以靈活調(diào)整電路配置以適應(yīng)新的算法，具有一定優(yōu)勢;

　　其次，相比于GPU，F(xiàn)PGA更適用于深度學(xué)習的應(yīng)用階段;

　　最后，為了降低FPGA的編程難度，F(xiàn)PGA廠商賽靈思專門研發(fā)了可重配置加速棧堆，提供基于FPGA的硬件加速方案，這類似于一個App Store，賽靈思是一個平臺，用戶使用時直接從商店里挑選方案，不需要再自己設(shè)計布局布線了。

　　ASIC：由吸星大法突破

　　雖然GPU在并行計算方面有不少優(yōu)勢，但畢竟不是為機器學(xué)習專門設(shè)計的，F(xiàn)PGA則是需要用戶自主編程，主要面向?qū)I(yè)領(lǐng)域的企業(yè)用戶，門檻太高。

　　大眾消費領(lǐng)域怎辦?如應(yīng)用到無人駕駛汽車上或是智能家居終端，這款芯片還要同時滿足高性能和低功耗的要求，甚至不需要將數(shù)據(jù)傳回服務(wù)器端，不必連入互聯(lián)網(wǎng)，本地即時計算即可。

　　ASIC挺身而出。

　　ASIC的全稱是專用集成電路 (Application-Specific Integrated Circuit)。

　　玩過比特幣的都知道著名的挖礦大戰(zhàn)。ASIC在比特幣挖礦領(lǐng)域，展現(xiàn)出了得天獨厚的優(yōu)勢。2013年1月Avalon項目團隊交付了世界上第一臺商用比特幣ASIC礦機，轟動了挖礦世界。CPU、GPU礦機幾乎在一夜之間消失的無影無蹤，引發(fā)了比特幣挖礦行業(yè)第二次重大升級，比特幣網(wǎng)絡(luò)核心開發(fā)者Jeff Garzik有幸成為了第一個商業(yè)ASIC礦機的擁有者，據(jù)說當時收到Avalon礦機的用戶在一兩天內(nèi)就回了本。而傳說中隱藏在農(nóng)村的土豪，能動用的ASIC礦機達到了數(shù)千臺。

　　人工智能深度學(xué)習和比特幣挖礦有類似之處，都是依賴于底層的芯片進行大規(guī)模的并行計算。

　　ASIC分為全定制和半定制。全定制設(shè)計需要設(shè)計者完成所有電路的設(shè)計，因此需要大量人力物力，靈活性好但開發(fā)周期長，上市速度慢。專為機器學(xué)習設(shè)計的ASIC芯片，從設(shè)計到制造，對資金和技術(shù)的要求都更高。一般來說，基于FPGA的開發(fā)周期大約為六個月，而相同規(guī)格的ASIC則需要一年左右，需要經(jīng)過多步驗證，可想而知，在這樣精細的打磨下，其性能自然也更為出色。