CPU遇摩爾定律瓶頸 FPGA混合元件或成解決方案
各科技大廠莫不希望能以更少的成本、在更小的空間里嵌入更多運(yùn)算電晶體,有廠商開始轉(zhuǎn)向開發(fā)現(xiàn)場可編程閘陣列(Field Programmable Gate Array;FPGA)平行架構(gòu),整合FPGA與處理器優(yōu)勢打造低功耗、高效能的Saturn 1伺服器,也打造出更易于作業(yè)的Carte開發(fā)環(huán)境,可望推動未來市場主流應(yīng)用。
本文引用地址:http://m.butianyuan.cn/article/276250.htm根據(jù)The Platform報(bào)導(dǎo)分析,近年處理器研發(fā)遇上摩爾定律(Moore's Law)瓶頸,廠商們想破頭提升產(chǎn)品應(yīng)用效能,業(yè)界與高效能運(yùn)算市場也開始熱烈討論FPGA架構(gòu)應(yīng)用。業(yè)界與學(xué)界已有多年運(yùn)用FPGA元件的經(jīng)驗(yàn),譬如超級電腦大廠Cray在2004年以1.15億美元買下OctigaBay,利用其超微Opteron處理器與FPGA元件打造出Cray XD1超級電腦。
總部設(shè)在美國科羅拉多州的SRC Computers,根據(jù)商用CPU芯片設(shè)計(jì)高效能叢集(high performance cluster)時(shí),發(fā)現(xiàn)以FPGA取代傳統(tǒng)特殊應(yīng)用積體電路(ASIC)效能尤佳。
SRC總裁Jon Huppenthal表示,可重組態(tài)(reconfigurable)的處理器系統(tǒng)有兩大特點(diǎn),一是優(yōu)點(diǎn)多,二是如果沒有人懂得設(shè)計(jì),就沒有人愿意使用。因此,欲研發(fā)整合CPU與FPGA的系統(tǒng)最耗時(shí)之處,在于打造易于使用的開發(fā)環(huán)境,而SRC已成功將C語言這樣的順序語言(sequential language)套入一個(gè)本質(zhì)上是平行的執(zhí)行環(huán)境。
Huppenthal近一步比較SRC的作法以及將OpenCL當(dāng)作平臺,從CPU傳送程式碼至GPU及FPGA加速器的方式。他指出,后者的問題在于,加速器掛在PCI-Express匯流排不僅速度過慢,也無法與混合式系統(tǒng)中的CPU共享主存儲器,導(dǎo)致資料必須在處理器與加速器之間不斷來回,且必須由CPU處理一切應(yīng)用與執(zhí)移動作。
而SRC推出的MAP混合處理器與Carte開發(fā)環(huán)境,不論是使用C語言還是Fortran語言的程式設(shè)計(jì)師,甚至不會感覺到正處于采用FPGA的環(huán)境中。Carte在用戶端機(jī)器上運(yùn)行編碼與除錯(cuò)環(huán)境,程式碼執(zhí)行后,會借由負(fù)責(zé)存儲器共享互連的SNAP技術(shù),自動整合分配資料給CPU處理器與FPGA的硬體描述語言(Hardware Description Language;HDL)。
NVIDIA的Tesla GPU也采用類似的高速共享存儲器互連技術(shù)NVLink,IBM也透過其協(xié)同加速處理器介面(Coherent Accelerator Processor Interface;CAPI)將這類技術(shù)應(yīng)用到Power-Tesla混合處理器上。
有了核心互連技術(shù),客戶就能根據(jù)需求調(diào)整硬體設(shè)計(jì)。譬如,若需要50個(gè)浮點(diǎn)單元(FPU),便可以自行加入系統(tǒng)。此外,由于應(yīng)用與其資料流皆以HDL方式運(yùn)用,且基本上是以硬體方式運(yùn)行,因此表現(xiàn)更佳。
此外,F(xiàn)PGA可以很快地改變應(yīng)用屬性(application personality),使混合式系統(tǒng)能在短時(shí)間內(nèi)處理多重工作。FPGA實(shí)現(xiàn)平行處理應(yīng)用,具備高處理效能、低功耗特性,適合用于資料中心中的伺服器整合,也可作為無人機(jī)上面的訊號處理、控制系統(tǒng)等應(yīng)用。
至于已采FPGA應(yīng)用多年的金融服務(wù)機(jī)構(gòu)、國防部門、情報(bào)單位等客戶,可透過Carte繼續(xù)于MAP混合處理器上運(yùn)行Verilog與HDL語言。
SRC為了進(jìn)入超大規(guī)模(hyperscale)伺服器市場,決定與惠普(HP)合作,為惠普的Moonshot伺服器系統(tǒng)打造MAP伺服器卡匣(cartridge)。
高運(yùn)算密度的商用Moonshot伺服器系統(tǒng)于2013年推出,不過由于該系統(tǒng)采用4.3U機(jī)箱、45個(gè)運(yùn)算節(jié)點(diǎn),因此無法支援龐大復(fù)雜的處理器,也降低了資料中心采用的意愿。SRC使用1個(gè)英特爾(Intel)Atom處理器與2個(gè)Altera Stratix IV FPGA,打造Saturn 1伺服器節(jié)點(diǎn)。
Moonshot伺服器的特別之處在于,其背板采用2D環(huán)繞網(wǎng)狀網(wǎng)路(torus)以及每秒7.2TB的總和頻寬,此互連系統(tǒng)能將機(jī)殼內(nèi)所有的運(yùn)算或儲存節(jié)點(diǎn)相連,無需任何交換動作。而機(jī)殼內(nèi)的交換器模組,讓Moonshot能和外界互連。
Saturn 1伺服器卡匣采用英特爾4核心Xeon Atom處理器,F(xiàn)PGA方面則是2個(gè)Altera Stratix IV GX530,其中一個(gè)FPGA負(fù)責(zé)執(zhí)行SNAP互連技術(shù)及用于2D環(huán)繞網(wǎng)狀網(wǎng)路的多重虛擬乙太網(wǎng)路埠。MAP節(jié)點(diǎn)無需搭載作業(yè)系統(tǒng),因?yàn)楣?jié)點(diǎn)會直接處理應(yīng)用程式碼,不過用戶若需要,可在每一個(gè)Atom處理器上啟用Linux內(nèi)核(kernel)。
Saturn 1伺服器卡匣每個(gè)節(jié)點(diǎn)要價(jià)19,950美元,其中包括Atom與Stratix處理器的開機(jī)管理程式(boot loader)碼,以及Carte開發(fā)環(huán)境的使用權(quán)限。
據(jù)SRC表示,要1,276個(gè)傳統(tǒng)高階4核心Xeon W3565處理器機(jī)柜,也就是約5.1萬個(gè)伺服器節(jié)點(diǎn)與40.8萬個(gè)左右的處理器核心,才能等同一個(gè)搭載378個(gè)MAP混合處理器之Moonshot機(jī)柜的運(yùn)算能力。與X86伺服器叢集相比,導(dǎo)入FPGA的應(yīng)用可望達(dá)到100倍效能、1%能源消耗、1%碳足跡,并節(jié)省75%以上的成本。
最早采用Saturn 1混合伺服器的客戶,是預(yù)計(jì)2015年底發(fā)表首個(gè)產(chǎn)品的美國廣告新創(chuàng)公司Jingit。Jingit希望能提供端點(diǎn)銷售系統(tǒng)(Point of Sales;POS)服務(wù),在人們購買物品的當(dāng)下提供客制化折價(jià)券。為此,Jingit必須有強(qiáng)大的后端系統(tǒng),根據(jù)用戶結(jié)帳物件與歷史消費(fèi)紀(jì)錄,在等待信用卡認(rèn)證這不到1秒的時(shí)間內(nèi)計(jì)算出最適合該用戶的折價(jià)券。
x86系統(tǒng)架構(gòu)難以應(yīng)付Jingit所需的龐大資料處理量,且花費(fèi)時(shí)間過長。而若將Jingit應(yīng)用架設(shè)于Saturn 1節(jié)點(diǎn)上,處理時(shí)間則可縮短至奈秒(nanosecond)級。
FPGA應(yīng)用市場才正要起步,而有了像是Moonshot伺服器與Carte開發(fā)程式環(huán)境這類新技術(shù),未來可望在市場上見到更多產(chǎn)品應(yīng)用。
fpga相關(guān)文章:fpga是什么
c語言相關(guān)文章:c語言教程
評論