Tensilica 新處理器IP主打數(shù)據(jù)平面和信號處理
Tensilica今天驕傲地宣布以其面向密集計算數(shù)據(jù)平面和DSP(數(shù)據(jù)信號處理器)如成像、視頻、網(wǎng)絡和有線/無線基帶通信的處理器IP鞏固了其在IP內(nèi)核領域的領導者地位,任何需要龐大數(shù)據(jù)處理的應用都將極大都受益于這些突破性功能――通過內(nèi)建Tensilica面向SOC的Xtensa® LX4數(shù)據(jù)平面處理器(DPU)可以將這些應用數(shù)據(jù)帶寬提高4倍!
本文引用地址:http://m.butianyuan.cn/article/118195.htm新的Xtensa LX4 DPU支持更高的本地數(shù)據(jù)存儲位寬,最高到每周期1024比特,支持更寬的128位VLIW(超長指令字)指令,從而提高指令并行度。新增的高速緩存預取功能,可以在片外存儲器延時很高的情況下幫助提升系統(tǒng)性能,Tensilica已經(jīng)將這些技術應用到最新發(fā)布的用于LTE通信的ConnX BBE64 DSP上。
“Tensilica DPU的優(yōu)勢在于同時具備控制和信號處理能力,與一個標準的RISC或者DSP內(nèi)核相比,可以將性能優(yōu)化提升10倍到100倍!” Tensilica 營銷與業(yè)務拓展副總裁Steve Roddy指出,“現(xiàn)在,有了Xtensa LX4后,Tensilica可以提供的IP內(nèi)核包括從微型可編程DPU(采用28nm工藝在0.01mm2提供1GigaMAC DSP能力)到業(yè)界最高性能的可授權(quán)DSP內(nèi)核ConnX BBE 64-128,它每秒處理能力超過100 GigaMAC!”
針對高帶寬應用有更寬的數(shù)據(jù)存取能力
與Tensilica的Xtensa LX3 DPU相比,Xtensa LX4 DPU有4倍本地存儲器帶寬,每個周期最多可以完成2個512位的存取操作,設計師現(xiàn)在可以輕易實現(xiàn)超寬SIMD(單指令多數(shù)據(jù))DSP,它可以將更多數(shù)據(jù)同時送給MAC(乘加運算),使每個時鐘周期性能大大提升,這使得Xtensa LX4 DPU特別適合于有線和無線基帶處理、視頻前處理和后處理、圖像信號處理和各種網(wǎng)絡包處理應用。
除了上述本地存儲器帶寬的增強,Tensilica 已有的可定制本地端口和隊列可以提供近乎無限的點對點數(shù)據(jù)和控制信號帶寬。Tensilica現(xiàn)在既可以提供在Xtensa DPU和其他系統(tǒng)模塊如RTL 模塊之間建立內(nèi)部互連的端口和隊列,也可以提供新的超高帶寬本地存儲器接口。
提供更寬的指令增強并行處理能力
有了Xtensa LX4,Tensilica可以讓其FLIX(靈活長度指令擴展)指令的指令長度翻番,從64位擴展到128位,這使得每個時鐘周期可以完成的操作數(shù)量翻番,F(xiàn)LIX指令可以和Xtensa基本指令集無縫混合,所以在用到FLIX的時候不用很麻煩地去切換模式。
Xtensa LX4 DPU的FLIX指令與傳統(tǒng)的VLIW DSP相比,可以在提供超高性能的同時減小代碼體積,Tensilica的Xtensa C/C++編譯器可以從源代碼中推斷出并行性,并自動將多個不同操作并行化為一條FLIX指令。一個帶有FLIX指令的Xtensa LX4 DPU能以很低的時鐘頻率運行并行操作,它提供的性能可以與時鐘頻率更高體積更大的非VLIW 內(nèi)核相媲美,而在完成相同任務時它的功耗更低!
預存取減少周期數(shù)
新的數(shù)據(jù)預取操作因在數(shù)據(jù)使用前就提前取到了數(shù)據(jù),所以可以減少高延遲系統(tǒng)中執(zhí)行周期的數(shù)量,這樣一來,當應用代碼需要的時候,數(shù)據(jù)已經(jīng)準備好了,在DPU必須等待數(shù)據(jù)時,可以減少時鐘周期的浪費。當數(shù)據(jù)流是來自相鄰存儲地址的時候這樣的好處就更突出,相比增加一個獨立的DMA(直接存儲器訪問)引擎來說,這是一種更為簡易的優(yōu)化存儲器訪問的方法。它不需要額外的軟件編程和應用代碼調(diào)整。
成功的關鍵:自動化
利用Tensilica的開發(fā)工具,不僅可以自動生成DPU硬件,還可以生成相匹配的復雜軟件工具鏈,因為所有的Xtensa處理器都包括了一套相同的基本指令集,所以基于這套基本指令集的的第三方應用軟件可以運行在所有Xtensa處理器上,甚至是深度定制后的Xtensa DPU。
可定制Xtensa DPU與主流操作系統(tǒng)、DEBUG和ICE(在線仿真器)方案都兼容,每個XtensaDPU都有自動生成的完整的軟件工具鏈,包括一個基于Eclipse框架的高級集成開發(fā)環(huán)境,一個世界級編譯器,一個周期精確且兼容SystemC的指令集仿真器以及完整的工業(yè)標準GNU工具鏈。
隨同發(fā)布的還有Tensilica的矢量化輔助工具,這是一個首創(chuàng)的工具,它給開發(fā)者提供建議來改善他們運行于SIMD(單指令多數(shù)據(jù))DSP上的C代碼的編程風格,這個矢量化輔助工具可以指出哪些代碼妨礙了編譯器進行矢量化,所以軟件可發(fā)者能改善C源代碼,從而發(fā)揮DPU并行執(zhí)行的優(yōu)勢。
供貨和性能
Tensilica 現(xiàn)就可以提供Xtensa LX4 DPU IP,在45nm工藝下基本型Xtensa LX4 DPU時鐘頻率可以超過1 GHz,而大小只有0.044 mm2。
評論