高性能DSP核心搶攻嵌入式視覺市場
為了滿足行動手機(jī)、汽車和視訊產(chǎn)品的高性能和高功效成像需求,嵌入式視覺演算法正持續(xù)快速發(fā)展,并在數(shù)位訊號處理(DSP)核心IP公司之間開啟了全新的戰(zhàn)場。
繼Ceva公司在一年前發(fā)布可程式的低功耗成像與視覺平臺MM3101之后,今年2月,Tensilica公司也推出了名為IVP的成像與視訊資料層處理器單元(DPU)。
Tensilica公司的IVP DPU是一種可授權(quán)的半導(dǎo)體IP核心,專門設(shè)計用于從主處理器卸載復(fù)雜的成像功能。據(jù)Tensilica公司創(chuàng)辦人兼CTO Chris Rowen透露,雖然目前IVP IP核心主要用于大眾市場,但已有兩家客戶將它運用于其系統(tǒng)晶片中。
IVP DPU具有每秒每瓦執(zhí)行5,000億畫素作業(yè)的能力,采用臺積電(TSMC)的28nm制程技術(shù)制造。據(jù)Tensilica公司介紹,IVP DPU中每顆核心占用面積不到0.5平方毫米,因此非常適合低成本應(yīng)用。
推動對于成像/視訊處理器核心的需求來自于各種新功能,例如行動手機(jī)和數(shù)位相機(jī)中使用的高動態(tài)范圍影像擷取、臉部辨識與追蹤;數(shù)位電視(DTV)中使用的手勢控制與視訊后處理;先進(jìn)駕駛輔助系統(tǒng)(ADAS)中的正面碰撞警示、車道偏離警告等。
這些復(fù)雜的成像/視覺演算法發(fā)展非常迅速,以致于行動手機(jī)和汽車公司希望「在數(shù)周內(nèi)而不是幾個月內(nèi)」,就能將這些新功能整合于其產(chǎn)品系統(tǒng)中,Tensilica公司成像/視訊總監(jiān)Gary Brown表示。
多種方案選擇
對于系統(tǒng)供應(yīng)商來說,成像/視訊處理解決方案有多種方案備選,從在CPU中完成所有功能到卸載成像功能至GPU,或是增加專用于成像功能的硬線邏輯等各種選擇。
「舉例來說,光是在1.5GHz頻率的A8 四核心上進(jìn)行視訊處理,而不包括其它功能,也很容易就達(dá)到3瓦功耗?!筊owen表示。
對于行動手機(jī)或數(shù)位相機(jī)而言,想要單獨在CPU上做到這一點尤其困難,特別是當(dāng)這種消費系統(tǒng)需要在拍照的同時連續(xù)執(zhí)行高動態(tài)范圍等演算法時。
IVP處理器核心架構(gòu)
透過使用硬線邏輯,可實現(xiàn)一些專用功能,如臉部檢測、視訊穩(wěn)定或物件追蹤等。但是,隨著越來越多的高階人機(jī)界面功能向下轉(zhuǎn)移到消費設(shè)備上,從現(xiàn)在開始的兩個月內(nèi)就必須提供更多新的硬線模組。
Tensilica的IVP DPU平臺架構(gòu)
將成像功能卸載到GPU是另外一種選擇。值得注意的是,GPU的側(cè)重點在于浮點運算和3D繪圖處理,Rowen認(rèn)為,這種修改可能會降低成像效率,并增加晶片占用面積。此外,GPU較難以進(jìn)行編程處理,他補(bǔ)充道。
Berkeley Design Technology公司總裁Jeff Bier解釋,處理即時影像或視訊資料一般需要「每秒數(shù)百億次作業(yè),」這是因為「我們將復(fù)雜的演算法運用于即時資料,并從畫素中擷取含義——這是嵌入式視覺的本質(zhì)——也是個困難的問題。」
另外,這個難題「從一般意義來看,事實上還未能解決,」Bier補(bǔ)充道。這意味著「演算法開發(fā)方法可能極具試驗性和反覆性?!挂虼?,從另一方面來看,所需要的成像/嵌入式視覺解決方案是可加以編程的,也較易于開發(fā),他指出。
基于高效處理器的架構(gòu)
Linley Group公司資深分析師J.Scott Gardner贊同Jeff Bier的看法。「相較于視訊編解碼具有詳細(xì)定義的演算法,讓設(shè)計者可燒錄于硬體中;而嵌入式視覺所用的演算法實際上是無限制的,而且還一直在發(fā)展中?!顾硎?。
Gardner把嵌入式視覺稱為「完美的應(yīng)用」,因為它能「充分利用演算法中固有的資料層平行機(jī)制」。然而,僅擁有大量畫素運算單元是不夠的,他補(bǔ)充道,「記憶體系統(tǒng)和匯流排架構(gòu)必須設(shè)計成能夠以接近每秒10億畫素的速率高效率地提供畫素資料?!?/P>
那么在針對嵌入式視覺應(yīng)用實現(xiàn)最佳化處理器時,設(shè)計者必須具備哪些特殊能力?Jeff Bier列舉:必須能應(yīng)用多種架構(gòu)化平行機(jī)制,充分利用畫素處理平行特色;支援更短與更長的資料類型(如8位元、16位元和32位元),這樣當(dāng)需要較低精度時,就能平行執(zhí)行更多作業(yè)以及節(jié)省記憶體頻寬,而在需要較高精度時也能立即得到滿足;提供非常高的記憶體頻寬,以便能使所需的大量資料有效率地進(jìn)出處理器;提供專門的指令,以便有效率地建置這些演算法中所使用的關(guān)鍵作業(yè)。
事實上,Tensilica公司的IVP架構(gòu)就能滿足許多這種要求。IVP基于四路可變長度指令擴(kuò)展(FLIX)架構(gòu)。FLIX是Tensilica版本的VLIW架構(gòu),提供混合了緊密編碼指令的高度平行機(jī)制。IVP采用一套32路向量單指令多資料(SIMD)的資料集和一條平衡的9級管線。
這種架構(gòu)包含一個直接記憶體存取(DMA)傳送引擎,支援高達(dá)每秒10GB的吞吐量和每周期1,024位元(64x16位元畫素/周期)的局域記憶體吞吐量,可充分滿足解析度和畫面播放速率要求。IVP還采用了許多特殊成像作業(yè)指令,可加速8位元、16位元和32位元畫素資料類型和視訊作業(yè)模式,據(jù)Tensilica公司介紹。
Tensilica IVP vs CEVA架構(gòu)
當(dāng)然,Tensilica并不是第一家致力于開發(fā)成像和嵌入式視覺用處理器核心的公司。CEVA公司于2012年1月發(fā)布的MM3101與Tensilica的IVP有許多相似之處,也混合使用了VLIW和SIMD。
CEVA-MM3101平臺專用于滿足最先進(jìn)的成像增強(qiáng)和電腦視覺 應(yīng)用等極端計算需求
Gardner認(rèn)為,「隨著Tensilica進(jìn)入嵌入式視覺市場,CEVA將必須重新改善其MM3000平臺?!?/P>
相較于Tensilica的IVP,CEVA公司的MM3101提供較低的原生運算性能和較小的記憶體頻寬。Tensilica支援32路SIMD(512位元向量),可能平行處理32個16位元畫素,相形之下,MM3101在使用兩個128位元的向量處理單元時僅支援每周期16個16位元畫素,Gardner解釋道。
此外,雖然CEVA的MM3101有一個獨立的256位元向量載入/儲存單元,但Tensilica的IVP支援每周期高達(dá)2個512位元的參考記憶體,可實現(xiàn)高達(dá)4倍的記憶體頻寬。
評論