支持嵌入式視覺神經(jīng)網(wǎng)絡(luò)的數(shù)字信號(hào)處理器(DSP)
本文引用地址:http://m.butianyuan.cn/article/201706/360264.htm
Cadence IP事業(yè)部Tensilica Vision DSP產(chǎn)品系列營銷總監(jiān) Pulin Desai
在手機(jī)、安防監(jiān)控、汽車、增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)(AR/VR)領(lǐng)域,無論正在開發(fā)的還是計(jì)劃中的各類嵌入式應(yīng)用都涉及到了神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)應(yīng)用正在呈爆炸式增長(zhǎng)。神經(jīng)網(wǎng)絡(luò)領(lǐng)域創(chuàng)新力非凡,其自身架構(gòu)不斷更新?lián)Q代,新網(wǎng)絡(luò)、新應(yīng)用和市場(chǎng)也層出不窮。隨著神經(jīng)網(wǎng)絡(luò)應(yīng)用的日益深入和復(fù)雜,對(duì)計(jì)算性能的要求也與日俱增。短短不到4年的時(shí)間里,MAC/幀的計(jì)算需求大約增長(zhǎng)了16倍(見圖1)。
圖1 MAC/幀的計(jì)算需求的增長(zhǎng)
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,在設(shè)備中嵌入處理器(而非使用CPU和GPU)的需求不斷增加。然而,網(wǎng)絡(luò)的處理能力和運(yùn)行速度并沒有跟上神經(jīng)網(wǎng)絡(luò)應(yīng)用的發(fā)展要求,這一沖突在視覺應(yīng)用領(lǐng)域尤為明顯。截至目前,滿足神經(jīng)網(wǎng)絡(luò)應(yīng)用需求只能借助傳統(tǒng)數(shù)據(jù)中心的資源。然而,隨著安全性和延遲成為重要的考慮因素,通過嵌入式系統(tǒng)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)愈發(fā)普遍,以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)處理。雖然大部分的神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以在線下實(shí)現(xiàn),但使用神經(jīng)網(wǎng)絡(luò)的應(yīng)用必須將其嵌入至系統(tǒng)中。
所有嵌入式應(yīng)用中,AR/VR或混合現(xiàn)實(shí)面臨著獨(dú)有的挑戰(zhàn)。上述領(lǐng)域的設(shè)備大多屬于智能頭盔、耳機(jī)或智能眼鏡等可穿戴設(shè)備,依靠電池供電,能耗時(shí)選擇神經(jīng)網(wǎng)絡(luò)解決方案時(shí)最重要的考量之一。AR/VR應(yīng)用的另一個(gè)重要需求是減小延遲,所以神經(jīng)網(wǎng)絡(luò)必須實(shí)現(xiàn)設(shè)備嵌入。所有這些設(shè)備都需要某種圖像識(shí)別、手勢(shì)識(shí)別、立體攝像分割、3D傳感、頭部跟蹤、眼球偵測(cè)和眼球跟蹤能力?,F(xiàn)在的成像技術(shù)多種多樣,但隨著時(shí)間的推移,其中某些功能,如語義環(huán)境理解、手勢(shì)識(shí)別或圖像識(shí)別,將都可以通過神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。除了成像/視覺神經(jīng)網(wǎng)絡(luò),這些設(shè)備還對(duì)聲音/音頻神經(jīng)網(wǎng)絡(luò)提出了要求,以接收語音指令。
在技術(shù)環(huán)境瞬息萬變的今天,AR/VR設(shè)備制造商需要現(xiàn)在立即為2019年、2020年甚至更晚上市的產(chǎn)品選定平臺(tái)。引入新的神經(jīng)網(wǎng)絡(luò)后,由于其架構(gòu)不斷變化,我們無法確保當(dāng)前有效的工作平臺(tái)在未來系統(tǒng)中的有效性。此外,這些應(yīng)用還要求實(shí)現(xiàn)低延遲和低功耗,這一點(diǎn)也尤為重要;但鑒于神經(jīng)網(wǎng)絡(luò)需求的不斷增長(zhǎng)和這一趨勢(shì)的不斷進(jìn)展,我們?nèi)孕璞WC一定的靈活度和前瞻性。
目前,實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)有兩個(gè)主要選擇:CPU/GPU或使用硬件加速器及匹配的成像DSP。這兩個(gè)選擇都可以各自解決設(shè)計(jì)人員面臨的一些挑戰(zhàn);但又都在開發(fā)的簡(jiǎn)易程度、功耗效率、延遲、未來升級(jí)空間或性能方面有一些令人不滿意的折衷。硬件加速器與匹配的成像DSP是嵌入式設(shè)備的選擇之一,但這一組合效率低下,會(huì)產(chǎn)生不必要的功耗。除了開發(fā)困難,軟件還必須在DSP和加速器之間進(jìn)行分區(qū)。僅卸載卷積層會(huì)顯著增加數(shù)據(jù)傳送負(fù)擔(dān),并影響效率。另外,硬件在流片時(shí)便已固定,所以這些加速器將不具備未來的升級(jí)空間。
符合嵌入式應(yīng)用需要的神經(jīng)網(wǎng)絡(luò)DSP解決方案要滿足以下要求:易于開發(fā)、能夠處理龐大的數(shù)據(jù)量、未來具有升級(jí)空間、有效地使用能源并實(shí)現(xiàn)延遲最小化。
Cadence解決方案:Tensilica Vision C5數(shù)字信號(hào)處理器(DSP)
作為面向視覺和融合傳感器應(yīng)用優(yōu)化的解決方案,Cadence Tensilica Vision C5 DSP是業(yè)界首款致力于神經(jīng)網(wǎng)絡(luò)處理并適用于多處理器架構(gòu)的DSP。這一解決方案實(shí)現(xiàn)了前所未有的速度和低功耗,并滿足高階神經(jīng)網(wǎng)絡(luò)技術(shù)的全部要求。
該解決方案以近20年的Xtensa多處理器經(jīng)驗(yàn)為基礎(chǔ),具有存儲(chǔ)器結(jié)構(gòu)共享、允許中斷、同步隊(duì)列和同步多處理器調(diào)試等特性。Vision C5 DSP可以實(shí)現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計(jì)算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層功能。因此,主視覺處理DSP的能力得以釋放,獨(dú)立運(yùn)行圖像增強(qiáng)應(yīng)用程序;而Vision C5 DSP則運(yùn)行推理任務(wù)。通過移除硬件加速器的冗余數(shù)據(jù)傳輸,Vision C5 DSP的功耗遠(yuǎn)低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器。
Vision C5 DSP具備1TMAC /秒的計(jì)算能力,可以滿足神經(jīng)網(wǎng)絡(luò)不斷增長(zhǎng)的計(jì)算要求;并且計(jì)算精確,擁有多核心設(shè)計(jì)架構(gòu),支持多TMAC嵌入式解決方案。Vision C5 DSP針對(duì)的是經(jīng)常運(yùn)行多個(gè)神經(jīng)網(wǎng)絡(luò)的應(yīng)用。由于其可編程特性,該解決方案具有未來升級(jí)空間,并且能夠隨著設(shè)計(jì)的改變而支持新分層。
視覺處理系統(tǒng)必須設(shè)計(jì)全面,適用于所有平臺(tái),并同步開發(fā)硬件和軟件。為了開發(fā)這項(xiàng)技術(shù),設(shè)計(jì)人員必須使用支持高效算法的工具和IP,采用的硬件平臺(tái)也需滿足每個(gè)應(yīng)用程序的目標(biāo)成本和功耗要求。從系統(tǒng)層面來看,Cadence可以支持嵌入式視覺設(shè)備的設(shè)計(jì)人員盡可能最快速的高效地開發(fā)變革性產(chǎn)品。
評(píng)論