為什么某些嵌入式AI處理器比其它更智能　

作者：Liran Bar 時(shí)間：2018-04-26 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：介紹了嵌入式AI處理器性能差異的原因，及人工智能處理前端化至關(guān)重要的功能及解決方案。

作者 / Liran Bar CEVA產(chǎn)品營(yíng)銷總監(jiān)

本文引用地址：http://m.butianyuan.cn/article/201804/379032.htm

摘要：介紹了嵌入式AI處理器性能差異的原因，及人工智能處理前端化至關(guān)重要的功能及解決方案。

　　移動(dòng)設(shè)備上的人工智能(AI)已經(jīng)不再依賴于云端連接，今年CES最熱門(mén)的產(chǎn)品演示和最近宣布的旗艦智能手機(jī)都論證了這一觀點(diǎn)。人工智能已經(jīng)進(jìn)入終端設(shè)備，并且迅速成為一個(gè)市場(chǎng)賣點(diǎn)。包括安全、隱私和響應(yīng)時(shí)間在內(nèi)的這些因素，使得該趨勢(shì)必將繼續(xù)擴(kuò)大到更多的終端設(shè)備上。為了滿足需求，幾乎每個(gè)芯片行業(yè)的玩家都推出了不同版本、不同命名的人工智能處理器，像深度學(xué)習(xí)引擎、神經(jīng)處理器、人工智能引擎等。

　　然而，并非所有的人工智能處理器都是一樣的。現(xiàn)實(shí)是，許多所謂的人工智能引擎就是傳統(tǒng)的嵌入式處理器(利用CPU和GPU)加上一個(gè)矢量向量處理單元(VPU)。VPU單元是專門(mén)為高效執(zhí)行與計(jì)算機(jī)視覺(jué)及深度學(xué)習(xí)相關(guān)的繁重計(jì)算負(fù)載而設(shè)計(jì)的。雖然擁有一個(gè)強(qiáng)大的、低功耗的VPU是嵌入式人工智能的重要組成部分，但這不是故事的全部。VPU是組成一個(gè)出色的人工智能處理器的眾多組件之一。VPU雖然經(jīng)過(guò)精心設(shè)計(jì)，也確實(shí)提供了所需的靈活性，但它不是一個(gè)AI處理器。這里還有一些其它功能對(duì)于人工智能處理前端化至關(guān)重要。

1 優(yōu)化嵌入式系統(tǒng)的工作負(fù)載

　　在云計(jì)算處理過(guò)程中，采用浮點(diǎn)計(jì)算進(jìn)行訓(xùn)練，定點(diǎn)計(jì)算進(jìn)行推理，從而實(shí)現(xiàn)最大的準(zhǔn)確性。用大型服務(wù)器群組進(jìn)行數(shù)據(jù)處理，能耗和大小必須考慮，但他們相較于有邊緣約束的處理幾乎是無(wú)限的。在移動(dòng)設(shè)備上，功耗、性能和面積(PPA)的可行性設(shè)計(jì)至關(guān)重要。因此在嵌入式SoC芯片上，優(yōu)先采用更有效的定點(diǎn)計(jì)算。當(dāng)將網(wǎng)絡(luò)從浮點(diǎn)轉(zhuǎn)換為定點(diǎn)時(shí)，會(huì)不可避免地?fù)p失掉一些精度。然而正確的設(shè)計(jì)可以優(yōu)化精度損失，從而達(dá)到與原始訓(xùn)練網(wǎng)絡(luò)幾乎相同的結(jié)果。

為什么-1.jpg

　　控制精度的方法之一是在8位和16位整數(shù)精度之間做出選擇。雖然8位精度可以節(jié)省帶寬和計(jì)算資源，但是許多商用的神經(jīng)網(wǎng)絡(luò)仍然需要采用16位精度以保證準(zhǔn)確性。神經(jīng)網(wǎng)絡(luò)的每一層都有不同的約束和冗余，因此為每一層選擇更高的精度是至關(guān)重要的。

　　針對(duì)開(kāi)發(fā)人員和SoC設(shè)計(jì)者，一個(gè)工具可以自動(dòng)輸出優(yōu)化的圖形編譯器和可執(zhí)行文件，例如CEVA網(wǎng)絡(luò)生成器，從上市時(shí)間的角度來(lái)看是一個(gè)巨大的優(yōu)勢(shì)。此外，保持為每一層選擇更高精度(8位或16位)的靈活性也是很重要的。這使每一層都可以在優(yōu)化精度和性能之間進(jìn)行權(quán)衡，然后一鍵生成高效和精確的嵌入式網(wǎng)絡(luò)推理，如圖3所示。

為什么-2.jpg

2 專用硬件來(lái)處理真正的人工智能算法

　　VPU使用靈活，但許多常見(jiàn)的神經(jīng)網(wǎng)絡(luò)需要的大量帶寬通道對(duì)標(biāo)準(zhǔn)處理器指令集提出了挑戰(zhàn)。因此，必須有專門(mén)的硬件來(lái)處理這些復(fù)雜的計(jì)算。

　　例如NeuPro AI處理器包括專用的引擎處理矩陣乘法、完全連接層、激活層和匯聚層。這種先進(jìn)的專用AI引擎結(jié)合完全可編程工作的NeuPro VPU，可以支持所有其它層類型和神經(jīng)網(wǎng)絡(luò)拓?fù)?，如圖4所示。這些模塊之間的直接連接允許數(shù)據(jù)無(wú)縫交換，不再需要寫(xiě)入內(nèi)存。此外，優(yōu)化的DDR帶寬和先進(jìn)的DMA控制器采用動(dòng)態(tài)流水線處理，可以進(jìn)一步提高速度，同時(shí)降低功耗。

為什么-3.jpg

3 明天未知的人工智能算法

　　人工智能仍然是一個(gè)新興且快速發(fā)展的領(lǐng)域。神經(jīng)網(wǎng)絡(luò)的應(yīng)用場(chǎng)景快速增加，例如目標(biāo)識(shí)別、語(yǔ)音和聲音分析、5G通信等。保持一種適應(yīng)性的解決方案，滿足未來(lái)趨勢(shì)是確保芯片設(shè)計(jì)成功唯一途徑。因此，滿足現(xiàn)有算法的專用硬件肯定是不夠的，還必須搭配一個(gè)完全可編程的平臺(tái)。在算法一直不斷改進(jìn)的情況下，計(jì)算機(jī)模擬仿真是基于實(shí)際結(jié)果進(jìn)行決策的關(guān)鍵工具，并且減少了上市時(shí)間。CDNN PC仿真包允許SoC設(shè)計(jì)人員在開(kāi)發(fā)真實(shí)硬件之前，就可以使用PC環(huán)境權(quán)衡自己的設(shè)計(jì)。

為什么-4.jpg

　　另一個(gè)滿足未來(lái)需求的寶貴特征是可擴(kuò)展性。NeuPro AI產(chǎn)品家族可以應(yīng)用于廣泛的目標(biāo)市場(chǎng)，從輕量型的物聯(lián)網(wǎng)和可穿戴設(shè)備(2 TOPs)到高性能的行業(yè)監(jiān)控和自動(dòng)駕駛應(yīng)用(12.5 TOPs)。

　　在移動(dòng)端實(shí)現(xiàn)旗艦AI處理器的競(jìng)賽已經(jīng)開(kāi)始。許多人快速趕上了這一趨勢(shì)，使用人工智能作為自己產(chǎn)品的賣點(diǎn)，但并不是所有產(chǎn)品里都具備相同的智能水平。如果想要?jiǎng)?chuàng)建一個(gè)在不斷發(fā)展的人工智能領(lǐng)域保持“聰明”的智能設(shè)備，應(yīng)該確保在選擇AI處理器時(shí)，檢查上述提到的所有特性。

　　本文來(lái)源于《電子產(chǎn)品世界》2018年第5期第18頁(yè)，歡迎您寫(xiě)論文時(shí)引用，并注明出處。

新聞中心

為什么某些嵌入式AI處理器比其它更智能

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)