完全卷積神經(jīng)網(wǎng)絡(luò)IP——DPU “聽濤”系列 SoC

作者：時(shí)間：2018-05-04 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

作者/深鑒科技ASIC副總裁陳忠民

本文引用地址：http://m.butianyuan.cn/article/201805/379458.htm

　　算法、數(shù)據(jù)和算力并稱為新AI時(shí)代三大驅(qū)動(dòng)力。如何在追求更好性能的同時(shí)實(shí)現(xiàn)低功耗、低延遲和低成本，逐漸成為擺在所有AI從業(yè)者面前的艱巨挑戰(zhàn)之一。

　　很多硬件平臺(tái)都展示了自身所具備的強(qiáng)大算力，然而當(dāng)用戶在真正運(yùn)行一個(gè)應(yīng)用時(shí)，卻發(fā)現(xiàn)在讀取數(shù)據(jù)時(shí)會(huì)產(chǎn)生比較明顯的卡頓現(xiàn)象。這表明，即便用戶在掌握大量數(shù)據(jù)的前提下，依然不能將AI運(yùn)算單元填滿，從而導(dǎo)致計(jì)算硬件的計(jì)算效力低下。以谷歌第一代TPU為例，其平均硬件乘法陣列使用率只有28%，這意味著72%的硬件在大部分時(shí)間內(nèi)是沒有任何事情可以做的?！　×硗?，如果將完成16位整數(shù)加法能量消耗定義為1，那么將32比特的數(shù)據(jù)從DDR內(nèi)存?zhèn)鬏數(shù)叫酒?，就將花費(fèi)1萬(wàn)倍的能量消耗。因此，過大的訪問帶寬增加了數(shù)據(jù)的復(fù)用性，導(dǎo)致AI芯片功耗高居不下。

　　而要提升計(jì)算效率、降低功耗，總結(jié)起來(lái)有三條路徑：首先，優(yōu)化計(jì)算引擎，增加計(jì)算并行度;其次，優(yōu)化訪存系統(tǒng);第三，利用神經(jīng)網(wǎng)絡(luò)稀疏性，實(shí)現(xiàn)軟硬件協(xié)同設(shè)計(jì)。這樣的產(chǎn)品規(guī)劃路線能走得通的一個(gè)關(guān)鍵因素，就在于用戶在未來(lái)的ASIC芯片和之前的FPGA模組上使用的是同樣的編程和軟件開發(fā)環(huán)境，能實(shí)現(xiàn)在應(yīng)用上的無(wú)縫切換。

DPU “聽濤”系列 SoC

　　深鑒科技正式發(fā)布基于自主研發(fā)的人工智能處理器核心DPU 的“聽濤”系列 SoC。該DPU屬于完全卷積神經(jīng)網(wǎng)絡(luò)IP，支持傳統(tǒng)的1X1和3X3卷積層，能夠?qū)崿F(xiàn)高效的目標(biāo)識(shí)別和加速。在該架構(gòu)基礎(chǔ)之上，深鑒科技做出了第一代5X5 FPGA產(chǎn)品，并在攝像頭市場(chǎng)實(shí)現(xiàn)了批量出貨。

　　DPU計(jì)算核心采用全流水設(shè)計(jì)結(jié)構(gòu)設(shè)計(jì)，內(nèi)部集成了大量的卷積運(yùn)算器、加法器、非線性Pulling/ReLu之類的運(yùn)算算子，在確保每一個(gè)運(yùn)算單元都能夠被充分的調(diào)動(dòng)起來(lái)的前提下，可同時(shí)支持不同動(dòng)態(tài)精度的量化方法。像VGG16比較重的應(yīng)用中，深鑒科技DPU的運(yùn)算器利用率可以達(dá)到85%，對(duì)主流算法可以達(dá)到50%以上，功耗方面則低出競(jìng)爭(zhēng)對(duì)手一個(gè)數(shù)量級(jí)。

　　相比Zynq 7020每瓦230 GOPS的算力、ZU9 2.7 TOPS的峰值算力，將于年中交付的“聽濤”SoC產(chǎn)品的預(yù)期功耗約為3 W，峰值算力4 TOPS，考慮到網(wǎng)絡(luò)壓縮部分，這個(gè)數(shù)字應(yīng)該再擴(kuò)大5~10倍。

新聞中心

完全卷積神經(jīng)網(wǎng)絡(luò)IP——DPU “聽濤”系列 SoC

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)