以高算力和超低功耗賦能MCU，瑞薩為AIoT應用增添新活力

作者：王瑩時間：2019-05-29 來源：電子產品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　——訪瑞薩電子中國產業(yè)解決方案中心

本文引用地址：http://m.butianyuan.cn/article/201905/401006.htm

高級總監(jiān)徐征作者/王瑩《電子產品世界》編輯

編者按：物聯(lián)網潛力巨大，加上近年人工智能的興起，AIoT（人工智能物聯(lián)網）成為了新的熱點。MCU作為傳統(tǒng)的嵌入式處理器，似乎難以涉足高算力的AI應用。不過，瑞薩在嵌入式行業(yè)首開先河，提出了e-AI（嵌入式人工智能）解決方案，并帶來了兩大核心技術——DRP動態(tài)可配置處理器技術和SOTB超低功耗工藝，以期為AIoT的應用提供重要的附加價值。

　　1 e-AI解決方案出爐

目前絕大部分產品的AI學習與推理是在云端進行的。在OT（操作技術）里面的終端產品或者設備，要到云端去做學習與分析，可能會造成網絡延遲、帶寬擁擠、網絡安全性和功耗等問題。為此，瑞薩提出了e-AI解決方案（如圖1），可以通過終端學習AI模型，實現(xiàn)實時、安全和低功耗的終端智能化。

　　2017年7月，瑞薩首次公布e-AI方案，通過e-AI翻譯器，把客戶的AI模型翻譯成C語言，然后在瑞薩RX系列MCU里實現(xiàn)AI終端的推理功能（如圖2）。

　　2018年10月，第二代e-AI方案問世，通過把瑞薩獨有的DRP技術做在芯片中，去實現(xiàn)DRP的e-AI解決方案。DRP即動態(tài)可配置處理器，顧名思義，客戶可以按自己的需要，按不同的時間把DRP的硬件邏輯編程，實現(xiàn)并行的數(shù)據處理。DRP技術非常適合圖像處理。

　　接下來，瑞薩在2019年第四季度將推出第三代e-AI解決方案，這是配置能力更強大的 DRP AI芯片，在器件中額外配置了AI MAC（乘加電路），特別適合卷積神經網絡（CNN）。

　　第四代產品DRP AI 2也在規(guī)劃當中，目的是實現(xiàn)在終端的增量學習功能。

2 DRP巧妙提升算力

DRP是瑞薩獨有的技術。在同等功耗的前提下，載有DRP技術的處理器比目前市場上常用的MCU、DSP或FPGA的處理能力高十倍或百倍，這意味著在相同的處理能力下，DRP的功耗比其他處理器低很多。

　　DRP的目標應用場景包括智能工廠、智能家居和智能基礎設施。例如在工業(yè)控制的預維護中，e-AI應用方案可以通過一些學習完的數(shù)據，通過在電機上的加速度傳感器去分析判斷從傳感器收集來的信息是否正常，然后再傳送到控制中心或控制系統(tǒng)。這樣可以大大改善生產效率，避免停機，同時也可以降低維護維修的成本。

　　另外一個應用場景是生物認證，例如機場或者口岸的出入境檢查站，或者是辦公樓的門禁系統(tǒng)。

　　DRP的結構主要包含多組并行陣列可編程的處理單元，加上存儲器和DMA控制器（如圖3）。DRP是動態(tài)可配置處理器，可以根據用戶編程，能夠做到從一個時鐘周期到下一個時鐘周期動態(tài)地改變其處理電路的配置，實現(xiàn)并行處理不同的算法。對于圖像處理這種應用是非常適合的，可以做到每個時鐘周期少于1 ns。

　　AI的深度神經網絡（DNN）包含幾個不同的處理層，諸如卷積層、池化層和全連接層等。因為DRP的獨有特性能夠滿足卷積神經網絡（CNN）所需要的多并行處理要求, 因此非常適合作為卷積神經網絡的AI加速器。

　　即將推出的第三代DRP配置了AI MAC（如圖4），里面有多組快速處理單元，能實現(xiàn)有效的快速計算。卷積層里本身需要處理大量的數(shù)據，同時卷積層里的數(shù)據需要不斷成立權重，然后再重復去計算，因而需要快速地去做乘法或加法。AI MAC結構可以滿足卷積層里大量的復雜計算。

　　除了AI MAC硬件部分，第三代DRP也可以處理其他處理層的數(shù)據，例如也可以做動態(tài)可編程，可以把匯聚層里系統(tǒng)的計算合起來用。

　　通過對比一個500 MHz時鐘頻率的CPU，和第二代DRP，進行Canny邊緣偵測算法的運算。500 MHzCPU需要140 ms；但DRP盡管只有40 MHz，卻只用了10.4 ms，可見處理速度快十倍以上。

　　3 SOTB工藝實現(xiàn)了超低功耗

SOTB（Silicon On Thin Buriedoxide）是瑞薩研發(fā)的超低功耗的工藝技術，可以實現(xiàn)無摻雜的晶體管。無摻雜結構可以降低晶體管淤積特性變化。對比傳統(tǒng)的平面式晶體管的淤積特性變化，這種無摻雜通道和結構可以將特性變化減低2/3。減小晶體管的淤積特性變化，就可以在超低電壓下，例如0.5 V進行穩(wěn)定的操作，同時也可以大大降低工作電流與待機電流。

　　SOTB在特定條件下，電流的消耗只是傳統(tǒng)MCU的1/10。如果說傳統(tǒng)方案是低功耗方案，SOTB就是超低功耗的方案，有望實現(xiàn)無電池系統(tǒng)。例如，傳統(tǒng)MCU通過3 V的紐扣電池供電，間隔性偵測傳感器的信號采集，再把信息上傳到云端。如果這些任務占用1%的工作周期，一個月后系統(tǒng)就可能沒電了。如果換到0.1%的工作周期，這個系統(tǒng)能工作一年左右。但是如果采用SOTB技術做成的MCU，在特定條件下可以連續(xù)工作十年。因為SOTB本身需要的電流非常低，3 μA就足夠了。

　　SOTB的路線圖有三個階段。

　　第一階段，在2019年下半年將會在中國市場正式發(fā)布，屆時會做產品的介紹推廣。目標應用場景是一些需要經常更換電池，或電氣維護的應用。

　　第二階段是2021年左右，計劃會把無線技術，諸如藍牙加進來，來擴展應用場景，包括智能家電或智能樓宇，以及個人健康產品。

　　長遠目標主要是在第三階段，不但把無線技術加進去，同時也會把e-AI/DRP解決方案帶到器件里，做成一個完整的AIoT方案，屆時應用場景會變得更加多樣，包括智慧農業(yè)、智能交通等。

　　4 嵌入式AI的應用案例

瑞薩還展示了三個應用案例。

　　第一個是3D手勢識別，通過RX231的e-AI解決方案，提供手勢數(shù)據的學習工具、錄制工具、AI的學習工具?？蛻糁恍枳龊苄〉拇a改動，無需重新編寫復雜的算法，就可以達到很高分辨率的3D手勢識別和控制。

　　第二是馬達異常偵測。采用32位MCU——RX66T來實現(xiàn)電機控制，以及e-AI推理功能。通過配置在電機上的加速度傳感器收集信號，再通過學習的數(shù)據來判斷收集回來的信息是否異常，同時把計算的故障率在電腦上顯示出來。

　　第三是通過DRP實現(xiàn)實時圖像處理器。主控制器是RZ/A2M，其中配置了DRP。圖像處理可能會分成很多不同的算法，收集完影像后還需要去分析，還要做影像的解碼，牽涉到很多不同的算法，DRP的主芯片可以滿足圖像處理的復雜計算要求?？梢圆⑿刑幚聿煌乃惴?。

　　瑞薩還提供了一組數(shù)字：相比Arm Cortex-A9528 MHz處理器，帶有DRP處理能力的RZ/A2M快了13倍。DRP另外一個優(yōu)勢是低功耗，因為第二代DRP的主頻只有66 MHz，第三代為250 MHz，但是主頻低并不代表性能會相對降低，低主頻可以達到低功耗的效果，因為DRP可以實現(xiàn)并行數(shù)據處理，所以它的處理能力比主頻高很多的MCU或MPU處理能力更強大，比A9處理器的處理能力快13倍。

　　5 熱點問答

問：DPR跟FPGA或其他技術有何明顯的區(qū)別？

　　答：DRP可以理解成一個FPGA與GPU的混合體。

　　FPGA是一個可編程的硬件，要運算一個非常復雜的算法，里面需要很多邏輯電路，整個器件需要做得很大。瑞薩獨有的DRP硬件技術，優(yōu)點在于是動態(tài)可編程的，通過DRP編譯器，可以把C語言編譯成DRP的硬件邏輯去運行算法。下一秒鐘，又可以馬上再把同一個邏輯電路重新編排，去運算另一種算法。

　　與FPGA相比，運行同一個很大的算法，就可以把這個大算法切開為十個不同的小算法，去并行處理。這樣整個邏輯電路不需要像FPGA做得那么大，只有FPGA的1/5或1/10即可（具體取決于用戶怎么去編硬件邏輯）。

　　同時DRP又是FPGA和GPU的混合產品。因為DRP本身除了可以編程，也比較像GPU，可以做并行處理。但是GPU不能重新再編程。

　　有個生動的比喻，DRP就像動畫片里的變形金剛，針對不同的場景，既可以是MCU，也可以是GPU。

　　問：e-AI解決方案與DRP、SOTB技術的關系如何？

　　e-AI是AI的一個概念。e-AI在器件層的落腳點，第一步是DRP，未來會有SOTB來支持e-AI在5G、IoT或者可穿戴領域的應用。

　　現(xiàn)在的DRP更多的還是在傳統(tǒng)領域中應用,未來再加上SOTB的配合，會有更廣闊的低功耗AIoT應用。

　　問：DRP是否會用于所有MCU？

　　答：DRP本身是一個硬件架構，但DRP也不可能單獨去工作，需要把它放進MPU或者MCU里，中間有一個DMA控制器（注：作為MCU與DRP中間的交換溝通）。

　　瑞薩不會把DRP放進全系列的MCU或MPU中，是有選擇性的，這是因為整個市場是多樣性的。因此瑞薩傳統(tǒng)的GPMCU（通用MCU）還會繼續(xù)推廣。

　　DRP的目的是促進AI學習或推理功能，是用于處理能力較高的處理器中，所以會選擇放在瑞薩中高端的LC、AC系列MPU中。例如，DRP第二代可放入528MHz主頻的MPU中。未來的第三代DRP性能更強大，MPU里會帶有雙核1 GHz處理器，以完成AI的學習與推理功能。

本文來源于科技期刊《電子產品世界》2019年第6期第1頁，歡迎您寫論文時引用，并注明出