使用ECP5?FPGA解決網絡邊緣智能、視覺和互連應用設計挑戰(zhàn)
引言
本文引用地址:http://m.butianyuan.cn/article/201802/375468.htm隨著傳感器、低成本攝像頭和顯示屏在當今嵌入式設計中的使用量飛速增長,市場上出現(xiàn)了許多激動人心的全新智能和視覺應用。與此同時,嵌入式視覺應用的爆炸式發(fā)展也讓設計工程師對處理資源需求有了一個新的認識。包含豐富數(shù)據的全新視頻應用促使設計工程師重新考慮到底采用哪種器件,是專用應用處理器(AP)、ASIC還是ASSP?然而,在某些情況下,在現(xiàn)有應用處理器、ASIC或ASSP方面的大量軟件投入以及全新器件的高啟動成本已然成為上述應用更新迭代的阻礙。這一次,擺在眼前的問題推動設計工程師尋求一種協(xié)處理解決方案,不僅要能夠為包含豐富數(shù)據的全新應用提供所需的額外功能,同時還要滿足系統(tǒng)成本和功耗的嚴苛要求。
除此之外,市場上對于面向移動應用的低成本MIPI外設的廣泛采用也催生了從未有過的互連挑戰(zhàn)。設計工程師既希望利用最新一代MIPI攝像頭和顯示屏的量產成本優(yōu)勢,同時又希望能夠保有在傳統(tǒng)設備上的投入。那么在這種快速發(fā)展的大環(huán)境中,設計工程師該如何解決傳感器、嵌入式顯示屏和應用處理器之間不斷涌現(xiàn)的接口不匹配問題呢?
設計工程師需要一種高度靈活的解決方案,能夠實現(xiàn)高性能、“業(yè)內最佳”的協(xié)處理器,滿足視覺和智能應用對于邏輯資源和高度并行計算能力的需求,同時增加對各類I/O標準和協(xié)議的互連支持。此外,這樣的解決方案還應當具備高度可擴展的架構,并支持使用主流高數(shù)據速率的低成本外部DDR DRAM。最后,該解決方案還需要針對低功耗和低成本運算進行優(yōu)化,并為設計工程師提供業(yè)界領先的超小尺寸封裝。
在本文中,我們將為您介紹ECP5?和LatticeECP3? FPGA如何為嵌入式設計實現(xiàn)協(xié)處理和互連解決方案,并重點探討這些解決方案在工業(yè)、消費電子、汽車和機器學習領域的應用實例。
為視覺與智能應用實現(xiàn)高效的協(xié)處理解決方案
萊迪思半導體?推出的ECP5和LatticeECP3 FPGA系列可實現(xiàn)“業(yè)內最佳”的協(xié)處理器,并針對互連功能以及高性能和低功耗進行了優(yōu)化。ECP5 FPGA系列提供業(yè)界最小尺寸封裝(10x10 mm),并具備高達85K查找表(LUT),功能密度相比競品高出近2倍,同時成本和功耗也大幅降低。ECP5 FPGA支持與ASIC、ASSP和應用處理器實現(xiàn)互連,并具備優(yōu)化的I/O和體系架構。增強的嵌入式DSP塊和高度并行的FPGA邏輯架構為計算密集型協(xié)處理功能提供了所需的高性能支持。ECP5 FPGA系列可提供高達4條SERDES互連通道,支持PCI Express(Gen1,Gen2)、以太網(1GbE,SGMII,XAUI)、CPRI、嵌入式顯示端口( eDP)和JESD204B,每條通道速率為250 Mbps至5 Gbps。同時,器件上的可編程I/O還支持各類接口,包括DDR3、LPDDR3、LVCMOS、RGMII、XGMII、LVTTL、LVDS、Bus-LVDS、7:1 LVDS、LVPECL和MIPI D-PHY。
當協(xié)處理或互連應用需要超過85K LUT或超過4條SERDES通道時,設計工程師可以選擇LatticeECP3 FPGA。LatticeECP3 FPGA系列可提供最高150K LUT和6.8 Mbit SRAM,封裝尺寸小至10x10 mm。相比ECP5 FPGA系列,該產品系列最高支持16個3.125 Gbps SERDES通道。此外,該產品系列中的器件均支持800 Mbps DDR3和LVDS,并且能夠提供超過500個可編程系統(tǒng)I/O緩沖器,支持以太網(通過RGMII和XGMII)以及大量額外的I/O接口,而嵌入式SERDES則支持PCIe、以太網(通過SGMII和XAUI)、HDMI、高速串行I/O(Serial Rapid I/O)、CPRI、JESD204A/B等。LatticeECP3 FPGA系列的功耗低至0.5 W。與ECP5 FPGA系列一樣,使用LatticeECP3 FPGA的設計工程師可以使用高度并行的FPGA邏輯架構高效地執(zhí)行計算密集型功能,并通過FPGA分擔視覺和智能功能,如圖像處理和分析任務以降低處理器工作負載,從而實現(xiàn)更低的功耗和更高的性能。
為工業(yè)應用實現(xiàn)視覺處理解決方案
在工業(yè)領域,基于ECP5 FPGA的協(xié)處理能夠發(fā)揮重要作用,可用于降低視頻攝像頭、監(jiān)控和機器視覺應用中應用處理器、ASIC或ASSP的計算負載。圖1展示了一款典型的工業(yè)攝像頭應用。在下方的圖示中,F(xiàn)PGA位于圖像傳感器和以太網PHY之間。圖像傳感器將圖像數(shù)據流傳輸?shù)紽PGA,然后FPGA基于H.264編碼進行圖像處理或圖像壓縮。FPGA的片上嵌入式RAM塊(Embedded Block RAM, EBR)和DSP塊實現(xiàn)高性能寬動態(tài)范圍(WDR)和圖像信號處理(ISP)功能。最后,F(xiàn)PGA將圖像數(shù)據通過以太網進行傳輸。
圖1:通過實現(xiàn)圖像處理或壓縮功能,ECP5 FPGA可降低工業(yè)攝像頭應用中應用處理器的計算負載
除了進行圖像處理和壓縮之外,如果應用處理器接口的類型或數(shù)量與攝像頭或傳感器的不匹配,F(xiàn)PGA還可用于實現(xiàn)它們之間的視頻橋接。為了滿足工業(yè)應用對于靈活互連的需求,萊迪思推出了可編程ECP5 12K器件,能夠連接到包括LVDS、MIPI和LPDDR3在內的常用接口。該器件能夠以低成本提供LED控制器、機器視覺系統(tǒng)和工業(yè)電機控制等應用中預處理和后處理功能所需的邏輯、存儲器和DSP資源。
除了常見工業(yè)攝像頭應用之外,機器視覺(工業(yè)領域里更專業(yè)的攝像頭應用)也可受益于ECP5 FPGA提供的互連和協(xié)處理能力。圖2中的框圖展示了FPGA可在常見的工業(yè)機器視覺系統(tǒng)中發(fā)揮的多種作用。在攝像頭應用領域,F(xiàn)PGA可用于實現(xiàn)傳感器橋接、完整的攝像頭ISP或定制功能來幫助系統(tǒng)設計工程師實現(xiàn)差異化的終端產品。對于圖像采集卡而言,像ECP5一樣的FPGA還可以解決視頻接口問題和實現(xiàn)圖像處理功能。
機器視覺系統(tǒng)框圖
圖2:在常見的工業(yè)機器視覺解決方案中,F(xiàn)PGA可用于實現(xiàn)各種接口橋接和處理功能
為智慧城市實現(xiàn)智能交通和監(jiān)控攝像頭應用
智能交通系統(tǒng)(ITS)包括交通流量監(jiān)控、交通違章識別、智能停車和收費等應用,是智慧城市的重要組成部分。上述系統(tǒng)通常需要智能交通攝像頭,用于準確檢測車輛多個方面的信息,例如車牌,即使在惡劣的環(huán)境中也要在網絡邊緣進行視頻分析,不用將原始視頻流發(fā)送回云端進行處理。單獨的應用處理器通常不能同時滿足系統(tǒng)功耗和實時處理的要求。低功耗、小尺寸的ECP5 FPGA系列可用作應用處理器的協(xié)處理器,在網絡邊緣實現(xiàn)系統(tǒng)所需的高效實時處理功能。
除了上文中提到的ISP外,ECP5 FPGA還可以實現(xiàn)視頻分析功能,進一步減輕應用處理器的計算密集型任務,從而降低系統(tǒng)功耗、實現(xiàn)更高的實時性能。FPGA可為智能攝像頭應用實現(xiàn)目標偵測、圖像處理和圖像增強等解決方案。例如,偵測目標可以是監(jiān)控攝像頭實例中的人臉圖像或是交通攝像頭實例中的車牌。
圖3:ECP5 FPGA為智能攝像頭應用實現(xiàn)圖像處理和視頻分析功能框圖,分擔應用處理器的計算密集型任務
在圖3所示的智能交通攝像頭實例中,F(xiàn)PGA基于傳感器捕獲的圖像數(shù)據檢測到車輛牌照,即使在低光照或強背光條件下亦能執(zhí)行圖像增強以生成清晰圖像 - 針對目標(車牌)和背景(圖像中的剩余部分)使用不同的曝光設置,然后融合目標和背景圖像以生成更清晰的圖像。然后,F(xiàn)PGA生成的目標偵測結果輸入到應用處理器運行的分析算法。使用ECP5 FPGA的并行處理器架構分擔分析算法中計算密集程度最高的步驟,智能攝像頭能夠在保持低功耗的同時提高性能。
為移動系統(tǒng)實現(xiàn)沉浸式增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)應用
隨著AR/VR市場需求不斷增長,當前基于頭戴式顯示器(HMD)的系統(tǒng)面臨著移動應用處理器運行內容時性能不足的問題。因此,要實現(xiàn)身臨其境的AR/VR體驗所需的基于視覺的位置追蹤功能,對于處理器而言是頗具挑戰(zhàn)性的。在這種情況下,ECP5 FPGA的高效并行處理架構非常適合用于實現(xiàn)基于立體攝像頭和LED標記的位置跟蹤解決方案。與應用處理器相比,F(xiàn)PGA能夠提供低延遲、低功耗的圖像處理支持。FPGA的可編程架構和I/O也使得系統(tǒng)設計工程師能夠根據產品要求輕松選擇來自不同廠商的圖像傳感器。
在“outside-in”的位置追蹤解決方案中,立體攝像頭被放置在房間內(在室內攝像頭看用戶),通過捕捉安裝在用戶頭盔和手柄控制器上的LED標記來追蹤用戶的運動(諸如身體運動和手部運動),如下方圖4所示。安裝在三腳架上攝像頭單元內部的FPGA基于立體攝像頭捕獲的數(shù)據來計算用戶的位置、身體和手部動作,然后將數(shù)據通過無線方式發(fā)送到用戶頭盔中的移動應用處理器,最終通過AR/VR應用呈現(xiàn)現(xiàn)實世界與虛擬世界的互動。立體攝像頭為運行在FPGA上的算法提供了深度感知支持,從而實現(xiàn)三坐標定位。
圖4:使用立體攝像頭(放置在房間內)的“outside-in”位置追蹤解決方案,通過捕獲安裝在用戶頭盔和手柄控制器上的LED標記來跟蹤用戶的身體和手部動作
在“inside-out”的位置追蹤解決方案中,安裝在用戶頭盔上的立體攝像頭(從用戶所在位置通過“inside-out”的方式朝向室內環(huán)境)捕獲安裝在手柄控制器上的LED標記來跟蹤用戶手部動作,如圖5所示。安裝在用戶頭盔攝像頭單元內的FPGA基于立體攝像頭數(shù)據來計算用戶的手部動作,然后將數(shù)據發(fā)送到頭盔中的移動應用處理器,最終通過AR/VR應用呈現(xiàn)出來。
圖5:使用立體攝像頭(安裝在用戶頭盔上)的“inside-out”位置追蹤,通過捕獲安裝在手柄控制器上的LED標記來跟蹤用戶手部動作
雖然“outside-in”和“inside-out”這兩種追蹤解決方案都能實現(xiàn)沉浸式體驗,但“outside-in”系統(tǒng)可以提供更卓越的沉浸感,因為它還可以通過頭盔上的LED標記跟蹤身體運動(如步行、跑步、蹲、跳等) ,將現(xiàn)實世界中的身體運動映射到虛擬世界中。
在這兩個系統(tǒng)中,用戶的運動信息需要以極低的延遲立刻呈現(xiàn)在虛擬世界中,實現(xiàn)最為逼真的用戶體驗。ECP5 FPGA的并行處理能力是實現(xiàn)低延遲傳輸?shù)年P鍵。此外,它的低功耗和小尺寸封裝特性也是實現(xiàn)暢行無阻的移動體驗的關鍵之所在。
為汽車ADAS系統(tǒng)實現(xiàn)協(xié)處理和橋接解決方案
汽車市場對視覺處理和互連解決方案的需求正在大幅增長。市場研究公司IC Insights的分析師預計,隨著在新一代汽車設計中要求使用后置攝像頭的新規(guī)定施行以及在汽車設計中引入攝像頭以取代兩側后視鏡、實現(xiàn)盲點檢測和車道跟蹤功能的發(fā)展趨勢,CMOS圖像傳感器將在2015年至2020年間隨著汽車領域中全新應用的興起將以55%的復合年增長率實現(xiàn)增長。
在這個快速成長的市場中,汽車設計工程師所需的解決方案不僅要能夠實現(xiàn)預處理和后處理功能,還要能夠為高級駕駛輔助系統(tǒng)(ADAS)和信息娛樂應用構建優(yōu)化的互連解決方案。隨著汽車制造商開發(fā)的ADAS系統(tǒng)日趨復雜,設計工程師面臨著兩大挑戰(zhàn)。第一個挑戰(zhàn)是如何解決攝像頭數(shù)量不斷增長帶來的接口問題?大多數(shù)現(xiàn)代處理器僅具備兩個攝像頭接口,而很多ADAS系統(tǒng)需要多達8個攝像頭才能滿足不斷發(fā)展的自動駕駛技術要求。第二個挑戰(zhàn)是設計工程師要如何基于來自上述攝像頭的大量數(shù)據進行圖像處理?
為了應對這些挑戰(zhàn),設計工程師需要一種能夠提供協(xié)處理資源的解決方案,可將來自多個攝像頭的多路視頻流拼接在一起,或對來自多個攝像頭的輸入進行圖像處理(如白平衡、魚眼校正、除霧),然后將這些數(shù)據通過單個數(shù)據流傳輸?shù)綉锰幚砥鳌F囋O計工程師還需要能夠靈活地操作儀表板、儀表盤以及后座信息娛樂系統(tǒng)的的多個顯示屏,以及在傳統(tǒng)接口和新的MIPI接口之間實現(xiàn)橋接。
萊迪思汽車級ECP5 FPGA(AEC-Q100)可為這些應用提供用于加速圖像處理流水線所需的并行處理能力,而大量的I/O則可用于連接到更大的攝像頭陣列。能夠反映這種趨勢的一個實例就是現(xiàn)在越來越多的汽車都具備鳥瞰功能。一般來說,鳥瞰功能是指從汽車上方20英尺處向下看的實時視頻圖像。ADAS系統(tǒng)通過將來自4個或更多攝像頭的數(shù)據拼接在一起實現(xiàn)寬視野(FoV)來實現(xiàn)上述功能。
一直以來,設計工程師都是使用單個處理器來處理來自單個攝像頭的圖像數(shù)據。現(xiàn)在,設計工程師可以使用單個ECP5 FPGA替代多個處理器,聚合來自多個攝像頭的數(shù)據,并進行圖像拼接、魚眼去除、白平衡、HDR調整等操作以盡可能提高圖像質量,然后將高質量圖像發(fā)送到處理器進行下一個步驟。使用這種方法的設計工程師可以在獲得更高性能的同時降低成本和功耗。
圖6展示了萊迪思客戶如何構建上文中提到的解決方案。該鳥瞰系統(tǒng)從安裝在汽車四周的攝像頭(前方、后方和兩側)捕獲視頻圖像。ECP5 FPGA用于對視頻數(shù)據繼續(xù)進行處理和拼接以提供360度視野。在這種情況下,一片F(xiàn)PGA即可替代多個ARM處理器。該系統(tǒng)最終呈現(xiàn)的是清晰的1080p 60 fps視頻。除ECP5 FPGA之外,該方案僅使用了一個低端ARM處理器用于初始校準和視頻編碼/記錄功能。
圖6:展示了開發(fā)工程師如何使用單個ECP5 FPGA實現(xiàn)從前需要使用多個ARM處理器的鳥瞰系統(tǒng)
圖7:展示了ECP5 FPGA使用來自4個攝像頭的圖像輸入實現(xiàn)的360度全景視野
FPGA可在汽車設計中扮演的另一個重要角色是構建傳統(tǒng)接口與越來越流行的MIPI攝像頭和顯示屏之間的低成本橋接解決方案。
圖8:在車載信息娛樂系統(tǒng)中,ECP5 FPGA可用于預處理和后處理功能,并實現(xiàn)應用處理器和顯示屏之間的視頻橋接
例如,在圖8的框圖中,ECP5 FPGA位于應用處理器或SoC與一個或多個汽車顯示屏之間,用于預處理和后處理功能,并實現(xiàn)DSI或FPD-Link接口應用處理器與Open LDI、LVDS、FPD-Link或eDP接口顯示屏之間的橋接。FPGA還可用于多種其他信息娛樂應用,包括分別將單個視頻輸出到雙后座顯示屏,對圖像進行裁剪和格式化以獲得特定的視頻分辨率。
ECP5的豐富處理資源也為實現(xiàn)各種傳感器橋接、聚合和協(xié)處理解決方案奠定了基礎。如圖9所示,ECP5 FPGA用于控制和聚合來自多種傳感器數(shù)據的智能中心。通過對傳感器數(shù)據進行預處理和后處理以及實現(xiàn)I2C管理功能和SPI接口,F(xiàn)PGA可以顯著降低應用處理器的計算負載。
圖9:ECP5 FPGA實現(xiàn)數(shù)據橋接和智能中心,用于控制和聚合多種類型的傳感器
另一個橋接、聚合和協(xié)處理解決方案實例則使用萊迪思汽車級FPGA的3.2 Gbps SERDES功能聚合來自多個雷達或攝像頭的數(shù)據,并通過BroadR-Reach或以太網等汽車內部網絡傳輸。在圖10中,來自多個傳感器的數(shù)據通過LVDS接口傳輸?shù)紼CP5 FPGA,然后ECP5 FPGA對數(shù)據進行聚合和打包,通過基于SERDES的SGMII接口傳輸?shù)狡噧炔烤W絡。
圖10:汽車級ECP5 FPGA的LVDS和3.2 Gbps SERDES功能用于實現(xiàn)多個雷達或攝像頭的橋接和聚合,并通過SGMII傳輸?shù)杰囕d網絡
實現(xiàn)網絡邊緣機器學習應用
展望未來,移動相關解決方案的影響力將不斷增長,它們將繼續(xù)利用移動處理器和MIPI傳感器和顯示屏的應用支持和規(guī)模制造優(yōu)勢為網絡邊緣實現(xiàn)智能功能。市場上對于部署人工智能(AI)、神經網絡和機器學習來實現(xiàn)上述目標的需求在不斷增長。
在機器學習應用領域,用于進行圖像識別的神經網絡經過訓練之后可以識別貓的圖像,舉個例子,通過向神經網絡投喂數(shù)以千計的圖像并分配輸入圖像的權重直至神經網絡能夠正確識別貓的圖像。開發(fā)數(shù)據架構和分配權重可能需要數(shù)TB的數(shù)據和大量的計算資源。因此,基于深度學習技術的機器學習應用的訓練步驟放在使用高端GPU和FPGA的數(shù)據中心,只有在數(shù)據中心海量的計算需求才能得以滿足。
模型經過訓練之后,它將被移植到網絡邊緣應用中的嵌入式系統(tǒng),然后為圖像識別或語音識別等應用實現(xiàn)推理功能。在網絡邊緣應用領域,設備必須通過計算更快速、更高效地做出決定。因此,設計工程師需要將神經網絡在“訓練”階段學到的經驗教訓應用到新數(shù)據,進行“推理”得出結果。為了在網絡邊緣應用領域實現(xiàn)推理功能,理想的解決方案要能夠提供計算效率高的平臺,并且滿足功耗、尺寸和成本的嚴苛要求。
當今業(yè)界和學界的都認為機器學習需要高度專業(yè)化的硬件加速解決方案。但是,相關要求也會根據任務的不同而發(fā)生變化。例如,訓練和推理可能需要不同的硬件。致力于訓練應用的硬件設計工程師通常使用32位浮點運算來進行精度非常高的計算。而另一方面,致力于網絡邊緣應用領域推理功能的硬件設計工程師對于靈活性的需求要大于精確度,以便獲得更高的處理速度或更低的功耗。事實上,最近的研究表明,對于許多應用來說定點與浮點解決方案在推理精度方面幾乎相同,而且前者功耗更低。
憑借豐富的嵌入式DSP資源、FPGA與生俱來的并行處理架構以及在功耗、尺寸和成本方面的顯著領先優(yōu)勢,ECP5 FPGA是滿足新興AI市場上多元需求的理想選擇。例如,ECP5 FPGA中的DSP能夠以相比GPU浮點運算更低的功耗/MHz來進行定點運算。這些特性為功耗要求嚴苛的網絡邊緣智能解決方案開發(fā)者提供了極具吸引力的優(yōu)勢。圖11展示了一個實例,其中ECP5 FPGA用于實現(xiàn)推理加速器,對來自攝像頭的數(shù)據運行預先訓練好的卷積神經網絡(CNN)進行處理。運行在FPGA上的CNN引擎識別物體或人臉,并將結果發(fā)送到系統(tǒng)CPU,從而實現(xiàn)快速、低功耗的物體/面部識別功能。
圖11:ECP5 FPGA為網絡邊緣智能應用實現(xiàn)卷積神經網絡(CNN)加速器,從而實現(xiàn)物體/人臉識別功能
圖12中的框圖展示了實時人臉跟蹤神經網絡加速演示,在擁有85K LUT的ECP5-85 FPGA上運行時功耗僅為0.85 W。
圖12:攝像頭捕獲的實時圖像數(shù)據被輸入到FPGA,F(xiàn)PGA確定人臉圖像并輸出結果,最后人臉圖像在顯示屏上高亮顯示
基于FPGA實現(xiàn)的設計使得設計工程師能夠靈活地實現(xiàn)向上或向下擴展,以滿足終端系統(tǒng)中功耗與性能的平衡。在上面的實例中,基于更小尺寸的85K LUT FPGA的設計可以通過平衡性能和其他參數(shù)(例如降低幀速率、減小輸入圖像的幀大小或者減少用于神經網絡的權重和激活值)來實現(xiàn),從而進一步降低功耗。
此外,F(xiàn)PGA的可重新編程特性使得設計工程師能夠滿足快速變化的市場需求。隨著算法的發(fā)展,用戶可以通過軟件輕松快速地更新硬件。這是GPU或ASIC無法企及的功能。
上述演示是基于嵌入式視覺開發(fā)套件(圖13)實現(xiàn)的,該套件是萊迪思嵌入式視覺解決方案系列的一部分,為開發(fā)網絡邊緣嵌入式視覺解決方案提供了一個模塊化平臺。
圖13:采用ECP5 FPGA、CrossLink FPGA和HDMI ASSP的萊迪思嵌入式視覺開發(fā)套件
總結
當今的設計工程師需要不斷尋求新的途徑來降低設計的成本、功耗和尺寸,同時為網絡邊緣應用領域實現(xiàn)更多智能功能。與此同時,他們要跟上網絡邊緣應用領域中新一代傳感器和顯示屏快速發(fā)展帶來的性能和接口要求。萊迪思ECP5 FPGA系列能夠為設計工程師提供兩全其美的解決方案。ECP5 FPGA提供卓越的處理能力(高達85K LUT)和業(yè)界最小封裝(10x10 mm),并帶有SERDES,能夠為設計工程師提供所需的協(xié)處理和互連資源。同時該產品系列的成本和功耗都比競品更低,能夠為開發(fā)工程師帶來領先優(yōu)勢。
評論