最新綜述 | 復(fù)雜環(huán)境中的計算機視覺問題介紹及解決?。?)
模型和算法:交通流量變量包括交通量、密度、速度和排隊長度。用于檢測和跟蹤目標(biāo)以從視頻中估計交通流量變量的算法和模型,可分為一階段和兩階段方法。在一階段方法中,根據(jù)檢測結(jié)果估計變量,并且沒有進(jìn)一步的分類和位置優(yōu)化,例如:1) YOLOv3+DeepSORT跟蹤器;2) YOLOv2+空間金字塔池化;3) AlexNet+光流+高斯混合模型;4) 基于無人機視頻的CNN+光流;5) 基于無人機視頻的SSD(單鏡頭檢測)。兩階段方法首先生成包含輸入圖像中所有潛在目標(biāo)的區(qū)域建議,然后進(jìn)行分類和位置優(yōu)化,兩階段方法的例子是:1)Faster R-CNN+SORT跟蹤器[81];2) Faster R-CNN[82],[83];3) 基于無人機視頻的Faster R-CNN[84],[85]。
當(dāng)前克服挑戰(zhàn)的方法:[86]中提出了ITS邊緣的DL方法,該方法在交通監(jiān)控視頻中執(zhí)行實時車輛檢測、跟蹤和計數(shù)。神經(jīng)網(wǎng)絡(luò)通過YOLOv3對象檢測方法捕獲外觀特征,在單幀級別檢測單個車輛,該方法部署在邊緣設(shè)備上,以最小化帶寬和功耗。[61]中討論了一種在惡劣天氣條件下實現(xiàn)各種交通環(huán)境中準(zhǔn)確度和檢測速度之間最佳權(quán)衡的車輛檢測和跟蹤方法。此外,還引入了一個名為DAWN的新數(shù)據(jù)集,用于在大霧、雨、雪和沙塵暴等惡劣天氣條件下進(jìn)行車輛檢測和跟蹤,以減少訓(xùn)練偏差。
2)交通擁堵檢測模型和算法:基于計算機視覺的交通擁堵檢測方法也可分為單階段方法和多步驟方法。單階段方法從視頻圖像中識別車輛并直接執(zhí)行交通擁堵檢測。
當(dāng)前克服挑戰(zhàn)的方法:使用基于多個傳感器的解決方案(包括雷達(dá)、激光和傳感器融合)可以提高擁塞檢測性能,因為在現(xiàn)實場景中使用單個傳感器很難實現(xiàn)理想的性能和精度。決策算法廣泛用于處理從多個傳感器獲取的融合數(shù)據(jù)[93]。利用惡劣天氣條件數(shù)據(jù)集訓(xùn)練的基于CNN的模型可以提高檢測性能[94],同時也應(yīng)用了基于生成對抗網(wǎng)絡(luò)(GAN)的風(fēng)格轉(zhuǎn)移方法[95]。這些方法有助于最大限度地減少與可推廣性相關(guān)的模型挑戰(zhàn),從而提高真實世界的性能。
3)自動駕駛感知:檢測模型和算法:輔助AD的常見檢測任務(wù)分為交通標(biāo)志檢測、交通信號檢測、道路/車道檢測、行人檢測和車輛檢測。
當(dāng)前克服挑戰(zhàn)的方法:在交通標(biāo)志檢測中,現(xiàn)有的交通標(biāo)志數(shù)據(jù)集在挑戰(zhàn)條件的類型和嚴(yán)重程度方面受到限制。與這些條件相對應(yīng)的元數(shù)據(jù)是不可用的,由于許多條件同時發(fā)生變化,因此無法調(diào)查單個因素的影響。為了克服這一問題,[126]引入了CURE TSDReal數(shù)據(jù)集,該數(shù)據(jù)集基于與真實世界環(huán)境相對應(yīng)的模擬條件。[127]中提出了一種端到端交通標(biāo)志檢測框架特征聚合多路徑網(wǎng)絡(luò)(FAMN)。它由兩個主要結(jié)構(gòu)組成,即特征聚合和多路徑網(wǎng)絡(luò)結(jié)構(gòu),以解決交通標(biāo)志檢測中的小對象檢測和細(xì)粒度分類問題。[128]中提出了一種用于夜間車輛檢測的車輛亮點信息輔助神經(jīng)網(wǎng)絡(luò),其中包括兩項創(chuàng)新:基于車輛亮點建立車輛標(biāo)簽層次結(jié)構(gòu)和設(shè)計多層融合車輛亮點信息網(wǎng)絡(luò)。[129]中給出了夜間情況下的實時車輛檢測,其中圖像包括占據(jù)大圖像區(qū)域的閃光,并且車輛的實際形狀沒有很好地定義。通過使用全局圖像描述符和中央凹分類器網(wǎng)格,可以準(zhǔn)確有效地估計車輛位置。AugGAN[95]是用于車輛檢測領(lǐng)域自適應(yīng)的非配對圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)。由于更好的圖像對象保存,它在數(shù)量上超過了競爭方法,以實現(xiàn)更高的夜間車輛檢測精度。[130]中提出了一種逐步域自適應(yīng)(SDA)檢測方法,以通過最小化跨域目標(biāo)檢測任務(wù)中的差異來進(jìn)一步提高CycleGAN的性能。在第一步中,訓(xùn)練一個未配對的圖像到圖像翻譯器,通過將源圖像翻譯成目標(biāo)域中的相似圖像來構(gòu)造假目標(biāo)域。在第二步中,為了進(jìn)一步最小化跨域的差異,設(shè)計了一個自適應(yīng)的CenterNet,以對抗性學(xué)習(xí)的方式在特征級別對齊分布。
4)自動駕駛感知:分割模型和算法:圖像分割包含三個子任務(wù):語義分割、實例分割和全景分割。語義分割是一項精細(xì)的預(yù)測任務(wù),用相應(yīng)的對象類標(biāo)記圖像的每個像素,實例分割旨在識別和分割屬于每個對象實例的像素,而全景分割統(tǒng)一了語義分割和實例分割,從而為所有像素提供了類標(biāo)簽和實例ID。
當(dāng)前克服挑戰(zhàn)的方法:最近的分割方向包括弱監(jiān)督語義分割[139]、[140]、領(lǐng)域自適應(yīng)[141]、[142]、多模態(tài)數(shù)據(jù)融合[143]、[144]和實時語義分割[145]、[146]、[147]。TS Yolo[148]是一個基于CNN的模型,用于在惡劣天氣條件下使用數(shù)據(jù)增強的新樣本進(jìn)行準(zhǔn)確的交通檢測。使用復(fù)制粘貼策略進(jìn)行數(shù)據(jù)擴充,并從現(xiàn)有交通標(biāo)志實例構(gòu)建了大量新樣本?;赮oloV5,MixConv還用于在單個卷積運算中混合不同的內(nèi)核大小,從而可以捕獲具有不同分辨率的模式。從大的輸入圖像中檢測和分類現(xiàn)實生活中的小交通標(biāo)志是困難的,因為它們相對于較大的目標(biāo)占用較少的像素。為了解決這一問題,Dense RefineDet[149]應(yīng)用了單鏡頭目標(biāo)檢測框架,以保持適當(dāng)?shù)木?速度權(quán)衡。[127]中提出了一種端到端交通標(biāo)志檢測框架特征聚合多徑網(wǎng)絡(luò),以解決交通標(biāo)志檢測中的小對象檢測和細(xì)粒度分類問題。
5)合作感知模型和算法:在互聯(lián)自主車輛(CAV)中,根據(jù)數(shù)據(jù)類型,可以在三個級別上執(zhí)行協(xié)作感知:早期融合(原始數(shù)據(jù))、中間融合(預(yù)處理數(shù)據(jù))和后期融合(處理數(shù)據(jù)),其中提取和傳輸中間神經(jīng)特征,其中共享檢測輸出(3D邊界盒位置、置信分?jǐn)?shù)),合作感知研究如何利用相鄰連接車輛和基礎(chǔ)設(shè)施的視覺線索來提高整體感知性能[150]!
1) 早期融合:[151]使用原始數(shù)據(jù)級LiDAR 3D點云融合從連接車輛的不同位置和角度收集的傳感器數(shù)據(jù),并提出了一種基于點云的3D目標(biāo)檢測方法,以處理對齊點云的多樣性。DiscoNet利用知識蒸餾,通過將相應(yīng)的特征約束到網(wǎng)絡(luò)中用于早期融合的特征來增強訓(xùn)練。
2) 中間融合:F-Cooper為邊緣應(yīng)用提供了一個新的框架,為自動駕駛車輛提供服務(wù),也為3D融合檢測提供了新的策略。[154]提出了一種用于感知和預(yù)測的車對車(V2V)方法,該方法傳輸P&P神經(jīng)網(wǎng)絡(luò)的壓縮中間表示。[155]提出了一種注意力中間融合pipelines,以更好地捕獲網(wǎng)絡(luò)內(nèi)連接的代理之間的交互,[150]中提出了一種使用新型vit的具有車輛對一切(V2X)通信的魯棒協(xié)作感知框架。
3) 后期融合:基于Car2X的感知被建模為虛擬傳感器,以便將其集成到高級傳感器數(shù)據(jù)融合架構(gòu)中。
當(dāng)前克服挑戰(zhàn)的方法:
為了減少通信負(fù)載和開銷,提出了一種用于集體感知中消息生成規(guī)則的改進(jìn)算法[157],該算法通過重組集體感知消息的傳輸和內(nèi)容來提高V2X通信的可靠性。[158]提出并評估了一個統(tǒng)一的合作感知框架,該框架包含分散的數(shù)據(jù)關(guān)聯(lián)和融合過程,該過程可根據(jù)參與方差進(jìn)行擴展。通過采用現(xiàn)有模型以及單個車輛車載傳感器視野的簡化算法,評估考慮了自組織V2V網(wǎng)絡(luò)中的通信損失和交通中的隨機車輛運動的影響。AICP在[159]中提出,這是第一個解決方案,其重點是通過在網(wǎng)絡(luò)和應(yīng)用層進(jìn)行有效過濾來優(yōu)化普適合作感知系統(tǒng)的信息性。為了促進(jìn)系統(tǒng)聯(lián)網(wǎng),他們還使用了一個網(wǎng)絡(luò)協(xié)議棧,該協(xié)議棧包括專用數(shù)據(jù)結(jié)構(gòu)和專門用于信息密集型應(yīng)用的輕量級路由協(xié)議!
6)道路使用者行為預(yù)測模型和算法:來自視頻的軌跡預(yù)測對于自動駕駛、交通預(yù)測和擁堵管理非常有用。該領(lǐng)域中較老的工作集中于同質(zhì)代理,例如高速公路上的汽車或人群中的行人,而異構(gòu)代理僅在稀疏場景中考慮,具有某些假設(shè),如基于車道的駕駛。
當(dāng)前克服挑戰(zhàn)的方法:[172]中的切換線性動態(tài)系統(tǒng)(SLDS)描述了易受傷害道路使用者的動態(tài),并使用從車載立體攝像機提取的特征中提取的上下文擴展了動態(tài)貝葉斯網(wǎng)絡(luò),重點關(guān)注靜態(tài)和動態(tài)線索。該方法可以實時工作,提供道路用戶軌跡的準(zhǔn)確預(yù)測,它可以通過增加交通燈和人行橫道等環(huán)境來改善。[173]中探討了機載相機和激光雷達(dá)以及V2V通信的使用,以使用隨機森林和LSTM架構(gòu)預(yù)測軌跡。YOLO用于檢測汽車并提供邊界框,而LiDAR提供位置的細(xì)微變化,V2V通信傳輸轉(zhuǎn)向角等原始值,以減少預(yù)測的不確定性和延遲。在[174]中,TRAF數(shù)據(jù)集用于靜態(tài)或移動相機的魯棒端到端實時軌跡預(yù)測。多車輛跟蹤采用Mask R-CNN和互速障礙物算法。如[74]所示,最后3秒的跟蹤用于預(yù)測接下來5秒的軌跡,具有端到端可訓(xùn)練的額外優(yōu)勢,不需要注釋的軌跡數(shù)據(jù)。本文還提供了TrackNPred,這是一個基于python的庫,包含不同軌跡預(yù)測方法的實現(xiàn)。它是許多軌跡預(yù)測方法的通用接口,可用于在真實世界密集和異構(gòu)交通數(shù)據(jù)集上使用標(biāo)準(zhǔn)誤差測量度量進(jìn)行性能比較。大多數(shù)用于軌跡預(yù)測的DL方法都沒有揭示潛在的獎勵函數(shù),相反,它們只依賴于以前看到的示例,這阻礙了可推廣性并限制了其范圍。在[175]中,反向強化學(xué)習(xí)被用于找到獎勵函數(shù),從而可以說該模型有一個具體的目標(biāo),允許其部署在任何環(huán)境中。[176]中執(zhí)行基于變換器的運動預(yù)測,以在Agroverse數(shù)據(jù)集中實現(xiàn)最先進(jìn)的多模態(tài)軌跡預(yù)測。該網(wǎng)絡(luò)對道路幾何形狀和車輛之間的相互作用進(jìn)行建模。[177]中,通過時空圖上的圖卷積網(wǎng)絡(luò)預(yù)測復(fù)雜城市場景中的行人意圖,該方法考慮了等待穿越的行人與車輛運動之間的關(guān)系。雖然在多個數(shù)據(jù)集上實現(xiàn)了80%的準(zhǔn)確率,但它可以提前一秒預(yù)測跨越的意圖。另一方面,將行人建模為機器人,結(jié)合SVM而不需要姿勢信息,導(dǎo)致更長的預(yù)測,但缺乏對上下文信息的考慮[178]。
7)交通異常檢測模型和算法:交通監(jiān)控攝像頭可用于自動檢測交通異常,如停車和排隊。[68]已使用車輛拐角等低級別圖像特征的檢測來演示隊列檢測和隊列長度估計,而無需在不同照明條件下進(jìn)行對象跟蹤或背景去除。基于光流的跟蹤方法不僅可以提供隊列長度,還可以提供速度、車輛數(shù)量、等待時間和車頭時距。
當(dāng)前克服挑戰(zhàn)的方法:異常檢測依賴于監(jiān)控攝像頭,通??梢蕴峁┑缆愤h(yuǎn)處的視野,但遠(yuǎn)處的車輛僅占用幾個像素,這使得檢測變得困難。因此,[182]除了多粒度的box級跟蹤之外,還使用像素級跟蹤。關(guān)鍵思想是基于幀差的掩模提取和基于高斯混合模型的車輛軌跡跟蹤,以消除移動車輛,并結(jié)合基于幀變化的分割來消除停車區(qū)。異常融合使用具有回溯優(yōu)化的box和像素級跟蹤特征來細(xì)化預(yù)測。監(jiān)控攝像機容易在風(fēng)中抖動,因此在使用Faster R-CNN和級聯(lián)R-CNN形式的兩階段車輛檢測之前,進(jìn)行了視頻穩(wěn)定預(yù)處理[183]。從監(jiān)控視頻中進(jìn)行異常檢測的有效實時方法將外觀和運動學(xué)習(xí)分離為兩部分[184]。首先,自動編碼器學(xué)習(xí)外觀特征,然后3D卷積層可以使用來自多個過去幀的潛在代碼來預(yù)測未來幀的特征。預(yù)測特征和實際特征之間的顯著差異表明異常,該模型可以部署在交通攝像頭附近的邊緣節(jié)點上,與像素方法相比,潛在特征似乎對照明和天氣變化具有魯棒性。為了擺脫對異常注釋數(shù)據(jù)的依賴,[185]中的無監(jiān)督單類方法應(yīng)用時空卷積自動編碼器來獲取潛在特征,將它們堆疊在一起,序列到序列LSTM學(xué)習(xí)時間模式。該方法在多個真實世界監(jiān)控錄像數(shù)據(jù)集上表現(xiàn)良好,但并不比監(jiān)督訓(xùn)練方法更好。其優(yōu)點是,它可以在正常交通數(shù)據(jù)上無限期地訓(xùn)練,而沒有任何標(biāo)記的異常。
8)邊緣計算模型和算法:ITS中的計算機視覺需要高效的基礎(chǔ)架構(gòu)來實時分析數(shù)據(jù)。如果將所有獲取的視頻流發(fā)送到單個服務(wù)器,則所需的帶寬和計算將無法提供可用的服務(wù)。例如,[193]中探討了使用視頻有用性度量進(jìn)行實時自動故障檢測的邊緣計算架構(gòu)。只有被認(rèn)為有用的視頻才被傳輸?shù)椒?wù)器,而監(jiān)控攝像機的故障或視線受阻會被自動報告。基于邊緣云的計算可以實現(xiàn)DL模型,不僅用于計算機視覺任務(wù),還用于資源分配和效率[194]。被動監(jiān)控現(xiàn)在已經(jīng)被文獻(xiàn)中越來越多的配備傳感器的車輛所取代,這些車輛可以協(xié)同執(zhí)行感知和建圖[56]。車輛上的車載計算資源通常不夠強大,無法實時處理所有傳感器數(shù)據(jù),而定位和地圖等應(yīng)用程序可能需要大量計算。
當(dāng)前克服挑戰(zhàn)的方法:大規(guī)模DL的一個問題是產(chǎn)生的大量數(shù)據(jù)無法發(fā)送到云計算機進(jìn)行訓(xùn)練。聯(lián)合學(xué)習(xí)[199]已經(jīng)成為解決這個問題的一種方法,特別是考慮到異構(gòu)數(shù)據(jù)源、帶寬和隱私問題。訓(xùn)練可以在邊緣節(jié)點或邊緣服務(wù)器上執(zhí)行,結(jié)果被發(fā)送到云以在共享深度學(xué)習(xí)模型中聚合[56]。聯(lián)合學(xué)習(xí)對單個邊緣節(jié)點的故障也具有魯棒性[191],[200]中通過以增量和無監(jiān)督學(xué)習(xí)的形式,僅將邊緣節(jié)點的推斷數(shù)據(jù)傳輸?shù)皆?,解決了帶寬、數(shù)據(jù)隱私和功率需求的問題。通常,在邊緣處理數(shù)據(jù)以減少帶寬具有匿名傳輸數(shù)據(jù)的令人愉快的副作用[201],另一種降低帶寬需求的方法是對交通流預(yù)測所需的時空特征進(jìn)行頻譜聚類壓縮[192]。深度學(xué)習(xí)模型不能直接導(dǎo)出到移動邊緣節(jié)點,因為它們通常過于計算密集。[202]中引入了存儲和計算方面的神經(jīng)網(wǎng)絡(luò)修剪,而[203]中討論了在硬件上實現(xiàn)生成的稀疏網(wǎng)絡(luò),實現(xiàn)了效率的多個數(shù)量級提高。[204]中為移動邊緣單元開發(fā)了一個通用的輕量級CNN模型,該模型與AlexNet和VGG-16相匹配或優(yōu)于它們,但只占尺寸和計算成本的一小部分。[86]部署了使用深度學(xué)習(xí)的基于邊緣計算的交通流檢測,YOLOv3與DeepSORT一起進(jìn)行了訓(xùn)練和修剪,以部署在邊緣設(shè)備上實現(xiàn)實時性能。[205]中對在低功耗邊緣計算機上部署用于物聯(lián)網(wǎng)應(yīng)用的緊湊型DNN進(jìn)行了全面審查。他們注意到,DNN應(yīng)用的多樣性和數(shù)量需要一種超越傳統(tǒng)修剪技術(shù)的自動模型壓縮方法。
未來方向1)數(shù)據(jù)挑戰(zhàn)問題解決雖然大量數(shù)據(jù)對于訓(xùn)練深度學(xué)習(xí)模型至關(guān)重要,但質(zhì)量往往是訓(xùn)練性能的限制因素。數(shù)據(jù)管理是一個必要的過程,以包括邊緣案例,并根據(jù)來自真實世界的代表性數(shù)據(jù)訓(xùn)練模型。標(biāo)記視覺數(shù)據(jù),特別是在復(fù)雜的城市環(huán)境中,是一項由人類完成的勞動密集型任務(wù)??梢酝ㄟ^首先使用現(xiàn)有的基于相關(guān)任務(wù)的對象檢測或分割算法來自動標(biāo)記數(shù)據(jù)來加快速度。然后可以進(jìn)一步檢查這一點,以消除機器的錯誤,從而創(chuàng)建一個有用的標(biāo)記數(shù)據(jù)集。還需要包括來自不同視圖的多個傳感器的數(shù)據(jù)集來訓(xùn)練協(xié)作感知算法。由于硬件要求和同步問題,收集此類數(shù)據(jù)必然具有挑戰(zhàn)性,但可以使用與將部署的配置類似的連接車輛和儀表交叉口。像[207]這樣的數(shù)據(jù)驅(qū)動模擬器使用高保真數(shù)據(jù)集來模擬相機和激光雷達(dá),這可以用來訓(xùn)練具有在現(xiàn)實世界中難以捕獲的數(shù)據(jù)的DL模型[208]。這種方法在自動駕駛車輛控制的端到端強化學(xué)習(xí)中顯示了希望[209]。預(yù)計領(lǐng)域適應(yīng)技術(shù)將進(jìn)一步擴展,以利用合成數(shù)據(jù)和方便收集的數(shù)據(jù)。
轉(zhuǎn)移學(xué)習(xí)的子領(lǐng)域,特別是few-shot學(xué)習(xí)和zero-shot學(xué)習(xí),將廣泛應(yīng)用專家知識,以解決缺乏數(shù)據(jù)的挑戰(zhàn),如ITS和AD中的角案例識別。同樣,新的無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)模型有望在現(xiàn)實世界計算機視覺的一般領(lǐng)域中應(yīng)用。未來在視覺transformer可解釋性方面的工作將允許基于多個樣本的聚合度量獲得更全面的見解[41]??山忉屝匝芯恳灿型u估基于模型和無模型強化學(xué)習(xí)方法之間的差異[42]。數(shù)據(jù)分散是ITS中公認(rèn)的趨勢,為了解決數(shù)據(jù)隱私、大規(guī)模數(shù)據(jù)處理和效率等問題,基于視覺任務(wù)的眾感知[210]和聯(lián)合學(xué)習(xí)[211]是ITS和AD中不可避免的未來方向。此外,與為單個任務(wù)訓(xùn)練單個模型的傳統(tǒng)方式不同,使用通用基礎(chǔ)模型(例如Florence[212])學(xué)習(xí)多個下游任務(wù)是處理各種數(shù)據(jù)挑戰(zhàn)的一種有前途的趨勢。另一種機制是ITS中的數(shù)據(jù)處理并行性,與邊緣計算相結(jié)合,用于多任務(wù)(例如,交通監(jiān)控和道路監(jiān)控)學(xué)習(xí)[213]。
2)模型挑戰(zhàn)問題解決深度學(xué)習(xí)模型經(jīng)過訓(xùn)練,直到達(dá)到良好的準(zhǔn)確性,但真實世界的測試往往揭示出邊緣情況和復(fù)雜環(huán)境條件下的弱點。需要在線學(xué)習(xí),以使此類模型繼續(xù)改進(jìn)并適應(yīng)現(xiàn)實場景,否則無法實際使用。如果由于缺乏對預(yù)測正確性的實時反饋而無法進(jìn)行在線訓(xùn)練,則必須使用人工存儲和標(biāo)記的真實數(shù)據(jù)定期分析性能。這可以作為一種迭代反饋循環(huán),其中模型不需要顯著改變,只需要根據(jù)其發(fā)現(xiàn)的最具挑戰(zhàn)性的輸入進(jìn)行增量重新訓(xùn)練。部分自動化這一點的一種可能方式是使用相同的輸入數(shù)據(jù)進(jìn)行多個不同的冗余體系結(jié)構(gòu)的預(yù)測以及置信度得分。如果輸出不一致,或者如果某個輸出的置信度分?jǐn)?shù)較低,則可以手動標(biāo)記該數(shù)據(jù)點并將其添加到下一次訓(xùn)練迭代的訓(xùn)練集中。
部署到邊緣設(shè)備的復(fù)雜深度學(xué)習(xí)模型需要通過諸如修剪之類的方法來提高效率。簡單的修剪方法可以將CNN性能提高30%以上,根據(jù)具體的架構(gòu),模型還可以被劃分為部署在獨立邊緣單元上的不同功能塊,以最小化帶寬和計算時間[215]。邊緣人工智能的一個可預(yù)見的未來階段是“邊緣的模型訓(xùn)練和推理”,沒有云數(shù)據(jù)中心的參與!
近年來,人們對可解釋的人工智能進(jìn)行了大量研究,尤其是在計算機視覺方面。已經(jīng)使用三種可解釋的方法來處理神經(jīng)網(wǎng)絡(luò):基于梯度的顯著性圖、類激活映射和激發(fā)反向傳播[216]。[217]中將這些方法擴展到圖卷積網(wǎng)絡(luò),指出輸入中與分類相對應(yīng)的模式。[218]中給出了自我注意和共同注意transfomer網(wǎng)絡(luò)的可解釋性通用解決方案。雖然將這些方法應(yīng)用于交通應(yīng)用并不簡單,但已經(jīng)做出了一些努力來理解深度時空神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)處理視頻目標(biāo)分割和動作識別,量化網(wǎng)絡(luò)中的靜態(tài)和動態(tài)信息,并深入了解模型,突出從數(shù)據(jù)集學(xué)習(xí)到的偏差[219]。為了減輕遮擋、噪聲和傳感器故障的影響,合作傳感模型開發(fā)是未來更好地感知3D的必要方向。V2X網(wǎng)絡(luò)和視覺transformer已用于魯棒協(xié)作感知,可支持連接的自動駕駛車輛平臺中的感知[155]。聯(lián)網(wǎng)的自動駕駛汽車還將托管其他深度學(xué)習(xí)模型,這些模型可以以分布式方式從新數(shù)據(jù)中學(xué)習(xí)。共識驅(qū)動的分布式感知有望利用6G V2X等未來網(wǎng)絡(luò)技術(shù),從而實現(xiàn)低延遲模型訓(xùn)練,從而實現(xiàn)真正的L5級自動駕駛汽車。
3)用于解決復(fù)雜的交通環(huán)境挑戰(zhàn)多模態(tài)感知和合作感知是未來實用研究的必要途徑。視頻、激光雷達(dá)和音頻等不同的模式可以組合使用,以提高純粹基于視覺的方法的性能。音頻尤其適用于早期檢測行人中的異常情況,如打架或騷亂,以及擁擠十字路口的車輛,因為視覺混亂可能不會立即顯示機械故障或輕微事故等問題。協(xié)作感知將允許來自不同車輛的同一環(huán)境的多個傳感器視圖構(gòu)建包含比任何單個代理都能感知到的信息更多的公共圖片,從而解決遮擋和照明問題。使用遷移學(xué)習(xí)來提高現(xiàn)實任務(wù)中的模型性能的趨勢越來越大。最初,基于合成數(shù)據(jù)對模型進(jìn)行訓(xùn)練,并使用任務(wù)特定數(shù)據(jù)進(jìn)行微調(diào),從而降低了復(fù)雜的一次性深度學(xué)習(xí)模型的可靠性,并通過對具有挑戰(zhàn)性的城市場景進(jìn)行再訓(xùn)練來提高真實世界的性能。如前所述,領(lǐng)域適應(yīng)、zero-shot學(xué)習(xí)、few-shot學(xué)習(xí)和基礎(chǔ)模型是預(yù)期的轉(zhuǎn)移學(xué)習(xí)領(lǐng)域,可用于此目的。在嵌入式硬件上部署后,通過在擁擠且具有挑戰(zhàn)性的場景中進(jìn)行在線學(xué)習(xí),可以進(jìn)一步改善[185]中所述的無監(jiān)督方法的結(jié)果,因為存在無限量的未標(biāo)記數(shù)據(jù)。在[221]中,作為異常檢測的深度學(xué)習(xí)方法的一個重要方面,討論了在復(fù)雜環(huán)境中缺乏關(guān)于誤報率上限的理論性能分析,建議未來的研究也包括這一分析。很難想象完全依賴監(jiān)控攝像頭來進(jìn)行強大、廣泛和經(jīng)濟的交通異常檢測。[222]中的方法包括交通、網(wǎng)絡(luò)、人口統(tǒng)計、土地利用和天氣數(shù)據(jù)源,以檢測交通。這種想法可以與計算機視覺應(yīng)用結(jié)合使用,以獲得更好的整體性能。
ITS中邊緣計算應(yīng)用的未來方向?qū)⒖紤]多源數(shù)據(jù)融合和在線學(xué)習(xí)。許多因素,如看不見的車輛形狀、新的周圍環(huán)境、可變的交通密度和罕見的事件,對DL模型來說都太具有挑戰(zhàn)性,該新數(shù)據(jù)可用于系統(tǒng)的在線訓(xùn)練。傳統(tǒng)應(yīng)用程序可以使用邊緣計算和IoV/IoT框架進(jìn)行擴展,從視頻中重新識別車輛正在成為遮擋的最穩(wěn)健解決方案。然而,包含更多用于學(xué)習(xí)的時空信息會導(dǎo)致更大的內(nèi)存和計算使用。使用已知特征,可以在不同時間點將一個相機視圖中的軌跡與其它視圖進(jìn)行匹配。代替使用固定窗口,基于相似性和質(zhì)量的自適應(yīng)特征聚合可以推廣到許多多目標(biāo)跟蹤任務(wù)[225]。transformer在學(xué)習(xí)異構(gòu)體之間的動態(tài)交互方面特別有用,這在擁擠的城市環(huán)境中對于檢測和軌跡預(yù)測特別有用。它們還可用于檢測異常和預(yù)測潛在危險情況,如多用戶異構(gòu)場景中的碰撞!
參考[1] Deep Learning based Computer Vision Methods for Complex Traffic Environments Perception: A Review
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。