最新綜述 | 復(fù)雜環(huán)境中的計(jì)算機(jī)視覺(jué)問(wèn)題介紹及解決?。?）

發(fā)布人：計(jì)算機(jī)視覺(jué)工坊時(shí)間：2023-01-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

作者丨汽車(chē)人

來(lái)源丨自動(dòng)駕駛之心

計(jì)算機(jī)視覺(jué)如何在復(fù)雜環(huán)境中進(jìn)行有效感知？

近年來(lái)，計(jì)算機(jī)視覺(jué)在智能交通系統(tǒng)（ITS）和自動(dòng)駕駛（AD）中的應(yīng)用逐漸轉(zhuǎn)向深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。雖然在基準(zhǔn)數(shù)據(jù)集上的性能似乎有所改善，但在研究中還沒(méi)有充分考慮到許多現(xiàn)實(shí)世界中的挑戰(zhàn)。本文對(duì)計(jì)算機(jī)視覺(jué)在ITS和AD中的應(yīng)用進(jìn)行了廣泛的調(diào)研，并討論了與數(shù)據(jù)、模型和復(fù)雜城市環(huán)境相關(guān)的挑戰(zhàn)。數(shù)據(jù)的挑戰(zhàn)與訓(xùn)練數(shù)據(jù)的收集和標(biāo)記及其與現(xiàn)實(shí)世界條件的相關(guān)性、數(shù)據(jù)集固有的偏向、需要處理的大量數(shù)據(jù)以及隱私問(wèn)題有關(guān)。深度學(xué)習(xí)（DL）模型對(duì)于嵌入式硬件上的實(shí)時(shí)處理來(lái)說(shuō)通常過(guò)于復(fù)雜，缺乏可解釋性和可推廣性，并且難以在真實(shí)環(huán)境中進(jìn)行測(cè)試。

雖然在一些文獻(xiàn)中提到了這些問(wèn)題，但只開(kāi)發(fā)了一些方法來(lái)解決這些問(wèn)題。智能交通中的計(jì)算機(jī)視覺(jué)是一個(gè)非?；钴S的研究領(lǐng)域，本文選擇并綜述了200多篇論文。圖1概述了應(yīng)用程序和挑戰(zhàn)，以供快速參考，而表1總結(jié)了每個(gè)應(yīng)用程序中使用的方法和相關(guān)挑戰(zhàn)。以下章節(jié)（II、III、IV）討論了數(shù)據(jù)、模型和復(fù)雜交通環(huán)境的具體挑戰(zhàn)。第五節(jié)解釋了應(yīng)對(duì)挑戰(zhàn)的一些代表性應(yīng)用和解決方案。第六節(jié)是這一領(lǐng)域研究應(yīng)采取的未來(lái)方向，最后，第七節(jié)提出了一些結(jié)論性意見(jiàn)。

數(shù)據(jù)的挑戰(zhàn)1）數(shù)據(jù)通信

數(shù)據(jù)通信雖然在大多數(shù)ITS和AV計(jì)算機(jī)視覺(jué)研究中沒(méi)有考慮，但在實(shí)際應(yīng)用中至關(guān)重要。在實(shí)踐中，單個(gè)基于相機(jī)的深度學(xué)習(xí)任務(wù)通常需要在TMC的相機(jī)和云服務(wù)器之間進(jìn)行數(shù)據(jù)通信。視頻數(shù)據(jù)量很大，這可能導(dǎo)致潛在的數(shù)據(jù)通信問(wèn)題，如傳輸延遲和數(shù)據(jù)包丟失。在協(xié)作攝像機(jī)傳感環(huán)境中，不僅與服務(wù)器進(jìn)行數(shù)據(jù)通信，而且在不同傳感器之間進(jìn)行數(shù)據(jù)通信。因此，另外兩個(gè)問(wèn)題是多傳感器校準(zhǔn)和數(shù)據(jù)同步，協(xié)作環(huán)境中的校準(zhǔn)旨在確定傳感器之間的****轉(zhuǎn)換，以便能夠在給定幀合并來(lái)自多個(gè)視圖的采集數(shù)據(jù)。這項(xiàng)任務(wù)在多用戶(hù)環(huán)境中非常具有挑戰(zhàn)性，因?yàn)閭鞲衅髦g的變換矩陣隨著車(chē)輛的移動(dòng)而不斷變化。在協(xié)作環(huán)境中，校準(zhǔn)依賴(lài)于背景圖像中元素的同步，以確定靜態(tài)或移動(dòng)傳感器之間的轉(zhuǎn)換。存在多個(gè)去同步源，例如時(shí)鐘之間的偏移或可變通信延遲。雖然時(shí)鐘可能是同步的，但很難確保在同一時(shí)刻觸發(fā)數(shù)據(jù)采集，這增加了合并采集數(shù)據(jù)的不確定性。同樣，不同的采樣率需要在采集或預(yù)測(cè)數(shù)據(jù)之間進(jìn)行插值，這也增加了不確定性。

2）訓(xùn)練數(shù)據(jù)和benchmark的質(zhì)量

交通攝像頭廣泛部署在道路和車(chē)輛上，DOT和城市的TMC不斷收集網(wǎng)絡(luò)范圍內(nèi)的交通攝像頭數(shù)據(jù)，這些數(shù)據(jù)對(duì)各種ITS應(yīng)用（如事件識(shí)別和車(chē)輛檢測(cè)）都很有價(jià)值。然而，標(biāo)記的訓(xùn)練數(shù)據(jù)遠(yuǎn)不如未標(biāo)記的數(shù)據(jù)常見(jiàn)。隨著圖形逼真度和模擬物理變得越來(lái)越現(xiàn)實(shí)，許多應(yīng)用程序缺少注釋數(shù)據(jù)集的問(wèn)題正慢慢被合成數(shù)據(jù)所克服。例如，[9]中的GT 3D信息在單目3D檢測(cè)和跟蹤的訓(xùn)練期間需要高精度，因此使用了視頻游戲數(shù)據(jù)。除了真實(shí)的外觀，模擬場(chǎng)景不需要手動(dòng)標(biāo)記，因?yàn)闃?biāo)簽已經(jīng)由模擬生成，并且可以支持各種照明、視點(diǎn)和車(chē)輛行為。然而，如果使用合成數(shù)據(jù)，真實(shí)世界的應(yīng)用仍然需要額外的學(xué)習(xí)過(guò)程，例如領(lǐng)域自適應(yīng)。低保真度模擬數(shù)據(jù)用于訓(xùn)練具有域隨機(jī)化轉(zhuǎn)移學(xué)習(xí)的真實(shí)世界目標(biāo)檢測(cè)器。缺乏高質(zhì)量的碰撞和接近碰撞數(shù)據(jù)通常被認(rèn)為是一個(gè)實(shí)際的限制，更多的碰撞數(shù)據(jù)將更新AD中的注意力指南，使其能夠捕捉長(zhǎng)期碰撞特征，從而提高碰撞風(fēng)險(xiǎn)評(píng)估。

3）數(shù)據(jù)偏差

盡管當(dāng)前的車(chē)輛檢測(cè)算法在平衡數(shù)據(jù)集上表現(xiàn)良好，但當(dāng)面對(duì)不平衡數(shù)據(jù)集時(shí)，它們?cè)谖膊款?lèi)別上的性能會(huì)下降。在現(xiàn)實(shí)世界場(chǎng)景中，數(shù)據(jù)往往服從Zipfian分布，其中大量尾部類(lèi)別的樣本很少。在長(zhǎng)尾數(shù)據(jù)集中，少數(shù)頭部類(lèi)（頻繁類(lèi)）貢獻(xiàn)了大部分訓(xùn)練樣本，而尾部類(lèi)（罕見(jiàn)類(lèi)）的代表性不足。大多數(shù)使用此類(lèi)數(shù)據(jù)訓(xùn)練的DL模型將長(zhǎng)尾訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)風(fēng)險(xiǎn)降至最低，并且偏向于頭部類(lèi)別，因?yàn)樗鼈冐暙I(xiàn)了大部分訓(xùn)練數(shù)據(jù)。一些方法，如數(shù)據(jù)重采樣[22]和損失重加權(quán)[23]，可以補(bǔ)償不足的類(lèi)別。然而，他們需要根據(jù)類(lèi)別頻率將類(lèi)別劃分為幾個(gè)組。頭尾類(lèi)之間的這種硬性劃分帶來(lái)了兩個(gè)問(wèn)題：相鄰類(lèi)別之間的訓(xùn)練不一致，以及對(duì)罕見(jiàn)類(lèi)別缺乏辨別力。

模型挑戰(zhàn)1）復(fù)雜性

DL計(jì)算機(jī)視覺(jué)模型在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過(guò)程方面具有很高的復(fù)雜性。許多DL模型設(shè)計(jì)用于在高性能云中心或AI工作站上運(yùn)行，而一個(gè)好的模型需要數(shù)周或數(shù)月的訓(xùn)練，以及由GPU或Tensor處理單元（TPU）驅(qū)動(dòng)的高功耗。實(shí)時(shí)應(yīng)用程序通常會(huì)進(jìn)行一些修改，如調(diào)整視頻大小以降低分辨率或模型量化和修剪，這可能會(huì)導(dǎo)致性能損失。為了滿(mǎn)足效率和精度要求，在許多實(shí)際應(yīng)用中需要降低最先進(jìn)DL方法的模型復(fù)雜性。例如，多尺度可變形注意力已與視覺(jué)vit一起用于目標(biāo)檢測(cè)，以實(shí)現(xiàn)高性能和快速收斂，從而加快訓(xùn)練和推理。

2）缺乏可解釋性

DNN在很大程度上被視為具有多個(gè)處理層的黑盒，其工作情況可以使用統(tǒng)計(jì)數(shù)據(jù)進(jìn)行檢查，但學(xué)習(xí)到的網(wǎng)絡(luò)內(nèi)部表示基于數(shù)百萬(wàn)或數(shù)十億個(gè)參數(shù)，使得分析極其困難。這意味著，行為本質(zhì)上是不可預(yù)測(cè)的，而且對(duì)決策的解釋很少，這也使得自動(dòng)駕駛等關(guān)鍵用例無(wú)法進(jìn)行系統(tǒng)驗(yàn)證。普遍認(rèn)為，復(fù)雜的黑盒是良好性能所必需的，這一假設(shè)受到了挑戰(zhàn)。最近的研究試圖使DNN更易于解釋?zhuān)琜41]中介紹了視覺(jué)transformer的可視化工具，可用于查看內(nèi)部機(jī)制，如隱藏參數(shù)，并深入了解影響預(yù)測(cè)的輸入的特定部分。

3）可轉(zhuǎn)移性和可推廣性

對(duì)非分布數(shù)據(jù)的泛化對(duì)人類(lèi)來(lái)說(shuō)是自然的，但對(duì)機(jī)器來(lái)說(shuō)卻具有挑戰(zhàn)性，因?yàn)榇蠖鄶?shù)學(xué)習(xí)算法都強(qiáng)烈依賴(lài)于測(cè)試數(shù)據(jù)的獨(dú)立和相同分布假設(shè)訓(xùn)練，而這在實(shí)踐中常常因域轉(zhuǎn)移而被違反。域泛化旨在將模型泛化到新的領(lǐng)域，已經(jīng)提出了學(xué)習(xí)可推廣和可轉(zhuǎn)移表示的不同方法。大多數(shù)現(xiàn)有方法都屬于域?qū)R的范疇，其中的主要思想是最小化源域之間的差異，以學(xué)習(xí)域不變表示。對(duì)源域移位不變的特征也應(yīng)該對(duì)任何未發(fā)現(xiàn)的目標(biāo)域移位都是魯棒的，數(shù)據(jù)增強(qiáng)是一種常見(jiàn)的做法，用于規(guī)范機(jī)器學(xué)習(xí)模型的訓(xùn)練，以避免過(guò)度擬合并提高泛化能力[45]，這對(duì)于過(guò)度參數(shù)化的DNN尤為重要。神經(jīng)網(wǎng)絡(luò)中的視覺(jué)注意力可用于突出決策中涉及的圖像區(qū)域，并進(jìn)行因果過(guò)濾以找到最相關(guān)的部分[46]。[47]中通過(guò)使用圖像的隨機(jī)屏蔽版本并比較輸出預(yù)測(cè)來(lái)估計(jì)單個(gè)像素的重要性，這種方法不適用于時(shí)空方法或那些考慮復(fù)雜環(huán)境中對(duì)象之間關(guān)系的方法！

4）真實(shí)世界測(cè)試

一般來(lái)說(shuō)，DL方法容易出現(xiàn)不規(guī)范，無(wú)論模型類(lèi)型或應(yīng)用如何，都會(huì)出現(xiàn)這種問(wèn)題。在其它領(lǐng)域中，[48]分析了計(jì)算機(jī)視覺(jué)中的不規(guī)范性，特別是針對(duì)DL模型，如常用的ResNet-50和縮放轉(zhuǎn)移學(xué)習(xí)圖像分類(lèi)模型Big transfer（BiT）[49]。研究表明，雖然基準(zhǔn)分?jǐn)?shù)隨著模型復(fù)雜度和訓(xùn)練數(shù)據(jù)的增加而提高，但使用真實(shí)世界的失真進(jìn)行測(cè)試會(huì)導(dǎo)致較差且高度變化的性能，這嚴(yán)重依賴(lài)于用于初始化訓(xùn)練的隨機(jī)種子。實(shí)際系統(tǒng)需要在各種低成本硬件上實(shí)時(shí)處理的內(nèi)存和計(jì)算方面高效[50]。一些實(shí)現(xiàn)高效和低成本計(jì)算的方法包括參數(shù)修剪、網(wǎng)絡(luò)量化、低秩因子分解和模型蒸餾。像[51]這樣的方法是有效的，能夠?qū)崟r(shí)預(yù)測(cè)軌跡，但不是端到端的，因?yàn)樗鼈兗僭O(shè)預(yù)先存在目標(biāo)跟蹤系統(tǒng)來(lái)估計(jì)周?chē)?chē)輛的狀態(tài)。

行人和騎自行車(chē)者等弱勢(shì)道路使用者（VRU）存在一個(gè)獨(dú)特的問(wèn)題，因?yàn)樗麄兛梢苑浅？焖俚馗淖兎较蚝退俣龋⑴c車(chē)輛不同地與交通環(huán)境交互。在ITS中實(shí)際部署計(jì)算機(jī)視覺(jué)模型的一些主要障礙是數(shù)據(jù)源和軟件的異質(zhì)性、傳感器硬件故障以及極端或異常傳感情況。此外，最近的框架（例如基于邊緣計(jì)算的框架）直接暴露了具有各種安全實(shí)現(xiàn)的大量異構(gòu)設(shè)備的無(wú)線(xiàn)通信信號(hào)，為惡意行為者創(chuàng)造了不斷增加的潛在攻擊面。已經(jīng)開(kāi)發(fā)了深度學(xué)習(xí)模型來(lái)檢測(cè)這些攻擊，但實(shí)時(shí)應(yīng)用和在線(xiàn)學(xué)習(xí)仍然是積極研究的領(lǐng)域。IoV面臨著基本的實(shí)際問(wèn)題，這是由于移動(dòng)車(chē)輛將在邊緣節(jié)點(diǎn)上呈現(xiàn)高度可變的處理要求，而每輛車(chē)也可以同時(shí)運(yùn)行許多邊緣和云相關(guān)的應(yīng)用程序，以及惡劣的無(wú)線(xiàn)通信環(huán)境。與自動(dòng)駕駛汽車(chē)邊緣計(jì)算相關(guān)的其它挑戰(zhàn)包括協(xié)作感知、協(xié)作決策和網(wǎng)絡(luò)安全，攻擊者可以使用激光和明亮的紅外光干擾相機(jī)和激光雷達(dá)，改變交通標(biāo)志，并通過(guò)通信信道回放攻擊，模型挑戰(zhàn)的可視化描述如圖3所示！

復(fù)雜的環(huán)境1）陰影、照明、天氣

陰影、惡劣天氣、背景和前景之間的相似性、現(xiàn)實(shí)世界中的強(qiáng)烈或不足照明等情況被引用為常見(jiàn)問(wèn)題[59]，[60]。眾所周知，相機(jī)圖像的外觀受到不利天氣條件的影響，如大霧、雨夾雪、暴風(fēng)雪和沙塵暴[61]。[62]中的一種實(shí)時(shí)碰撞檢測(cè)方法使用高斯混合模型進(jìn)行前景提取，然后使用平均移動(dòng)算法跟蹤車(chē)輛。車(chē)輛的位置、速度和加速度通過(guò)閾值函數(shù)來(lái)確定碰撞的檢測(cè)。雖然計(jì)算效率很高，但這種方法在噪聲、復(fù)雜的交通環(huán)境和天氣變化的情況下會(huì)受到嚴(yán)重影響。在惡劣的天氣條件下，相機(jī)捕捉到的車(chē)輛會(huì)出現(xiàn)曝光不足、模糊和部分遮擋等問(wèn)題。同時(shí)，出現(xiàn)在交通場(chǎng)景中的雨滴和雪花增加了算法提取車(chē)輛目標(biāo)的難度。在夜間，或在車(chē)輛朝著攝像頭行駛的隧道中，由于遠(yuǎn)光眩光，場(chǎng)景可能被完全掩蓋。

2）Occlusion

遮擋是最具挑戰(zhàn)性的問(wèn)題之一，其中由于另一個(gè)前景目標(biāo)的遮擋，目標(biāo)對(duì)象僅部分可用于相機(jī)或傳感器。遮擋以多種形式存在，從部分遮擋到重度遮擋。在AD中，目標(biāo)對(duì)象可以被建筑物和燈柱等靜態(tài)對(duì)象遮擋，諸如移動(dòng)車(chē)輛或其它道路使用者之類(lèi)的動(dòng)態(tài)對(duì)象可能會(huì)彼此遮擋，例如在人群中。遮擋也是物體跟蹤中的一個(gè)常見(jiàn)問(wèn)題，因?yàn)橐坏┍桓欆?chē)輛從視野中消失并再次出現(xiàn)，它就被視為不同的車(chē)輛，導(dǎo)致跟蹤和軌跡信息不準(zhǔn)確。

3）攝像機(jī)角度

在交通基礎(chǔ)設(shè)施的應(yīng)用中，監(jiān)控?cái)z像機(jī)的多樣性及其視角對(duì)在有限類(lèi)型的攝像機(jī)視圖上訓(xùn)練的DL方法提出了挑戰(zhàn)。雖然[68]中的算法在計(jì)算上是有效的，并且可以在不同的照明條件和交通密度場(chǎng)景下工作，但較低的間距相機(jī)視圖和道路標(biāo)記拐角可能會(huì)引入顯著的錯(cuò)誤。[69]中的模型可以識(shí)別攝像機(jī)附近的異常，包括它們的開(kāi)始和結(jié)束時(shí)間，但對(duì)于距離中的異常來(lái)說(shuō)并不準(zhǔn)確，因?yàn)檐?chē)輛只占幾個(gè)像素。早期對(duì)監(jiān)控視頻異常檢測(cè)的一項(xiàng)調(diào)查得出結(jié)論，照明、攝像機(jī)角度、異質(zhì)對(duì)象和缺乏真實(shí)世界數(shù)據(jù)集是主要挑戰(zhàn)[67]。用于稀疏和密集交通條件的方法是不同的，并且缺乏可推廣性。在多視圖視覺(jué)場(chǎng)景中，匹配不同視圖中的對(duì)象是另一個(gè)主要問(wèn)題，因?yàn)槎嘁晥DITS應(yīng)用程序需要處理不同相機(jī)同時(shí)捕獲的不同圖像中的數(shù)據(jù)[70]。

4）相機(jī)模糊和圖像降級(jí)

監(jiān)控?cái)z像機(jī)受天氣因素影響。水、灰塵和顆粒物質(zhì)可能積聚在鏡頭上，導(dǎo)致圖像質(zhì)量下降。強(qiáng)風(fēng)會(huì)導(dǎo)致相機(jī)抖動(dòng)，導(dǎo)致整個(gè)圖像的運(yùn)動(dòng)模糊。自動(dòng)駕駛汽車(chē)上的前置攝像頭也面臨這一問(wèn)題，因?yàn)槔ハx(chóng)會(huì)砸到玻璃上，導(dǎo)致攝像頭視野中的盲點(diǎn)。具體而言，目標(biāo)檢測(cè)和分割算法受到極大影響，除非在模型中做好準(zhǔn)備，否則錯(cuò)誤檢測(cè)可能會(huì)導(dǎo)致AD中的嚴(yán)重安全問(wèn)題，并錯(cuò)過(guò)監(jiān)視應(yīng)用中的重要事件。解決這一問(wèn)題的一些方法包括使用退化圖像進(jìn)行訓(xùn)練、圖像恢復(fù)預(yù)處理和微調(diào)預(yù)訓(xùn)練網(wǎng)絡(luò)以從退化圖像中學(xué)習(xí)。例如，[72]中使用了密集的Gram網(wǎng)絡(luò)，其提高了退化圖像中的圖像分割性能。

5）異構(gòu)的城市交通條件

密集的城市交通場(chǎng)景充滿(mǎn)了復(fù)雜的視覺(jué)元素，不僅在數(shù)量上，而且在各種不同的車(chē)輛及其交互中，如圖4所示。汽車(chē)、公共汽車(chē)、自行車(chē)和行人在同一個(gè)十字路口的存在是自動(dòng)導(dǎo)航和軌跡計(jì)算的一個(gè)重要問(wèn)題。不同的尺寸、轉(zhuǎn)彎半徑、速度和駕駛員行為因這些道路使用者之間的互動(dòng)而進(jìn)一步復(fù)雜化。從DL的角度來(lái)看，很容易找到異構(gòu)城市交通的視頻，但標(biāo)記地面真相非常耗時(shí)。模擬軟件通常無(wú)法捕捉此類(lèi)場(chǎng)景的復(fù)雜動(dòng)態(tài)，尤其是在密集的城市中心出現(xiàn)的交通規(guī)則破壞行為。事實(shí)上，[74]中創(chuàng)建了一個(gè)特定的數(shù)據(jù)集來(lái)表示這些行為。[75]中創(chuàng)建了一個(gè)用于無(wú)管制密集交通的模擬器，該模擬器對(duì)自動(dòng)駕駛感知和控制很有用，但不代表真實(shí)道路使用者的軌跡和交互。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

聲控?zé)粝嚓P(guān)文章:聲控?zé)粼?/a>

博客專(zhuān)欄

最新綜述 | 復(fù)雜環(huán)境中的計(jì)算機(jī)視覺(jué)問(wèn)題介紹及解決?。?）

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

博客專(zhuān)欄

最新綜述 | 復(fù)雜環(huán)境中的計(jì)算機(jī)視覺(jué)問(wèn)題介紹及解決?。?）

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

最新綜述 | 復(fù)雜環(huán)境中的計(jì)算機(jī)視覺(jué)問(wèn)題介紹及解決?。?）