伯克利開(kāi)源首個(gè)泊車(chē)場(chǎng)景下的高清數(shù)據(jù)集和預(yù)測(cè)模型,支持目標(biāo)識(shí)別、軌跡預(yù)測(cè)
Dragon Lake Parking (DLP) 數(shù)據(jù)集以無(wú)人機(jī)正射航拍視角,提供了大量經(jīng)過(guò)標(biāo)注的高清 4K 視頻和軌跡數(shù)據(jù),記錄了在停車(chē)場(chǎng)環(huán)境內(nèi),不同類(lèi)型的車(chē)輛、行人和自行車(chē)的運(yùn)動(dòng)及交互行為。數(shù)據(jù)集時(shí)長(zhǎng)約 3.5 小時(shí),采樣率為 25Hz,覆蓋區(qū)域面積約為 140 m x 80 m,包含約 400 個(gè)停車(chē)位,共記錄了 5188 個(gè)主體。數(shù)據(jù)集提供兩種格式:JSON 和原視頻 + 標(biāo)注,可服務(wù)的研究方向包括:大規(guī)模高精度目標(biāo)識(shí)別和追蹤、空閑車(chē)位檢測(cè)、車(chē)輛和行人的行為和軌跡預(yù)測(cè)、模仿學(xué)習(xí)等。
在自動(dòng)駕駛技術(shù)不斷迭代的當(dāng)下,車(chē)輛的行為和軌跡預(yù)測(cè)對(duì)高效、安全駕駛有著極為重要的意義。動(dòng)力學(xué)模型推演、可達(dá)性分析等傳統(tǒng)的軌跡預(yù)測(cè)的方法雖然有著形式明晰、可解釋性強(qiáng)的優(yōu)點(diǎn),但在復(fù)雜的交通環(huán)境中,其對(duì)于環(huán)境和物體交互的建模能力較為有限。因此,近年來(lái)大量研究和應(yīng)用都基于各種深度學(xué)習(xí)方法(例如 LSTM、CNN、Transformer、GNN 等),各類(lèi)數(shù)據(jù)集例如 BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也紛紛涌現(xiàn),為訓(xùn)練和評(píng)估深度神經(jīng)網(wǎng)絡(luò)模型提供了強(qiáng)力支持,不少 SOTA 模型例如 GroupNet、Trajectron++、MultiPath 等都表現(xiàn)出了良好的性能。
以上模型和數(shù)據(jù)集都集中在正常的道路行駛場(chǎng)景下,并充分利用車(chē)道線、交通燈等基礎(chǔ)設(shè)施和特征輔助預(yù)測(cè)過(guò)程;由于交通法規(guī)的限制,絕大多數(shù)車(chē)輛的運(yùn)動(dòng)方式也較為明確。然而,在自動(dòng)駕駛的 “最后一公里”—— 自動(dòng)泊車(chē)場(chǎng)景下,我們將面對(duì)不少新的困難:
- 停車(chē)場(chǎng)內(nèi)的交通規(guī)則和車(chē)道線要求并不嚴(yán)格,車(chē)輛也經(jīng)常隨意行駛 “抄近路”
- 為了完成泊車(chē)任務(wù),車(chē)輛需要完成較為復(fù)雜的泊車(chē)動(dòng)作,包括頻繁的倒車(chē)、停車(chē)、轉(zhuǎn)向等。在駕駛員經(jīng)驗(yàn)不足的情況下,泊車(chē)可能成為一個(gè)漫長(zhǎng)的過(guò)程
- 停車(chē)場(chǎng)內(nèi)障礙物較多且雜亂,車(chē)間距離較近,稍不留神就可能導(dǎo)致碰撞和剮蹭
- 停車(chē)場(chǎng)內(nèi)行人往往隨意穿行,車(chē)輛需要更多的避讓動(dòng)作
在這樣的場(chǎng)景下,簡(jiǎn)單套用現(xiàn)有的軌跡預(yù)測(cè)模型難以達(dá)到理想的效果,而重新訓(xùn)練模型又缺乏相應(yīng)數(shù)據(jù)的支持。當(dāng)下基于停車(chē)場(chǎng)景的數(shù)據(jù)集例如 CNRPark+EXT 和 CARPK 等,都僅為空閑停車(chē)位檢測(cè)而設(shè)計(jì),圖片來(lái)源于提供監(jiān)控相機(jī)第一人稱視角、采樣率低、且遮擋較多,無(wú)法用于軌跡預(yù)測(cè)。
在 2022 年 10 月剛剛結(jié)束的第 25 屆 IEEE 智能交通系統(tǒng)國(guó)際會(huì)議 (IEEE ITSC 2022) 中,來(lái)自加州大學(xué)伯克利分校的研究者們發(fā)布了首個(gè)針對(duì)停車(chē)場(chǎng)景的高清視頻 & 軌跡數(shù)據(jù)集,并在此數(shù)據(jù)集的基礎(chǔ)上,利用 CNN 和 Transformer 架構(gòu)提出了名為 “ParkPredict+” 的軌跡預(yù)測(cè)模型。
- 論文鏈接:https://arxiv.org/abs/2204.10777
- 數(shù)據(jù)集主頁(yè)、試用和下載申請(qǐng):https://sites.google.com/berkeley.edu/dlp-dataset (如無(wú)法訪問(wèn),可嘗試備用頁(yè)面 https://cutt.ly/dlp-notion )
- 數(shù)據(jù)集 Python API:https://github.com/MPC-Berkeley/dlp-dataset
數(shù)據(jù)集信息
數(shù)據(jù)集由無(wú)人機(jī)進(jìn)行采集,總時(shí)長(zhǎng)為 3.5 小時(shí),視頻分辨率為 4K,采樣率 25Hz。視野范圍覆蓋了約 140m x 80m 的停車(chē)場(chǎng)區(qū)域,共計(jì)約 400 個(gè)停車(chē)位。數(shù)據(jù)集經(jīng)過(guò)精確標(biāo)注,共采集到 1216 輛機(jī)動(dòng)車(chē)、3904 輛自行車(chē)和 3904 位行人的軌跡。
經(jīng)過(guò)重新處理后,軌跡數(shù)據(jù)可以 JSON 的形式讀取,并加載為連接圖(Graph)的數(shù)據(jù)結(jié)構(gòu):
- 個(gè)體(Agent):每個(gè)個(gè)體(Agent)即為一個(gè)在當(dāng)前場(chǎng)景(Scene)下運(yùn)動(dòng)的物體,具備幾何形狀、類(lèi)型等屬性,其運(yùn)動(dòng)軌跡被儲(chǔ)存為一個(gè)包含實(shí)例(Instance)的鏈表(Linked List)
- 實(shí)例(Instance):每個(gè)實(shí)例(Instance)即為一個(gè)個(gè)體(Agent)在一幀(Frame)中的狀態(tài),包含其位置、轉(zhuǎn)角、速度和加速度。每個(gè)實(shí)例都包含指向該個(gè)體在前一幀和后一幀下實(shí)例的指針
- 幀(Frame):每一幀(Frame)即為一個(gè)采樣點(diǎn),其包含當(dāng)前時(shí)間下所有可見(jiàn)的實(shí)例(Instance),和指向前一幀和后一幀的指針
- 障礙物(Obstacle):障礙物即為在此次記錄中完全沒(méi)有移動(dòng)的物體,包含各個(gè)物體的位置、轉(zhuǎn)角和幾何尺寸
- 場(chǎng)景(Scene):每個(gè)場(chǎng)景(Scene)對(duì)應(yīng)于一個(gè)錄制的視頻文件,其包含指針,指向該錄制的首幀和尾幀、所有個(gè)體(Agent)和所有障礙物(Obstacle)
數(shù)據(jù)集提供兩種下載格式:
僅 JSON(推薦):JSON 文件包含所有個(gè)體的類(lèi)型、形狀、軌跡等信息,可以通過(guò)開(kāi)源的 Python API 直接讀取、預(yù)覽、并生成語(yǔ)義圖像(Semantic Images)。如果研究目標(biāo)僅為軌跡和行為預(yù)測(cè),JSON 格式可以滿足所有的需求。
原視頻和標(biāo)注:如果研究是基于相機(jī)原圖像(Raw Image)的目標(biāo)檢測(cè)、分隔、追蹤等機(jī)器視覺(jué)領(lǐng)域課題,那么可能會(huì)需要下載原視頻和標(biāo)注。如有此需要,需要在數(shù)據(jù)集申請(qǐng)中明確描述該研究需求。另外,標(biāo)注文件需自行解析。
行為和軌跡預(yù)測(cè)模型:ParkPredict+
作為應(yīng)用示例,在 IEEE ITSC 2022 的論文《ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer》中,研究團(tuán)隊(duì)利用此數(shù)據(jù)集,基于 CNN 和 Transformer 架構(gòu)實(shí)現(xiàn)了在停車(chē)場(chǎng)場(chǎng)景下車(chē)輛的意圖(Intent)和軌跡(Trajectory)預(yù)測(cè)。
團(tuán)隊(duì)利用 CNN 模型,通過(guò)構(gòu)建語(yǔ)義圖像(Semantic Images),實(shí)現(xiàn)了對(duì)于車(chē)輛意圖(Intent)分布概率的預(yù)測(cè) 。該模型僅需要構(gòu)建車(chē)輛局部的環(huán)境信息,且可根據(jù)當(dāng)前環(huán)境,不斷變化可供選擇的意圖數(shù)量。
團(tuán)隊(duì)通過(guò)改進(jìn) Transformer 模型,將意圖(Intent)預(yù)測(cè)結(jié)果、車(chē)輛的運(yùn)動(dòng)歷史、周邊環(huán)境的語(yǔ)義圖作為輸入提供,實(shí)現(xiàn)了多模態(tài)(Multi-modal)的意圖和行為預(yù)測(cè)。
總結(jié)
- 作為首個(gè)針對(duì)泊車(chē)場(chǎng)景的高精度數(shù)據(jù)集,Dragon Lake Parking (DLP) 數(shù)據(jù)集可為該場(chǎng)景下大規(guī)模目標(biāo)識(shí)別和追蹤、空閑車(chē)位檢測(cè)、車(chē)輛和行人的行為和軌跡預(yù)測(cè)、模仿學(xué)習(xí)等研究提供數(shù)據(jù)和 API 支持
- 通過(guò)使用 CNN 和 Transformer 架構(gòu),ParkPredict + 模型在泊車(chē)場(chǎng)景下的行為和軌跡預(yù)測(cè)中展現(xiàn)除了良好的能力
- Dragon Lake Parking (DLP) 數(shù)據(jù)集已開(kāi)放試用和申請(qǐng),可通過(guò)訪問(wèn)數(shù)據(jù)集主頁(yè) https://sites.google.com/berkeley.edu/dlp-dataset 了解詳細(xì)信息(如無(wú)法訪問(wèn),可嘗試備用頁(yè)面 https://cutt.ly/dlp-notion )
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
伺服電機(jī)相關(guān)文章:伺服電機(jī)工作原理
網(wǎng)線測(cè)試儀相關(guān)文章:網(wǎng)線測(cè)試儀原理