全民自動(dòng)駕駛5年內(nèi)真的會(huì)來(lái)嗎?這是Lyft的自動(dòng)駕駛2.0
來(lái)源:機(jī)器之心
過(guò)去十年,盡管機(jī)器學(xué)習(xí)已經(jīng)在圖像識(shí)別、決策制定、NLP 和圖像合成等領(lǐng)域取得很多成功,但卻在自動(dòng)駕駛技術(shù)領(lǐng)域沒(méi)有太多進(jìn)展。這是哪些原因造成的呢?近日,Lyft 旗下 Level 5 自動(dòng)駕駛部門的研究者對(duì)這一問(wèn)題進(jìn)行了深入的探討。他們提出了自動(dòng)駕駛領(lǐng)域的「Autonomy 2.0」概念:一種機(jī)器學(xué)習(xí)優(yōu)先的自動(dòng)駕駛方法。
論文地址:
https://arxiv.org/pdf/2107.08142.pdf
自 2005 至 2007 年的 DARPA 超級(jí)挑戰(zhàn)賽(DARPA Grand Challenge,由美國(guó) DARPA 部門出資贊助的無(wú)人駕駛技術(shù)大獎(jiǎng)賽)以來(lái),自動(dòng)駕駛汽車(SDV)就已經(jīng)成為了一個(gè)活躍的研究領(lǐng)域,并經(jīng)常成為頭條新聞。許多企業(yè)都在努力開發(fā) Level 4 SDV,有些企業(yè)已經(jīng)在該領(lǐng)域耕耘了十多年。
已經(jīng)有一些研究展示了小規(guī)模的 SDV 測(cè)試,雖然很多預(yù)測(cè)都認(rèn)為「僅需要 5 年就可以迎來(lái)無(wú)處不在的 SDV 時(shí)代」,但應(yīng)看到生產(chǎn)級(jí)的部署似乎依然遙不可及。鑒于發(fā)展進(jìn)程受限,我們不可避免地會(huì)遇到一些問(wèn)題,比如為什么研究社區(qū)低估了問(wèn)題的困難度?當(dāng)今 SDV 的發(fā)展中是否存在一些根本性的限制?
在 DARPA 挑戰(zhàn)賽之后,大多數(shù)業(yè)內(nèi)參與者將 SDV 技術(shù)分解為 HD 地圖繪制、定位、感知、預(yù)測(cè)和規(guī)劃。隨著 ImageNet 數(shù)據(jù)庫(kù)帶來(lái)的各種突破,感知和預(yù)測(cè)部分開始主要通過(guò)機(jī)器學(xué)習(xí)(ML)來(lái)處理。但是,行為規(guī)劃和模擬很大程度上仍然基于規(guī)則,即通過(guò)人類編寫的越來(lái)越詳細(xì)的關(guān)于 SDV 應(yīng)如何驅(qū)動(dòng)的規(guī)則實(shí)現(xiàn)性能提升。一直以來(lái)有種說(shuō)法,在感知非常準(zhǔn)確的情況下,基于規(guī)則的規(guī)劃方法可能足以滿足人類水平的表現(xiàn)。這種方法被稱為 Autonomy 1.0。
圖 3:Autonomy 1.0 的典型技術(shù)堆棧,展示了各個(gè)組件中使用到的 ML 數(shù)量。從圖中可以看到,感知和預(yù)測(cè)組件是基于 ML 的,但規(guī)劃和模擬依然依賴于非擴(kuò)展、基于規(guī)則的系統(tǒng)。
但是,生產(chǎn)級(jí)的性能需要大規(guī)模地?cái)U(kuò)展以發(fā)現(xiàn)和妥當(dāng)處理小概率事件的「長(zhǎng)尾效應(yīng)(long tail)」。研究者認(rèn)為 Autonomy 1.0 無(wú)法實(shí)現(xiàn)這一點(diǎn),原因有以下三點(diǎn):
一是基于規(guī)則的規(guī)劃器和模擬器無(wú)法有效地建模駕駛行為的復(fù)雜度和多樣性,需要針對(duì)不同的地理區(qū)域進(jìn)行重新調(diào)整,它們基本上沒(méi)有從深度學(xué)習(xí)技術(shù)的進(jìn)展中獲得增益;
二是由于基于規(guī)則的模擬器在功效上受限,因此評(píng)估主要通過(guò)路測(cè)完成,這無(wú)疑延遲了開發(fā)周期;
三是 SDV 路測(cè)的成本高昂,且擴(kuò)展性差。
因此,針對(duì)這些擴(kuò)展瓶頸,研究者提出將整個(gè) SDV 堆棧轉(zhuǎn)變成一個(gè) ML 系統(tǒng),并且該系統(tǒng)可以使用包含多樣化且真實(shí)的人類駕駛數(shù)據(jù)的大規(guī)模數(shù)據(jù)集來(lái)訓(xùn)練和離線驗(yàn)證。他們將這個(gè) ML 系統(tǒng)稱為 Autonomy 2.0,它是一個(gè)數(shù)據(jù)優(yōu)先的范式:ML 將堆棧的所有組件(包括規(guī)劃和模擬)轉(zhuǎn)化為數(shù)據(jù)問(wèn)題,并且通過(guò)更好的數(shù)據(jù)集而不是設(shè)計(jì)新的駕駛規(guī)則來(lái)實(shí)現(xiàn)性能的提升。這樣做極大地釋放了處理小概率事件長(zhǎng)尾效應(yīng)和擴(kuò)展至新的地理區(qū)域所需要的擴(kuò)展性,唯一需要做的是收集規(guī)模足夠大的數(shù)據(jù)集并重新訓(xùn)練系統(tǒng)。
Autonomy 1.0 與 Autonomy 2.0 的開發(fā)流程對(duì)比,可以看到 Autonomy 1.0 的可擴(kuò)展性低、SDV 行為由工程師賦予、驗(yàn)證方法為路測(cè)、硬件成本高,而 Autonomy 2.0 的可擴(kuò)展性高、SDV 行為從人類駕駛中學(xué)得、驗(yàn)證方法為離線模擬、硬件成本在可負(fù)擔(dān)范圍內(nèi)。
不過(guò),Autonomy 2.0 也面臨著以下幾項(xiàng)主要挑戰(zhàn):
將堆棧表示為端到端可微網(wǎng)絡(luò);
在閉環(huán)中利用機(jī)器學(xué)習(xí)的模擬器進(jìn)行離線驗(yàn)證;
收集訓(xùn)練這些模擬器需要大量人類駕駛數(shù)據(jù)。
Autonomy 2.0
Autonomy 2.0 是一種 ML 優(yōu)先的自動(dòng)駕駛方法,專注于實(shí)現(xiàn)高可擴(kuò)展性。它基于三個(gè)關(guān)鍵原則:i) 閉環(huán)模擬,即模型從收集的真實(shí)駕駛?cè)罩局袑W(xué)習(xí);ii) 將 SDV 分解為端到端的可微分神經(jīng)網(wǎng)絡(luò);iii) 訓(xùn)練規(guī)劃器和模擬器所用的數(shù)據(jù)是使用商品傳感器大規(guī)模收集的。
數(shù)據(jù)驅(qū)動(dòng)的閉環(huán)反應(yīng)模擬
Autonomy 2.0 中的大部分評(píng)估都是在模擬中離線完成的。基于規(guī)則的模擬具有一些局限性,這與 Autonomy 1.0 對(duì)路測(cè)的依賴形成鮮明對(duì)比。但這并不意味著 Autonomy 2.0 完全放棄了路測(cè),不過(guò)其目標(biāo)在開發(fā)周期中不太突出,主要用于驗(yàn)證模擬器的性能。為了使模擬成為開發(fā)道路測(cè)試的有效替代品,它需要三個(gè)屬性:
適用于任務(wù)的模擬狀態(tài)表征;
能夠以高保真度和強(qiáng)大的反應(yīng)能力合成多樣化和逼真的駕駛場(chǎng)景;
應(yīng)用于新的場(chǎng)景和地域時(shí),性能隨著數(shù)據(jù)量的增加而提升。
模擬結(jié)果必須非常真實(shí),因?yàn)槟M和現(xiàn)實(shí)之間的任何差異都會(huì)導(dǎo)致性能估計(jì)不準(zhǔn)確,但它不需要是照片般逼真的 [29],而是只關(guān)注規(guī)劃器的表示。該研究推斷,為了達(dá)到高水平的真實(shí)感,模擬本身必須直接從現(xiàn)實(shí)世界中學(xué)習(xí)。最近,[28] 展示了如何使用鳥瞰圖表示從先前收集的真實(shí)世界日志中構(gòu)建逼真的和反應(yīng)性的模擬。如圖 4 所示,然后可以部署此模擬將任何日志轉(zhuǎn)換為反應(yīng)式模擬器,用于測(cè)試自動(dòng)駕駛策略。
從人類演示中訓(xùn)練出來(lái)的完全可微的堆棧
Autonomy 1.0 具有手工設(shè)計(jì)的基于規(guī)則的組件,以及感知、預(yù)測(cè)、規(guī)劃和模擬之間的人類可解釋接口。與 之不同,Autonomy 2.0 堆棧完全可以通過(guò)人類演示進(jìn)行訓(xùn)練,因此其復(fù)雜性與訓(xùn)練數(shù)據(jù)量成正比。為了訓(xùn)練這樣一個(gè)系統(tǒng),需要滿足幾個(gè)條件:
每個(gè)組件,包括規(guī)劃,都需要可訓(xùn)練且端到端的可微分;
可使用人工演示進(jìn)行訓(xùn)練;
性能與訓(xùn)練數(shù)據(jù)量成正比。
下圖 5 是完全可微的 Autonomy 2.0 堆棧架構(gòu),可以從數(shù)據(jù)進(jìn)行端到端的訓(xùn)練,而無(wú)需設(shè)計(jì)單個(gè)塊和接口。其中, d、h、f 和 g 是可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。d 和 h 給出了規(guī)劃發(fā)生的場(chǎng)景的潛在表示。f 代表 SDV 和場(chǎng)景中代理的策略。g 是狀態(tài)轉(zhuǎn)移函數(shù)。I_0 是網(wǎng)絡(luò)的輸入,而 {I_1, ··, I_3} 在訓(xùn)練期間提供監(jiān)督。
大規(guī)模低成本數(shù)據(jù)采集
到目前為止討論的系統(tǒng)使用人類演示作為訓(xùn)練數(shù)據(jù),即具有由人類駕駛員選擇的相應(yīng)軌跡的傳感器數(shù)據(jù)作為監(jiān)督。要解鎖生產(chǎn)級(jí)性能,這些數(shù)據(jù)需要具備:
足夠的規(guī)模和多樣性以包括罕見事件的長(zhǎng)尾;
足夠的傳感器保真度,即用于收集數(shù)據(jù)的傳感器需要足夠準(zhǔn)確才能有效地訓(xùn)練規(guī)劃器和模擬器;
足夠便宜,可以以這種規(guī)模和保真度收集。
雖然最近第一個(gè)帶有人類演示的公開數(shù)據(jù)集已發(fā)布,但這些數(shù)據(jù)僅限于幾千英里的數(shù)據(jù)。觀察長(zhǎng)尾可能需要收集數(shù)億英里的數(shù)據(jù),因?yàn)榇蠖鄶?shù)駕駛都是平安無(wú)事的,例如在美國(guó),每百萬(wàn)英里大約有 5 起撞車事故 。
應(yīng)該使用哪些傳感器呢?感知算法的最新進(jìn)展表明,在 KITTI 基準(zhǔn)測(cè)試 [44] 上,高清和商用傳感器(如相機(jī) 和稀疏激光雷達(dá) [42])之間的感知精度差距縮小了,如下表 1 所示。
表 1:收集數(shù)據(jù)時(shí)面臨傳感器可擴(kuò)展性和保真度之間的權(quán)衡,這會(huì)直接影響感知精度
未來(lái)需要解決哪些問(wèn)題
研究者概述了 Autonomy 2.0 的范式,旨在使用 ML 優(yōu)先的方法解決自動(dòng)駕駛問(wèn)題。并且,通過(guò)消除人在回路(human-in-the-loop),這一范式的擴(kuò)展性更強(qiáng),這也是實(shí)現(xiàn)高性能自動(dòng)駕駛汽車技術(shù)的主要痛點(diǎn)。雖然 Autonomy 2.0 范式的發(fā)展前景很好,但依然有需要解決的問(wèn)題,具體如下:
模擬和規(guī)劃的恰當(dāng)狀態(tài)表示是什么?我們應(yīng)如何衡量場(chǎng)景概率?
我們應(yīng)如何檢測(cè)異常值(outlier)以及從未見過(guò)的情況(case)?
與使用搜索進(jìn)行的實(shí)時(shí)推理相比,通過(guò)人類演示進(jìn)行離線訓(xùn)練的極限在哪里?
我們需要在模擬上投入多少?又應(yīng)如何衡量離線模擬本身的性能?
我們?cè)谟?xùn)練高性能規(guī)劃和模擬組件上需要多少數(shù)據(jù)?在大規(guī)模數(shù)據(jù)收集時(shí)又應(yīng)該使用什么傳感器呢?
解答這些問(wèn)題對(duì)于自動(dòng)駕駛和其他現(xiàn)實(shí)世界的機(jī)器人問(wèn)題至關(guān)重要,并且可以激發(fā)研究社區(qū)盡早解鎖高性能 SDV。
編輯:王菁
校對(duì):林亦霖
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
衰減器相關(guān)文章:衰減器原理