大模型如何助力自動駕駛數(shù)據(jù)閉環(huán)？

作者：時間：2024-12-13 來源：電車曼曼談

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

生成式AI 大模型進入自動駕駛系統(tǒng)的速度越來越快了。7 月初的智駕系統(tǒng)發(fā)布會上，理想汽車推出了全鏈路一體式端到端+ 視覺語言模型的雙系統(tǒng)方案。7 月23 日的科技創(chuàng)新日上，蔚來汽車推出世界模型NWM，雖然尚未量產(chǎn)，但也宣誓了蔚來汽車要將生成式AI 大模型搬上車端自動駕駛系統(tǒng)的決心。7 月30 日的智駕系統(tǒng)發(fā)布會上，小鵬汽車宣布全量推送搭載大語言模型技術(shù)的XBrain 與XPlanner、XNet 三網(wǎng)合一的端到端大模型。到了10 月下旬，理想汽車全量推送了接棒分段式端到端無圖NOA 方案的雙系統(tǒng)方案。至此，頭部智駕車企以生成式AI 大模型解決傳統(tǒng)端到端方案缺陷的技術(shù)路線已經(jīng)相當明朗了，不過，這并非生成式AI大模型與自動駕駛領域的初次相遇，更早之前，世界模型和大語言模型就已經(jīng)用在了自動駕駛系統(tǒng)的數(shù)據(jù)閉環(huán)里。

本文引用地址：http://m.butianyuan.cn/article/202412/465475.htm

在這樣的語境和事實下，兩個值得探討的問題是：大模型為什么能夠用于自動駕駛數(shù)據(jù)閉環(huán)，大模型又是怎樣助力數(shù)據(jù)閉環(huán)的呢？

1 數(shù)據(jù)閉環(huán)與大模型的適配

時代的變遷從來都不是忽如一夜春風來，千樹萬樹梨花開，是一天又一天潤物細無聲的悄然改變，讓你在多日之后回頭一看方驚覺已經(jīng)變了天。自動駕駛技術(shù)路線的變遷也像郭德綱成名那樣，并非發(fā)生在具體的哪一天，而是發(fā)生在每一個夜晚。隨著自動駕駛系統(tǒng)中感知定位、決策規(guī)劃和控制模塊的實現(xiàn)方式由基于規(guī)則的代碼向AI 模型慢慢轉(zhuǎn)變，自動駕駛系統(tǒng)開發(fā)范式也從規(guī)則驅(qū)動逐漸過渡到了數(shù)據(jù)驅(qū)動，自動駕駛系統(tǒng)越來越依賴數(shù)據(jù)驅(qū)動，意味著數(shù)據(jù)閉環(huán)對自動駕駛系統(tǒng)越來越關(guān)鍵了。

圖片來源：地平線

所謂數(shù)據(jù)閉環(huán)，指的是從數(shù)據(jù)采集到存儲，到挖掘、標注、模型訓練，再到仿真驗證、集成部署的整個開發(fā)工作流。數(shù)據(jù)閉環(huán)完成的是對數(shù)據(jù)價值的提取工作，其本質(zhì)是將隱藏在一個又一個駕駛數(shù)據(jù)片段中的人類駕駛知識慢慢地乾坤大挪移到自動駕駛系統(tǒng)模型的參數(shù)文件里。

圖片來源：輝羲智能

在海量數(shù)據(jù)驅(qū)動的端到端大模型時代。如何高效地采集、處理數(shù)據(jù)，如何高效地訓練模型并驗證模型能力成了決定系統(tǒng)迭代速度的關(guān)鍵。顯然，決定數(shù)據(jù)采集和價值提取效率的數(shù)據(jù)閉環(huán)，決定著自動駕駛系統(tǒng)能力升級的效率。提到效率，AI大模型的價值之一就是變革工作流，提升各個環(huán)節(jié)的效率，所以，AI大模型順理成章地被各路玩家應用到了自動駕駛的數(shù)據(jù)閉環(huán)里。

圖片來源：華為

在《技術(shù)的本質(zhì)》一書里，作者鮮明地指出，技術(shù)方案的一端連著用戶需求，另一端連著技術(shù)的能力。將這種認知方法論套用過來，對于自動駕駛數(shù)據(jù)閉環(huán)而言，鏈條的一端是目的或需求，數(shù)據(jù)閉環(huán)的需求在于數(shù)據(jù)標注和挖掘、模型訓練和仿真，鏈接的另一端是能夠達到目的或滿足需求的技術(shù)能力，大模型的技術(shù)能力在于帶來了兩個關(guān)鍵能力的根本性提升：超強的理解能力和超強的生成能力。

所以，就大模型的技術(shù)能力和自動駕駛數(shù)據(jù)閉環(huán)需求的匹配而言，大模型超強的理解能力可以滿足數(shù)據(jù)標注、場景挖掘的需求，其超強的生成能力可以滿足用于模型訓練與仿真的場景重建和生成。那么，展開來講，大模型是如何加持自動駕駛數(shù)據(jù)閉環(huán)的數(shù)據(jù)標注、場景挖掘、場景重建和生成的呢？

2 大模型賦能數(shù)據(jù)標注和場景挖掘

數(shù)據(jù)標注的主要作用在于從原始圖像、雷達數(shù)據(jù)中生成精標數(shù)據(jù)，通過精確標注的數(shù)據(jù)構(gòu)建模型的訓練集、驗證集和測試集，用于自動駕駛模型的訓練和評估。具體而言，在自動駕駛模型的訓練中，通過精標訓練數(shù)據(jù)集提供的真值和模型輸出做對比，計算損失函數(shù)，再以反向傳播的方式更新模型的參數(shù)，使得模型輸出可以愈來愈逼近訓練數(shù)據(jù)的真值。在自動駕駛模型的性能評估和驗證中，通過標注數(shù)據(jù)構(gòu)建驗證集和測試集，將模型預測結(jié)果與標注的真實結(jié)果作比較，評估模型的性能。

圖片來源：高通

場景挖掘的主要作用是搜索或檢索帶有相似語義標簽的場景數(shù)據(jù)，在模型訓練階段，通過特定場景庫的訓練讓自動駕駛模型學習該類場景的特征，提升在該類場景下的感知、決策準確性和泛化能力。在模型驗證和評估階段，通過場景挖掘構(gòu)建測試場景庫，驗證模型是否可以有效應對此類場景。如果拿日常生活片段做類比，數(shù)據(jù)標注是將所有衣物都進行清洗，場景挖掘則是建立一個又一個帶標簽的小抽屜，把這些衣物分門別類地放在了小抽屜里。

圖片來源：特斯拉

早在幾年前，頭部玩家們就已經(jīng)借助AI 能力實現(xiàn)了自動標注，相較于傳統(tǒng)的人工標注，自動標注的效率提高了幾個數(shù)量級。

大模型問世之后，通過海量數(shù)據(jù)的預訓練和精標數(shù)據(jù)的精調(diào)訓練，具有圖文理解能力的大模型可以進一步提高標注的速度和準確性。更為難得的是，為了挑戰(zhàn)OpenAI，部分大模型頭部玩家采用了開源的戰(zhàn)略，使得自動駕駛行業(yè)的從業(yè)者們可以奉行拿來主義，近乎于直接采用具備精確標注能力的開源大模型進行數(shù)據(jù)標注。

圖片來源：一汽紅旗

大模型對場景挖掘的加持主要得益于圖文大模型的場景理解能力。借助之前那個小抽屜的比喻，場景挖掘的核心工作是給視頻片段打標簽、做分類，大模型具備超強的語義理解能力，可以代替人工打標簽，以極高的效率完成對海量視頻片段的處理。

圖片來源：百度

3 大模型賦能場景重建和生成

自動駕駛系統(tǒng)能力提升的過程是覆蓋一個又一個長尾場景的過程。長尾場景遵循動態(tài)的定義，因人而異，因時而異，對比亞迪智駕系統(tǒng)成立的長尾場景對華為ADS和小鵬XNGP不一定成立，對半年前的智駕系統(tǒng)成立的長尾場景對今天的智駕系統(tǒng)也未必成立。簡而言之，系統(tǒng)處理不了的都是長尾場景，處理得了，無論場景有多么復雜，也不再稱其為長尾場景。

雖然現(xiàn)實世界千奇百怪，但是，大部分人過的都是一個又一個平平淡淡的日子，換言之，通過真實車輛收集駕駛長尾場景的速度實在太慢了。根據(jù)頭部智駕方案供應商Momenta的估計，自動駕駛系統(tǒng)要達到L4 等級，需要1,000 億公里的累計駕駛里程才能收集完罕見長尾問題。目前，國內(nèi)累計智駕里程最多的理想汽車累計里程也不過才25億公里，和1000億公里還有著遠超十萬八千里的差距。

既然通過真實車輛收集長尾場景的時間太漫長，那么，秉持“有困難要上，沒有困難創(chuàng)造困難也要上”的態(tài)度，可以以虛擬仿真和數(shù)字孿生的方式制造長尾場景，利用大模型的生成能力將Corner case 變成小case。具體的，首先通過3D 高斯濺射或Nerf 神經(jīng)輻射場重建駕駛場景，然后利用大模型的生成能力對重建的駕駛場景做泛化，做數(shù)據(jù)增強，生成各種天氣、光照、交通參與者下的長尾場景。

圖片來源：地平線

寫在最后

過去領跑自動駕駛賽道的玩家更早地布局自動駕駛數(shù)據(jù)閉環(huán)的建設，再加上代表自動駕駛最新技術(shù)路線的端到端更加依賴數(shù)據(jù)驅(qū)動，所以，雖然大模型對各家自動駕駛數(shù)據(jù)閉環(huán)的各個階段都能有所助益，但是，從大模型這個大家伙那里獲得最大收益的，依然是頭部玩家華為、特斯拉、蔚小理！

圖片來源：Momenta

（注：本文來源于《EEPW》202412）

新聞中心

大模型如何助力自動駕駛數(shù)據(jù)閉環(huán)？

評論

相關(guān)推薦

技術(shù)專區(qū)