承認特斯拉自動駕駛標桿的地位很難嗎？

作者：電車曼曼談時間：2024-07-26 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在過去幾年的時間里，特斯拉始終引領(lǐng)著自動駕駛技術(shù)路線的轉(zhuǎn)變。2021年，從基于CNN的機器視覺到基于Transformer的BEV，2022年，從BEV矢量空間到感知粒度更精細的OCC占位空間，到這里，自動駕駛系統(tǒng)中的感知模塊基本完成了端到端，2023年，特斯拉實現(xiàn)決策規(guī)劃端到端，并再度轉(zhuǎn)向全鏈路端到端，每一次，特斯拉都走在了國內(nèi)友商的前列腺上面。

本文引用地址：http://m.butianyuan.cn/article/202407/461427.htm

感性的人不服氣，華為、小鵬們?yōu)槭裁匆冯S特斯拉的技術(shù)路線，就不能特立獨行一點，走出屬于自己的一片天？理性的人在思考，為什么每一次技術(shù)路線切換的發(fā)起者都是特斯拉，難道馬斯克坐著時光機到未來旅行過嗎？

感性可以幫助人們發(fā)泄情緒，理性可以幫助我們更好地認識世界、解決問題，今天，咱們就從理性的角度出發(fā)，捋一捋在過去的幾年中智能駕駛行業(yè)發(fā)生的歷次技術(shù)路線轉(zhuǎn)變及其背后的時間線。

相機視圖到BEV視圖

據(jù)說，人類一思考，上帝就發(fā)笑，所以，人人都可以事后諸葛亮，卻不可能事中擁有上帝視角。人類的世界是這樣，機器的世界卻未必然也。在諸多傳感器加持之下的自動駕駛汽車，雖不能耳聽八方，卻可以眼觀六路，妥妥地具有了上帝視角。

這個上帝視角便是三維空間下的BEV、鳥瞰視圖。

圖片來源：特斯拉

BEV之前的感知算法依靠深度卷積神經(jīng)網(wǎng)絡完成在各個攝像頭的二維圖像中進行圖像分割、語義識別，然后進行后融合，這種算法很難精確辨別時空交織環(huán)境下各個交通參與者之間的關(guān)聯(lián)，難以識別暫時被遮擋的車輛、行人，這就導致了自動駕駛功能橫向（設(shè)計運行域）和縱向（功能集）擴展上的困難，直到2017年Transformer大模型的問世，可以在空間上有效地對各個攝像頭的多尺度圖片特征進行匹配，在時間上對前后幀進行時序上的匹配。才解決了4維（空間三維+時間）空間下交通環(huán)境的有效感知。

圖片來源：吉利

至于為何基于Transformer架構(gòu)的BEV的量產(chǎn)落地被特斯拉搶了先，現(xiàn)在來看，大致有兩個方面的原因。

其一，特斯拉率先洞察了Transformer架構(gòu)的價值。

有例為證，據(jù)事后披露，當時的OpenAI首席科學家IIya（被馬斯克挖來的）在Transformer架構(gòu)剛問世就直覺性地意識到了這種模型架構(gòu)的巨大價值，并開始基于Transformer架構(gòu)做大語言模型，作為OpenAI聯(lián)合創(chuàng)始人的馬斯克與OpenAI當時正處于蜜月期。

其二，與CNN相比，Transformer大模型非常消耗算力，非普通芯片所能承擔。

特斯拉2019年量產(chǎn)的HW3.0算力已經(jīng)達到了144TOPS，時隔兩年后，國內(nèi)車企依賴的英偉達芯片Xavier的算力還只有30TOPS。大概也正是這么個原因，直到更高算力的Orin在2022年批量供貨后，國內(nèi)車企才最終實現(xiàn)了BEV。

圖片來源：特斯拉

落后的不只是蔚小理這類本土車企，國內(nèi)的頭部智能駕駛方案供應商也是在2022年走向了BEV前融合的范式。

圖片來源：元戎啟行

當然，落后的還有華為。說起華為，它落后的原因有些令人心酸。要知道，華為MDC平臺依靠的車端推理芯片是2018年推出的晟騰310，單顆FP16算力只有8TOPS，各個芯片之間依賴現(xiàn)在來看非常落后的PCIe 3.0進行互聯(lián)，算力比特斯拉落后了整整一個數(shù)量級。不過，它能在如此這般落后的算力平臺上將BEV的落地時間縮短到不足一年，說明華為的工程實現(xiàn)能力不是一般地強大。華為之前（現(xiàn)在應該有新芯片了）如何依靠多個單顆算力只有8TOPS的晟騰310做出國內(nèi)領(lǐng)先的自動駕駛系統(tǒng)，至今也是一個迷。

BEV矢量空間到OCC占用空間

和基于CNN的相機視圖后融合路線相比，基于Transformer的BEV前融合在交通場景（靜態(tài)的道路結(jié)構(gòu)和動態(tài)的交通參與者）的感知上有了巨大的進步，但是，BEV依靠大量數(shù)據(jù)訓練識別白名單障礙物的能力，在白名單思想的限制下，無法被BEV有效識別的物體就有可能造成碰撞隱患，而在車輛行駛過程中，優(yōu)先級最高的任務就是防撞。

一個顯而易見的解決方案是通過立體障礙物的檢測識別交通環(huán)境中BEV無法正確感知的通用障礙物，標識出可通行的道路空間，保證自動駕駛中優(yōu)先級最高的子任務-防撞-可以發(fā)揮兜底作用。這個障礙物檢測在特斯拉那里叫做Occupancy Network占用網(wǎng)絡，在華為那里叫做GOD網(wǎng)絡。和BEV算法相比，占用網(wǎng)絡利用特征向量表達空間中的每一個體素，感知顆粒度更精細，通過空間占位的檢測，可以識別白名單障礙物之外的通用障礙物，保證行車的安全。

圖片來源：百度風投

分模塊到端到端

現(xiàn)實真的很魔幻，起步太早，容易成為先烈，變成后來者的墊腳石，時機掌握的恰到好處，才能成為先驅(qū)。明明是英偉達早在2016年就開始率先探索轉(zhuǎn)到端技術(shù)方案，但是人們卻把鮮花和掌聲送給了2023年將端到端自動駕駛方案落地車端的特斯拉。

早在2016年，頭號智駕芯片供應商英偉達就開始研究端到端方案，不過，因為算力不足、數(shù)據(jù)有限等一系列原因，最終無功而返，于2020年放棄了在這條技術(shù)路線上的探索。所以，在FSD V12橫空出世之前，幾乎所有人都認為端到端方案“固然是極好的”，水論文、發(fā)Paper、做Demo都沒問題，但要工程落地到可以大規(guī)模量產(chǎn)推廣的程度，難度實在是太大了。

蜀道難，難于上青天，比上青天更難的是端到端。

早在幾年前就把一輛Roadster發(fā)射上天的硬核特斯拉，可是從來都不信邪的。是端到端真的不行還是你不行？老馬大腿一拍，做一下實驗，燒了幾億美金之后，證明了這是一條可以工程落地、具備更高性能天花板、具有更為出色的持續(xù)學習能力的技術(shù)路線，從此引發(fā)了自動駕駛行業(yè)這一年來的飛速裂變。

特斯拉并不是“端到端”技術(shù)路線的始作俑者，但是，是特斯拉推動著端到端從學術(shù)研究進入了工程實現(xiàn)的層面，所以業(yè)界普遍認為，自動駕駛算法團隊只有兩三百人的特斯拉又雙叒叕地開啟了自動駕駛技術(shù)路線的又一次轉(zhuǎn)變。

目前，國內(nèi)新勢力車企基本已經(jīng)實現(xiàn)了感知層的端到端，目前正在奮力實現(xiàn)（口頭上已經(jīng)實現(xiàn)）決策層的端到端。按照小鵬汽車對XNet、XPlanner、XBrain的介紹，小鵬汽車的端到端目前停留在分模塊階段。

圖片來源：小鵬汽車

至于傳統(tǒng)車企這邊，它們目前的主要發(fā)力方向是BEV+占用網(wǎng)絡，只有將這兩者打磨成熟之后，將動態(tài)BEV、靜態(tài)BEV和通用障礙物占用網(wǎng)絡三網(wǎng)合一，才能實現(xiàn)感知層的端到端，之后才是 AI和編碼結(jié)合的決策層全面神經(jīng)網(wǎng)絡化，實現(xiàn)決策層的端到端，如此實現(xiàn)分模塊的端到端方案之后，才能考慮向全鏈路端到端的轉(zhuǎn)換。當然，作為下一代技術(shù)路線，傳統(tǒng)車企肯定也在密切關(guān)注端到端的進展。

寫在最后

歷數(shù)這幾年來智能駕駛技術(shù)路線的三次轉(zhuǎn)換，BEV思想可以追溯到原本利用相機物理原理通過幾何投影將透視圖轉(zhuǎn)換成俯視圖的傳統(tǒng)方法中，占用網(wǎng)絡的思想提出時間是2019年，至于端到端，如前文所述，英偉達早在2016年就開始了探索。所以，特斯拉并非BEV、OCC、端到端技術(shù)路線的原創(chuàng)者，發(fā)明家的帽子另有所屬，特斯拉斷不會張冠李戴。

但是，在現(xiàn)實的工程世界里，并非條條大路通羅馬，在過去的幾年中，特斯拉確實充當了技術(shù)路線的探索者和排頭兵，給國內(nèi)的友商提前探明了好多坑，從這個角度，尊稱特斯拉一句行業(yè)標桿也不太過分吧。

新聞中心

承認特斯拉自動駕駛標桿的地位很難嗎？

評論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

承認特斯拉自動駕駛標桿的地位很難嗎？

評論

相關(guān)推薦

技術(shù)專區(qū)

承認特斯拉自動駕駛標桿的地位很難嗎？