新聞中心

EEPW首頁 > 汽車電子 > 業(yè)界動態(tài) > 曾經(jīng)大書特書,馬斯克為何最近不提特斯拉超算Dojo了

曾經(jīng)大書特書,馬斯克為何最近不提特斯拉超算Dojo了

作者: 時間:2025-02-08 來源:網(wǎng)易科技 收藏

2月7日消息,多年來,埃隆·(Elon Musk)一直在談論——這臺將成為人工智能戰(zhàn)略核心的超級計算機。的重要性不言而喻,2024年7月,曾表示,公司團隊將在10月發(fā)布前“加倍投入”,以加速其發(fā)展。

本文引用地址:http://m.butianyuan.cn/article/202502/466728.htm

那么,Dojo究竟是什么?為什么它對的長期戰(zhàn)略如此關鍵?

簡而言之,Dojo是自主研發(fā)的超級計算機,專用于訓練“完全”()神經(jīng)網(wǎng)絡。增強Dojo的計算能力,是特斯拉實現(xiàn)完全并推動落地的重要一環(huán)。目前,已有數(shù)百萬輛特斯拉汽車搭載,能夠執(zhí)行部分任務,但仍然需要駕駛員全程保持注意力。

特斯拉已發(fā)布Cybercab,并計劃于今年6月在奧斯汀推出自有車隊的自動叫車服務。此外,公司在2024年第四季度財報電話會議上表示,計劃于2025年在美國推出無人監(jiān)管的服務。

曾強調(diào),Dojo是實現(xiàn)完全自動駕駛的關鍵。然而,如今特斯拉似乎已接近這一目標,他卻對Dojo保持沉默。

自2024年8月起,業(yè)界的關注點已轉(zhuǎn)向Cortex——特斯拉在奧斯汀總部打造的全新訓練超級集群,旨在解決現(xiàn)實世界的問題。馬斯克表示,Cortex將具備“海量存儲能力”,專用于訓練FSD和Optimus機器人。

在2024年第四季度股東會上,特斯拉更新了Cortex的進展,卻未提及Dojo。特斯拉正大舉投資AI、Dojo和Cortex,以推進汽車及人形機器人的自動化。考慮到電動車市場競爭日益激烈,特斯拉未來的成功很大程度上取決于其在AI領域的突破。因此,深入了解Dojo、Cortex及其發(fā)展現(xiàn)狀,變得尤為重要。

Dojo的背景

馬斯克的目標遠不止于造車,他希望特斯拉成為一家AI公司,通過模擬人類感知,破解自動駕駛的核心難題。

目前,大多數(shù)自動駕駛企業(yè)依賴多種傳感器(如激光雷達、雷達和攝像頭)及高精度地圖進行定位,而特斯拉堅持僅依靠攝像頭采集視覺數(shù)據(jù),并通過神經(jīng)網(wǎng)絡進行處理,從而實現(xiàn)自動駕駛。

特斯拉前AI負責人安德烈·卡帕西(Andrej Karpathy)在2021年AI Day上曾表示,公司試圖“從零開始構(gòu)建一種合成動物”。

相比之下,Alphabet旗下Waymo等公司已通過傳感器與機器學習的傳統(tǒng)方法,商業(yè)化L4級自動駕駛汽車,可在特定條件下實現(xiàn)完全無人駕駛。但特斯拉至今尚未推出不需要駕駛員的自動駕駛系統(tǒng)。

目前,約180萬用戶支付8000至1.5萬美元訂閱FSD。特斯拉計劃通過Dojo訓練AI軟件,并以OTA(無線更新)方式推送至用戶車輛。特斯拉的大規(guī)模部署,使其積累了海量駕駛視頻數(shù)據(jù),以訓練FSD。公司的核心邏輯是:數(shù)據(jù)越多,越接近實現(xiàn)真正的完全自動駕駛。

然而,一些行業(yè)專家對這種“數(shù)據(jù)驅(qū)動”策略持懷疑態(tài)度。

普渡大學硅谷電子與計算機工程教授阿南德·拉格納坦(Anand Raghunathan)表示:“首先,經(jīng)濟成本會成為限制因素,訓練過程很快會變得極其昂貴?!贝送?,他指出,“有些人認為,我們可能會耗盡有價值的數(shù)據(jù)。更多數(shù)據(jù)不等于更多信息,關鍵在于這些數(shù)據(jù)是否真正有助于構(gòu)建更好的模型,以及訓練過程能否有效提煉這些信息?!?/p>

盡管存在這些質(zhì)疑,短期內(nèi)數(shù)據(jù)驅(qū)動的趨勢仍將持續(xù)。而數(shù)據(jù)的增長意味著更高的計算需求,以存儲和處理這些信息,訓練特斯拉的AI模型。這正是Dojo的用武之地。

什么是超級計算機?

Dojo是特斯拉專為人工智能訓練打造的超級計算機系統(tǒng),主要用于FSD神經(jīng)網(wǎng)絡的訓練。其名稱來源于武術(shù)練習場“道場”(Dojo),寓意其作為AI訓練平臺的核心作用。

一臺超級計算機由成千上萬個稱為“節(jié)點”(node)的小型計算機組成。每個節(jié)點都配備自己的中央處理器(CPU)和圖形處理器(GPU)。CPU負責整體管理,而GPU則處理高強度計算任務,例如將復雜運算拆分成多個并行任務。GPU在機器學習領域至關重要,尤其是在FSD模擬訓練中。它們同樣驅(qū)動著大語言模型的發(fā)展,這也是為何生成式人工智能的崛起,使英偉達成為全球市值最高的科技公司之一。

即便特斯拉擁有自己的計算硬件,它仍然大量采購英偉達的GPU來訓練人工智能模型。

特斯拉為何需要超級計算機?

特斯拉采用“純視覺”方案進行自動駕駛,這正是其需要超級計算機的核心原因。FSD神經(jīng)網(wǎng)絡依賴海量駕駛數(shù)據(jù)進行訓練,以識別和分類道路上的物體,并作出駕駛決策。當FSD激活時,神經(jīng)網(wǎng)絡需要持續(xù)實時收集和處理視覺數(shù)據(jù),其處理速度必須與人類的視覺感知能力相匹配。

換句話說,特斯拉希望打造一個數(shù)字化的“人類視覺皮層”及“大腦決策系統(tǒng)”。

要實現(xiàn)這一目標,特斯拉必須存儲并處理從全球車輛收集的海量視頻數(shù)據(jù),并運行數(shù)百萬次模擬訓練AI模型。

目前,特斯拉依賴英偉達GPU支撐其Dojo計算系統(tǒng),但它并不希望完全依賴第三方芯片,原因包括英偉達芯片成本高昂,以及特斯拉希望打造更高效、低延遲的計算系統(tǒng)。因此,公司AI團隊決定開發(fā)自研硬件,以比傳統(tǒng)系統(tǒng)更高效地訓練AI模型。

這一計劃的核心,是特斯拉自主研發(fā)的D1芯片,專為AI計算優(yōu)化。

特斯拉D1芯片:Dojo的計算核心

特斯拉秉持與蘋果類似的理念,認為軟硬件應協(xié)同設計,以提升整體性能。因此,特斯拉致力于擺脫對標準GPU硬件的依賴,轉(zhuǎn)而開發(fā)自家芯片來驅(qū)動Dojo。

2021年,在特斯拉AI Day上,公司發(fā)布了D1芯片——一塊手掌大小的硅芯片。D1芯片由臺積電(TSMC)采用7納米工藝制造。據(jù)特斯拉介紹,該芯片擁有500億個晶體管,芯片面積達645平方毫米,專為高效計算和快速處理復雜任務而設計。

“我們能夠同時進行計算和數(shù)據(jù)傳輸,我們自研的指令集架構(gòu)(ISA)完全針對機器學習任務進行了優(yōu)化,”特斯拉前自動駕駛硬件高級主管甘納什·文卡塔拉馬南(Ganesh Venkataramanan)在2021年AI Day上表示,“這是一款純粹為機器學習打造的芯片?!?/p>

然而,目前D1芯片的性能仍不及英偉達A100 GPU,后者同樣由臺積電采用7納米工藝制造,擁有540億個晶體管,芯片尺寸更大(826平方毫米),因此計算能力略強于D1。

為了進一步提升計算能力和數(shù)據(jù)吞吐量,特斯拉的AI團隊將25顆D1芯片集成為一個計算單元(Tile)。

每個Tile的計算性能為9千萬億次浮點運算/秒(9 petaflops),帶寬達到36太字節(jié)/秒(36TB/s),并內(nèi)置所有所需的電源、冷卻和數(shù)據(jù)傳輸硬件。可以將Tile理解為由25個獨立計算單元組成的“小型超級計算機”。

進一步擴展架構(gòu):

? 6個Tile組成一個機架(Rack)

? 2個機架構(gòu)成一個機柜(Cabinet)

? 10個機柜組成一個ExaPOD超級計算系統(tǒng)

在2022年AI Day上,特斯拉表示,Dojo的計算能力將通過部署多個ExaPOD進行擴展。這些模塊化架構(gòu)共同組成特斯拉的超級計算集群。

此外,特斯拉正在研發(fā)新一代D2芯片,以解決信息流瓶頸。D2芯片將不同的計算單元直接集成至單片硅片上,而非通過互連多個獨立芯片,從而提升計算效率并降低延遲。

特斯拉尚未披露D1芯片的具體訂單量或預計交付數(shù)量,也未公布Dojo全面啟用D1芯片的時間表。

2024年6月,一位用戶在社交平臺X上發(fā)帖稱:“埃隆正在得克薩斯州建造一個巨大的GPU冷卻系統(tǒng)?!瘪R斯克回應稱,特斯拉的目標是在未來18個月內(nèi)實現(xiàn)“50%使用特斯拉自研AI硬件,50%使用英偉達/其他芯片”。其中,“其他”可能包括AMD芯片,這一點得到了馬斯克2024年1月的確認。

Dojo對特斯拉意味著什么?

掌握自研芯片生產(chǎn),意味著特斯拉未來可能以更低成本快速擴展AI算力,特別是在特斯拉與臺積電擴大芯片產(chǎn)能的情況下。

這也意味著,特斯拉未來或許不再依賴英偉達的芯片,畢竟這些芯片價格高昂,且供應日益緊張。

在2024年第二季度財報電話會議上,馬斯克曾表示,英偉達硬件的需求“高得驚人,以至于我們很難穩(wěn)定采購到所需的GPU?!彼a充道:“我非常擔心,我們是否能夠按需獲取足夠的GPU,因此,我們必須加大對Dojo的投入,以確保具備所需的訓練能力?!?/p>

也就是說,盡管特斯拉仍在使用英偉達芯片訓練AI,但它正在努力降低對英偉達的依賴。去年6月,馬斯克在X平臺發(fā)文稱:

“特斯拉今年在AI相關領域的支出大約為100億美元,其中約一半用于內(nèi)部研發(fā),主要涵蓋特斯拉自研AI推理計算機、車輛上的傳感器以及Dojo。至于AI訓練超級計算集群的建設,英偉達硬件約占成本的三分之二。我目前估計,特斯拉今年在英偉達芯片上的采購支出將在30億至40億美元之間?!?/p>

值得注意的是,“推理計算”指的是特斯拉汽車在實時運行過程中執(zhí)行的AI計算,與Dojo負責的AI訓練計算是分開的。

盡管馬斯克對Dojo寄予厚望,他也多次承認,這一項目存在失敗的可能。

從長遠來看,特斯拉或許可以依托AI部門開辟全新的商業(yè)模式。馬斯克曾表示,首個版本的Dojo專為特斯拉計算機視覺數(shù)據(jù)的標注與訓練而設計,這對于FSD和人形機器人Optimus的訓練至關重要,但用途較為局限。

不過,他也透露,未來版本的Dojo將更加適用于通用AI訓練。然而,這也面臨一個重大挑戰(zhàn)——當前幾乎所有AI軟件都是基于GPU架構(gòu)開發(fā)的。如果要讓Dojo用于通用AI模型訓練,就必須對軟件進行重構(gòu)。

除非特斯拉選擇向外部租賃其計算能力,就像AWS和Azure提供云計算服務那樣。事實上,馬斯克在2024年第二季度財報電話會議上提到,他認為“Dojo未來有潛力在算力競爭中與英偉達一較高下?!?/p>

摩根士丹利在2023年9月的一份報告中預測,Dojo可以通過自動駕駛出租車和AI軟件服務等新業(yè)務模式,為特斯拉帶來額外的收入增長,甚至可能為公司市值貢獻5000億美元。

簡而言之,Dojo的芯片不僅是特斯拉的一種戰(zhàn)略保障,未來還有可能帶來可觀的回報。

Dojo進展如何?

此前有報道,特斯拉于2023年7月開始生產(chǎn)Dojo。然而,馬斯克在2023年6月的一篇帖子中表示,Dojo“已經(jīng)上線并執(zhí)行有用任務數(shù)月”。

大約在同一時間,特斯拉曾表示,到2024年2月,Dojo將躋身全球五大最強超級計算機之列。但截至目前,特斯拉尚未公開披露相關信息,因此這一目標是否達成仍存疑。

此外,特斯拉還預計,到2024年10月,Dojo的總計算能力將達到100 ExaFLOPS(每秒100萬億億次浮點運算)。按照計算,假設每塊D1芯片的算力為362 TFLOPS(每秒362萬億次浮點運算),特斯拉需要超過27.6萬塊D1芯片,或約32.05萬塊英偉達A100 GPU,才能達到這一目標。

特斯拉曾在2024年1月承諾投資5億美元,在紐約州布法羅的超級工廠建設一臺Dojo超級計算機。

2024年5月,馬斯克透露,特斯拉奧斯汀超級工廠的后部將留作“超密集水冷超級計算集群”——但現(xiàn)在我們知道,這一空間實際上用于部署Cortex,而非Dojo。

在2024年第二季度財報電話會議結(jié)束后,馬斯克在X平臺上發(fā)文稱,特斯拉AI團隊正在使用Tesla HW4 AI計算機(現(xiàn)更名為AI4),與英偉達GPU結(jié)合進行訓練。他提到,當前訓練集群中包含:

? 90,000塊英偉達H100 GPU

? 40,000臺AI4計算機(即Tesla HW4 AI計算機)

馬斯克補充道:“到年底,Dojo 1的訓練能力將相當于8000塊H100 GPU。這不算龐大,但也不容小覷?!?/p>

截至目前,特斯拉尚未確認這些芯片是否已全面上線并支持Dojo運行。在2024年第四季度財報電話會議上,Dojo甚至未被提及。相反,特斯拉宣布已在Q4完成Cortex的部署,并表示Cortex是推動FSD V13版本實現(xiàn)的關鍵。



評論


相關推薦

技術(shù)專區(qū)

關閉