獨家 | 達摩院后的下一站：陳俊波推出具身智能大模型，要給所有機器人做一顆腦袋

發(fā)布人：機器之心時間：2023-08-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

「麻煩借過一下，謝啦。」對于很多大學(xué)生來說，這是一個熟悉的聲音。它來自阿里的「小蠻驢」無人駕駛物流機器人。該機器人 2016 年開始路測，如今已累計送達快遞上千萬件，為阿?奠定了快遞配送機器?第?的地位。

但今年 3 月份，它背后的靈魂技術(shù)人物、原阿里達摩院自動駕駛負責(zé)人陳俊波卻被爆出離職創(chuàng)業(yè)的消息。消息稱，他與前阿里機器人 CEO 谷祖林等人共同創(chuàng)辦了一家名為「有鹿機器人」的新公司，至于這家公司具體做什么，外界沒有得到確切答復(fù)。近期，抱著這個疑問，機器之心與陳俊波展開了深入對談。在對談中，陳俊波透露，他要做的并不是某一款機器人，而是一個放到任何傳統(tǒng)自動化設(shè)備（比如清掃車、挖掘機、鏟車等）上都能正常運轉(zhuǎn)的通用機器人「腦袋」。這個「腦袋」可以跨模態(tài)、跨場景、跨行業(yè)，具有極強的環(huán)境適應(yīng)性，就像《變形金剛》里的「火種」一樣。從上述傳統(tǒng)設(shè)備當前的智能化率來看，這個「腦袋」一旦做出來，有望服務(wù)于上億臺設(shè)備。

「火種」是《變形金剛》里的能量塊，是變形金剛最基本也是最神秘的組成部分，火種賜予變形金剛具體的身形、意識及生命。
當然，這也意味著更大的技術(shù)考驗。因此，在過去的大半年的時間里，陳俊波帶領(lǐng)「有鹿」一頭扎進了比自動駕駛更復(fù)雜的「具身智能」領(lǐng)域，希望借助大模型的力量賦予機器人在物理世界完成更多任務(wù)的能力，把類似 ChatGPT 的能力擴展到物理世界。具身智能：AI 領(lǐng)域的下一個「北極星問題」
生物的進化總能給智能的研究帶來很多啟發(fā)。過去 5.4 億年來，地球上所有的生物都是通過身體逐步產(chǎn)生智能的。有了身體，智能體就可以在快速變化的環(huán)境中移動、導(dǎo)航、生存、操縱和做出改變。相比之下，沒有身體的智能體只能「旁觀」，很難適應(yīng)現(xiàn)實世界。因此，人工智能研究也自然而然地走向了「具身」的道路。人們希望機器人也能像生物體一樣，通過與環(huán)境交互以及自身的學(xué)習(xí)，產(chǎn)生對于客觀世界的理解和改造能力。具身智能也被斯坦福大學(xué)教授李飛飛定義為 AI 領(lǐng)域的下一個「北極星問題」之一。

圖源：《為什么說具身智能是通往 AGI 值得探索的方向？上海交大教授盧策吾深度解讀》不過，由于涉及學(xué)科眾多，具身智能在過去的幾十年里并沒有取得很大進展。直到最近幾年，情況才有所改變，尤其是在「大模型 + 機器人」的組合流行起來之后。谷歌的 PaLM-E、斯坦福的 VoxPoser 都是基于大模型構(gòu)造的具身智能體。它們能夠直接「聽懂」自然語言指令，并將其拆解成若干個動作來完成，準確率已經(jīng)達到了相當高的水平。

斯坦福大學(xué)李飛飛團隊的 VoxPoser 機器人。
作為阿里內(nèi)部「最早領(lǐng)潮自動駕駛的人」，陳俊波也一直在關(guān)注具身智能領(lǐng)域，畢竟自動駕駛車也是具身智能的重要載體。其多年來不斷積累的多模態(tài)學(xué)習(xí)、強化學(xué)習(xí)等能力在具身智能領(lǐng)域至關(guān)重要。在陳俊波看來，「大模型 + 機器人」組合的成功其實意味著具身智能領(lǐng)域正在經(jīng)歷一場范式轉(zhuǎn)變，基于 Transformer 架構(gòu)的極具表達能力的模型、互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)都是推動這一轉(zhuǎn)變的關(guān)鍵力量。但是，要想在物理世界充分利用這些力量，現(xiàn)有的工作做得還遠遠不夠。從實驗室到現(xiàn)實世界，具身智能還有哪些工作要做？
陳俊波以谷歌的 PaLM-E 為例，向我們展示了現(xiàn)有的具身智能大模型存在哪些改進空間。這個模型集成了參數(shù)量 540B 的 PaLM 和參數(shù)量 22B 的視覺 Transformer（ViT），使用文本和來自機器人傳感器的多模態(tài)數(shù)據(jù)（比如圖像、機器人狀態(tài)、場景環(huán)境信息等）作為輸入，輸出以文本形式表示的機器人運動指令，進行端到端的訓(xùn)練。

它的結(jié)構(gòu)如下圖中間部分所示：綠色的部分用來編碼機器人本身的狀態(tài)，包括底盤、機械臂的位置等狀態(tài)量；傳感器捕捉到的圖像由一個 ViT 模型來編碼（圖中藍色部分）。給定這些條件，人類就可以發(fā)出一個自然語言指令，比如「如何抓起藍色的木塊」，然后這個指令就會被編碼為嵌入，并經(jīng)過一個 CoT（chain of thought）的過程被轉(zhuǎn)換為一系列動作。這些動作會由一個動作****（圖中的紫色部分）來執(zhí)行，它會把每個步驟的指令轉(zhuǎn)化為機器人的扭矩等參數(shù)。

經(jīng)過測試，整個模型完成任務(wù)的成功率接近 80%。作為一個端到端的框架，「這是一個讓人覺得非常不可思議的工作，」陳俊波評價說。但在實際的工作場景中，80% 的成功率離落地還有很大距離，「想象一下，如果說我下發(fā) 100 個任務(wù)，它有 20 個都失敗了…… 而且，這還是在實驗室的場景下，」陳俊波說到。究竟是哪里出了問題？陳俊波指出了兩個關(guān)鍵點。第一個問題是，在傳感器圖像和文本 prompt 輸入的處理上，PaLM-E 只是將 VLM 與 LLM 簡單拼合，做隱式建模。前者輸出的是抽象等級很低的像素級的特征，后者輸出的是抽象等級很高的自然語言級別的特征，二者直接拼合會帶來不匹配的問題，導(dǎo)致模型的泛化能力非常有限?！赣芯湓捊幸粓D勝千言，就是說圖像里面包含太多的細節(jié)，不可能用一個一個的文本就很簡單地把它們對應(yīng)起來，」陳俊波解釋說。具體來說，PaLM-E 使用 ViT 來處理圖像，ViT 會把整個圖像切分成小的圖塊（patch），然后從每個圖塊中提取出關(guān)于圖像的基礎(chǔ)細節(jié)特征，比如顏色、邊緣、紋理，這些特征是「low level」的。與之對應(yīng)，圖像中還有很多「high level」特征，比如不同物體之間的幾何關(guān)系、現(xiàn)實世界里的物理學(xué)規(guī)律、交通參與者的意圖…… 這是無法做顯式建模的 ViT 所提取不到的，這是它編碼物理世界的一個缺陷。在 Prompt 的處理上，雖然 PaLM-E 會把人的高級指令拆解為更詳細的指令，但這一步的輸出仍然是自然語言。自然語言的問題在于，它是一種高度抽象、模糊的系統(tǒng)，「比如說『人類』雖然只有四個字節(jié)，卻囊括了地球上幾十億的人類，」陳俊波解釋說。這不僅和 ViT 輸出的「low level」的特征不匹配，對于底層控制器來說也不夠友好，后者需要更具體、更精確的指令來執(zhí)行任務(wù)。第二個問題是，PaLM-E 的動作****存在天然缺陷，無法從海量無標簽的機器人數(shù)據(jù)中學(xué)習(xí)，也無法擴展到交互場景。這是因為，PaLM-E 的動作****采用了一個名為「RT-1」（Robotics Transformer-1）的模型，這個模型接收自然語言和圖像作為輸入，輸出機器人運動指令（底盤位置和機械臂末端位置）。局限在于，這個模型是采用模仿學(xué)習(xí)的方式訓(xùn)練出來的，而模仿學(xué)習(xí)本質(zhì)上屬于監(jiān)督學(xué)習(xí)，因此無法在海量無標注數(shù)據(jù)上學(xué)習(xí)。最近公布的 RT-2 模型使用了更多的訓(xùn)練數(shù)據(jù)（在原來示教數(shù)據(jù)的基礎(chǔ)上增加了互聯(lián)網(wǎng)級別的 VQA 數(shù)據(jù)），將模型在沒見過（Unseen）的任務(wù)上的成功率從 32%（RT-1）提高到了 62%。如果將 PaLM-E 中的動作****組件換成 RT-2，PaLM-E 的泛化能力想必也會大幅提升。但陳俊波指出，這并不會從根本上解決問題，因為在學(xué)習(xí)機器人數(shù)據(jù)時，它本質(zhì)上用到的還是模仿學(xué)習(xí)。

此外，模仿學(xué)習(xí)學(xué)到的函數(shù)針對一個固定的輸入只能輸出一個或一組固定的動作，而交互場景要求針對相同的輸入，根據(jù)交互對象的選擇動態(tài)調(diào)整輸出，所以模仿學(xué)習(xí)學(xué)到的模型本質(zhì)上無法在交互博弈場景中工作，而這項能力又是具身智能機器人走出實驗室所必需的。已經(jīng)在園區(qū)跑起來的 LPLM
陳俊波在具身智能方向的工作主要圍繞以上待解決的問題展開。具體來說，他提出了一個名為「LPLM」（large physical language model）的大模型。整個模型的架構(gòu)如下所示：

首先，這個模型會把物理世界抽象到一個很高的程度，確保這些信息能跟 LLM 里特征的抽象等級對齊，做顯式建模，從而實現(xiàn)很好的融合?；貞浺幌抡Z言學(xué)中的能指（用以表示抽象概念的語言符號，比如「人」這樣一個單詞）和所指（語言符號所表示的具體事物，比如圖像空間中的每一個人）的概念，LPLM 將物理世界中每一個所指的實體顯式建模為 token，編碼幾何、語義、運動學(xué)與意圖信息，相當于在物理世界建模了一套全新的語言體系。具體來說，這種對齊是通過多種方式來實現(xiàn)的，包括利用點云等多模態(tài)數(shù)據(jù)捕捉幾何信息；在多幀甚至無限幀數(shù)據(jù)之間做時序融合以跟蹤實體在不同時間點的變化，捕捉其運動學(xué)和動力學(xué)約束關(guān)系；在空間中建模各個實體之間的關(guān)系，從而捕捉它們在交互博弈環(huán)境中的意圖信息等。

令人興奮的是，LPLM也很好地降維完成了自動駕駛行業(yè)對端到端的技術(shù)追求。比如在一個交通場景中，LPLM 展現(xiàn)了建模物理世界實體意圖方面的能力。在這個場景中，智能車要在有加塞車輛的情況下安全左轉(zhuǎn)，此時模型就需要判斷加塞車輛是否會做出讓行等動作（意圖），才能決定自己下一步的動作。這種交互博弈場景沒有固定答案，需要模型隨機應(yīng)變。
其次，在自然語言指令的編碼上，LPLM 也做出了一些改進，加入了 3D grouding（grouding 可以理解為機器人怎么把用戶的語言對應(yīng)到真實環(huán)境）。以有人問「桌子在哪兒」為例，之前的 visual grounding 方法會把桌子所在區(qū)域的像素高亮出來，但加入了 3D grouding 的 LPLM 會先把三維空間里的幾何關(guān)系恢復(fù)出來，然后再把桌子所在的三維空間作 grounding。這相當于在物理世界中，明確告訴機器人作業(yè)目標在哪兒，在一定程度上彌補了自然語言不夠精確的缺陷。最后，在****的設(shè)計上，為了讓模型具備從海量無標簽數(shù)據(jù)中學(xué)習(xí)的能力，LPLM 的****是通過不斷預(yù)測未來的方式去學(xué)習(xí)的。如此一來，對于任何一段給定的數(shù)據(jù)，任何當前狀態(tài)都是對過去狀態(tài)的自動標注，無需人工示教數(shù)據(jù)。在這一點上，陳俊波談到了 Yann LeCun 的思想 —— 智能的本質(zhì)是預(yù)測 —— 對于自己的啟發(fā)?！敢粋€一兩歲的孩子肯定不知道什么是萬有引力，但通過長期的實踐和觀察（比如扔?xùn)|西），他的身體已經(jīng)知道了。我們也是用同樣的方法教機器人學(xué)習(xí)，」陳俊波談到。那么，這一套方法到底有沒有效？陳俊波已經(jīng)用他們的第一款產(chǎn)品 —— 有鹿智能清潔機器人給出了答案。和傳統(tǒng)的只能進行全覆蓋清掃和巡檢清掃的室外清潔機器人不同，內(nèi)置了 LPLM 大模型的有鹿機器人支持隨叫隨到的清掃模式，比如你可以讓它「去 1 號樓清掃一下落葉」，或者說「路邊有點臟，貼邊清掃一下吧」，機器人都能聽懂，并且能在充滿行人、車輛的園區(qū)交互博弈環(huán)境中安全穿行，功耗僅 50 瓦。這體現(xiàn)了該機器人對語言語義、物理環(huán)境及行為意圖的融合理解。據(jù)悉，這款機器人將在即將到來的杭州亞運會上亮相。

給所有機器人做一顆腦袋
當然，對于陳俊波來說，將內(nèi)置 LPLM 大模型的「腦袋」安在清潔機器人身上只是一個開始。未來，這套方案還將擴展到挖掘機、鏟車等傳統(tǒng)設(shè)備上。在他看來，比起開發(fā)一款服務(wù)于單個場景的完整產(chǎn)品，開發(fā)一個通用的腦袋具有更大的社會價值。

有鹿的機器人大腦多種應(yīng)用場景

在談到這件事情的可行性時，陳俊波提到，雖然表面看起來這是一些跨模態(tài)、跨場景、跨行業(yè)的設(shè)備，但當模型對于物理世界的理解提升到三維甚至四維，很多共性的東西就可以被提取出來。這種情況下，以 LPLM 為代表的具身大模型相當于充當了物理世界的 Foundation model。此外，有鹿還定義了一個通用的硬件標準，這個標準會兼容現(xiàn)在所有的設(shè)備廠商。

不過，眼前還有很多待解決的問題，比如海量機器人數(shù)據(jù)如何獲??？這也是有鹿在很短的時間內(nèi)就推出第一款產(chǎn)品的一大原因。他們希望借助這些產(chǎn)品盡快讓數(shù)據(jù)飛輪轉(zhuǎn)起來，就像很早就開放 API 接口的 GPT 類產(chǎn)品一樣。

在早年和蔣昌建談夢想的時候，陳俊波說，他希望未來?類會像擁有個?電腦?樣擁有機器?。一路走來，他已經(jīng)越來越接近自己的夢想。當初做小蠻驢的時候，他也經(jīng)歷了「機器一直掉螺絲，送不出幾個包裹」的階段，但到了 2022 年，平均每秒鐘都會有兩位消費者收到小蠻驢送出的包裹，這款產(chǎn)品也讓陳俊波看到了具身智能背后巨大的市場空間。

其實，和小蠻驢所處的物流領(lǐng)域一樣，很多傳統(tǒng)行業(yè)對具身智能機器人都有著強烈的需求。這些行業(yè)擁有海量的存量專業(yè)設(shè)備和專業(yè)機器人，也積累了豐富的行業(yè)經(jīng)驗和渠道品牌，只是設(shè)備的智能化率仍有很大的提升空間，而具身智能的快速發(fā)展有望為這些行業(yè)帶來一場大范圍的智能化升級。憑借多年來在具身智能領(lǐng)域的探索經(jīng)驗，陳俊波希望能與這些行業(yè)的企業(yè)家一起，迎接這場升級過程中的挑戰(zhàn)與機遇。

參考鏈接：https://mp.weixin.qq.com/s/MM_VLWmrrxev1zWuLKZZUQhttps://hub.baai.ac.cn/view/15855https://mp.weixin.qq.com/s/2ASdgAER2EYsmjipIiVyDg

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

獨家 | 達摩院后的下一站：陳俊波推出具身智能大模型，要給所有機器人做一顆腦袋

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

獨家 | 達摩院后的下一站：陳俊波推出具身智能大模型，要給所有機器人做一顆腦袋

相關(guān)推薦

技術(shù)專區(qū)

獨家 | 達摩院后的下一站：陳俊波推出具身智能大模型，要給所有機器人做一顆腦袋