獨(dú)家 | 達(dá)摩院后的下一站:陳俊波推出具身智能大模型,要給所有機(jī)器人做一顆腦袋
但今年 3 月份,它背后的靈魂技術(shù)人物、原阿里達(dá)摩院自動(dòng)駕駛負(fù)責(zé)人陳俊波卻被爆出離職創(chuàng)業(yè)的消息。消息稱,他與前阿里機(jī)器人 CEO 谷祖林等人共同創(chuàng)辦了一家名為「有鹿機(jī)器人」的新公司,至于這家公司具體做什么,外界沒有得到確切答復(fù)。 近期,抱著這個(gè)疑問,機(jī)器之心與陳俊波展開了深入對(duì)談。 在對(duì)談中,陳俊波透露,他要做的并不是某一款機(jī)器人,而是一個(gè)放到任何傳統(tǒng)自動(dòng)化設(shè)備(比如清掃車、挖掘機(jī)、鏟車等)上都能正常運(yùn)轉(zhuǎn)的通用機(jī)器人「腦袋」。這個(gè)「腦袋」可以跨模態(tài)、跨場景、跨行業(yè),具有極強(qiáng)的環(huán)境適應(yīng)性,就像《變形金剛》里的「火種」一樣。從上述傳統(tǒng)設(shè)備當(dāng)前的智能化率來看,這個(gè)「腦袋」一旦做出來,有望服務(wù)于上億臺(tái)設(shè)備。 「火種」是《變形金剛》里的能量塊,是變形金剛最基本也是最神秘的組成部分,火種賜予變形金剛具體的身形、意識(shí)及生命。
當(dāng)然,這也意味著更大的技術(shù)考驗(yàn)。因此,在過去的大半年的時(shí)間里,陳俊波帶領(lǐng)「有鹿」一頭扎進(jìn)了比自動(dòng)駕駛更復(fù)雜的「具身智能」領(lǐng)域,希望借助大模型的力量賦予機(jī)器人在物理世界完成更多任務(wù)的能力,把類似 ChatGPT 的能力擴(kuò)展到物理世界。 具身智能:AI 領(lǐng)域的下一個(gè)「北極星問題」
生物的進(jìn)化總能給智能的研究帶來很多啟發(fā)。過去 5.4 億年來,地球上所有的生物都是通過身體逐步產(chǎn)生智能的。有了身體,智能體就可以在快速變化的環(huán)境中移動(dòng)、導(dǎo)航、生存、操縱和做出改變。相比之下,沒有身體的智能體只能「旁觀」,很難適應(yīng)現(xiàn)實(shí)世界。因此,人工智能研究也自然而然地走向了「具身」的道路。人們希望機(jī)器人也能像生物體一樣,通過與環(huán)境交互以及自身的學(xué)習(xí),產(chǎn)生對(duì)于客觀世界的理解和改造能力。具身智能也被斯坦福大學(xué)教授李飛飛定義為 AI 領(lǐng)域的下一個(gè)「北極星問題」之一。 圖源:《為什么說具身智能是通往 AGI 值得探索的方向?上海交大教授盧策吾深度解讀》 不過,由于涉及學(xué)科眾多,具身智能在過去的幾十年里并沒有取得很大進(jìn)展。直到最近幾年,情況才有所改變,尤其是在「大模型 + 機(jī)器人」的組合流行起來之后。谷歌的 PaLM-E、斯坦福的 VoxPoser 都是基于大模型構(gòu)造的具身智能體。它們能夠直接「聽懂」自然語言指令,并將其拆解成若干個(gè)動(dòng)作來完成,準(zhǔn)確率已經(jīng)達(dá)到了相當(dāng)高的水平。 斯坦福大學(xué)李飛飛團(tuán)隊(duì)的 VoxPoser 機(jī)器人。
作為阿里內(nèi)部「最早領(lǐng)潮自動(dòng)駕駛的人」,陳俊波也一直在關(guān)注具身智能領(lǐng)域,畢竟自動(dòng)駕駛車也是具身智能的重要載體。其多年來不斷積累的多模態(tài)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等能力在具身智能領(lǐng)域至關(guān)重要。 在陳俊波看來,「大模型 + 機(jī)器人」組合的成功其實(shí)意味著具身智能領(lǐng)域正在經(jīng)歷一場范式轉(zhuǎn)變,基于 Transformer 架構(gòu)的極具表達(dá)能力的模型、互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)都是推動(dòng)這一轉(zhuǎn)變的關(guān)鍵力量。但是,要想在物理世界充分利用這些力量,現(xiàn)有的工作做得還遠(yuǎn)遠(yuǎn)不夠。 從實(shí)驗(yàn)室到現(xiàn)實(shí)世界,具身智能還有哪些工作要做?
陳俊波以谷歌的 PaLM-E 為例,向我們展示了現(xiàn)有的具身智能大模型存在哪些改進(jìn)空間。這個(gè)模型集成了參數(shù)量 540B 的 PaLM 和參數(shù)量 22B 的視覺 Transformer(ViT),使用文本和來自機(jī)器人傳感器的多模態(tài)數(shù)據(jù)(比如圖像、機(jī)器人狀態(tài)、場景環(huán)境信息等)作為輸入,輸出以文本形式表示的機(jī)器人運(yùn)動(dòng)指令,進(jìn)行端到端的訓(xùn)練。
它的結(jié)構(gòu)如下圖中間部分所示:綠色的部分用來編碼機(jī)器人本身的狀態(tài),包括底盤、機(jī)械臂的位置等狀態(tài)量;傳感器捕捉到的圖像由一個(gè) ViT 模型來編碼(圖中藍(lán)色部分)。給定這些條件,人類就可以發(fā)出一個(gè)自然語言指令,比如「如何抓起藍(lán)色的木塊」,然后這個(gè)指令就會(huì)被編碼為嵌入,并經(jīng)過一個(gè) CoT(chain of thought)的過程被轉(zhuǎn)換為一系列動(dòng)作。這些動(dòng)作會(huì)由一個(gè)動(dòng)作****(圖中的紫色部分)來執(zhí)行,它會(huì)把每個(gè)步驟的指令轉(zhuǎn)化為機(jī)器人的扭矩等參數(shù)。
經(jīng)過測(cè)試,整個(gè)模型完成任務(wù)的成功率接近 80%。作為一個(gè)端到端的框架,「這是一個(gè)讓人覺得非常不可思議的工作,」陳俊波評(píng)價(jià)說。但在實(shí)際的工作場景中,80% 的成功率離落地還有很大距離,「想象一下,如果說我下發(fā) 100 個(gè)任務(wù),它有 20 個(gè)都失敗了…… 而且,這還是在實(shí)驗(yàn)室的場景下,」陳俊波說到。 究竟是哪里出了問題?陳俊波指出了兩個(gè)關(guān)鍵點(diǎn)。 第一個(gè)問題是,在傳感器圖像和文本 prompt 輸入的處理上,PaLM-E 只是將 VLM 與 LLM 簡單拼合,做隱式建模。前者輸出的是抽象等級(jí)很低的像素級(jí)的特征,后者輸出的是抽象等級(jí)很高的自然語言級(jí)別的特征,二者直接拼合會(huì)帶來不匹配的問題,導(dǎo)致模型的泛化能力非常有限?!赣芯湓捊幸粓D勝千言,就是說圖像里面包含太多的細(xì)節(jié),不可能用一個(gè)一個(gè)的文本就很簡單地把它們對(duì)應(yīng)起來,」陳俊波解釋說。 具體來說,PaLM-E 使用 ViT 來處理圖像,ViT 會(huì)把整個(gè)圖像切分成小的圖塊(patch),然后從每個(gè)圖塊中提取出關(guān)于圖像的基礎(chǔ)細(xì)節(jié)特征,比如顏色、邊緣、紋理,這些特征是「low level」的。與之對(duì)應(yīng),圖像中還有很多「high level」特征,比如不同物體之間的幾何關(guān)系、現(xiàn)實(shí)世界里的物理學(xué)規(guī)律、交通參與者的意圖…… 這是無法做顯式建模的 ViT 所提取不到的,這是它編碼物理世界的一個(gè)缺陷。 在 Prompt 的處理上,雖然 PaLM-E 會(huì)把人的高級(jí)指令拆解為更詳細(xì)的指令,但這一步的輸出仍然是自然語言。自然語言的問題在于,它是一種高度抽象、模糊的系統(tǒng),「比如說『人類』雖然只有四個(gè)字節(jié),卻囊括了地球上幾十億的人類,」陳俊波解釋說。這不僅和 ViT 輸出的「low level」的特征不匹配,對(duì)于底層控制器來說也不夠友好,后者需要更具體、更精確的指令來執(zhí)行任務(wù)。 第二個(gè)問題是,PaLM-E 的動(dòng)作****存在天然缺陷,無法從海量無標(biāo)簽的機(jī)器人數(shù)據(jù)中學(xué)習(xí),也無法擴(kuò)展到交互場景。 這是因?yàn)椋琍aLM-E 的動(dòng)作****采用了一個(gè)名為「RT-1」(Robotics Transformer-1)的模型,這個(gè)模型接收自然語言和圖像作為輸入,輸出機(jī)器人運(yùn)動(dòng)指令(底盤位置和機(jī)械臂末端位置)。局限在于,這個(gè)模型是采用模仿學(xué)習(xí)的方式訓(xùn)練出來的,而模仿學(xué)習(xí)本質(zhì)上屬于監(jiān)督學(xué)習(xí),因此無法在海量無標(biāo)注數(shù)據(jù)上學(xué)習(xí)。 最近公布的 RT-2 模型使用了更多的訓(xùn)練數(shù)據(jù)(在原來示教數(shù)據(jù)的基礎(chǔ)上增加了互聯(lián)網(wǎng)級(jí)別的 VQA 數(shù)據(jù)),將模型在沒見過(Unseen)的任務(wù)上的成功率從 32%(RT-1)提高到了 62%。如果將 PaLM-E 中的動(dòng)作****組件換成 RT-2,PaLM-E 的泛化能力想必也會(huì)大幅提升。但陳俊波指出,這并不會(huì)從根本上解決問題,因?yàn)樵趯W(xué)習(xí)機(jī)器人數(shù)據(jù)時(shí),它本質(zhì)上用到的還是模仿學(xué)習(xí)。
此外,模仿學(xué)習(xí)學(xué)到的函數(shù)針對(duì)一個(gè)固定的輸入只能輸出一個(gè)或一組固定的動(dòng)作,而交互場景要求針對(duì)相同的輸入,根據(jù)交互對(duì)象的選擇動(dòng)態(tài)調(diào)整輸出,所以模仿學(xué)習(xí)學(xué)到的模型本質(zhì)上無法在交互博弈場景中工作,而這項(xiàng)能力又是具身智能機(jī)器人走出實(shí)驗(yàn)室所必需的。 已經(jīng)在園區(qū)跑起來的 LPLM
陳俊波在具身智能方向的工作主要圍繞以上待解決的問題展開。具體來說,他提出了一個(gè)名為「LPLM」(large physical language model)的大模型。整個(gè)模型的架構(gòu)如下所示:
首先,這個(gè)模型會(huì)把物理世界抽象到一個(gè)很高的程度,確保這些信息能跟 LLM 里特征的抽象等級(jí)對(duì)齊,做顯式建模,從而實(shí)現(xiàn)很好的融合?;貞浺幌抡Z言學(xué)中的能指(用以表示抽象概念的語言符號(hào),比如「人」這樣一個(gè)單詞)和所指(語言符號(hào)所表示的具體事物,比如圖像空間中的每一個(gè)人)的概念,LPLM 將物理世界中每一個(gè)所指的實(shí)體顯式建模為 token,編碼幾何、語義、運(yùn)動(dòng)學(xué)與意圖信息,相當(dāng)于在物理世界建模了一套全新的語言體系。 具體來說,這種對(duì)齊是通過多種方式來實(shí)現(xiàn)的,包括利用點(diǎn)云等多模態(tài)數(shù)據(jù)捕捉幾何信息;在多幀甚至無限幀數(shù)據(jù)之間做時(shí)序融合以跟蹤實(shí)體在不同時(shí)間點(diǎn)的變化,捕捉其運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)約束關(guān)系;在空間中建模各個(gè)實(shí)體之間的關(guān)系,從而捕捉它們?cè)诮换ゲ┺沫h(huán)境中的意圖信息等。 令人興奮的是,LPLM也很好地降維完成了自動(dòng)駕駛行業(yè)對(duì)端到端的技術(shù)追求。比如在一個(gè)交通場景中,LPLM 展現(xiàn)了建模物理世界實(shí)體意圖方面的能力。在這個(gè)場景中,智能車要在有加塞車輛的情況下安全左轉(zhuǎn),此時(shí)模型就需要判斷加塞車輛是否會(huì)做出讓行等動(dòng)作(意圖),才能決定自己下一步的動(dòng)作。這種交互博弈場景沒有固定答案,需要模型隨機(jī)應(yīng)變。
其次,在自然語言指令的編碼上,LPLM 也做出了一些改進(jìn),加入了 3D grouding(grouding 可以理解為機(jī)器人怎么把用戶的語言對(duì)應(yīng)到真實(shí)環(huán)境)。以有人問「桌子在哪兒」為例,之前的 visual grounding 方法會(huì)把桌子所在區(qū)域的像素高亮出來,但加入了 3D grouding 的 LPLM 會(huì)先把三維空間里的幾何關(guān)系恢復(fù)出來,然后再把桌子所在的三維空間作 grounding。這相當(dāng)于在物理世界中,明確告訴機(jī)器人作業(yè)目標(biāo)在哪兒,在一定程度上彌補(bǔ)了自然語言不夠精確的缺陷。 最后,在****的設(shè)計(jì)上,為了讓模型具備從海量無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)的能力,LPLM 的****是通過不斷預(yù)測(cè)未來的方式去學(xué)習(xí)的。如此一來,對(duì)于任何一段給定的數(shù)據(jù),任何當(dāng)前狀態(tài)都是對(duì)過去狀態(tài)的自動(dòng)標(biāo)注,無需人工示教數(shù)據(jù)。在這一點(diǎn)上,陳俊波談到了 Yann LeCun 的思想 —— 智能的本質(zhì)是預(yù)測(cè) —— 對(duì)于自己的啟發(fā)?!敢粋€(gè)一兩歲的孩子肯定不知道什么是萬有引力,但通過長期的實(shí)踐和觀察(比如扔?xùn)|西),他的身體已經(jīng)知道了。我們也是用同樣的方法教機(jī)器人學(xué)習(xí),」陳俊波談到。 那么,這一套方法到底有沒有效?陳俊波已經(jīng)用他們的第一款產(chǎn)品 —— 有鹿智能清潔機(jī)器人給出了答案。和傳統(tǒng)的只能進(jìn)行全覆蓋清掃和巡檢清掃的室外清潔機(jī)器人不同,內(nèi)置了 LPLM 大模型的有鹿機(jī)器人支持隨叫隨到的清掃模式,比如你可以讓它「去 1 號(hào)樓清掃一下落葉」,或者說「路邊有點(diǎn)臟,貼邊清掃一下吧」,機(jī)器人都能聽懂,并且能在充滿行人、車輛的園區(qū)交互博弈環(huán)境中安全穿行,功耗僅 50 瓦。這體現(xiàn)了該機(jī)器人對(duì)語言語義、物理環(huán)境及行為意圖的融合理解。據(jù)悉,這款機(jī)器人將在即將到來的杭州亞運(yùn)會(huì)上亮相。
給所有機(jī)器人做一顆腦袋
當(dāng)然,對(duì)于陳俊波來說,將內(nèi)置 LPLM 大模型的「腦袋」安在清潔機(jī)器人身上只是一個(gè)開始。未來,這套方案還將擴(kuò)展到挖掘機(jī)、鏟車等傳統(tǒng)設(shè)備上。在他看來,比起開發(fā)一款服務(wù)于單個(gè)場景的完整產(chǎn)品,開發(fā)一個(gè)通用的腦袋具有更大的社會(huì)價(jià)值。 有鹿的機(jī)器人大腦多種應(yīng)用場景
在談到這件事情的可行性時(shí),陳俊波提到,雖然表面看起來這是一些跨模態(tài)、跨場景、跨行業(yè)的設(shè)備,但當(dāng)模型對(duì)于物理世界的理解提升到三維甚至四維,很多共性的東西就可以被提取出來。這種情況下,以 LPLM 為代表的具身大模型相當(dāng)于充當(dāng)了物理世界的 Foundation model。此外,有鹿還定義了一個(gè)通用的硬件標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)會(huì)兼容現(xiàn)在所有的設(shè)備廠商。 不過,眼前還有很多待解決的問題,比如海量機(jī)器人數(shù)據(jù)如何獲???這也是有鹿在很短的時(shí)間內(nèi)就推出第一款產(chǎn)品的一大原因。他們希望借助這些產(chǎn)品盡快讓數(shù)據(jù)飛輪轉(zhuǎn)起來,就像很早就開放 API 接口的 GPT 類產(chǎn)品一樣。
在早年和蔣昌建談夢(mèng)想的時(shí)候,陳俊波說,他希望未來?類會(huì)像擁有個(gè)?電腦?樣擁有機(jī)器?。一路走來,他已經(jīng)越來越接近自己的夢(mèng)想。當(dāng)初做小蠻驢的時(shí)候,他也經(jīng)歷了「機(jī)器一直掉螺絲,送不出幾個(gè)包裹」的階段,但到了 2022 年,平均每秒鐘都會(huì)有兩位消費(fèi)者收到小蠻驢送出的包裹,這款產(chǎn)品也讓陳俊波看到了具身智能背后巨大的市場空間。
其實(shí),和小蠻驢所處的物流領(lǐng)域一樣,很多傳統(tǒng)行業(yè)對(duì)具身智能機(jī)器人都有著強(qiáng)烈的需求。這些行業(yè)擁有海量的存量專業(yè)設(shè)備和專業(yè)機(jī)器人,也積累了豐富的行業(yè)經(jīng)驗(yàn)和渠道品牌,只是設(shè)備的智能化率仍有很大的提升空間,而具身智能的快速發(fā)展有望為這些行業(yè)帶來一場大范圍的智能化升級(jí)。憑借多年來在具身智能領(lǐng)域的探索經(jīng)驗(yàn),陳俊波希望能與這些行業(yè)的企業(yè)家一起,迎接這場升級(jí)過程中的挑戰(zhàn)與機(jī)遇。
參考鏈接:https://mp.weixin.qq.com/s/MM_VLWmrrxev1zWuLKZZUQhttps://hub.baai.ac.cn/view/15855https://mp.weixin.qq.com/s/2ASdgAER2EYsmjipIiVyDg
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。