宇樹CEO 對“具身智能”和“人形機器人”未來的設想

—— “具身智能”是更好實現(xiàn)AGI的方向，“人形機器人”可以做得更大或微小

作者：祝凱（EEPW）時間：2024-12-21 來源：EEPW

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

2024 年8 月，“2024 世界機器人大會”在京舉行，期間舉辦了系列論壇，在8 月24 日下午的技術論壇上，主要話題是“人形機器人”，宇樹科技CEO 兼CTO 王興興做了報告，題目是：“具身智能”指明了實現(xiàn)AGI的方向。

本文引用地址：http://m.butianyuan.cn/article/202412/465715.htm

王興興宇樹科技CEO兼CTO

王興興首先向來參會的美國AI 研究所執(zhí)行主任、波士頓動力公司創(chuàng)始人Marc Raibert（馬克·雷伯特）致敬，說在他10 歲讀小學時，看到了Marc 在MIT 實驗室做的雙足機器人和后空翻機器人，是從在中國引進的科技紀錄片里，至今已二十幾年。宇樹公司2016年成立，至今也有8 年時間了。

王興興這次的報告是探討具身智能和AGI 的方向。

圖1 宇樹公司的機器人

1 OpenAI的早期研發(fā)也是機器人

OpenAI 早期的目標是實現(xiàn)AGI（通用人工智能）。實際上，該公司早年在機器人方面投入很大，但是由于GPT 發(fā)展很快，因此該公司后來在機器人的發(fā)展方向上投入資源較少。但是王興興堅信“具身智能”是更好實現(xiàn)AGI 的方向。

為什么這么說？王興興沒有直接回答，而是先介紹了宇樹機器人的發(fā)展歷程。

圖2 G1工程機的部分關節(jié)布置

2 宇樹機器人的進展

● Xdog —— 公司成立前的機器狗原型

早在2013—2015/2016 年，王興興在讀碩士期間做了XDog 機器人。當時初衷很簡單，因為他一名學生沒有那么多的資源去做一個很大的液壓機器人，所以當時希望用一種簡單的方法實現(xiàn)一個低成本、運動性能很好的方案，所以他當時就用盤式無刷電機，再加上自己開發(fā)的電機驅動板，實現(xiàn)了XDog 方案。該方案的研發(fā)投入只有一兩萬元。王興興在2015 年用這個機器人參加了上海的一個比賽，獲得了二等獎，贏得了8 萬元獎金。這筆獎金后來成為2016 年宇樹公司注冊時的啟動資金。

宇樹后續(xù)的產(chǎn)品主要是做高性能四足機器人，2023年年初又開始做高性能人形機器人等技術產(chǎn)品（如圖1）。代表性的產(chǎn)品如下。

● 四足機器人Go1

宇樹目前的四足主機器人主要是兩款。第一款是小一點的Go1，最大特點是搭載了自研的3D激光雷達，并且在2023 年就搭載了OpenAI 的ChatGPT 接口，用戶可以直接用語音跟它對話，讓它執(zhí)行一些底層的動作，并且也試著集成了OpenAI 的多模態(tài)接口，用戶可以問它前面有什么東西，它可以回答。

但是在開發(fā)過程中，發(fā)現(xiàn)目前的大語言模型和多模態(tài)模型對滿足機器人的應用是非常不足的——它們對空間/ 整個物理世界的理解，包括對機器人本體的理解是遠遠不夠的。所以希望未來有更好的機器人模型誕生。

當然這不可能僅指望一家公司，需要全球所有的實驗室和科技公司一起推動。

● 工業(yè)級四足機器人B2

B2 也是2023 年發(fā)布的，是大一點的工業(yè)級四足機器人，最大的特點是負載和續(xù)航能力很強。對于大部分的工業(yè)場景，包括室內(nèi)外、地下管廊或其他環(huán)境都是足夠適用的，這也是宇樹目前的一個主力型號。

● 人形機器人H1 和G1

在人形機器人方面，宇樹目前發(fā)展也非常快。其實早在2009 年王興興讀大一的時候，寒假就做過一個小的人形機器人，當時非常便宜，只用了200 元。但是做好以后他非常失望——不僅對自己感到失望，也對當時全球范圍內(nèi)人形機器人的科技發(fā)展速度感到有些失望。所以之后很多年，很多人問宇樹做不做人形機器人？王興興非常堅決地回答“不做”。因為當時全球的技術及商業(yè)化程度，沒有辦法很好地推動人形機器人發(fā)展。但是在過去的幾年，很多實驗室用宇樹的機器狗做AI開發(fā)，宇樹也肉眼可見了強化學習在四足機器人里的飛速進展。并且在2022 年底時ChatGPT 橫空出世，點燃了人們對生成式AI 影響機器人發(fā)展的信心。所以宇樹在2023 年初開始做高性能人形機器。H1 人形機器是2023 年第一款人形機器人，最大特點是動力性能強大，可謂當時全球同類型電驅人形機器人中動力性最強的之一。

2024 年5 月，宇樹又發(fā)布了第二款人形機器人——G1 工程機，8 月發(fā)布了量產(chǎn)版本。工程機器人也是整合了宇樹過去幾年對四足機器人、人形機器人的軟件、工業(yè)設計的經(jīng)驗，所以雖然這款機器人稍小一點，只有1.3米高，但無論它的外觀、性能/ 關節(jié)靈活性、產(chǎn)品完成度都很高。宇樹已經(jīng)快要完成量產(chǎn)化的設計改造，預計年底前就可以量產(chǎn)。

圖2 是G1 的關節(jié)布置，可見非常流暢和漂亮。這里有個“?！?，其實這種關節(jié)布置對于動力控制來說并不是最優(yōu)的，腿有點重且不方便控制。但是為什么敢這么做？原因就是AI 技術的進步，使很多原本不容易控制的變得容易解決了。

2024 年5 月G1 剛發(fā)布時展示的一些運動性能。里面用了一些傳統(tǒng)控制算法，但是大部分還是用了深度強化學習來實現(xiàn)。

目前產(chǎn)品的完成度還是非常高的，不怕踹、打，關節(jié)的靈活性也非常高，可以實現(xiàn)很多人實現(xiàn)不了的高難動作，還輕便可折疊（如圖3）。

圖3 G1不怕踹、踢，關節(jié)靈活性高

H1 是在2024 年初時推出，可能是全球第一款可實現(xiàn)空翻的純電機驅動的人形機器人，動力性能非常強勁，也是用了“模仿學習+ 強化學習”的算法，因為這種機器人不太好控制，用傳統(tǒng)算法很難實現(xiàn)空翻（圖4）。通過“模仿學習+ 強化學習”，還實現(xiàn)了奔跑及跳舞等動作。

圖4 H1在做空翻

在這次展會現(xiàn)場，宇樹長時間地在演示這個技術，可見穩(wěn)定性非常高。因為AI 技術相對于別的技術，最大的一個點就是它對硬件和對機器人的泛用性還是非常好的，哪怕硬件有一點點偏差，它還是可以有很穩(wěn)定的控制。

上述主要是基于深度相機的端到端深度強化學習。實際上，如果對于復雜地形也可以訓練。包括對于四足機器人——它本身也可以2條腿走路，包括連續(xù)的空翻，也是基于模仿學習和深度強化學習做的。這些功能早幾個月前，宇樹就已經(jīng)OTA 升級給全球客戶使用了。宇樹還推出了基于開源的遙操作數(shù)據(jù)采集系統(tǒng)（圖5）。因為目前AI 技術基本上是數(shù)據(jù)驅動的，因此對人形機器人的數(shù)據(jù)采集是剛需的，所以宇樹做了一套比較簡單的輕量化的數(shù)據(jù)采集系統(tǒng)。但這還需要更多完善。

圖5 H1的遙操作

2024 年年中，宇樹在基于模仿學習和深度強化之上做了G1 的一些升級性動作（圖6）。

圖6 G1升級了一些高難動作

3 宇樹的下一步規(guī)劃

人們可能覺得宇樹的機器人現(xiàn)在已經(jīng)做得不錯了，但實際上要做的事情還非常多。

例如，目前這些動作基本上是每個動作單獨做AI訓練的，但在很多場景下，人們還是希望一臺機器人可以自動切換所有的動作，而不需要人為地去切換動作，即一個通用AI機器人能做所有的事情。這也是通用AI希望達到的目標。這也是用深度相機來做端到端訓練的。

4 “深度強化學習”的近期發(fā)展方向

● 全身任意姿態(tài)或舞蹈等動作的模仿深度強化學習。

● 復雜地形下的全身任意穩(wěn)定運動。

● 手部：對于復雜物品或零部件，有較復雜的靈巧操作?，F(xiàn)在全球范圍內(nèi)用模仿學習可以實現(xiàn)較大物體的操作，例如把水杯從一處拿到另一處。但是對于更精細一點的活兒還做不好，例如焊電路、穿針引線、打一個結等。但這些都是非常值得做的。

● 基于圖像或深度數(shù)據(jù)等感知數(shù)據(jù)的強化學習導航避障。

5 未來能做的激動人心的事：世界模型=AGI

● “世界模型”包括對時空和物理規(guī)律的理解再好高騖遠一下，展望人形機器人能做的更加激動人心的一些事情。王興興看好“世界模型”，并認為具身智能是實現(xiàn)“世界模型”的一個方向。不過需要指出的是，這可能不是宇樹目前能實現(xiàn)的，希望全球的從業(yè)者都能推動這件事情，而且這將是未來最激動人心的時刻。

“世界模型”包括機器人對自身時空的理解，以及對物理規(guī)律的理解。實際上，人們也知道現(xiàn)在的AI 技術對機器人的身體和對世界的理解是完全不夠的，例如對重力、摩擦力和接觸的理解是非常差的。如果有更好的AI能把機器人對自身的認知和對環(huán)境的理解做出來，就可以大大推動整個機器人行業(yè)的進步。

而且“世界模型”本身就是AGI 的一個方向，可能就是用來真正實現(xiàn)AGI 的。因為AGI 最大的發(fā)展點是大部分人能做的事情它應該都能做，包括開車、洗衣做飯、工廠工作。如果“世界模型”對世界本身有很好的建模，那么這種目標就差不多要實現(xiàn)了。例如特斯拉的FSD（完全自動駕駛），“世界模型”對整個車輛和周邊環(huán)境都會有建模，包括對前車的速度判斷、撞擊等一些未來動作的預判，也會有好的建模和理解。

● 大模型的發(fā)展離不開“身體”

另一方面，很多做AI 的企業(yè)，包括OpenAI，對大腦的重視程度非常高。但身體才是最重要的，因為大腦和身體是分不開的。

舉個簡單的例子，這也是王興興從小就非常困擾的一個問題：做夢的時候，為什么會突然感覺從懸崖上往下掉，或者在夢里為什么跑不快？這個問題在他本科的時候才想通，其實原因很簡單：人在睡覺的時候，大腦跟身體的感知是完全斷開的，你不能感知到身體的皮膚，也不能控制肌肉，所以你的大腦本身是沒有物理世界連接的。

所以在我們原本的認知里，跑步時，我每跑一步腳都是要跟地面有接觸的，接觸以后你的大腦知道我接觸到地面了，我要邁另外一只腳。但是在我們做夢的時候，由于跟物理世界脫離了關系，你的大腦其實不知道你已經(jīng)踩到地面了，所以你永遠感覺你的腳輕飄飄的，跑不快，沒辦法使力，所以這也是體現(xiàn)了目前的大的身體的重要性。包括為什么會覺得從懸崖上往下面掉，因為你在跟身體斷開連接的時候，你其實并不知道你的身體跟床是接觸的，你覺得你是懸空的，所以你往下掉。這也回答了一個非常簡單的問題，就是為什么現(xiàn)在大語言模型會有幻覺？簡單地解釋就是目前的大語言模型活在夢里，對物理世界是脫離連接的——不能感受到自己的身體，也不能看到，也不能撞到頭部，也不能眨眼睛……。所以它整個的閉環(huán)跟物理世界的連接斷開以后，讓所有的大語言模式都是活在夢里。由于它是非常虛擬的，所以會有很多幻覺、不真實——它自己都不知道做的事情真不真。原因也非常簡單，例如有人在說夢話，如果你跟他說一句話，他也回答你的問題。但是說夢話的人所說的是稀里糊涂的，沒有邏輯可言。所以這也體現(xiàn)了身體的重要性。

● 人和動物“換腦”會如何？

王興興又分享一個有趣的想法，是他小時候非常喜歡的思考：人為什么比動物聰明？如果把人的大腦放到狗里，或者豬里，或者把豬的大腦放到人里，到底哪種結構可以誕生更多的智能？

他一直在反思，這是受多方面的原因限制的，而且可能物理限制還會更多。例如他很懷疑：如果把一只猴子的大腦放到人的身上，Ta 照樣是可以說話的。

但是為什么猴子不能說話？原因非常簡單，其喉嚨和聲帶不支持它說話。舉個最簡單的例子，像鸚鵡的神經(jīng)元其實是比較少的，比較聰明、能說話的鸚鵡大概只有2~30 億的神經(jīng)元，但是猴子的神經(jīng)元跟它差不多，甚至猩猩的神經(jīng)元比它更多，但是為什么猩猩說不了話，而且只能發(fā)一些低級的聲音？可能人們猜測是聲帶的原因。這也可以解釋鸚鵡為什么能說話？因為它很喜歡吃堅果，在吃堅果的過程中，它的喉嚨和舌頭鍛煉得非常靈活，所以它沒有物理限制。所以這也是很大層面上一些高等動物，諸如一些海豚、鯨等，是因為它們的聲帶限制了它們的發(fā)聲。

表1 部分動物與人類的神經(jīng)元數(shù)量

所以除了純粹的AI，還需要：①對內(nèi)，有身體，包括對視覺和身體的感知都非常重要，包括對實時的數(shù)據(jù)采集；②對外：對物理世界的了解，包括對一些碰撞、重力、摩擦力、光學等的理解。

● 人的輸出能力有潛力可挖

王興興還介紹了一個有趣的觀點：目前人的數(shù)據(jù)輸出能力是非常弱的，而人的數(shù)據(jù)輸入能力非常強，因為人有眼睛，看一張圖片或視頻的時候，數(shù)據(jù)的輸入量非常大，至少每秒鐘幾百或幾千kB 的數(shù)據(jù)量。但是人輸出數(shù)據(jù)的能力其實非常弱，只能通過說話或者敲鍵盤。最頂尖的人敲鍵盤的速度大概可能也就1 秒幾個字而已——比特流是非常低的。所以如果有一種輸出設備諸如人機接口可以把人的數(shù)據(jù)輸出能力大大提升，這對人本身的智能提升，包括工作效率會有非常大的提升。而且這項技術可以通過不需要用大腦植入式的設備，只要在表皮能連接上一些神經(jīng)元就可實現(xiàn)。

所以如果有一些神經(jīng)學或生物醫(yī)療相關的朋友，沒準可以試試這個方向？

王興興為什么愿意分享這個方向？因為他覺得自己沒有能力去做。歡迎有興趣、有能力的朋友去嘗試一下，或者與他一起去做這件事情。

另外他又分享了一個體驗：他小時候看一些電視劇，看到有些武林高手的耳朵是可以動的，就是他們的肌肉可以控制耳朵動，但是普通人實現(xiàn)不了。其實這個本領是可以鍛煉出來的。例如王興興在高中上英語課時總分心，有一段時間練習用想法控制腦袋殼上一塊肌肉的運動，練習了好幾天，突然有一天就能控制那塊肌肉了！

未來，也許用外部的腦機接口直接連接/ 替掉一些神經(jīng)元，然后去鍛煉一下，就能作為很好的人機接口輸出。

● 比人類更高級的智能形態(tài)會什么樣？

現(xiàn)在和曾經(jīng)的AI 網(wǎng)絡是模仿人類的，但又不完全跟人類一樣。這就像飛機一樣，飛行原理是參考了鳥的飛行原理，但是跟鳥又不完全一樣。所以用計算機實現(xiàn)的智能形態(tài)，跟人的智能形態(tài)多少還是會有差異的。

● AGI的黎明快要到來

在2024 年年初的時候，王興興預估在2025 年年底之前，在全球至少有一家實驗室或公司可以把通用型的機器人AI模型給做出來。當然不知道是哪一家，有可能是中國，也有可能是美國的公司或者實驗室。

● 盡可能相信AI

有了生成式AI，當下是迄今人類歷史上最激動人心的時刻。

● 跨尺度智能

除了跟人一樣大小的人形機器人，還可以做更小更小的人形機器人，也可以做更大的人形機器人。例如可以做細胞大小的人形機器人，可以做比如100 萬個，然后當人生病的時候，只要把100 萬個人形機器人打到身體里面，就可以修復組織[1]。當然這個概念還比較遙遠。

參考文獻：

[1] 最小行走機器人能做微觀測量[N].熊文苑,譯.參考消息.2024-12-8.

（本文來源于《EEPW》202412）

新聞中心

宇樹CEO 對“具身智能”和“人形機器人”未來的設想

評論

相關推薦

技術專區(qū)