博客專(zhuān)欄

EEPW首頁(yè) > 博客 > CMU華人18萬(wàn)打造高能機(jī)器人,完爆斯坦福炒蝦機(jī)器人!全自主操作,1小時(shí)學(xué)會(huì)開(kāi)12種門(mén)

CMU華人18萬(wàn)打造高能機(jī)器人,完爆斯坦福炒蝦機(jī)器人!全自主操作,1小時(shí)學(xué)會(huì)開(kāi)12種門(mén)

發(fā)布人:傳感器技術(shù) 時(shí)間:2024-01-28 來(lái)源:工程師 發(fā)布文章
圖片

編輯:Aeneas 桃子【導(dǎo)讀】斯坦福炒菜機(jī)器人的大火,開(kāi)啟了2024年機(jī)器人元年。最近,CMU研究團(tuán)隊(duì)推出了一款能在開(kāi)放世界完成任務(wù)的機(jī)器人,成本僅18萬(wàn)元。沒(méi)見(jiàn)過(guò)的場(chǎng)景,它可以靠自學(xué)學(xué)會(huì)!

比斯坦福炒蝦機(jī)器人還厲害的機(jī)器人來(lái)了!

最近,CMU的研究者只花費(fèi)2.5萬(wàn)美元,就打造出一個(gè)在開(kāi)放世界中可以自適應(yīng)移動(dòng)操作鉸接對(duì)象的機(jī)器人。

圖片論文地址:https://arxiv.org/abs/2401.14403

厲害之處就在于,它是完全自主完成操作的。

看,這個(gè)機(jī)器人能自己打開(kāi)各式各樣的門(mén)。

無(wú)論是需要按一下把手才能打開(kāi)的門(mén)。


需要推開(kāi)的門(mén)。

圖片

透明的彈簧門(mén)。

圖片

甚至是昏暗環(huán)境中的門(mén)。

圖片

它還能自己打開(kāi)櫥柜。

圖片

打開(kāi)抽屜。

圖片

自己打開(kāi)冰箱。

圖片

甚至,它的技能推廣到訓(xùn)練以外的場(chǎng)景。

結(jié)果發(fā)現(xiàn),一個(gè)小時(shí)內(nèi),機(jī)器人學(xué)會(huì)打開(kāi)20個(gè)從未見(jiàn)過(guò)的門(mén),成功率從行為克隆預(yù)訓(xùn)練的50%,飆升到在線自適應(yīng)的95%。

即使眼前是一個(gè)它從未見(jiàn)過(guò)的門(mén),這個(gè)優(yōu)秀的小機(jī)器人也順利打開(kāi)了!

圖片

圖片

英偉達(dá)高級(jí)科學(xué)家Jim Fan表示:

斯坦福的ALOHA雖然令人印象深刻,但很多動(dòng)作都需要人類(lèi)協(xié)同控制,但這個(gè)機(jī)器人,則是完全自主完成的一系列操作。

它背后的核心思想,就是在測(cè)試時(shí)進(jìn)行RL,使用CLIP(或任何視覺(jué)語(yǔ)言模型)作為學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)。

這樣,就像ChatGPT用RLHF進(jìn)行預(yù)訓(xùn)練一樣,機(jī)器人可以對(duì)人類(lèi)收集的軌跡進(jìn)行預(yù)訓(xùn)練(通過(guò)遠(yuǎn)程控制),然后通過(guò)新場(chǎng)景進(jìn)行RLHF,這樣就掌握了訓(xùn)練以外的技能。

圖片

這項(xiàng)工作一經(jīng)發(fā)布,立刻獲得了同行們的肯定。

「恭喜!這是將機(jī)械臂帶出實(shí)驗(yàn)室的好裝置?!?/span>

圖片

「太令人激動(dòng)了,讓機(jī)器人在線學(xué)習(xí)技能前景巨大!」

圖片

「如此便宜的定制硬件,會(huì)讓移動(dòng)操作變得瘋狂。」

圖片

「永遠(yuǎn)不要惹一個(gè)機(jī)器人,它已經(jīng)學(xué)會(huì)開(kāi)門(mén)了。」

圖片

讓我們具體看看,這個(gè)機(jī)器人是如何完成未見(jiàn)過(guò)的開(kāi)門(mén)任務(wù)。

機(jī)器人自適應(yīng)學(xué)習(xí),性能暴漲至90%


當(dāng)前多數(shù)機(jī)器人移動(dòng)操作,僅限于拾取-移動(dòng)-放置的任務(wù)。

由于多種原因,在「開(kāi)放世界」中開(kāi)發(fā)和部署,能夠處理看不見(jiàn)的物體機(jī)器人系統(tǒng)具有極大的挑戰(zhàn)性。

針對(duì)學(xué)習(xí)「通用移動(dòng)操作」的挑戰(zhàn),研究人員將研究重點(diǎn)放在一類(lèi)有限的問(wèn)題——涉及鉸接式物體的操作,比如開(kāi)放世界中的門(mén)、抽屜、冰箱或櫥柜。

別看,開(kāi)門(mén)、打開(kāi)抽屜、冰箱這種日常生活中的操作對(duì)于每個(gè)人來(lái)說(shuō),甚至小孩子來(lái)說(shuō)輕而易舉,卻是機(jī)器人的一大挑戰(zhàn)。

對(duì)此,CMU研究人員提出了「全?!沟姆椒▉?lái)解決以上問(wèn)題。

圖片

為了有效地操縱開(kāi)放世界中的物體,研究中采用了「自適應(yīng)學(xué)習(xí)」的框架,機(jī)器人不斷從交互中收集在線樣本進(jìn)行學(xué)習(xí)。

這樣一來(lái),即使機(jī)器人遇到了,不同鉸接模式或不同物理參數(shù)(因重量或摩擦力不同)的新門(mén),也可以通過(guò)交互學(xué)習(xí)實(shí)現(xiàn)自適應(yīng)。

圖片

為了實(shí)現(xiàn)高效學(xué)習(xí),研究人員使用一種結(jié)構(gòu)化的分層動(dòng)作空間。它使用固定的高級(jí)動(dòng)作策略和可學(xué)習(xí)的低層控制參數(shù)。

使用這種動(dòng)作空間,研究人員通過(guò)各種遠(yuǎn)程操作演示的數(shù)據(jù)集,初始化了策略(BC)。這為探索提供了一個(gè)強(qiáng)有力的先驗(yàn),并降低了執(zhí)行不安全動(dòng)作的可能性。

成本僅2.5萬(wàn)美金


此前,斯坦福團(tuán)隊(duì)在打造Mobile ALOHA的所有成本用了3萬(wàn)美元。

而這次,CMU團(tuán)隊(duì)能夠以更便宜的成本——2.5萬(wàn)美元(約18萬(wàn)元),打造了一臺(tái)在通用世界使用的機(jī)器人。

圖片

如下圖3所示,展示了機(jī)器人硬件系統(tǒng)的不同組件。

研究人員選用了AgileX的Ranger Mini 2底座,因其具有穩(wěn)定性,全向速度控制,和高負(fù)載稱(chēng)為最佳選擇。

為了使這樣的系統(tǒng)有效,能夠有效學(xué)習(xí)至關(guān)重要,因?yàn)槭占F(xiàn)實(shí)世界樣本的成本很高。

使用的移動(dòng)機(jī)械手臂如圖所示。

圖片

手臂采用了xArm進(jìn)行操作,有效負(fù)載為5公斤,成本較低,可供研究實(shí)驗(yàn)室廣泛使用。

CMU機(jī)器人系統(tǒng)使用了Jetson計(jì)算機(jī)來(lái)支持傳感器、底座、手臂,以及托管LLM的服務(wù)器之間的實(shí)時(shí)通信。

圖片

對(duì)于實(shí)驗(yàn)數(shù)據(jù)的收集,是通過(guò)安裝在框架上的D435 IntelRealsense攝像頭來(lái)收集RGBD圖像,并使用T265 Intel Realsense攝像頭來(lái)提供視覺(jué)里程計(jì),這對(duì)于在執(zhí)行RL試驗(yàn)時(shí)重置機(jī)器人至關(guān)重要。

另外,機(jī)器人抓手還配備了3D打印抓手和防滑帶,以確保安全穩(wěn)定的抓握。

研究人員還將創(chuàng)建的模塊化平臺(tái)的關(guān)鍵方面,與其他移動(dòng)操縱平臺(tái)進(jìn)行比較。

看得出,CMU的機(jī)器人系統(tǒng)不論是在手臂負(fù)載力,還是移動(dòng)自由度、全向驅(qū)動(dòng)的底座、成本等方面具有明顯的優(yōu)勢(shì)。

圖片機(jī)器人成本圖片機(jī)械臂成本

原始實(shí)現(xiàn)


參數(shù)化原始動(dòng)作空間的實(shí)現(xiàn)細(xì)節(jié)如下。

抓取


為了實(shí)現(xiàn)這個(gè)動(dòng)作,對(duì)于從實(shí)感相機(jī)獲得的場(chǎng)景RGBD圖像,研究者使用現(xiàn)成的視覺(jué)模型,僅僅給出文本提示,就能獲取門(mén)和把手的掩碼。

此外,由于門(mén)是一個(gè)平面,因此可以使用相應(yīng)的掩碼和深度圖像,來(lái)估計(jì)門(mén)的表面法線。

這就可以將底座移動(dòng)到靠近門(mén)的地方,使其垂直,并設(shè)置抓握把手的方向角度。

使用相機(jī)校準(zhǔn),將把手的2D掩碼中心投影到3D坐標(biāo),這就是標(biāo)記的抓取位置。

原始抓取的低級(jí)控制參數(shù),會(huì)指示要抓取位置的偏移量。

這是十分有益的,因?yàn)楦鶕?jù)把手的類(lèi)型,機(jī)器人可能需要到達(dá)稍微不同的位置,通過(guò)低級(jí)連續(xù)值參數(shù),就可以來(lái)學(xué)習(xí)這一點(diǎn)。

約束移動(dòng)操縱


對(duì)于機(jī)器人手臂末端執(zhí)行器和機(jī)器人底座,研究者使用了速度控制。

通過(guò)在SE2平面中的6dof臂和3dof運(yùn)動(dòng),他們創(chuàng)建了一個(gè)9維向量。

圖片

其中前6個(gè)維度對(duì)應(yīng)手臂的控制,后三個(gè)維度對(duì)應(yīng)底座。

研究者使用原始數(shù)據(jù),對(duì)該空間施加了如下約束——

圖片

在控制機(jī)器人時(shí),策略會(huì)輸出與要執(zhí)行的原始數(shù)據(jù)相對(duì)應(yīng)的索引,以及運(yùn)動(dòng)的相應(yīng)低級(jí)參數(shù)。

低級(jí)控制命令的值從-1到1連續(xù),并且會(huì)在一段固定的持續(xù)時(shí)間內(nèi)執(zhí)行。

參數(shù)的符號(hào)決定了速度控制的方向,順時(shí)針或逆時(shí)針用于解鎖和旋轉(zhuǎn),向前或向后用于打開(kāi)物體。

預(yù)訓(xùn)練數(shù)據(jù)集


在這個(gè)項(xiàng)目中考慮的鉸接物體,由三個(gè)剛性部分組成:底座部分、框架部分和手柄部分。

其中包括門(mén)、櫥柜、抽屜和冰箱等物體。

它們的底座和框架通過(guò)旋轉(zhuǎn)接頭(如在櫥柜中)或棱柱接頭(如在抽屜中)連接??蚣芡ㄟ^(guò)旋轉(zhuǎn)接頭或固定接頭連接到手柄。

因此,研究者確定了鉸接物體的四種主要類(lèi)型,分類(lèi)取決于與手柄的類(lèi)型和關(guān)節(jié)機(jī)構(gòu)。

手柄關(guān)節(jié)通常包括杠桿(A型)和旋鈕(B型)。

對(duì)于手柄沒(méi)有鉸接的情況,主體框架可以使用旋轉(zhuǎn)接頭(C型)繞鉸鏈旋轉(zhuǎn),或者沿著柱接頭(例如抽屜)前后滑動(dòng)(D型)。

雖然并不詳盡,但可以說(shuō)這四種分類(lèi)基本涵蓋了機(jī)器人系統(tǒng)可能遇到的各種日常鉸接物體。

圖片

然而,總還有機(jī)器人看不到的新型鉸接物體,為了提供操作這些新型鉸接物體的泛化優(yōu)勢(shì),研究者首先收集了離線演示數(shù)據(jù)集。

在BC訓(xùn)練數(shù)據(jù)集中,包含了每個(gè)類(lèi)別的3個(gè)對(duì)象,研究者為每個(gè)對(duì)象收集10個(gè)演示,總共生成120個(gè)軌跡。

此外,研究者還為每個(gè)類(lèi)別保留了2個(gè)測(cè)試對(duì)象,用于泛化實(shí)驗(yàn)。

訓(xùn)練和測(cè)試對(duì)象在視覺(jué)外觀(例如紋理、顏色)、物理動(dòng)力學(xué)(例如彈簧加載)和驅(qū)動(dòng)(例如手柄關(guān)節(jié)可能是順時(shí)針或逆時(shí)針)方面存在顯著差異。

圖片

在圖4中,包含了訓(xùn)練和測(cè)試集中使用的所有對(duì)象的可視化,以及它們來(lái)自集合的哪個(gè)部分,如圖5所示。

自主安全的在線自適應(yīng)


在這項(xiàng)工作中,研究者們面臨的最大挑戰(zhàn)就在于,如何使用不屬于BC訓(xùn)練集的新對(duì)象進(jìn)行操作?

為了解決這個(gè)問(wèn)題,他們開(kāi)發(fā)了一個(gè)能夠完全自主強(qiáng)化學(xué)習(xí)(RL)在線適應(yīng)的系統(tǒng)。

安全意識(shí)探索


確保機(jī)器人所采取的探索動(dòng)作對(duì)其硬件來(lái)說(shuō)是安全的,這一點(diǎn)至關(guān)重要,特別是它是在關(guān)節(jié)約束下與物體交互的。

理想情況下,機(jī)器人應(yīng)該可以解決動(dòng)態(tài)任務(wù),比如使用不同力量控制開(kāi)門(mén)。

然而,研究者使用的xarm-6這種低成本手臂,不支持精確的力感應(yīng)。

圖片

因此,為了部署系統(tǒng),研究者使用了基于在線采樣期間讀取聯(lián)合電流的安全機(jī)制。

如果機(jī)器人采樣到導(dǎo)致關(guān)節(jié)電流達(dá)到閾值的動(dòng)作,該事件就會(huì)終止,并重置機(jī)器人,以防止手臂可能會(huì)損害到自身,并且會(huì)提供負(fù)面獎(jiǎng)勵(lì),來(lái)抑制此類(lèi)行為。

獎(jiǎng)勵(lì)規(guī)范


在實(shí)驗(yàn)中,人類(lèi)操作員會(huì)給機(jī)器人提供獎(jiǎng)勵(lì)。

如果機(jī)器人成功開(kāi)門(mén),則獎(jiǎng)勵(lì)+1,如果失敗則獎(jiǎng)勵(lì)0,如果存在安全違規(guī)則獎(jiǎng)勵(lì)-1。

這種獎(jiǎng)勵(lì)機(jī)制是可行的,因?yàn)橄到y(tǒng)只需要很少的樣本來(lái)學(xué)習(xí)。

然而,對(duì)于自主學(xué)習(xí),研究者希望消除依賴(lài)人類(lèi)出現(xiàn)在循環(huán)中的瓶頸。

在這種情況下,他們研究了使用大型視覺(jué)語(yǔ)言模型作為獎(jiǎng)勵(lì)來(lái)源的辦法。

具體來(lái)說(shuō),他們使用CLIP來(lái)計(jì)算兩個(gè)文本提示與機(jī)器人執(zhí)行后觀察到的圖像之間的相似度得分。

研究者使用的兩個(gè)提示是「門(mén)已關(guān)閉」和「門(mén)已打開(kāi)」,他們會(huì)計(jì)算最終觀察到的圖像和每個(gè)提示的相似度得分。

如果圖像更接近指示門(mén)打開(kāi)的提示,則分配獎(jiǎng)勵(lì)+1,否則分配獎(jiǎng)勵(lì)0。如果觸發(fā)安全保護(hù),獎(jiǎng)勵(lì)為-1。


復(fù)位機(jī)制


在這個(gè)過(guò)程中,機(jī)器人會(huì)采用視覺(jué)里程計(jì),利用安裝在其底座上的T265跟蹤攝像頭,使其能夠?qū)Ш交爻跏嘉恢谩?/span>

每次行動(dòng)結(jié)束時(shí),機(jī)器人會(huì)放開(kāi)抓手,并移回原來(lái)的SE2基地位置,并拍攝If的圖像以用于計(jì)算獎(jiǎng)勵(lì)。

然后,研究者對(duì)SE2基地位置進(jìn)行隨機(jī)擾動(dòng),以便策略變得更加穩(wěn)健。

此外,如果獎(jiǎng)勵(lì)為1,門(mén)被打開(kāi)時(shí),機(jī)器人就會(huì)有一個(gè)腳本例程,來(lái)把門(mén)關(guān)上。

實(shí)驗(yàn)結(jié)果


研究人員在CMU校園內(nèi)四棟不同建筑中(12個(gè)訓(xùn)練對(duì)象和8個(gè)測(cè)試對(duì)象),對(duì)全新架構(gòu)加持的機(jī)器人系統(tǒng)進(jìn)行了廣泛的研究。

具體回答了以下幾個(gè)問(wèn)題:

1)系統(tǒng)能否通過(guò)跨不同對(duì)象類(lèi)別的在線自適應(yīng),來(lái)提高未見(jiàn)過(guò)對(duì)象的性能?

2)這與僅在提供的演示中,使用模仿學(xué)習(xí)相比如何?

3)可以使用現(xiàn)成的視覺(jué)語(yǔ)言模型自動(dòng)提供獎(jiǎng)勵(lì)嗎?

4)硬件設(shè)計(jì)與其他平臺(tái)相比如何?(硬件部分已進(jìn)行了比較)

在線自適應(yīng)


a. 不同物體類(lèi)別評(píng)估

研究人員在4個(gè)類(lèi)別的固定銜接物體上,對(duì)最新的方法進(jìn)行了評(píng)估。

如下圖6所示,呈現(xiàn)了從行為克隆初始策略開(kāi)始,利用在線交互進(jìn)行5次迭代微調(diào)的持續(xù)適應(yīng)性能。

每次改進(jìn)迭代包括5次策略rollout,之后使用等式5中的損失對(duì)模型進(jìn)行更新。

圖片

可以看到,最新方法將所有對(duì)象的平均成功率從50%提高到95%。因此,通過(guò)在線交互樣本不斷學(xué)習(xí)能夠克服初始行為克隆策略的有限泛化能力。

自適應(yīng)學(xué)習(xí)過(guò)程能夠從獲得高獎(jiǎng)勵(lì)的軌跡中學(xué)習(xí),然后改變其行為,更頻繁地獲得更高的獎(jiǎng)勵(lì)。

在BC策略性能尚可的情況下,比如平均成功率約為70%的C類(lèi)和D類(lèi)對(duì)象,RL能夠?qū)⒉呗酝晟频?00%的性能。

此外,即使初始策略幾乎無(wú)法執(zhí)行任務(wù),強(qiáng)化學(xué)習(xí)也能夠?qū)W習(xí)如何操作對(duì)象。這從A類(lèi)實(shí)驗(yàn)中可以看出,模仿學(xué)習(xí)策略的成功率非常低,只有10%,完全無(wú)法打開(kāi)兩扇門(mén)中的一扇。

通過(guò)不斷的練習(xí),RL的平均成功率可以達(dá)到90%。

這表明,RL可以從模仿數(shù)據(jù)集中探索出可能不在分布范圍內(nèi)的動(dòng)作,并從中學(xué)習(xí),讓機(jī)器人學(xué)會(huì)如何操作未見(jiàn)過(guò)的新穎的鉸接物體。

b. Action-replay基線

還有另一種非常簡(jiǎn)單的方法,可以利用演示數(shù)據(jù)集在新對(duì)象上執(zhí)行任務(wù)。

研究團(tuán)隊(duì)針對(duì)2個(gè)特別難以進(jìn)行行為克隆的對(duì)象(A類(lèi)和B類(lèi)各一個(gè)(按壓杠桿和旋鈕手柄)運(yùn)行了這一基線。

這里,采取了開(kāi)環(huán)和閉環(huán)兩種方式對(duì)這一基線進(jìn)行評(píng)估。

在前一種情況下,只使用第一張觀察到的圖像進(jìn)行比較,并執(zhí)行整個(gè)檢索到的動(dòng)作序列;而在后一種情況下,每一步執(zhí)行后都會(huì)搜索最近的鄰居,并執(zhí)行相應(yīng)的動(dòng)作。

從表3中可以看出,這種方法非常無(wú)效,進(jìn)一步凸顯了實(shí)驗(yàn)中訓(xùn)練對(duì)象和測(cè)試對(duì)象之間的分布差距。

圖片

c. 通過(guò)VLM自主獎(jiǎng)勵(lì)

CMU團(tuán)隊(duì)還研究是否可以通過(guò)自動(dòng)程序來(lái)提供獎(jiǎng)勵(lì),從而取代人工操作。

正如Action-replay基線一樣,研究人員在兩個(gè)測(cè)試門(mén)上對(duì)此進(jìn)行評(píng)估,每個(gè)門(mén)都從把手和旋鈕類(lèi)別進(jìn)行評(píng)估。

從表2中,使用VLM獎(jiǎng)勵(lì)的在線自適應(yīng)性能與使用人類(lèi)標(biāo)注的地面實(shí)況獎(jiǎng)勵(lì)相近,平均為80%,而使用人類(lèi)標(biāo)注的獎(jiǎng)勵(lì)則為90%。

圖片

另外,研究人員還在圖7中報(bào)告了每次訓(xùn)練迭代后的性能。學(xué)習(xí)循環(huán)中不再需要人類(lèi)操作員,這為自主訓(xùn)練和改進(jìn)提供了可能性。

圖片

為了成功操作各種門(mén),機(jī)器人需要足夠堅(jiān)固才能打開(kāi)并穿過(guò)它們。

研究人員根據(jù)經(jīng)驗(yàn)與另一種流行的移動(dòng)操縱系統(tǒng)進(jìn)行比較,即Stretch RE1(Hello Robot)。

他們測(cè)試機(jī)器人由人類(lèi)專(zhuān)家遠(yuǎn)程操作,以打開(kāi)不同類(lèi)別的兩扇門(mén)的能力,特別是杠桿門(mén)和旋鈕門(mén)。每個(gè)物體都進(jìn)行了5次試驗(yàn)。

如表IV所示,這些試驗(yàn)的結(jié)果揭示了Stretch RE1的一個(gè)重大局限性:即使由專(zhuān)家操作,其有效負(fù)載能力也不足以打開(kāi)真正的門(mén),而CMU提出的AI系統(tǒng)在所有試驗(yàn)中都取得了成功。

圖片

總而言之,CMU團(tuán)隊(duì)在這篇文章中提出了一個(gè)全棧系統(tǒng),用于在開(kāi)放世界中進(jìn)行進(jìn)行自適應(yīng)學(xué)習(xí),以操作各種鉸接式物體,例如門(mén)、冰箱、櫥柜和抽屜。

最新AI系統(tǒng)通過(guò)使用高度結(jié)構(gòu)化的動(dòng)作空間,能夠從很少的在線樣本中學(xué)習(xí)。通過(guò)一些訓(xùn)練對(duì)象的演示數(shù)據(jù)集進(jìn)一步構(gòu)建探索空間。

CMU提出的方法能夠?qū)?lái)自4個(gè)不同對(duì)象類(lèi)別中,8個(gè)不可見(jiàn)對(duì)象的性能提高約50%-95%。

值得一提的是,研究還發(fā)現(xiàn)這一系統(tǒng)還可以在無(wú)需人工干預(yù)的情況下通過(guò)VLM的獎(jiǎng)勵(lì)進(jìn)行學(xué)習(xí)。

作者介紹


Haoyu Xiong

圖片

Haoyu Xiong是CMU計(jì)算機(jī)科學(xué)學(xué)院機(jī)器人研究所的研究生研究員,專(zhuān)注于人工智能和機(jī)器人技術(shù)。他的導(dǎo)師是Deepak Pathak。

Russell Mendonca


Russell Mendonca是CMU大學(xué)機(jī)器人研究所的三年級(jí)博士生,導(dǎo)師是Deepak Pathak。他本人對(duì)機(jī)器學(xué)習(xí)、機(jī)器人學(xué)和計(jì)算機(jī)視覺(jué)中的問(wèn)題非常感興趣。

之前,他曾畢業(yè)于加州大學(xué)伯克利分校電氣工程和計(jì)算機(jī)科學(xué)專(zhuān)業(yè),并在伯克利人工智能實(shí)驗(yàn)室(BAIR)與Sergey Levine教授一起研究強(qiáng)化學(xué)習(xí)。

Kenneth Shaw

圖片

Kenneth Shaw是卡內(nèi)基梅隆大學(xué)機(jī)器人研究所的一年級(jí)博士生,導(dǎo)師同樣是Deepak Pathak。他的研究重點(diǎn)是,實(shí)現(xiàn)與人類(lèi)一樣的機(jī)械手的靈巧操作。機(jī)械手應(yīng)該如何設(shè)計(jì)成是何在我們的日常生活中應(yīng)用?我們?nèi)绾谓虣C(jī)械手模仿人類(lèi)?最后,我們?nèi)绾问褂媚M和大規(guī)模數(shù)據(jù)來(lái)解鎖新的靈巧操作行為?

Deepak Pathak


Deepak Pathak是卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的助理教授,還是機(jī)器人研究所的成員。他的工作是人工智能,是計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)和機(jī)器人學(xué)的交匯點(diǎn)。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 高能機(jī)器人

技術(shù)專(zhuān)區(qū)

關(guān)閉