再一次輸給了AI,彎道急速超車(chē)、登上 Nature 封面
作者 | 學(xué)術(shù)頭條
來(lái)源 | 學(xué)術(shù)頭條
人工智能(AI)的很多潛在應(yīng)用,涉及與人類交互時(shí)做出更優(yōu)化的實(shí)時(shí)決策,而競(jìng)技或者博弈類游戲,便是最佳的展示舞臺(tái)。
近日,發(fā)表在《自然》雜志上的封面文章報(bào)告稱,AI 在賽車(chē)對(duì)戰(zhàn)游戲 Gran Turismo(GT賽車(chē))中戰(zhàn)勝了世界冠軍級(jí)人類玩家。這個(gè) AI 程序名為“Gran Turismo(GT)Sophy”,是一種神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)程序,它在遵守賽車(chē)規(guī)則的同時(shí),展現(xiàn)出了超凡的行駛速度、操控能力和駕駛策略。
完成這項(xiàng) AI 程序研發(fā)的核心團(tuán)隊(duì)來(lái)自索尼 AI 事業(yè)部(Sony AI),《GT賽車(chē)》系列游戲是日本 Polyphony Digital 公司開(kāi)發(fā),忠實(shí)再現(xiàn)了真實(shí)賽車(chē)的非線性控制挑戰(zhàn),封裝了復(fù)雜的多智能體交互,該游戲在索尼 PlayStation 及 PSP 等游戲主機(jī)平臺(tái)上皆有發(fā)行,是一款極具擬真感操縱體驗(yàn)的熱門(mén)賽車(chē)游戲。
假如有此 AI 程序的加持,人類玩家估計(jì)再也跑不過(guò)加強(qiáng)版的單機(jī)程序了吧?
研究人員認(rèn)為,此項(xiàng)成果或讓賽車(chē)游戲變得更有意思,并能提供用來(lái)訓(xùn)練職業(yè)賽車(chē)手和發(fā)現(xiàn)新賽車(chē)技巧的高水平比賽。這種方法還有望應(yīng)用在真實(shí)世界的系統(tǒng)中,比如機(jī)器人、無(wú)人機(jī)和自動(dòng)駕駛汽車(chē)等。
賽道里的速度與激情
駕駛賽車(chē)需要極大的技巧。現(xiàn)代一級(jí)方程式賽車(chē)展示了驚人的工程精度,然而,這項(xiàng)運(yùn)動(dòng)的受歡迎程度與其說(shuō)與汽車(chē)的性能PK有關(guān),不如說(shuō)與頂級(jí)車(chē)手在將汽車(chē)性能發(fā)揮到極限時(shí)所表現(xiàn)出的技巧和勇氣有關(guān)。一個(gè)多世紀(jì)以來(lái),賽道上的成功一直充滿著速度和激情。
賽車(chē)比賽的目標(biāo)很簡(jiǎn)單:如果你比競(jìng)爭(zhēng)對(duì)手在更短的時(shí)間內(nèi)跑完賽道,你就贏了。然而,實(shí)現(xiàn)這一目標(biāo)需要極其復(fù)雜的物理戰(zhàn),馳騁賽道需要小心使用輪胎和道路之間的摩擦力,而這種摩擦力是有限的。
為了贏得比賽,車(chē)手必須選擇讓汽車(chē)保持在不斷變化的摩擦極限內(nèi)的軌跡上。轉(zhuǎn)彎時(shí)剎車(chē)太早,你的車(chē)就會(huì)慢下來(lái),浪費(fèi)時(shí)間。剎車(chē)太晚,當(dāng)你接近轉(zhuǎn)彎最緊的部分時(shí),你將沒(méi)有足夠的轉(zhuǎn)彎力來(lái)保持你想要的路線軌跡。剎車(chē)太猛,可能會(huì)導(dǎo)致車(chē)體旋轉(zhuǎn)。
因此,職業(yè)賽車(chē)手非常擅長(zhǎng)在整個(gè)比賽中一圈接一圈地發(fā)現(xiàn)并保持賽車(chē)的極限。
盡管賽車(chē)的操縱極限很復(fù)雜,但它們?cè)谖锢砩峡梢缘玫胶芎玫拿枋?,因此,它們可以被?jì)算或?qū)W習(xí)是理所當(dāng)然的。
近年來(lái),深度強(qiáng)化學(xué)習(xí)(DRL)已成為 Atari、星際爭(zhēng)霸和 Dota 等領(lǐng)域 AI 研究里程碑的關(guān)鍵組成部分。為了讓 AI 對(duì)機(jī)器人技術(shù)和自動(dòng)化產(chǎn)生影響,研究人員必須證明能夠成功控制復(fù)雜的物理系統(tǒng),此外,AI 技術(shù)的許多潛在應(yīng)用要求在接近人類的情況下相互作用,同時(shí)尊重不精確的人類規(guī)范,汽車(chē)比賽正是充滿這些挑戰(zhàn)的典型領(lǐng)域。
圖|游戲比賽數(shù)據(jù)對(duì)比(來(lái)源:Nature)
近年來(lái),利用全尺寸、大規(guī)模和模擬車(chē)輛,自主賽車(chē)的研究不斷加速。一種常見(jiàn)的方法是預(yù)先計(jì)算軌跡,并使用模型預(yù)測(cè)控制來(lái)執(zhí)行這些軌跡。然而,當(dāng)在摩擦的絕對(duì)極限下行駛時(shí),微小的建模誤差可能是災(zāi)難性的。
與其他車(chē)手比賽對(duì) AI 建模精度提出了更高的要求,并引入了復(fù)雜的空氣動(dòng)力學(xué)相互作用,進(jìn)一步促使工程師改進(jìn)控制方案,以不斷預(yù)測(cè)和適應(yīng)賽道的最優(yōu)軌跡,有朝一日,無(wú)人駕駛汽車(chē)下賽道與人類車(chē)手一決高下,也并非空談。
“AI賽車(chē)手”的煉成
在 GT Sophy 的開(kāi)發(fā)過(guò)程中,研究人員探索了各種使用機(jī)器學(xué)習(xí)來(lái)避免建模復(fù)雜性的方法,包括使用監(jiān)督學(xué)習(xí)來(lái)建模車(chē)輛動(dòng)力學(xué),以及使用模仿學(xué)習(xí)、進(jìn)化方法或強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)駕駛策略。
為了取得成功,賽車(chē)手必須在四個(gè)方面具備高度技能:(1)賽車(chē)控制,(2)賽車(chē)戰(zhàn)術(shù),(3)賽車(chē)禮儀和(4)賽車(chē)策略。
為了控制汽車(chē),車(chē)手們對(duì)他們的車(chē)輛動(dòng)力學(xué)和賽道的特性有詳細(xì)的了解。在此基礎(chǔ)上,駕駛者建立所需的戰(zhàn)術(shù)技能,通過(guò)防守對(duì)手,執(zhí)行精確的演習(xí)。同時(shí),駕駛員必須遵守高度精煉但不精確的體育道德規(guī)則,最后,車(chē)手在模擬對(duì)手、決定何時(shí)以及如何嘗試超車(chē)時(shí),會(huì)運(yùn)用戰(zhàn)略思維。
模擬賽車(chē)是一個(gè)需要在具有高度真實(shí)、復(fù)雜物理環(huán)境中進(jìn)行實(shí)時(shí)、連續(xù)控制的領(lǐng)域,GT Sophy 在這種環(huán)境下的成功首次表明,在一系列汽車(chē)和賽道類型中,有可能訓(xùn)練出比頂尖人類賽車(chē)手更好的人工智能代理。
這一結(jié)果可以被視為是計(jì)算機(jī)在國(guó)際象棋、圍棋、冒險(xiǎn)、****牌和星際爭(zhēng)霸等競(jìng)爭(zhēng)性任務(wù)持續(xù)發(fā)展的另一個(gè)重要步驟。
圖|GT Sophy 的訓(xùn)練(來(lái)源:Nature)
值得注意的是,GT Sophy 在短短幾個(gè)小時(shí)內(nèi)就學(xué)會(huì)了繞道而行,并超過(guò)了數(shù)據(jù)集中 95% 的人類選手,它又訓(xùn)練了九天時(shí)間,累計(jì)駕駛時(shí)間超過(guò)了 45000 小時(shí),跑圈時(shí)間減少了十分之一秒,直到圈速停止改善。
單憑進(jìn)步獎(jiǎng)勵(lì)還不足以激勵(lì)A(yù)I程序贏得比賽。如果人類對(duì)手的速度足夠快,AI程序?qū)W(xué)會(huì)跟隨,并在不冒潛在災(zāi)難性碰撞風(fēng)險(xiǎn)的情況下嘗試積累更多獎(jiǎng)勵(lì),實(shí)現(xiàn)超車(chē)。
為了評(píng)估 GT Sophy,研究人員在兩項(xiàng)賽事中讓 GT Sophy 與頂級(jí) GT 車(chē)手進(jìn)行了較量,GT Sophy 在所測(cè)試的三條賽道上都取得了超人的計(jì)時(shí)表現(xiàn),它能夠執(zhí)行幾種類型的轉(zhuǎn)彎,有效地利用漂移,擾亂后面車(chē)輛,****對(duì)手并執(zhí)行其他緊急操縱。
盡管 GT Sophy 展示了足夠的戰(zhàn)術(shù)技能,但仍有許多方面有待改進(jìn),尤其是在戰(zhàn)略決策方面。例如,GT Sophy 有時(shí)會(huì)在同一條跑道上留出足夠的空間,讓對(duì)手有機(jī)可乘。
圖|AI 車(chē)手超越人類玩家(來(lái)源:Nature)
競(jìng)技游戲外更值得關(guān)注
關(guān)于電子競(jìng)技、博弈類的游戲,AI 能戰(zhàn)勝人類早已經(jīng)不是什么稀奇事,而且可以肯定的是,AI 還會(huì)越來(lái)越強(qiáng),即便是人類頂尖選手也只能甘拜下風(fēng),但能贏電子比賽并沒(méi)有太多懸念和意義,關(guān)鍵還是看這些超越人類的 AI 程序如何切實(shí)攻克產(chǎn)業(yè)瓶頸,真實(shí)造福人類生活。
1996 年 2 月 10 日,超級(jí)電腦 Deep Blue 首次挑戰(zhàn)國(guó)際象棋世界冠軍 Kasparov 以 2:4 落敗。1997 年 5 月再度挑戰(zhàn),最終Deep Blue 以 3.5:2.5 擊敗了 Kasparov ,成為首個(gè)在標(biāo)準(zhǔn)比賽時(shí)限內(nèi)擊敗國(guó)際象棋世界冠軍的電腦系統(tǒng)。
但 Deep Blue 的缺陷是沒(méi)有直覺(jué),不具備真正的“智能靈魂”,只能靠超強(qiáng)的計(jì)算能力彌補(bǔ)分析思考方面的缺陷,贏得比賽的 Deep Blue 很快也退役了。
2016 年 3 月,谷歌 AI 的 AlphaGo 在四場(chǎng)比賽中擊敗了圍棋世界冠軍李世石,被認(rèn)為是 AI 真正意義上的里程碑,AlphaGo 當(dāng)時(shí)使用了蒙特卡洛樹(shù)搜索與兩個(gè)深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,在這種設(shè)計(jì)下,電腦可像人類大腦一樣自發(fā)學(xué)習(xí)進(jìn)行分析訓(xùn)練,不斷學(xué)習(xí)提高棋力。
自此之后,各類 AI 程序新秀層出不窮,2018 年 12 月 10 日,DeepMind 針對(duì)即時(shí)戰(zhàn)略游戲星際爭(zhēng)霸開(kāi)發(fā)的人工智能 AlphaStar 能完虐全球 99.8% 的人類職業(yè)選手。
無(wú)疑,現(xiàn)在的 GT Sophy 又是一個(gè) AI 勝利的延續(xù)。
來(lái)自斯坦福大學(xué)機(jī)械工程系教授 J.Christian Gerdes 認(rèn)為,GT Sophy 研究所帶來(lái)的影響也許能遠(yuǎn)遠(yuǎn)超出電子游戲范疇,隨著許多公司致力于完善運(yùn)送貨物或乘客的全自動(dòng)車(chē)輛,關(guān)于軟件中有多少應(yīng)該使用神經(jīng)網(wǎng)絡(luò),以及有多少應(yīng)該僅基于物理,值得進(jìn)一步去探索。
總的來(lái)說(shuō),在感知和識(shí)別周?chē)h(huán)境中的物體時(shí),神經(jīng)網(wǎng)絡(luò)是無(wú)可爭(zhēng)議的冠軍。然而,軌跡規(guī)劃仍然是物理和優(yōu)化領(lǐng)域,GT Sophy 在游戲賽道上的成功表明,神經(jīng)網(wǎng)絡(luò)有一天可能會(huì)在自動(dòng)化車(chē)輛的軟件中發(fā)揮比今天更大的作用。
更具挑戰(zhàn)性的可能是每圈的變化。真實(shí)情況下,賽車(chē)的輪胎狀況在每圈之間都會(huì)發(fā)生變化,人類駕駛員必須在整個(gè)比賽過(guò)程中適應(yīng)這種變化。GT Sophy 能用更多的數(shù)據(jù)做同樣的事情嗎?這些數(shù)據(jù)從何而來(lái)?這將使得人工智能有更多進(jìn)化空間。
參考資料:
https://www.nature.com/articles/s41586-021-04357-7
https://www.nature.com/articles/d41586-022-00304-2
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
衰減器相關(guān)文章:衰減器原理