英偉達(dá)的Rev Lebaredian表示,合成數(shù)據(jù)可以使AI系統(tǒng)變得更好
來(lái)源:ScienceAI
這可能違反直覺(jué)。但有些人認(rèn)為,訓(xùn)練必須在混亂的現(xiàn)實(shí)世界環(huán)境中工作的人工智能系統(tǒng)(例如自動(dòng)駕駛汽車和倉(cāng)庫(kù)機(jī)器人)的關(guān)鍵實(shí)際上并不是現(xiàn)實(shí)世界的數(shù)據(jù)。相反,有人說(shuō),合成數(shù)據(jù)將釋放人工智能的真正潛力。合成數(shù)據(jù)是生成而不是收集的,咨詢公司 Gartner 估計(jì),用于訓(xùn)練 AI 系統(tǒng)的數(shù)據(jù)中有 60% 將是合成的。但是它的使用是有爭(zhēng)議的,因?yàn)殛P(guān)于合成數(shù)據(jù)是否能夠準(zhǔn)確地反映現(xiàn)實(shí)世界的數(shù)據(jù),并為現(xiàn)實(shí)世界的情況準(zhǔn)備人工智能系統(tǒng)的問(wèn)題仍然存在。
Nvidia 已經(jīng)大范圍應(yīng)用合成數(shù)據(jù),并正在努力成為年輕行業(yè)的領(lǐng)導(dǎo)者。11 月,Nvidia 創(chuàng)始人兼首席執(zhí)行官黃仁勛宣布推出 Omniverse Replicator,Nvidia 將其描述為「用于生成具有基本事實(shí)的合成數(shù)據(jù)以訓(xùn)練 AI 網(wǎng)絡(luò)的引擎」。為了找出這意味著什么,媒體與 Nvidia 的仿真技術(shù)和 Omniverse 工程副總裁 Rev Lebaredian 進(jìn)行了交談。
Omniverse Replicator 被描述為「一個(gè)強(qiáng)大的合成數(shù)據(jù)生成引擎,可以生成用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的物理模擬合成數(shù)據(jù)」。你能解釋一下這是什么意思,尤其是你所說(shuō)的「物理模擬」是什么意思?
Rev Lebaredian:電子游戲本質(zhì)上是對(duì)夢(mèng)幻世界的模擬。有一些嘗試讓游戲的物理特性變得更加逼真:當(dāng)你炸毀一堵墻或一座建筑物時(shí),它就會(huì)倒塌。但在大多數(shù)情況下,游戲并沒(méi)有試圖做到真正的物理準(zhǔn)確,因?yàn)檫@在計(jì)算上非常昂貴。所以它總是:為了使它作為一個(gè)計(jì)算問(wèn)題易于處理,你愿意做什么樣的近似?視頻游戲通常必須在小型計(jì)算機(jī)上運(yùn)行,例如控制臺(tái)甚至手機(jī)。所以你有那些嚴(yán)格的限制。游戲的另一件事是它們是幻想世界,它們的目的是為了有趣,所以現(xiàn)實(shí)世界的物理和準(zhǔn)確性不一定是一件好事。
對(duì)于 Omniverse,我們的目標(biāo)是做一些以前在實(shí)時(shí)世界模擬器中從未做過(guò)的事情。我們正在嘗試對(duì)世界進(jìn)行物理上準(zhǔn)確的模擬。當(dāng)我們說(shuō)物理上準(zhǔn)確時(shí),我們指的是與物理相關(guān)的所有方面。事物在物理世界中的外觀是光與物質(zhì)的相互作用,因此我們對(duì)其進(jìn)行模擬。我們模擬原子如何與剛體物理、軟體物理、流體動(dòng)力學(xué)以及其他任何相關(guān)的相互作用。因?yàn)槲覀兿嘈?,如果你能足夠接近地模擬現(xiàn)實(shí)世界,那么你就會(huì)獲得超能力。
什么樣的超能力?
Lebaredian:首先,你得到了傳送。如果我可以將這個(gè)房間帶到我身邊并在虛擬世界中呈現(xiàn)它,那么現(xiàn)在我可以在那個(gè)世界中移動(dòng)我的相機(jī)并傳送到任何位置。我甚至可以戴上 VR 頭戴設(shè)備,感覺(jué)自己置身其中。而且,如果我可以將現(xiàn)實(shí)世界的狀態(tài)與虛擬世界的狀態(tài)同步,那就真的沒(méi)有區(qū)別了。我可能在火星上有傳感器,可以接收現(xiàn)實(shí)世界并將該信息的副本實(shí)時(shí)發(fā)送到地球——或者 8 分鐘后,或者以光速?gòu)幕鹦莻鞑ニ璧娜魏螘r(shí)間。如果我可以虛擬地重建那個(gè)世界并將自己沉浸其中,那么實(shí)際上就像我在 8 分鐘前傳送到火星一樣。
并且給定一些關(guān)于世界狀態(tài)的初始條件,如果你能足夠準(zhǔn)確地模擬,那么你就有可能預(yù)測(cè)未來(lái)。假設(shè)我現(xiàn)在擁有這個(gè)房間里的世界狀態(tài),我拿著這個(gè)電話。我可以模擬我松開(kāi)手摔倒的那一刻會(huì)發(fā)生什么——如果我的模擬足夠接近,那么我可以預(yù)測(cè)這款手機(jī)將如何掉落并撞到地面。真正酷的是,你可以改變初始條件并做一些實(shí)驗(yàn)。你可以說(shuō),替代期貨會(huì)是什么樣子?如果我重新配置我的工廠?在我的環(huán)境中操作事物做出不同的決定怎么辦?這些不同的未來(lái)會(huì)是什么樣子?這使你可以進(jìn)行優(yōu)化。你可以找到最好的未來(lái)。
好的,這就是您嘗試使用 Omniverse 構(gòu)建的內(nèi)容。所有這些對(duì)人工智能有什么幫助?
Lebaredian:在這個(gè)人工智能的新時(shí)代,開(kāi)發(fā)高級(jí)軟件不再是一個(gè)只有筆記本電腦的研究生就能做的事情。它需要大量的投資。人類未來(lái)將開(kāi)發(fā)的所有最先進(jìn)的算法都將由需要大量數(shù)據(jù)的系統(tǒng)進(jìn)行訓(xùn)練。這就是為什么人們說(shuō)數(shù)據(jù)是新的石油。收集數(shù)據(jù)的大型科技公司似乎具有天然優(yōu)勢(shì)。但事實(shí)是,對(duì)于我們將在未來(lái)創(chuàng)建的大多數(shù)人工智能,我們目前收集的數(shù)據(jù)都沒(méi)有那么有用。
當(dāng)我們?yōu)?[the Conference] SIGGRAPH 2017 做演示時(shí),我注意到了這一點(diǎn)。我們有一個(gè)可以玩多米諾骨牌的機(jī)器人,我們有多個(gè)必須訓(xùn)練的 AI 模型。其中一個(gè)基本模型是計(jì)算機(jī)視覺(jué)模型,它可以檢測(cè)桌子上的多米諾骨牌,告訴你它們的方向,然后告訴你每張多米諾骨牌上有多少點(diǎn):一個(gè)、五個(gè)、六個(gè)或其他。
谷歌肯定會(huì)擁有訓(xùn)練這種人工智能所需的所有圖像數(shù)據(jù)。
Lebaredian:你可以搜索谷歌圖片,你會(huì)發(fā)現(xiàn)很多多米諾骨牌的圖片,但你會(huì)發(fā)現(xiàn),首先,它們都沒(méi)有標(biāo)簽。一個(gè)人必須標(biāo)記每張多米諾骨牌是什么以及每張多米諾骨牌的側(cè)面,這是一大堆體力勞動(dòng)。但即使你通過(guò)了標(biāo)簽,你會(huì)發(fā)現(xiàn)圖像并沒(méi)有太多的多樣性。
我們需要算法對(duì)不同的照明條件具有穩(wěn)健性,因?yàn)槲覀儗⒃趯?shí)驗(yàn)室對(duì)其進(jìn)行訓(xùn)練,然后將其帶到 SIGGRAPH 的展示廳。我們使用的攝像頭和傳感器也可能會(huì)發(fā)生變化,因此它們周圍的條件可能會(huì)有所不同。我們希望該算法適用于任何類型的多米諾骨牌,無(wú)論它們是塑料、木材還是其他任何材料。因此,即使對(duì)于這個(gè)非常簡(jiǎn)單的事情,必要的數(shù)據(jù)也不存在。如果我們要收集這些數(shù)據(jù),我們將不得不購(gòu)買(mǎi)數(shù)十甚至數(shù)百個(gè)不同的多米諾骨牌,設(shè)置不同的照明條件和不同的傳感器等等。所以,當(dāng)時(shí),我們很快在游戲引擎中編寫(xiě)了一個(gè)隨機(jī)多米諾骨牌生成器,將所有這些東西隨機(jī)化。在一夜之間,我們訓(xùn)練了一個(gè)可以穩(wěn)健地完成此任務(wù)的模型,它在會(huì)議中心使用不同的攝像頭工作。
這是一個(gè)簡(jiǎn)單的案例。對(duì)于像自動(dòng)駕駛汽車或自主機(jī)器這樣更復(fù)雜的東西,我們需要的數(shù)據(jù)量,以及這些數(shù)據(jù)的準(zhǔn)確性和多樣性,是不可能從現(xiàn)實(shí)世界中獲得的。真的沒(méi)有辦法解決它。如果沒(méi)有物理上精確的模擬來(lái)生成這些 AI 所需的數(shù)據(jù),我們就無(wú)法取得進(jìn)展。
使用 Omniverse Replicator,客戶是否獲得了萬(wàn)能的合成數(shù)據(jù)生成器?還是您為不同的行業(yè)量身定做?
Lebaredian:我們使用 Omniverse 構(gòu)建的是一個(gè)非常通用的開(kāi)發(fā)平臺(tái),任何人都可以根據(jù)自己的特定需求進(jìn)行定制。開(kāi)箱即用,您可以獲得多個(gè)渲染器,它們是光和物質(zhì)物理的模擬器。你會(huì)得到一系列的它們,讓你用準(zhǔn)確性來(lái)?yè)Q取速度。
我們有很多方法可以將 3D 數(shù)據(jù)作為 Omniverse Replicator 的輸入來(lái)生成您需要的數(shù)據(jù)。如今,幾乎所有人造的東西,在某個(gè)地方都有它的 3D 虛擬表示。如果您正在設(shè)計(jì)汽車、電話、建筑物、橋梁或其他任何東西,您可以使用 CAD 工具。問(wèn)題是所有這些工具都說(shuō)不同的語(yǔ)言。數(shù)據(jù)有不同的格式。很難將它們組合起來(lái)并構(gòu)建一個(gè)包含所有這些組成部分的場(chǎng)景。
借助 Omniverse,我們嘗試連接所有這些現(xiàn)有工具并協(xié)調(diào)它們,這非常麻煩。我們?cè)谝粋€(gè)名為通用場(chǎng)景描述的系統(tǒng)之上構(gòu)建了 Omniverse,該系統(tǒng)最初由 Pixar 開(kāi)發(fā),后來(lái)開(kāi)源。我們認(rèn)為 USD 之于虛擬世界就像 HTML 之于網(wǎng)頁(yè):這是描述事物的常用方式。我們圍繞美元構(gòu)建了很多工具,讓用戶可以轉(zhuǎn)換數(shù)據(jù)、修改數(shù)據(jù)、隨機(jī)化事物。但源數(shù)據(jù)幾乎可以來(lái)自任何地方,因?yàn)槲覀儞碛兴邢嚓P(guān)工具的連接器。
你能給我一個(gè)使用 Replicator 為 AI 訓(xùn)練制作合成數(shù)據(jù)的行業(yè)的例子嗎?
Lebaredian:我們已經(jīng)展示了自動(dòng)駕駛汽車的例子。研究如何讓車輛自動(dòng)駕駛需要大量資金,而合成數(shù)據(jù)正在成為訓(xùn)練人工智能系統(tǒng)的主要部分。我們已經(jīng)在 Omniverse Replicator 中針對(duì)該領(lǐng)域進(jìn)行了一些專門(mén)化:我們擁有大型戶外世界,其中包括道路、車道、汽車、行人和路牌以及所有類似的東西。
我們還對(duì)機(jī)器人進(jìn)行了一些專業(yè)化。但是,如果我們不支持你的領(lǐng)域,因?yàn)樗且粋€(gè)工具包,你仍然可以使用它做你喜歡的事情。人們有許多途徑可以引入自己的 3D 數(shù)據(jù)或獲取數(shù)據(jù)來(lái)構(gòu)建虛擬世界。那里有圖書(shū)館和第三方 3D 資產(chǎn)提供者。
對(duì)于一家自動(dòng)駕駛汽車公司來(lái)說(shuō),生成合成數(shù)據(jù)的一個(gè)優(yōu)勢(shì)是它可以在危險(xiǎn)條件下訓(xùn)練其車輛,對(duì)吧?它可以放入冰雪,急轉(zhuǎn)彎之類的東西?
Lebaredian:它們可以改變白天和黑夜的條件,并將行人和動(dòng)物置于你不想在現(xiàn)實(shí)世界中構(gòu)建的危險(xiǎn)環(huán)境中。我們不想讓人類或動(dòng)物在現(xiàn)實(shí)生活中處于危險(xiǎn)境地,但我確實(shí)希望我的自動(dòng)駕駛汽車知道如何應(yīng)對(duì)這些邊緣情況。因此,我們可以在安全第一的虛擬世界中訓(xùn)練他們,這是個(gè)兩全其美的辦法。
因此,這些合成數(shù)據(jù)可以在 AI 訓(xùn)練中用作「真實(shí)數(shù)據(jù)」,并帶有超準(zhǔn)確的內(nèi)置標(biāo)簽。但這是最好的訓(xùn)練策略嗎?這些人工智能系統(tǒng)通常需要在信息不完整和不完善的世界中運(yùn)行。
Lebaredian:這對(duì)訓(xùn)練部分有好處。今天創(chuàng)建大多數(shù)人工智能的方式是通過(guò)一種稱為監(jiān)督學(xué)習(xí)的學(xué)習(xí)。在可以區(qū)分貓和狗的神經(jīng)網(wǎng)絡(luò)示例中,首先用帶有以下標(biāo)簽的貓和狗的圖片對(duì)其進(jìn)行訓(xùn)練:這是一只貓,這是一只狗。它從這些例子中學(xué)習(xí)。然后,將該網(wǎng)絡(luò)應(yīng)用于未標(biāo)記的新圖像,它會(huì)告訴你每個(gè)圖像是什么。
例如,在自動(dòng)駕駛汽車中,你希望汽車通過(guò)其傳感器了解周圍所有汽車和行人的相對(duì) 3D 位置。但它只是得到一個(gè)只有像素的2D圖像,沒(méi)有相關(guān)信息。因此,如果你要訓(xùn)練一個(gè)網(wǎng)絡(luò)來(lái)推斷3D信息,你首先必須在 2D 中畫(huà)一個(gè)框,然后你必須告訴它,「這是根據(jù)傳感器使用的特定鏡頭的距離?!沟绻覀?cè)贠mniverse中合成數(shù)據(jù),我們就能以完全物理精度獲得所有 3D 信息。我們可以提供準(zhǔn)確的標(biāo)簽,而不會(huì)出現(xiàn)人類引入系統(tǒng)的錯(cuò)誤。因此,我們訓(xùn)練的最終神經(jīng)網(wǎng)絡(luò)將更加智能和準(zhǔn)確。
在這種情況下過(guò)度擬合是一個(gè)問(wèn)題嗎?使用合成數(shù)據(jù)訓(xùn)練的系統(tǒng)是否存在在合成數(shù)據(jù)上表現(xiàn)良好但在現(xiàn)實(shí)世界中失敗的危險(xiǎn)?
Lebaredian:合成數(shù)據(jù)實(shí)際上是解決過(guò)擬合問(wèn)題的好方法,因?yàn)槲覀兏菀滋峁┒鄻踊臄?shù)據(jù)集。如果我們正在訓(xùn)練一個(gè)網(wǎng)絡(luò)來(lái)識(shí)別人們的面部表情,但我們只在高加索男性上訓(xùn)練它,那么我們就會(huì)過(guò)度擬合高加索男性,當(dāng)你給它更多不同的主題時(shí),它就會(huì)失敗。但是,使用合成數(shù)據(jù),我們更容易創(chuàng)建數(shù)據(jù)的多樣性。如果我正在生成人類的圖像并且我有一個(gè)合成數(shù)據(jù)生成器,它允許我改變?nèi)藗兊拿娌颗渲?、他們的膚色、眼睛顏色、發(fā)型和所有這些東西。
似乎合成數(shù)據(jù)可以幫助解決算法偏差的大問(wèn)題,因?yàn)樗惴ㄆ畹膩?lái)源之一是用于訓(xùn)練 AI 系統(tǒng)的數(shù)據(jù)集中的偏差。我們可以使用合成數(shù)據(jù)在我們更愿意生活的公正世界中訓(xùn)練人工智能,而不是我們實(shí)際生活的世界嗎?
Lebaredian:我們正在合成我們的 AI 出生的世界。它們出生在一臺(tái)計(jì)算機(jī)中,它們只是接受了我們提供給他們的數(shù)據(jù)的訓(xùn)練。因此,我們可以構(gòu)建具有我們想要的多樣性的理想世界,并且我們的 AI 可以更好地實(shí)現(xiàn)它。當(dāng)它們完成時(shí),它們比我們?cè)诂F(xiàn)實(shí)世界中的任何人都更聰明。當(dāng)我們把它們放在現(xiàn)實(shí)世界中時(shí),它們的表現(xiàn)會(huì)比只接受它們?cè)谶@里所見(jiàn)事物的訓(xùn)練時(shí)表現(xiàn)得更好。
那么使用合成數(shù)據(jù)有哪些陷阱呢?它容易受到對(duì)抗性攻擊嗎?
Lebaredian:對(duì)抗性攻擊,類似于過(guò)擬合問(wèn)題,并不是合成數(shù)據(jù)與任何其他類型數(shù)據(jù)相比所獨(dú)有的。解決方案是擁有更多數(shù)據(jù)和更好的數(shù)據(jù)。
合成數(shù)據(jù)的問(wèn)題在于很難生成好的合成數(shù)據(jù)。它要求您擁有像 Omniverse 這樣出色的模擬器,并且需要一個(gè)物理上準(zhǔn)確的模擬器,這樣它才能與現(xiàn)實(shí)世界匹配得足夠好。如果我們創(chuàng)建一個(gè)合成數(shù)據(jù)生成器來(lái)制作看起來(lái)像卡通的圖像,那還不夠好。你不會(huì)想把一個(gè)只知道如何解釋卡通世界的機(jī)器人放在醫(yī)院里,它會(huì)和老人和孩子一起工作。那將是一件可怕的事情。您需要您的模擬器在物理上盡可能準(zhǔn)確才能使用它。但這是一個(gè)極其困難的問(wèn)題。
相關(guān)報(bào)道:https://spectrum.ieee.org/synthetic-data-ai
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。