OpenAI開(kāi)源Point-E,可在Nvidia V100 GPU上1-2分鐘生成3D模型
在推出針對(duì)文本和圖像的生成人工智能模型之后,OpenAI現(xiàn)在展示了下一步可能出現(xiàn)的東西:一個(gè)從文本到三維模型的生成器。通過(guò)文本描述,Point-E生成了3D點(diǎn)云,可以作為虛擬環(huán)境中的模型。除OpenAI之外,已經(jīng)有其他用于3D生成的工智能模型,如谷歌的Dreamfusion或Nvidia的Magic3D。
Point-E生成展示
然而,據(jù)說(shuō)OpenAI的開(kāi)源Point-E速度明顯更快,在一個(gè)Nvidia V100 GPU上可以在一到兩分鐘內(nèi)生成3D模型。
OpenAI的Point-E生成點(diǎn)云
實(shí)際上,Point-E并不生成傳統(tǒng)意義上的3D模型,而是代表3D形狀的點(diǎn)云。相比之下,谷歌的Dreamfusion生成NeRFs(Neural Radiance Fields)——需要更多的時(shí)間,但與點(diǎn)云相比,NeRFs可以呈現(xiàn)出更多明顯的細(xì)節(jié)。很顯然,Point-E的質(zhì)量相對(duì)較低,因而使得該系統(tǒng)的效率很高。
Point-E從文本描述中生成的點(diǎn)云的一些例子
當(dāng)Point-E生成點(diǎn)云后,再由另一個(gè)作為三維建模和設(shè)計(jì)標(biāo)準(zhǔn)的模型將其轉(zhuǎn)化為網(wǎng)格。根據(jù)OpenAI的說(shuō)法,這個(gè)過(guò)程還不能完全避免出錯(cuò):在某些情況下,云的某些部分會(huì)被錯(cuò)誤地處理,導(dǎo)致生成錯(cuò)誤的網(wǎng)格。
Point-E中的兩個(gè)生成模型
具體來(lái)看,Point-E本身由兩個(gè)模型組成:一個(gè)GLIDE模型和一個(gè)image-to-3D模型。前者類似于DALL-E或Stable Diffusion等系統(tǒng),可以從文本描述中生成圖像。第二個(gè)模型由OpenAI對(duì)圖像和相關(guān)3D目標(biāo)物體進(jìn)行訓(xùn)練,學(xué)習(xí)從圖像中生成相應(yīng)點(diǎn)云。為了更好地訓(xùn)練,OpenAI使用了數(shù)百萬(wàn)個(gè)3D目標(biāo)和相關(guān)的元數(shù)據(jù)。
通過(guò)GLIDE模型在 A corgi 中創(chuàng)建一個(gè)圖像,然后通過(guò)點(diǎn)云擴(kuò)散模型創(chuàng)建一個(gè)3D corgi
該團(tuán)隊(duì)報(bào)告說(shuō),“這兩步過(guò)程可能會(huì)失敗”。但它是如此之快,以至于生成目標(biāo)的速度比Dreamfusion快近600倍。"這可能讓它在某些應(yīng)用上更加實(shí)用,或者發(fā)現(xiàn)更高質(zhì)量的3D對(duì)象,"該團(tuán)隊(duì)表示。
“我們已經(jīng)推出了Point-E,一個(gè)用于文本條件合成3D點(diǎn)云的系統(tǒng)。它首先生成合成視圖,然后根據(jù)這些視圖生成彩色點(diǎn)云。我們發(fā)現(xiàn)Point-E能夠有效地產(chǎn)生以文本提示為條件的多樣化和復(fù)雜的3D形狀?!?br />
據(jù)OpenAI稱,Point-E是公司未來(lái)展開(kāi)文本到三維合成業(yè)務(wù)的起點(diǎn),目前已在Github上開(kāi)放了源代碼。Point-E 2可能最早在明年撼動(dòng)3D市場(chǎng)。
參考鏈接:
https://the-decoder.com/point-e-openai-shows-dall-e-for-3d-models/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。