博客專欄

EEPW首頁 > 博客 > 點(diǎn)云深度學(xué)習(xí):多一維看世界【VALSE Webinar】Panel實(shí)錄

點(diǎn)云深度學(xué)習(xí):多一維看世界【VALSE Webinar】Panel實(shí)錄

發(fā)布人:深度學(xué)習(xí)大講堂 時(shí)間:2020-09-15 來源:工程師 發(fā)布文章

編者按:隨著深度學(xué)習(xí)技術(shù)的進(jìn)展,如何通過深度學(xué)習(xí)對三維數(shù)據(jù)進(jìn)行學(xué)習(xí)并提高幾何處理方法的智能性成為近期研究工作的熱點(diǎn)。三維技術(shù)的發(fā)展和應(yīng)用正在受到學(xué)術(shù)界和工業(yè)界越來越多的關(guān)注。VALSE Webinar 2020-16期邀請高林(中科院計(jì)算所)、李鴻升(香港中文大學(xué))、章國鋒(浙江大學(xué))、郭裕蘭(國防科技大學(xué))、盛律(北京航空航天大學(xué))針對“點(diǎn)云深度學(xué)習(xí):多一維看世界” 開展了深入探討,本文是該次討論的文字實(shí)錄,共計(jì)6個(gè)議題。


點(diǎn)云深度學(xué)習(xí)的很多任務(wù)和圖像理解一致,也是分類、分割、檢測等,它與現(xiàn)有的圖像域深度學(xué)習(xí)的主要區(qū)別在哪?有何聯(lián)系?點(diǎn)云深度學(xué)習(xí)要解決的核心問題是什么?

李鴻升:點(diǎn)云的深度學(xué)習(xí)和圖像深度學(xué)習(xí)主要的區(qū)別在于兩個(gè)方面。第一個(gè)核心方面是相對于二維圖像,點(diǎn)云的數(shù)據(jù)是無序的,所以設(shè)計(jì)網(wǎng)絡(luò)時(shí),需要考慮怎樣處理無序的數(shù)據(jù)。第二個(gè)核心方面是三維點(diǎn)云多了一個(gè)維度,那么對計(jì)算效率、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的影響都比較大。

目前來說,二維的深度學(xué)習(xí)對于三維點(diǎn)云處理的深度學(xué)習(xí)的網(wǎng)絡(luò)設(shè)計(jì)還是有重要的指導(dǎo)作用。比如,三維檢測工作整體的大框架還是類似現(xiàn)在2D檢測,比如proposal-refine two-stage的方案、類似anchor free的方案、single stage的方案,通過二維的網(wǎng)絡(luò)對三維的網(wǎng)絡(luò)設(shè)計(jì)有一定的指導(dǎo)價(jià)值。另一例子是三維點(diǎn)云分割,二維網(wǎng)絡(luò)里面encoder-decoder結(jié)構(gòu)也影響了三維分割網(wǎng)絡(luò)的設(shè)計(jì),三維分割網(wǎng)絡(luò)里也看到了encoder-decoder這樣的網(wǎng)絡(luò)結(jié)構(gòu)?,F(xiàn)階段,二維深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)對于三維點(diǎn)云的處理還是有比較強(qiáng)的借鑒和作用。

逐漸發(fā)展之后,三維點(diǎn)云會(huì)出現(xiàn)更多更獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),比如PointNet,技術(shù)上也是一個(gè)非常獨(dú)特的backbone的設(shè)計(jì)方式。點(diǎn)云深度學(xué)習(xí)當(dāng)前得研究核心解決問題仍然是數(shù)據(jù)的表達(dá),針對不同數(shù)據(jù)表達(dá)設(shè)計(jì)不同具體網(wǎng)絡(luò)模型。

郭裕蘭:無論是做圖像理解,還是做點(diǎn)云深度學(xué)習(xí),最關(guān)鍵的都是特征學(xué)習(xí)問題。但是點(diǎn)云相對圖像有自己的特殊性,包括點(diǎn)云的無序性、稀疏性。通過傳感器獲得點(diǎn)云中,在三維空間中有很多地方并沒有點(diǎn),通常只在場景的表面上會(huì)有點(diǎn)。此外,還有點(diǎn)分布的不均勻性,比如近的地方點(diǎn)比較密,遠(yuǎn)處的點(diǎn)就很少。

圖像并沒有點(diǎn)云的上述特殊性。因此,在做網(wǎng)絡(luò)設(shè)計(jì)時(shí),需要考慮怎么針對某一種特定的數(shù)據(jù)表示類型去學(xué)習(xí)特征。當(dāng)輸入為點(diǎn)云時(shí),也有很多方法嘗試把點(diǎn)云轉(zhuǎn)成中間的某種表達(dá)方式,比如多視圖、體素、或混合表示。這些方法本質(zhì)上為了針對點(diǎn)云本身特有的性質(zhì)去更好地學(xué)習(xí)特征表示。此外,也需要考慮在目前的GPU所能承受的計(jì)算代價(jià)下去學(xué)習(xí)一個(gè)好的特征。

點(diǎn)云分類、分割和目標(biāo)檢測等任務(wù)的網(wǎng)絡(luò)框架跟現(xiàn)有圖像領(lǐng)域的工作有很多相似之處,能在圖像領(lǐng)域找到不少借鑒。圖像和點(diǎn)云的工作有相互促進(jìn)的地方,做圖像的人比較多做的也比較早,所以有不少思想對點(diǎn)云深度學(xué)習(xí)任務(wù)的網(wǎng)絡(luò)設(shè)計(jì)能夠產(chǎn)生比較好的啟發(fā)。


針對相同的任務(wù),例如目標(biāo)檢測、語義分割,點(diǎn)云深度學(xué)習(xí)的SOTA與圖像深度學(xué)習(xí)的SOTA,哪個(gè)更接近實(shí)用?多一維度看世界,點(diǎn)云是否可以做得更好?目前有哪些因素限制了點(diǎn)云處理技術(shù)的發(fā)展?

郭裕蘭:個(gè)人理解不一定會(huì)存在哪一個(gè)取代哪一個(gè)的問題,實(shí)際上兩者有很強(qiáng)的互補(bǔ)性,一個(gè)在表觀信息上比較強(qiáng),另一個(gè)在幾何信息上比較強(qiáng),有各自的優(yōu)勢。如果想要獲得很精確的位姿信息,獲得很好的三維空間結(jié)構(gòu)信息,則點(diǎn)云會(huì)更合適。在很多應(yīng)用場景下,單一模態(tài)類型的傳感器難以包打天下。比如自動(dòng)駕駛在天氣很好的情況下,用RGB相機(jī)可以把環(huán)境感知與理解任務(wù)做的很好,但如果遇到光線不好或是雨霧天氣,光靠相機(jī)就有風(fēng)險(xiǎn),這個(gè)時(shí)候就需要激光雷達(dá)來做補(bǔ)充。因此,在實(shí)際應(yīng)用中,很多時(shí)候需要將圖像和點(diǎn)云相結(jié)合,而不是用一個(gè)替換另一個(gè)。

李鴻升:二維和三維當(dāng)前還是有著不同的適用場景。從目標(biāo)檢測的角度來講,目前圖像上目標(biāo)檢測已經(jīng)非常實(shí)用了,比如人臉識別必須先做人臉檢測,這些二維檢測任務(wù)的性能已經(jīng)非常高以及實(shí)用化。如果是從自動(dòng)駕駛的角度來看,相比于基于圖像的目標(biāo)檢測,基于三維點(diǎn)云的目標(biāo)檢測更接近實(shí)用。從KITTI的檢測方法上看到,基于點(diǎn)云的三維目標(biāo)檢測比基于雙目圖像的目標(biāo)檢測精度高很多。在一些任務(wù)場景中,如果三維點(diǎn)云的數(shù)據(jù)可以獲得、傳感器容易部署,那么在這種情況下,可以盡量地使用三維點(diǎn)云的數(shù)據(jù)來增強(qiáng)整個(gè)檢測的精度。

章國鋒:這個(gè)問題里,點(diǎn)云深度學(xué)習(xí)如果也是包括RGB顏色信息的,那多了一維RGB加深度或點(diǎn)云信息的話,理論上肯定會(huì)做得更好。因?yàn)辄c(diǎn)云的無序性,之前確實(shí)不容易做得很好,后來PointNet這樣的方法出來之后,點(diǎn)云深度學(xué)習(xí)也是取得了比較大的進(jìn)展??傊?,如果不考慮深度獲取的代價(jià),顏色加深度學(xué)習(xí)的肯定能做得更好。

盛律:多一個(gè)維度肯定會(huì)有比較好的性能增益。但是問題是哪種更接近實(shí)用,不同的方式需要需要服務(wù)于不同的場景,或者說是一種任務(wù)導(dǎo)向選擇。比如手機(jī)場景下,圖像就足夠了,但是無人車、機(jī)器人場景下,一般需要明確的幾何感知。在這種場景下,RGB加點(diǎn)云的融合的方案會(huì)更有利。關(guān)于哪些因素限制點(diǎn)云處理的發(fā)展,實(shí)際上跟第一個(gè)問題相像,無序性、稀疏性、不均勻性肯定會(huì)影響點(diǎn)云的特征表達(dá)。我想說的是點(diǎn)云還存在著比較強(qiáng)的冗余性,大量輸入點(diǎn)不一定對學(xué)習(xí)空間特征表達(dá)有用。雖然現(xiàn)有點(diǎn)云網(wǎng)絡(luò)一般只處理上萬個(gè)點(diǎn)或幾千個(gè)點(diǎn),但點(diǎn)云模型訓(xùn)練或推理消耗非常巨大。我認(rèn)為需要優(yōu)化點(diǎn)云網(wǎng)絡(luò)設(shè)計(jì),比如使得點(diǎn)云網(wǎng)絡(luò)可以承載更多的有效點(diǎn),或者更容易抓取有意義的關(guān)鍵點(diǎn)的信息,這樣才會(huì)更加實(shí)用。

高林:面對相同的任務(wù),例如目標(biāo)檢測、語義分割等,不同的工業(yè)任務(wù)驅(qū)動(dòng)是不一樣的,比如無人駕駛,特斯拉比較偏視覺,完全從圖像上來做,可能就導(dǎo)致一些事故。但是像奧迪這類非常傳統(tǒng)的廠商,他們都是考慮點(diǎn)云,多一個(gè)維度相當(dāng)于多一些非常硬的約束,從任務(wù)上來說無人駕駛會(huì)更安全。從其他的任務(wù)倒向工業(yè)任務(wù),比如微軟的HoloLens,AR、VR的應(yīng)用,如果沒有深度的話,很多東西非常難做,只從圖像去恢復(fù)一個(gè)場景是非常困難的。但是有了點(diǎn)云以后,使得三維的重建和三維環(huán)境的感知更加地容易。像一些純3D的任務(wù),比如室內(nèi)模型、室內(nèi)場景的裝修及公司里3D建模,這些具體的工業(yè)任務(wù)里面用到的點(diǎn)云分割目前做的都不是特別好。一方面點(diǎn)云用深度學(xué)習(xí)做還是比較新,網(wǎng)絡(luò)還在不斷地優(yōu)化和改進(jìn),不如圖像技術(shù)成熟。另一方面,點(diǎn)云數(shù)據(jù)本身標(biāo)注困難,雖說都是點(diǎn)云,但室外室內(nèi)點(diǎn)云分布的區(qū)別很大,需要專有的數(shù)據(jù)集。目前室內(nèi)場景的點(diǎn)云分割數(shù)據(jù)集還沒有一個(gè)特別大的數(shù)據(jù)集,所以無論是技術(shù)上還是數(shù)據(jù)上,都是對點(diǎn)云處理比較大的瓶頸,這方面將來可能有很多機(jī)會(huì)。


三維點(diǎn)云深度學(xué)習(xí)技術(shù)對標(biāo)注數(shù)據(jù)的需求如何?三維點(diǎn)云是否存在類似圖像領(lǐng)域的ImageNet、COCO等大規(guī)模benchmark?

高林:我們最近跟阿里巴巴淘系的趙斌強(qiáng)、賈榮飛等人以及SFU的張老師、悉尼大學(xué)的陶老師合作開源了場景數(shù)據(jù)集3d-front和高質(zhì)量3d幾何模型數(shù)據(jù)集3d-future,(http://www.geometrylearning.com/data.html)三維幾何的數(shù)據(jù)會(huì)更多一些,同時(shí)我們提供了采樣的工具,這樣也可以在3d-future上采樣,得到室內(nèi)場景的點(diǎn)云的數(shù)據(jù)。對于室內(nèi)場景來說,這樣增加了一些點(diǎn)云的數(shù)據(jù)源,這對室內(nèi)場景的特定的任務(wù)包括分割檢測,是很有幫助的。因?yàn)檫@些數(shù)據(jù)都是初始數(shù)據(jù),還會(huì)進(jìn)行進(jìn)一步的標(biāo)注和分析,這將是一個(gè)新的開端。

郭裕蘭:在數(shù)據(jù)集上,點(diǎn)云的數(shù)據(jù)標(biāo)注是一個(gè)難題。如果是做3D形狀分類任務(wù),因?yàn)橹恍枰獙σ粋€(gè)形狀標(biāo)注一個(gè)類別信息,因此數(shù)據(jù)相對來說容易標(biāo)注。此外,可以利用幾何建模軟件去生成一些數(shù)據(jù),像ModelNet、ShapeNet等在這個(gè)任務(wù)上都已經(jīng)用的比較廣泛。但如果是點(diǎn)云分割這種每點(diǎn)都需要類別標(biāo)簽的任務(wù),標(biāo)注的工作量就特別大。此外,點(diǎn)云標(biāo)注工作本身就不太容易,點(diǎn)云不像圖像那么直觀,所以很多標(biāo)注任務(wù)都要借助圖像來輔助完成。

像針對點(diǎn)云分割任務(wù)而標(biāo)注的幾個(gè)比較大的公共數(shù)據(jù)集,多大有公司的參與。點(diǎn)云目標(biāo)檢測領(lǐng)域目前比較大的數(shù)據(jù)集是Waymo數(shù)據(jù)集和nuScenes數(shù)據(jù)集,它們的場景數(shù)量和類別都比較豐富了,這些也都是由大公司發(fā)布,這些數(shù)據(jù)對學(xué)術(shù)界的研究起到了很好的推動(dòng)作用。我們最近把點(diǎn)云形狀分類、三維目標(biāo)檢測和點(diǎn)云分割等領(lǐng)域的工作做了一個(gè)完整的綜述,對相關(guān)的數(shù)據(jù)集和近三年的主要方法都做了系統(tǒng)分析,這個(gè)工作前兩天剛剛被TPAMI錄用了,入門的同學(xué)如果想了解相關(guān)內(nèi)容的話,可以參考一下,論文“Deep Learning for 3D Point Clouds: A Survey”的下載地址是https://arxiv.org/abs/1912.12033。

章國鋒:三維數(shù)據(jù)還可以通過仿真的方式來得到,相對于圖像的仿真可能還更容易一點(diǎn)。目前已經(jīng)有一些合成的數(shù)據(jù)集,例如SUNCG、InteriorNet等。另外,現(xiàn)在的三維數(shù)據(jù)集主要分為兩種,一種是室內(nèi)的RGB-D的這種數(shù)據(jù)集,像ScanNet、Matterport3D;另外一種是室外的基于Lidar的數(shù)據(jù)集,主要是自動(dòng)駕駛場景使用,像KITTI這種。


三維計(jì)算機(jī)視覺有一套成熟的理論基礎(chǔ),也就是多視角幾何學(xué),三維點(diǎn)云深度學(xué)習(xí)與多視角幾何學(xué)目前有什么結(jié)合點(diǎn)嗎?相對于傳統(tǒng)的圖像深度學(xué)習(xí),三維點(diǎn)云深度學(xué)習(xí)是否具備更多的理論可供挖掘?三維點(diǎn)云深度學(xué)習(xí)的可解釋性如何?

盛律:從我目前了解到的相關(guān)理論解釋及研究,說實(shí)話并不多,不過大家也是努力在這方面分析探索。有些研究把點(diǎn)云學(xué)習(xí)的邏輯,比如PointNet的網(wǎng)絡(luò)設(shè)計(jì)邏輯用在傳統(tǒng)問題上。比如說多視角幾何問題中特征點(diǎn)匹配,以往很多時(shí)候用RANSAC或相關(guān)的方法來做多視角攝像機(jī)參數(shù)的估計(jì),現(xiàn)在有一些方案是把所有的潛在匹配點(diǎn)對拿出來形成一個(gè)比較大的匹配點(diǎn)集,以點(diǎn)集作為一種點(diǎn)云的輸入,最后預(yù)計(jì)出每個(gè)點(diǎn)集是否匹配。即把對集合的分類操作轉(zhuǎn)換成適合點(diǎn)云處理的方案來做。還有一些在做立體匹配時(shí),很可能在后面的優(yōu)化過程中引入點(diǎn)云以及點(diǎn)云優(yōu)化的方案。我相信這些方面可以存在著一些結(jié)合。

章國鋒:從我站在更偏傳統(tǒng)的三維視覺的角度來看,因?yàn)閭鹘y(tǒng)的多視角幾何主要靠匹配,但這個(gè)匹配容易不準(zhǔn),如果直接有三維點(diǎn)這種比較可靠的信息,并且能夠把這個(gè)信息嵌入進(jìn)去作為一種約束,那肯定能做得更好,得到更準(zhǔn)確更完整的三維。另外三維點(diǎn)云,如果是用Lidar或者是一些深度傳感器得到的,可能有一些問題,比如可能比較稀疏,也有區(qū)域深度信息缺失,基于多視圖幾何可以將缺失的深度信息補(bǔ)全。而且直接基于點(diǎn)云,遮擋的準(zhǔn)確判斷會(huì)比較困難。利用好多視圖幾何關(guān)系,可以更好地進(jìn)行三維點(diǎn)云的處理,比如對遮擋關(guān)系的準(zhǔn)確判斷,所以兩者是可以互補(bǔ)的。

高林:點(diǎn)云本身來自于多視角幾何,從某種角度上來說不太好定義連續(xù)微分幾何的概念,它是一種非常離散的表示,所以如果要在點(diǎn)云上面做更多數(shù)學(xué)理論挖掘的話,可能會(huì)是以其他幾何的表示,像網(wǎng)格的形式,因?yàn)樗幸恍┝餍蔚姆植几菀鬃鰩缀卫碚摰姆治龊屯诰颉,F(xiàn)在很多工作,相當(dāng)于在微分曲面上做卷積,做一些微分域上的操作,這樣可以把一些連續(xù)的理論拿過來,那方面更容易做某種偏數(shù)學(xué)理論的東西。

郭裕蘭:多視角幾何學(xué)是為了獲得一個(gè)三維場景的深度信息,得到深度圖或三維點(diǎn)云;點(diǎn)云深度學(xué)習(xí)的目標(biāo)更多的是為了做點(diǎn)云理解。但中間有一環(huán)節(jié)大家關(guān)注的比較少,就是點(diǎn)云的傳輸,比如點(diǎn)云壓縮和編碼等工作??紤]到點(diǎn)云的數(shù)據(jù)量通常非常大,如果要實(shí)現(xiàn)實(shí)時(shí)應(yīng)用,在點(diǎn)云壓縮編碼方向未來或許有一些工作可以挖掘。另外,在點(diǎn)云可解釋方面,學(xué)界也有一些嘗試性的工作。比如,在3D point capsule networks中,用膠囊網(wǎng)絡(luò)去做三維形狀的生成,可以獲得部件和部件之間的對應(yīng)關(guān)系。類似從一個(gè)飛機(jī)變到另一個(gè)飛機(jī),兩個(gè)飛機(jī)的機(jī)翼部分可以很好地對應(yīng)起來。類似這樣的一些嘗試,還是值得關(guān)注。


三維數(shù)據(jù)的主要表現(xiàn)形式有點(diǎn)云、體素、網(wǎng)格,哪種形式更適合三維深度學(xué)習(xí)?不同的應(yīng)用對這些數(shù)據(jù)形式有沒有選擇性?相對于點(diǎn)云深度學(xué)習(xí),其他數(shù)據(jù)形式的三維深度學(xué)習(xí)技術(shù)研究現(xiàn)狀如何?

高林:如果是從任務(wù)導(dǎo)向或應(yīng)用導(dǎo)向來看,在沒有深度學(xué)習(xí)之前,點(diǎn)云、體素、網(wǎng)格,每個(gè)表達(dá)分工不一樣。舉個(gè)例子,我們山寨一個(gè)手機(jī)外殼,從外在的物體到數(shù)字的幾何表示依次經(jīng)歷了點(diǎn)云、體素、網(wǎng)格的任務(wù),先是用激光掃描儀得到點(diǎn)云,然后點(diǎn)云轉(zhuǎn)成了體素或者是隱式場的表達(dá),再進(jìn)一步生成了網(wǎng)格。在非深度學(xué)習(xí)時(shí)代,每個(gè)表示有它固有的功能,點(diǎn)云負(fù)責(zé)獲取感知,體素和隱式場負(fù)責(zé)建模,網(wǎng)格負(fù)責(zé)精細(xì)的表示、渲染和二次編輯。深度學(xué)習(xí)是個(gè)智能化的方法,從任務(wù)導(dǎo)向來說,本身的任務(wù)是適用于不同的表示,所以深度學(xué)習(xí)可能會(huì)加速和智能化這個(gè)過程,但是它還是每個(gè)表示適合固有的任務(wù)。深度學(xué)習(xí)是如何分別地加速每個(gè)任務(wù),而不是哪一個(gè)方法更適合深度學(xué)習(xí)。因?yàn)槟膫€(gè)方法都能結(jié)合深度學(xué)習(xí)讓它變得更好,這取決于任務(wù)導(dǎo)向,哪個(gè)任務(wù)用哪個(gè)方法更適合,比如分割的話,點(diǎn)云更適合,建模的話,網(wǎng)格更適合,我的理解還是任務(wù)導(dǎo)向。

李鴻升:對于三維數(shù)據(jù)的處理,大家的想法區(qū)別還是非常大的,即使是對同一個(gè)任務(wù),我們也看到有很多的工作,比如目標(biāo)檢測,有的基于點(diǎn)云,有的基于點(diǎn)云體素,有的基于網(wǎng)格。近年來,點(diǎn)云、體素、網(wǎng)格都探索的差不多了,CVPR2020有很多相關(guān)工作,比如我們組做3D檢測的那篇PV-RCNN就是點(diǎn)云加體素的。像Grid-GCN是點(diǎn)云加網(wǎng)格,再加上一個(gè)graph attention network??梢钥闯龃蠹夷壳皩τ诓煌蝿?wù)是否有一個(gè)比較固定的三維數(shù)據(jù)的表達(dá)形式還沒有定論,現(xiàn)在對于很多檢測、分割等任務(wù),也都是在嘗試不同數(shù)據(jù)表達(dá)的方式。我認(rèn)為當(dāng)前合適的數(shù)據(jù)表達(dá)現(xiàn)在還沒有一個(gè)定論,三維視覺的表達(dá)和網(wǎng)絡(luò)結(jié)構(gòu)的探索都還有很長的路要探索,但是可能最終會(huì)類似二維的CNN,最終會(huì)收斂到同一個(gè)技術(shù)點(diǎn)。目前大家都是在不同的方向非常自由地在探索,在未來的幾年中,希望大家能夠一起找到這樣的收斂點(diǎn)的存在。


三維視覺技術(shù)在工業(yè)界的應(yīng)用情況如何?有沒有殺手級的應(yīng)用需求?三維視覺技術(shù)從學(xué)術(shù)界到工業(yè)界需要跨越的困難有哪些?

高林:從工業(yè)界的應(yīng)用角度,我是感覺到了工業(yè)界對3D深度學(xué)習(xí)一個(gè)非常大的需求和渴望。因?yàn)楣I(yè)界有很多的數(shù)據(jù),這些數(shù)據(jù)怎樣去促進(jìn)現(xiàn)有的業(yè)務(wù)流程,包括3D建模、3D分析的任務(wù),現(xiàn)在是沒有一個(gè)很好的智能化方法的,但是有了3D深度學(xué)習(xí),他們的數(shù)據(jù)就變成了生產(chǎn)力,相當(dāng)于是優(yōu)勢。

目前我了解到他們還是已有的業(yè)務(wù)流程,怎樣去深度學(xué)習(xí),去促進(jìn)已有的業(yè)務(wù)流程,比如一個(gè)基本的任務(wù),像游戲場景里需要大量的3D建模,原先建模一個(gè)3D模型的成本大概在一兩百美元,現(xiàn)在可能有些模型不需要大改變,只需要把已有的模型二次復(fù)用就行,所以從數(shù)字內(nèi)容生產(chǎn)的角度,這部分用3D深度學(xué)習(xí)能很大地減少成本。另一方面感覺需求比較強(qiáng)烈的是電子商務(wù),因?yàn)槭芤咔榈挠绊?,去?shí)體店購物或選裝修方案越來越少,很多都在互聯(lián)網(wǎng)上選擇裝修或智能家裝的搭配,這種智能推薦就是3D視覺的任務(wù)。

我認(rèn)為工業(yè)界對3D視覺的任務(wù)的需求是很大的,本身3D在工業(yè)界里的應(yīng)用就很多,又有著3D視覺任務(wù)的發(fā)展,相當(dāng)于可以減少成本、加速開發(fā)。就已有任務(wù)來說需求是很大的,怎么加速效能減少成本,對3D視覺任務(wù)的高效解決方案是非??是蟮?。

李鴻升:現(xiàn)在自動(dòng)駕駛行業(yè)也需要非常多的三維視覺技術(shù),第一個(gè)是目標(biāo)檢測,如果要實(shí)現(xiàn)自動(dòng)駕駛,首先需要對周圍環(huán)境有一個(gè)感知。第二個(gè)是高精地圖的建立。第三個(gè)是自動(dòng)駕駛場景的建模和仿真器。這些都是自動(dòng)駕駛目前在工業(yè)界有強(qiáng)烈需求的研究方向。

從學(xué)術(shù)界到工業(yè)界需要跨越的困難,首先是需要大規(guī)模數(shù)據(jù)的標(biāo)注,其次在實(shí)際的工業(yè)界的場景中,大量的corner case的訓(xùn)練樣本的收集是非常困難的。例如,前段時(shí)間特斯拉在臺灣撞到一個(gè)翻倒在高速公路上的貨車,這很可能是因?yàn)樯疃饶P驮谟?xùn)練的時(shí)候,是經(jīng)歷過這樣的corner case。當(dāng)然,這些數(shù)據(jù)也可以通過仿真器來進(jìn)行仿真和生成。這次CVPR上,Uber ATG還有Waymo都發(fā)表了oral論文來介紹自己在自動(dòng)駕駛場景的仿真器。另外還有算法的效率,這些算法如果想要在車上應(yīng)用,就像車上的工業(yè)電腦,它的算力目前還是非常局限。

現(xiàn)在開發(fā)的很多強(qiáng)有力的算法,目前都沒有辦法直接地放到車載PC和GPU上去跑?,F(xiàn)在車載的GPU跑的算法還都是比當(dāng)前早一到兩年的算法,因此這也是額外的限制。

章國鋒:現(xiàn)在三維視覺技術(shù)的應(yīng)用越來越多,無論是機(jī)器人、自動(dòng)駕駛,還是AR、VR。至于這里面有沒有殺手級的應(yīng)用,我認(rèn)為這個(gè)問題跟技術(shù)的成熟度是相關(guān)的。如果物體或場景的三維數(shù)字化能做得很好,那么像電子商務(wù)行業(yè)對這個(gè)需求量是非常大的。目前還很難說能把物體的三維數(shù)字化做得又好又高效,這也極大地阻礙了AR/VR內(nèi)容的生成。所以我認(rèn)為并不缺殺手級應(yīng)用,主要取決于技術(shù)的成熟度能否支撐這些殺手級的應(yīng)用。

在AR方面也有大量的三維視覺技術(shù)的應(yīng)用,比如SLAM、高精地圖的構(gòu)建。目前有越來越多的公司發(fā)布了相應(yīng)的高精度地圖跟SLAM結(jié)合的解決方案和應(yīng)用,特別是應(yīng)用在室內(nèi)外的高精度的定位導(dǎo)航,像華為發(fā)布的Cyberverse和AR地圖,在大場景能夠做到非常高精度的定位和導(dǎo)航。這是如何實(shí)現(xiàn)的呢?一般是需要事先把場景進(jìn)行三維數(shù)字化,可以用一些設(shè)備(比如激光雷達(dá)、相機(jī)等)去掃描這個(gè)場景;三維數(shù)字化得到場景的高精度地圖之后,通過視覺的定位(當(dāng)然還可以配合其他信號的定位),就能夠做到非常精準(zhǔn)的定位,然后結(jié)合SLAM技術(shù)可以實(shí)現(xiàn)連續(xù)跟蹤定位和內(nèi)容增強(qiáng)。

最近,蘋果發(fā)布的ARKit4.0增加了一個(gè)定位錨的功能,能夠?qū)崿F(xiàn)在特定位置的AR體驗(yàn),比如整個(gè)城市或某個(gè)著名地標(biāo),通過這個(gè)位置錨點(diǎn),在那里放置相應(yīng)的虛擬的物體。雖然沒有看到這個(gè)功能的技術(shù)介紹,但是能猜到應(yīng)該是利用高精度地圖的技術(shù),再結(jié)合視覺的定位(可能還有GPS的輔助),跟SLAM結(jié)合,從而實(shí)現(xiàn)在大尺度場景下的增強(qiáng)現(xiàn)實(shí)體驗(yàn)。這方面的應(yīng)用需求確實(shí)可能很大,今年越來越多的公司,包括百度還有一些創(chuàng)業(yè)公司也推出了相應(yīng)的技術(shù)解決方案。但是不是真正做到殺手級的應(yīng)用呢?我個(gè)人是比較看好的,尤其在室內(nèi)的定位導(dǎo)航和導(dǎo)覽上。因?yàn)槟壳笆覂?nèi)GPS不能用,像WIFI、藍(lán)牙定位的精度對于一些應(yīng)用來說不夠高,而且設(shè)備成本、工程量都比較大,所以如果能借助視覺技術(shù)做到精準(zhǔn)定位導(dǎo)航的話,還是非常有前景的。因?yàn)橄裆虉龌蛞恍┍容^大的室內(nèi)場景,這種室內(nèi)定位導(dǎo)航的需求還是很強(qiáng)烈的。

第三個(gè)問題,我也在跟工業(yè)界比如商湯合作,把技術(shù)應(yīng)用到相應(yīng)的產(chǎn)品上,這個(gè)過程還是挺不容易的。在學(xué)術(shù)界,主要追求創(chuàng)新性,只要這個(gè)東西有創(chuàng)新,一般就能發(fā)論文。但是對工業(yè)界來說,更關(guān)心的是能否落地。做產(chǎn)品很多時(shí)候一定要跨過應(yīng)用的及格線,如果跨不過去,對產(chǎn)品來說不可能會(huì)成功。但是要跨過的話,從一篇論文到一個(gè)能落地的產(chǎn)品,這中間往往有很大的gap,一篇論文可以只解決一小部分的問題,但是產(chǎn)品可能需要百分之九十幾以上都能工作得很好,這個(gè)挑戰(zhàn)性很大。我的課題組主要是做SLAM和三維重建方面的研究,原來我們自己覺得做得還不錯(cuò)的工作,最后要落地到產(chǎn)品里,還是有很多的問題需要解決,甚至很多代碼都要重寫。這里面可能遇到功耗的問題,比如應(yīng)用到手機(jī)上,功耗就一定要低于多少,否則就不可能上線。另外各種corner case、魯棒性等方面都要去解決。如果主要是發(fā)論文的話,可能不會(huì)特別去關(guān)心這些問題,但是真正在工業(yè)的產(chǎn)品里,這些問題是一定要解決的。如果想把技術(shù)應(yīng)用落地在工業(yè)界,要有這方面的心理準(zhǔn)備。另一種方式是需要有一種合作機(jī)制,能夠把學(xué)術(shù)界和工業(yè)界的各自優(yōu)勢發(fā)揮出來,形成優(yōu)勢互補(bǔ),學(xué)術(shù)界更專注在技術(shù)創(chuàng)新和前沿探索,工業(yè)界則更側(cè)重工程實(shí)現(xiàn)和產(chǎn)品落地,但兩邊能夠很好地配合起來。比如,高校和企業(yè)可以共建聯(lián)合實(shí)驗(yàn)室或聯(lián)合研究中心。老師、學(xué)生去做工程的東西往往并不擅長,所以高校的課題組還是更適合專注在前沿探索和技術(shù)創(chuàng)新上;公司的研究員或算法工程師可以把有前景的技術(shù)成果接過來,使其工程落地。兩邊如果能夠緊密地合作,我認(rèn)為是可以實(shí)現(xiàn)一些前沿成果比較快速的落地的。

盛律:現(xiàn)在的基于深度學(xué)習(xí)或是基于數(shù)據(jù)驅(qū)動(dòng)的方法,相比傳統(tǒng)的方法來說,更加受限于數(shù)據(jù)集,這導(dǎo)致在一些在學(xué)術(shù)集或是在單一工業(yè)場景訓(xùn)練的模型,在新的場景完全無法泛化。這種實(shí)際上是機(jī)器學(xué)習(xí)的固有問題,如何持續(xù)地更新模型,如何使模型保持泛化能力,是一個(gè)從學(xué)術(shù)界到工業(yè)界都需要考慮的問題。

傳統(tǒng)的三維視覺主要從多種場景中總結(jié)人為假設(shè)或觀察來設(shè)計(jì)算法,例如傳統(tǒng)興趣點(diǎn)的檢測子和描述子的設(shè)計(jì)等。這類算法相對來說可以在很多場景都能做到泛化,比如在數(shù)字化三維重建中SIFT等算子是很穩(wěn)定的。但是把這類三維視覺任務(wù)完全變成用數(shù)據(jù)驅(qū)動(dòng)的方式來建模,比如說學(xué)習(xí)三維物體定位,或者三維物體檢測,面向多種場景的泛化性能就會(huì)變得十分有限。從學(xué)術(shù)界來說,不少方案可以在學(xué)術(shù)集上得到很好的性能,但是在工業(yè)界上要得到一個(gè)穩(wěn)定的效果,還有很多路要走,這個(gè)問題不單只是三維視覺,實(shí)際上大量的圖像視覺任務(wù)上也存在這個(gè)問題。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉