三星研究員為VR提出更優(yōu)用于圖像扭曲的深度學(xué)習(xí)技術(shù)
Image Warping(圖像扭曲/圖像校正)廣泛用于各種計算機(jī)視覺和圖形任務(wù),例如圖像編輯、光流、圖像對齊和全向視覺(例如VR)。傳統(tǒng)方法應(yīng)用逆坐標(biāo)變換來插值輸入空間中缺失的RGB值。然而,基于插值的方法會導(dǎo)致輸出圖像中出現(xiàn)鋸齒和模糊偽影。
本文引用地址:http://m.butianyuan.cn/article/202302/442945.htm盡管社區(qū)已經(jīng)探索了一系列的解決方案,但其一般存在著性能,光譜偏差,或無法評估圖像扭曲的頻率響應(yīng)等問題。
韓國大邱慶北科學(xué)技術(shù)院和三星的研究人員提出了一種用于圖像扭曲的圖像處理深度學(xué)習(xí)技術(shù)。與其他現(xiàn)有方案相比,團(tuán)隊的發(fā)明可以降低存儲速度并將分辨率提高3dB。另外,與基于信號處理的圖像插值技術(shù)(雙三次插值)相比,相關(guān)技術(shù)減少了屏幕的混疊現(xiàn)象,從而能夠?qū)崿F(xiàn)更自然的視頻輸出。特別是,它可以清晰地恢復(fù)圖像的高頻component。團(tuán)隊表示,這種方法可以用于VR,并且無需額外訓(xùn)練的情況下就能夠在投影透視方面質(zhì)量上優(yōu)于其他扭曲方法。
基于信號處理的圖像插值技術(shù)(雙三次插值)通過指定圖像的特定位置來在各種環(huán)境中保存期望的圖像。它具有節(jié)省內(nèi)存和速度的優(yōu)點(diǎn),但會降低質(zhì)量并令圖像變形。
為了解決這個問題,社區(qū)開發(fā)了基于深度學(xué)習(xí)的超高分辨率視頻圖像轉(zhuǎn)換技術(shù),然而,它們大多數(shù)是基于卷積人工智能的技術(shù),缺點(diǎn)是像素之間的值估計不準(zhǔn)確,并可能導(dǎo)致圖像變形??朔鋈秉c(diǎn)的隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)正在引起人們的注意,但隱式神經(jīng)網(wǎng)絡(luò)技術(shù)的缺點(diǎn)是它不能捕捉高頻component,并且它需要增加內(nèi)存和速度。
所以,韓國大邱慶北科學(xué)技術(shù)院和三星的研究人員將圖像分解為多個頻率,以便在圖像中表達(dá)高頻component的特征,并使用隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)將坐標(biāo)重新分配到分解的頻率,以便更清晰地顯示圖像。
這是一種將圖像深度學(xué)習(xí)技術(shù)傅里葉分析與隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合的新技術(shù)。它可以通過人工智能網(wǎng)絡(luò)解決恢復(fù)圖像中的基本頻率component,改善無法恢復(fù)高頻component的隱式表達(dá)神經(jīng)網(wǎng)絡(luò)。
如圖1所示,團(tuán)隊提出了一種用于圖像扭曲的局部紋理估計器(LTEW)。相關(guān)算法利用了從輸入圖像估計的傅里葉特征和坐標(biāo)變換的雅可比矩陣。在幾何學(xué)中,雅可比行列式表示局部放大率。因此,在MLP表示之前,他們將空間變化的雅可比矩陣乘以每個像素的傅里葉特征。另外,像素形狀的空間變化先驗對于增強(qiáng)神經(jīng)功能的表征能力至關(guān)重要。然后,通過給定坐標(biāo)變換的梯度項數(shù)值計算由方向和曲率描述的像素形狀。
基于LTEW的圖像扭曲網(wǎng)絡(luò)由編碼器(EΨ)、LTEW(hψ)和解碼器(gθ)組成。編碼器(E?)設(shè)計有深度SR網(wǎng)絡(luò),如EDSR、RCAN、RRDB,無需升級模塊。解碼器(gθ)是具有ReLU的4層MLP,其隱藏維數(shù)為256。LTEW(hψ)以局部網(wǎng)格(δx)、形狀(s)和特征圖(z)為輸入,并包括振幅估計器(ha)、頻率估計器和相位估計器。
振幅和頻率估計器由具有256個信道的3×3卷積層實現(xiàn),相位估計器是具有128個信道的單個線性層。
他們假設(shè)變形圖像在點(diǎn)f(xj)附近具有相同的紋理。因此,使用最近鄰域插值找到xj處的估計傅里葉信息(Aj,F(xiàn)j)。然后,將估計相位添加到局部網(wǎng)格(δx)和估計頻率之間的內(nèi)積。在解碼器(gθ)重新采樣圖像之前,將振幅和正弦激活輸出相乘。
團(tuán)隊指出,實驗證明LTEW在尺度和單應(yīng)變換方面都超過了現(xiàn)有的扭曲方法。盡管先前的扭曲技術(shù)使用卷積和多項式插值作為重采樣模塊,但他們基于LTEW的隱式神經(jīng)函數(shù)將連續(xù)坐標(biāo)作為輸入。
如上面的圖7,圖8,圖9和圖10所示,團(tuán)隊提出的LTEW在一系列的比較測試中均實現(xiàn)了出色的效果。與其他現(xiàn)有方案相比,團(tuán)隊的發(fā)明可以降低存儲速度并將分辨率提高3dB。另外,與基于信號處理的圖像插值技術(shù)(雙三次插值)相比,相關(guān)技術(shù)減少了屏幕的混疊現(xiàn)象,從而能夠?qū)崿F(xiàn)更自然的視頻輸出。
值得一提的是,團(tuán)隊提到了全向成像(ODI)。隨著虛擬現(xiàn)實的快速發(fā)展,ODI已成為產(chǎn)品開發(fā)的關(guān)鍵。等矩形投影(ERP)廣泛用于頭戴式顯示器的成像管道。由于從球形網(wǎng)格到矩形網(wǎng)格的投影,像素在高緯度附近稀疏分布。
在驗證算法的泛化能力時,團(tuán)隊提出的LTEW學(xué)習(xí)了空間變化的屬性,所以這一方法無需額外訓(xùn)練的情況下就能夠在投影透視方面質(zhì)量上優(yōu)于其他扭曲方法。
相關(guān)論文:Learning Local Implicit Fourier Representation for Image Warping
團(tuán)隊表示,“這次開發(fā)的技術(shù)非常出色,因為它顯示出比現(xiàn)有圖像扭曲技術(shù)更高的恢復(fù)性能和更少的內(nèi)存消耗。我們希望所述技術(shù)在未來用于圖像質(zhì)量恢復(fù)和圖像編輯,并希望它將為學(xué)術(shù)界和行業(yè)做出貢獻(xiàn)。”
評論