三星研究員為VR提出更優(yōu)用于圖像扭曲的深度學習技術(shù)
Image Warping(圖像扭曲/圖像校正)廣泛用于各種計算機視覺和圖形任務(wù),例如圖像編輯、光流、圖像對齊和全向視覺(例如VR)。傳統(tǒng)方法應(yīng)用逆坐標變換來插值輸入空間中缺失的RGB值。然而,基于插值的方法會導(dǎo)致輸出圖像中出現(xiàn)鋸齒和模糊偽影。
本文引用地址:http://m.butianyuan.cn/article/202302/442945.htm盡管社區(qū)已經(jīng)探索了一系列的解決方案,但其一般存在著性能,光譜偏差,或無法評估圖像扭曲的頻率響應(yīng)等問題。
韓國大邱慶北科學技術(shù)院和三星的研究人員提出了一種用于圖像扭曲的圖像處理深度學習技術(shù)。與其他現(xiàn)有方案相比,團隊的發(fā)明可以降低存儲速度并將分辨率提高3dB。另外,與基于信號處理的圖像插值技術(shù)(雙三次插值)相比,相關(guān)技術(shù)減少了屏幕的混疊現(xiàn)象,從而能夠?qū)崿F(xiàn)更自然的視頻輸出。特別是,它可以清晰地恢復(fù)圖像的高頻component。團隊表示,這種方法可以用于VR,并且無需額外訓(xùn)練的情況下就能夠在投影透視方面質(zhì)量上優(yōu)于其他扭曲方法。
基于信號處理的圖像插值技術(shù)(雙三次插值)通過指定圖像的特定位置來在各種環(huán)境中保存期望的圖像。它具有節(jié)省內(nèi)存和速度的優(yōu)點,但會降低質(zhì)量并令圖像變形。
為了解決這個問題,社區(qū)開發(fā)了基于深度學習的超高分辨率視頻圖像轉(zhuǎn)換技術(shù),然而,它們大多數(shù)是基于卷積人工智能的技術(shù),缺點是像素之間的值估計不準確,并可能導(dǎo)致圖像變形??朔鋈秉c的隱式表達神經(jīng)網(wǎng)絡(luò)技術(shù)正在引起人們的注意,但隱式神經(jīng)網(wǎng)絡(luò)技術(shù)的缺點是它不能捕捉高頻component,并且它需要增加內(nèi)存和速度。
所以,韓國大邱慶北科學技術(shù)院和三星的研究人員將圖像分解為多個頻率,以便在圖像中表達高頻component的特征,并使用隱式表達神經(jīng)網(wǎng)絡(luò)技術(shù)將坐標重新分配到分解的頻率,以便更清晰地顯示圖像。
這是一種將圖像深度學習技術(shù)傅里葉分析與隱式表達神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合的新技術(shù)。它可以通過人工智能網(wǎng)絡(luò)解決恢復(fù)圖像中的基本頻率component,改善無法恢復(fù)高頻component的隱式表達神經(jīng)網(wǎng)絡(luò)。
如圖1所示,團隊提出了一種用于圖像扭曲的局部紋理估計器(LTEW)。相關(guān)算法利用了從輸入圖像估計的傅里葉特征和坐標變換的雅可比矩陣。在幾何學中,雅可比行列式表示局部放大率。因此,在MLP表示之前,他們將空間變化的雅可比矩陣乘以每個像素的傅里葉特征。另外,像素形狀的空間變化先驗對于增強神經(jīng)功能的表征能力至關(guān)重要。然后,通過給定坐標變換的梯度項數(shù)值計算由方向和曲率描述的像素形狀。
基于LTEW的圖像扭曲網(wǎng)絡(luò)由編碼器(EΨ)、LTEW(hψ)和解碼器(gθ)組成。編碼器(E?)設(shè)計有深度SR網(wǎng)絡(luò),如EDSR、RCAN、RRDB,無需升級模塊。解碼器(gθ)是具有ReLU的4層MLP,其隱藏維數(shù)為256。LTEW(hψ)以局部網(wǎng)格(δx)、形狀(s)和特征圖(z)為輸入,并包括振幅估計器(ha)、頻率估計器和相位估計器。
振幅和頻率估計器由具有256個信道的3×3卷積層實現(xiàn),相位估計器是具有128個信道的單個線性層。
他們假設(shè)變形圖像在點f(xj)附近具有相同的紋理。因此,使用最近鄰域插值找到xj處的估計傅里葉信息(Aj,F(xiàn)j)。然后,將估計相位添加到局部網(wǎng)格(δx)和估計頻率之間的內(nèi)積。在解碼器(gθ)重新采樣圖像之前,將振幅和正弦激活輸出相乘。
團隊指出,實驗證明LTEW在尺度和單應(yīng)變換方面都超過了現(xiàn)有的扭曲方法。盡管先前的扭曲技術(shù)使用卷積和多項式插值作為重采樣模塊,但他們基于LTEW的隱式神經(jīng)函數(shù)將連續(xù)坐標作為輸入。
如上面的圖7,圖8,圖9和圖10所示,團隊提出的LTEW在一系列的比較測試中均實現(xiàn)了出色的效果。與其他現(xiàn)有方案相比,團隊的發(fā)明可以降低存儲速度并將分辨率提高3dB。另外,與基于信號處理的圖像插值技術(shù)(雙三次插值)相比,相關(guān)技術(shù)減少了屏幕的混疊現(xiàn)象,從而能夠?qū)崿F(xiàn)更自然的視頻輸出。
值得一提的是,團隊提到了全向成像(ODI)。隨著虛擬現(xiàn)實的快速發(fā)展,ODI已成為產(chǎn)品開發(fā)的關(guān)鍵。等矩形投影(ERP)廣泛用于頭戴式顯示器的成像管道。由于從球形網(wǎng)格到矩形網(wǎng)格的投影,像素在高緯度附近稀疏分布。
在驗證算法的泛化能力時,團隊提出的LTEW學習了空間變化的屬性,所以這一方法無需額外訓(xùn)練的情況下就能夠在投影透視方面質(zhì)量上優(yōu)于其他扭曲方法。
相關(guān)論文:Learning Local Implicit Fourier Representation for Image Warping
團隊表示,“這次開發(fā)的技術(shù)非常出色,因為它顯示出比現(xiàn)有圖像扭曲技術(shù)更高的恢復(fù)性能和更少的內(nèi)存消耗。我們希望所述技術(shù)在未來用于圖像質(zhì)量恢復(fù)和圖像編輯,并希望它將為學術(shù)界和行業(yè)做出貢獻?!?/p>
評論