74KB圖片也高清，谷歌用神經(jīng)網(wǎng)絡(luò)打造圖像壓縮新算法

作者：時(shí)間：2020-09-14 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　還在為圖像加載犯愁嗎？
　　最新的好消息是，谷歌團(tuán)隊(duì)采用了一種GANs與基于神經(jīng)網(wǎng)絡(luò)的壓縮算法相結(jié)合的圖像壓縮方式HiFiC，在碼率高度壓縮的情況下，仍能對圖像高保真還原。
　　GAN（Generative Adversarial Networks，生成式對抗網(wǎng)絡(luò)）顧名思義，系統(tǒng)讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互「磨煉」，一個(gè)神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)生成接近真實(shí)的數(shù)據(jù)，另一個(gè)神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)區(qū)分真實(shí)數(shù)據(jù)與生成的數(shù)據(jù)。
　　簡單來說，就是一個(gè)神經(jīng)網(wǎng)絡(luò)「造假」，另一個(gè)神經(jīng)網(wǎng)絡(luò)「打假」，而當(dāng)系統(tǒng)達(dá)到平衡時(shí)，生成的數(shù)據(jù)看起來便會(huì)非常接近真實(shí)數(shù)據(jù)，達(dá)到「以假亂真」的效果。
　　下面是這種算法展現(xiàn)出來的圖像與JPG格式圖像的對比。
　　可見，在圖像大小接近的情況下（HiFiC大小74kB，JPG圖像大小78kB），算法所展現(xiàn)出來的圖像壓縮效果要好得多。

本文引用地址：http://m.butianyuan.cn/article/202009/418286.htm

　　而在與原圖進(jìn)行對比時(shí)，HiFiC所展現(xiàn)出來的還原效果仍然非常優(yōu)秀。（真的不是在原圖中間畫了條線嗎？）

　　目前處于特殊時(shí)期，大量國外網(wǎng)友仍在家中隔離，Netflix和油管的播放量暴增，一些視頻網(wǎng)站甚至不得不被迫降低視頻在線播放的清晰度，以適應(yīng)激增的數(shù)據(jù)量。
　　但看慣了高清視頻的網(wǎng)友們，面對突如其來的「模糊打擊」自然怨聲載道。
　　用一位網(wǎng)友的話來說，如果視頻行業(yè)也能被應(yīng)用類似的技術(shù)，相信Netflix和油管會(huì)特別高興，畢竟這種高清低碼率的圖像復(fù)原實(shí)在太誘惑。

　　哇，如果他們可以對視頻做同樣的事情的話，我相信Netflix和YouTube會(huì)很高興的。
　　事實(shí)上，在了解HiFiC算法的原理后，會(huì)發(fā)現(xiàn)它的確不難實(shí)現(xiàn)。
接近原圖的圖像重構(gòu)算法
　　此前，相關(guān)研究已有采用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像壓縮的算法，而隨著近年來生成式對抗網(wǎng)絡(luò)興起，采用GANs生成以假亂真圖像的算法也不在少數(shù)。
　　如果能有辦法將二者結(jié)合，圖像壓縮的效果是不是會(huì)更好、更接近于人類的感知？
　　這次圖像壓縮的模型便是基于二者的特性設(shè)計(jì)，在基于神經(jīng)網(wǎng)絡(luò)的壓縮圖像算法基礎(chǔ)上，采用GANs進(jìn)一步讓生成的圖片更接近于人類視覺，在圖像大小和視覺感知間達(dá)到一個(gè)平衡。

　　可以看見，HiFiC的架構(gòu)被分成了4個(gè)主要部分，其中E為編碼器，G為生成器，D為判別器，而P則是E的輸出E(x)的概率模型（這里用y表示），也就是P用于模擬y的概率分布。
　　GANs運(yùn)作的核心思想在于，需要讓架構(gòu)中的生成器G通過某種方法，「欺騙」判別器D判定樣本為真。
　　而概率模型P，則是達(dá)成這步操作的條件。
　　然后，將E、G、P參數(shù)化為卷積神經(jīng)網(wǎng)絡(luò)，這樣就可以通過率失真優(yōu)化的條件，對這些網(wǎng)絡(luò)進(jìn)行共同訓(xùn)練。
　　同時(shí)，研究者也對已有的幾種GANs算法架構(gòu)進(jìn)行了微調(diào)，使其更適于HiFiC架構(gòu)。
　　研究發(fā)現(xiàn)，將GANs與深度學(xué)習(xí)相結(jié)合的HiFiC算法取得了意想不到的效果。
模型評(píng)估
　　下圖是采用目前幾種主流圖像質(zhì)量評(píng)估標(biāo)準(zhǔn)，對幾種前沿的圖像壓縮算法與HiFiC算法進(jìn)行比較的結(jié)果。

　　在圖中，評(píng)估標(biāo)準(zhǔn)后面自帶的箭頭，表示數(shù)據(jù)更低（↓）或數(shù)據(jù)更高（↑）表示圖像質(zhì)量更好。
　　為了更好地對比，結(jié)果分別采用了HiFiC算法（圖中紅點(diǎn)連線）、不帶GANs的對比算法（圖中橙方連線）、目前較為前沿的M&S算法（圖中藍(lán)方連線）和BPG算法（圖中藍(lán)點(diǎn)連線）。
　　從結(jié)果來看，HiFiC算法在FID、KID、NIQE、LPIPS幾種評(píng)估標(biāo)準(zhǔn)均為最優(yōu)，而在MS-SSIM和PSNR標(biāo)準(zhǔn)中表現(xiàn)一般。
　　由評(píng)估標(biāo)準(zhǔn)間的差異可見，各項(xiàng)圖像質(zhì)量標(biāo)準(zhǔn)不一定是判斷壓縮技術(shù)的最好辦法。
用戶評(píng)測對比
　　畢竟，圖像是用來看的，最終的判斷權(quán)還得交回用戶手里。
　　圖像究竟是否「清晰」，某種程度上得通過人眼的判斷來決定。
　　出于這個(gè)考慮，團(tuán)隊(duì)采取了調(diào)研模式，讓一部分志愿者參與算法的比較。
　　他們先展示一張測試圖片的隨機(jī)裁切圖樣，當(dāng)志愿者對其中某張裁切圖樣感興趣時(shí)，便用這一部分來進(jìn)行所有算法的對比。
　　志愿者將原圖與經(jīng)過算法處理后的圖像對比后，選出他們認(rèn)為「視覺上」更接近于原圖的壓縮算法。
　　在所有算法經(jīng)過選取后，將會(huì)出現(xiàn)一個(gè)排名，以衡量HiFiC的實(shí)際效果。（其中，HiFiC的角標(biāo)Hi、Mi和Lo分別為設(shè)置由高至低3種不同碼率閾值時(shí)的算法）

上圖中，評(píng)分越低，則代表圖像在用戶眼中「越清晰」。從圖中來看，HiFiC(Mi)在0.237bpp的壓縮效果下，甚至比兩倍碼率的0.504bpp的BPG算法在用戶眼里還要更好。
　　即使壓縮效果達(dá)到了0.120bpp，也比0.390bpp的BPG算法更好。
　　這項(xiàng)研究再次推動(dòng)了圖像壓縮技術(shù)的發(fā)展，正如網(wǎng)友所說，隨著圖像壓縮技術(shù)的發(fā)展，在線看4k電影也許真能實(shí)現(xiàn)。

新聞中心

74KB圖片也高清，谷歌用神經(jīng)網(wǎng)絡(luò)打造圖像壓縮新算法

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)