視頻壓縮技術(shù)的系統(tǒng)考慮
解碼技術(shù)(H.264/AVC與VC-1)代表著第三代視頻壓縮技術(shù)。為具體應(yīng)用選擇正確的編解碼器并優(yōu)化其實(shí)時實(shí)施仍然是一項巨大的挑戰(zhàn),最佳的設(shè)計必須權(quán)衡壓縮效率及可用的計算能力。本文探討了壓縮能力與復(fù)雜性之間的權(quán)衡,并討論市場中可能會影響主流視頻編解碼器未來的實(shí)時實(shí)施與主要趨勢。
數(shù)字視頻產(chǎn)品需求近些年出現(xiàn)猛增。主流應(yīng)用包括視頻通信、安全監(jiān)控與工業(yè)自動化,而最熱門的要算娛樂應(yīng)用,如 DVD、HDTV、衛(wèi)星電視、高清 (HD) 機(jī)頂盒、因特網(wǎng)視頻流、數(shù)碼相機(jī)與 HD 攝像機(jī)、視頻光盤庫 (video jukebox)、高端顯示器(LCD、等離子顯示器、DLP)以及個人攝像機(jī)等。眾多精彩的新應(yīng)用目前也處于設(shè)計或前期部署中,例如針對家庭與手持設(shè)備及地面/衛(wèi)星標(biāo)準(zhǔn)(DVB-T、DVB-H、DMB)的高清 DVD(藍(lán)光/HD-DVD)和數(shù)字視頻廣播、高清視頻電話、數(shù)碼相機(jī)以及 IP 機(jī)頂盒。由于手持終端計算能力的提高以及電池技術(shù)與高速無線連接的發(fā)展,最終產(chǎn)品的移動性與集成性也在不斷提高。
頻壓縮是所有令人振奮的、新型視頻產(chǎn)品的重要動力。壓縮-解壓(編解碼)算法可以實(shí)現(xiàn)數(shù)字視頻的存儲與傳輸。典型的編解碼器要么采用行業(yè)標(biāo)準(zhǔn),如 MPEG2、MPEG4、H.264/AVC 與 AVS,要么采用專有算法,如 On2、Real Video、Nancy與Windows Media Video (WMV) 等。WMV 是個例外——它最初是微軟公司的專有算法,而現(xiàn)在則以 VC-1 的新名稱在業(yè)界實(shí)現(xiàn)了標(biāo)準(zhǔn)化。編解碼技術(shù)在過去十年中不斷改進(jìn)。最新的編解碼技術(shù)(H.264/AVC 與 VC-1)代表著第三代視頻壓縮技術(shù)。這兩種編解碼技術(shù)利用如可編程 DSP 與ASIC 等低成本 IC 的處理能力,都能夠達(dá)到極高的壓縮比。不過,為具體應(yīng)用選擇正確的編解碼器并優(yōu)化其實(shí)時處理仍然是一項巨大的挑戰(zhàn)。最佳的設(shè)計必須權(quán)衡壓縮效率及可用的計算能力。此外,如何在計算能力有限的情況下獲得最佳壓縮效率也是一門大學(xué)問。
在本文中,我們首先概述視頻編碼的主要概念,同時介紹傳統(tǒng)壓縮標(biāo)準(zhǔn)。然后我們重點(diǎn)介紹其中包括 H.264/AVC、WMV9/VC-1與AVS 等在內(nèi)的最新編解碼技術(shù)的功能,此外,還將深入探討壓縮能力與復(fù)雜性之間的權(quán)衡。最后,討論市場中可能會影響主流視頻編解碼器未來的實(shí)時處理與主要趨勢。
2. 視頻壓縮挑戰(zhàn)
數(shù)字視頻的主要挑戰(zhàn)在于原始或未壓縮的視頻需要存儲或傳輸大量數(shù)據(jù)。例如,標(biāo)準(zhǔn)清晰度的 NTSC 視頻的數(shù)字化一般是每秒 30 幀速率,采用 4:2:2 YcrCb 及 720(480,其要求超過 165Mbps 的數(shù)據(jù)速率。保存 90 分鐘的視頻需要 110GB 空間,或者說超過標(biāo)準(zhǔn) DVD-R 存儲容量的 25 倍。即使是視頻流應(yīng)用中常用的低分辨率視頻(如:CIF:352x288 4:2:0、30 幀/秒)也需要超過 36.5Mbps 的數(shù)據(jù)速率,這是ADSL 或 3G 無線等寬帶網(wǎng)絡(luò)速度的許多倍。目前的寬帶網(wǎng)可提供 1~10Mbps 的持續(xù)傳輸能力。顯然數(shù)字視頻的存儲或傳輸需要采用壓縮技術(shù)。
視頻壓縮的目的是對數(shù)字視頻進(jìn)行編碼——在保持視頻質(zhì)量的同時占用盡可能少的空間。編解碼技術(shù)理論依據(jù)為信息理論的數(shù)學(xué)原理。不過,開發(fā)實(shí)用的編解碼技術(shù)需要藝術(shù)性的精心考慮。
3. 壓縮權(quán)衡
在選擇數(shù)字視頻系統(tǒng)的編解碼技術(shù)時需要考慮諸多因素。主要因素包括應(yīng)用的視頻質(zhì)量要求、傳輸通道或存儲介質(zhì)所處的環(huán)境(速度、時延、錯誤特征)以及源內(nèi)容的格式。同樣重要的還有預(yù)期分辨率、目標(biāo)比特率、色彩深度、每秒幀數(shù)以及內(nèi)容和顯示是逐行掃描還是隔行掃描。壓縮通常需要在應(yīng)用的視頻質(zhì)量要求與其他需求之間做出取舍。首先,用途是存儲還是單播、多播、雙向通信或廣播?對于存儲應(yīng)用,到底有多少可用的存儲容量以及存儲時間需要多久?對于存儲之外的應(yīng)用,最高比特率是多少?對于雙向視頻通信,時延容差或容許的端到端系統(tǒng)延遲是多少?如果不是雙向通信,內(nèi)容需要在脫機(jī)狀態(tài)提前完成編碼還是需要實(shí)時編碼?網(wǎng)絡(luò)或存儲介質(zhì)的容錯能力如何?根據(jù)基本目標(biāo)應(yīng)用,不同壓縮標(biāo)準(zhǔn)以不同方式處理這些問題的權(quán)衡。
另一方面是需要權(quán)衡編解碼實(shí)時處理的成本。如 H.264/AVC 或 WMV9/VC-1等能夠?qū)崿F(xiàn)較高壓縮比的新算法需要更高的處理能力,這會影響編解碼器件的成本、系統(tǒng)功耗以及系統(tǒng)內(nèi)存。
4. 標(biāo)準(zhǔn)化機(jī)構(gòu)
在視頻編解碼技術(shù)定義方面有兩大標(biāo)準(zhǔn)機(jī)構(gòu)。國際電信聯(lián)盟 (ITU) 致力于電信應(yīng)用,已經(jīng)開發(fā)了用于低比特率視頻電話的 H.26x 標(biāo)準(zhǔn),其中包括 H.261、H.262、H.263 與 H.264;國際標(biāo)準(zhǔn)化組織 (ISO) 主要針對消費(fèi)類應(yīng)用,已經(jīng)針對運(yùn)動圖像壓縮定義了 MPEG 標(biāo)準(zhǔn)。MPEG 標(biāo)準(zhǔn)包括 MPEG1、MPEG2 與 MPEG4。圖 1 說明了視頻編碼標(biāo)準(zhǔn)的發(fā)展歷程。
MPEG 與 ISO 根據(jù)基本目標(biāo)應(yīng)用往往做出稍有不同的取舍。有時它們也會開展合作,如:聯(lián)合視頻小組 (JVT),該小組定義了 H.264 編解碼技術(shù),這種技術(shù)在 MPEG 系列中又被稱為 MPEG4-Part 10 或 MPEG4 高級視頻編解碼 (AVC)。我們在本文中將這種聯(lián)合標(biāo)準(zhǔn)稱為 H.264/AVC。同樣,H.262 對應(yīng) MPEG2,而 H.263 基本規(guī)范類 (Baseline Profile) 技術(shù)在原理方面與 MPEG4 簡單類 (Simple Profile) 編解碼技術(shù)存在較多重復(fù)。
標(biāo)準(zhǔn)對編解碼技術(shù)的普及至關(guān)重要。出于規(guī)模經(jīng)濟(jì)原因,用戶根據(jù)可承受的標(biāo)準(zhǔn)尋找相應(yīng)產(chǎn)品。由于能夠保障廠商之間的互操作性,業(yè)界樂意在標(biāo)準(zhǔn)方面進(jìn)行投資。而由于自己的內(nèi)容可以獲得較長的生命周期及廣泛的需求,內(nèi)容提供商也對標(biāo)準(zhǔn)青睞有加。盡管幾乎所有視頻標(biāo)準(zhǔn)都是針對少數(shù)特定應(yīng)用的,但是在能夠適用的情況下,它們在其他應(yīng)用中也能發(fā)揮優(yōu)勢。
圖1:ITU 與 MPEG 標(biāo)準(zhǔn)的發(fā)展歷程 [10] |
為了實(shí)現(xiàn)更好的壓縮及獲得新的市場機(jī)遇,ITU 與 MPEG 一直在不斷發(fā)展壓縮技術(shù)和開發(fā)新標(biāo)準(zhǔn)。中國最近開發(fā)了一種稱為 AVS 的國家視頻編碼標(biāo)準(zhǔn),我們在后面也會做一介紹。目前正在開發(fā)的標(biāo)準(zhǔn)包括 ITU/MPEG 聯(lián)合可擴(kuò)展視頻編碼 (Joint Scalable Video Coding)(對 H264/ AVC 的修訂)和MPEG 多視角視頻編碼 (Multi-view Video Coding)。另外,為了滿足新的應(yīng)用需求,現(xiàn)有標(biāo)準(zhǔn)也在不斷發(fā)展。例如,H.264 最近定義了一種稱為高精度拓展 (Fidelity Range Extensions) 的新模式,以滿足新的市場需求,如專業(yè)數(shù)字編輯、HD-DVD 與無損編碼等。
除了 ITU 與 ISO 開發(fā)的行業(yè)標(biāo)準(zhǔn)以外,還出現(xiàn)了幾種專用于因特網(wǎng)流媒體應(yīng)用、廣受歡迎的專有解決方案,其中包括 Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy。由于這些格式在內(nèi)容中得到了廣泛應(yīng)用,因此專有編解碼技術(shù)可以成為業(yè)界標(biāo)準(zhǔn)。2003 年 9 月,微軟公司向電影與電視工程師學(xué)會 (SMPTE) 提議在該機(jī)構(gòu)的支持下實(shí)現(xiàn) WMV9 位流與語法的標(biāo)準(zhǔn)化。該提議得到了采納,現(xiàn)在 WMV9 已經(jīng)被 SMPTE 作為 VC-1 實(shí)現(xiàn)標(biāo)準(zhǔn)化。
5. 視頻編碼原理
我們感興趣的所有視頻標(biāo)準(zhǔn)都采用基于模塊的處理方式。每個宏模塊一般包含 4 個 8(8 的光度塊和 2 個 8(8 的色度塊(4:2:0 色度格式)。視頻編碼基于運(yùn)動補(bǔ)償預(yù)測(MC) 原理錯誤!未找到引用源。,變換與量化及熵編碼。圖 2 說明的是一種典型的、基于運(yùn)動補(bǔ)償?shù)囊曨l編解碼技術(shù)。在運(yùn)動補(bǔ)償中,通過預(yù)測與最新編碼的("參考")視頻幀處于同一區(qū)域的視頻幀中各宏模塊的像素來實(shí)現(xiàn)壓縮。例如,背景區(qū)域通常在各幀之間保持不變,因此不需要在每個幀中重新傳輸。運(yùn)動估計 (ME) 是確定當(dāng)前幀——即與它最相似的參考幀的 16(16 區(qū)域中每個 MB 的過程。ME 通常是視頻壓縮中最消耗性能的功能。有關(guān)當(dāng)前幀中各模塊最相似區(qū)域相對位置的信息("運(yùn)動矢量")被發(fā)送至解碼器。
MC 之后的殘差部分分為 8(8 的模塊,各模塊綜合利用變換編碼、量化編碼與可變長度編碼技術(shù)進(jìn)行編碼。變換編碼(如:離散余弦變換或 DCT)利用殘差信號中的空間冗余。量化編碼可以消除感知冗余 (perceptual redundancy) 并且降低編碼殘差信號所需要的數(shù)據(jù)量??勺冮L度編碼利用殘差系數(shù)的統(tǒng)計性質(zhì)。通過 MC 進(jìn)行的冗余消除過程在解碼器中以相反過程進(jìn)行,來自參考幀的預(yù)測數(shù)據(jù)與編碼后的殘差數(shù)據(jù)結(jié)合在一起產(chǎn)生對原始視頻幀的再現(xiàn) 。
評論