MPEG-4的主要技術(shù)概覽
前言
MPEG-4編碼標(biāo)準(zhǔn)是目前最新的國際編碼標(biāo)準(zhǔn)規(guī)范。本文就其主要的內(nèi)容作了簡單的概述,并在此基礎(chǔ)上,著重介紹了具有特色的音頻對(duì)象的編碼和視頻對(duì)象的編碼。
1 多媒體傳輸集成框架
多媒體傳輸集成框架(DMIF)主要解決交互網(wǎng)絡(luò)中、廣播環(huán)境下以及磁盤中多媒體應(yīng)用的操作問題,通過傳輸多路合成比特信息,建立客戶端和服務(wù)器端的握手和傳輸。與過去不同的是,由于MPEG-4碼流中,包括許多的AV對(duì)象,一般而言,這些AV對(duì)象都有各自的緩沖器,而不僅僅是視頻緩沖器和音頻緩沖器。
2 語法描述
MPEG-4定義了一個(gè)句法描述語言來描述AV對(duì)象比特流表示和場景描述信息。這個(gè)句法描述語言是對(duì)C++的擴(kuò)展,不僅易于表達(dá)其AV對(duì)象特性,而且也易于軟件仿真實(shí)現(xiàn)與模型驗(yàn)證。與MPEG-4相比,MPEG-1和MPEG-2則采用一種類C語言的描述,MPEG-4描述語言反映了面向?qū)ο蠹夹g(shù)來描述對(duì)象。
3 音頻對(duì)象的編碼
視頻音頻的壓縮編碼自然仍是MPEG-4的核心所在。不過,與以前的MPEG-1、MPEG-2不同的是:MPEG-4不僅支持自然的聲音(如語音和音樂),而且支持基于描述語言的合成聲音,支持音頻的對(duì)象特征。即一個(gè)場景中,同時(shí)有人聲和背景音樂,它們也許是獨(dú)立編碼的音頻對(duì)象。
3.1 自然聲音編碼
MPEG-4研究比較了現(xiàn)有的各種音頻編碼算法,支持2~64K的自然聲音編碼。如8 kHz采樣頻率的2~4 kbit/s的語音編碼,以及8或16 kHz采樣頻率4~16 kbit/s的音頻編碼,一般采用參數(shù)編碼;6~24 kbit/s的語音編碼,一般采用碼激勵(lì)線性預(yù)測(CELP)編碼技術(shù);16 kbit/s以上碼率的編碼,則可采用時(shí)頻(T/F)變換編碼技術(shù)。這些技術(shù)實(shí)質(zhì)上借鑒了已有的音頻編碼標(biāo)準(zhǔn),如G.723、G.728以及MPEG-1和MPEG-2等。圖1是MPGE4的可伸縮自然音頻編碼器示意圖,包括了3種編碼技術(shù)。
3.2 合成聲音
在合成聲音編碼當(dāng)中,MPEG-4引入了2個(gè)極有吸引力的編碼技術(shù):文本到語音編碼和樂譜驅(qū)動(dòng)合成編碼技術(shù)。這為網(wǎng)絡(luò)上低比特率下交互的帶有語音的游戲鋪平了道路。事實(shí)上,合成聲音編碼技術(shù)即是一種基于知識(shí)庫的參數(shù)編碼。特別值得一提的是MPEG-4的樂譜驅(qū)動(dòng)合成技術(shù),在該技術(shù)中,解碼器是由一種特殊的合成語言——結(jié)構(gòu)化的音頻管弦樂團(tuán)語言(SAOL)驅(qū)動(dòng)的。其中的“管弦樂團(tuán)”是由不同的“樂器”組成的。當(dāng)解碼器不具有某一“樂器”時(shí),MPEG-4還允許解碼器從編碼器下載該“樂器”到解碼器,以便正確恢復(fù)合成聲音??梢?,MPEG-4不是提供一組角MIDI音樂標(biāo)準(zhǔn)中的“樂器”,而是提供了一個(gè)可隨時(shí)擴(kuò)充的“管弦樂團(tuán)”,因此,其可“演奏”樂譜自然更加豐富多彩。
4 視覺對(duì)象的編碼
同樣,MPEG-4也支持對(duì)自然和合成的視覺對(duì)象編碼。合成的視覺對(duì)象如2D、3D動(dòng)畫,人的面部表情動(dòng)畫等,這些合成圖像單獨(dú)編碼,不僅可有效壓縮,而且還便于操作。
對(duì)自然視覺對(duì)象的編碼,仍是MPEG-4的重點(diǎn)。相對(duì)于靜止圖像,MPEG-4采用零樹小波算法(Zerotree WAVelet algorithm)以提供高壓縮比,同時(shí)還提供多達(dá)11級(jí)的空間分辨率和質(zhì)量的可伸縮性。
對(duì)于運(yùn)動(dòng)視頻對(duì)象的編碼,MPEG-4采用了如圖2所示的編碼框圖,以支持圖像的編碼。
可見,MPEG-4為了支持基于對(duì)象的編碼,引入了形狀編碼模塊。為了支持高效壓縮,MPEG-4仍然采用了MPEG-1、MPEG-2中的變換、預(yù)測混合編碼框架。
對(duì)于一般的任意形狀的視頻對(duì)象,MPEG-4編碼后的碼流結(jié)構(gòu)見圖3。
對(duì)于實(shí)時(shí)的極低比特率的應(yīng)用,如可視電話,MPEG-4視頻編碼采用極低比特率視頻(VLBV)核進(jìn)行編碼,類似于ITU的H.263直接對(duì)矩形視頻編碼,而不采用形狀編碼模塊。編碼后的碼流結(jié)構(gòu)見圖4。
可見,MPEG-4采取了向前兼容H.263,同時(shí),也提供了一些高層特性,如基于內(nèi)容的編碼。其擴(kuò)充的方式見圖5。
MPEG-4支持有誤碼信道傳輸下的魯棒性,提供了更好的同步和誤碼恢復(fù)機(jī)制。
5 場景描述
場景描述主要用于描述以上單個(gè)的AV對(duì)象如何在一個(gè)具體AV場景坐標(biāo)下的組織與同步等問題。同時(shí)還有AV對(duì)象和AV場景的知識(shí)產(chǎn)權(quán)保護(hù)等問題。
6 MPEG-4展望
MPEG-4的應(yīng)用將是廣泛而深遠(yuǎn)的。這一新的標(biāo)準(zhǔn)將至少可以應(yīng)用于以下場合:
a) 實(shí)時(shí)多媒體監(jiān)控;
?。猓?極低比特率下的移動(dòng)多媒體通信;
?。悖?基于內(nèi)容存儲(chǔ)和檢索多媒體系統(tǒng);
?。洌?Internet/Intranet上的視頻流與可視游戲;
?。澹?基于面部表情模擬的虛擬會(huì)議;
?。妫?DVD上的交互多媒體應(yīng)用;
?。纾?基于計(jì)算機(jī)網(wǎng)絡(luò)的可視化合作實(shí)驗(yàn)室場景應(yīng)用;
h) 演播室和電視的節(jié)目制作。
評(píng)論