MPEG-7標(biāo)準(zhǔn)及其應(yīng)用簡(jiǎn)介
摘 要:人們?nèi)绾卧诤A康拿襟w信息中迅速找到自己所需的內(nèi)容,并對(duì)其進(jìn)行個(gè)性化的訪問(wèn)?MPEG-7媒體內(nèi)容描述規(guī)范使無(wú)法通過(guò)現(xiàn)有的搜索引擎查詢視頻、音頻等內(nèi)容的難題迎刃而解。本文分析了MPEG-7的描述方案,并重點(diǎn)分析了它的集中應(yīng)用。
一、引言
國(guó)際標(biāo)準(zhǔn)化組織(ISO)在制定MPEG-1、MPEG-2及MPEG-4的標(biāo)準(zhǔn)基礎(chǔ)上,推出了新的標(biāo)準(zhǔn)MPEG-7,該標(biāo)準(zhǔn)的正式名稱為“多媒體內(nèi)容描述接口”(Multimedia Content Description Interface), 其目標(biāo)就是產(chǎn)生一種描述多媒體內(nèi)容數(shù)據(jù)的標(biāo)準(zhǔn),滿足實(shí)時(shí)、非實(shí)時(shí)以及推-拉應(yīng)用的需求,它既不同于基于波形和基于壓縮的表示方式如MPEG-1和MPEG-2,又不同于基于對(duì)象的表示方式如MPEG-4,而是將對(duì)各種不同類(lèi)型的多媒體信息進(jìn)行標(biāo)準(zhǔn)化描述,并將該描述與所描述的內(nèi)容相聯(lián)系,以實(shí)現(xiàn)快速有效的搜索。
二、MPEG-7的目標(biāo)
1.支持多種音頻和視覺(jué)的描述
描述包括自由文本、n維時(shí)空結(jié)構(gòu)、統(tǒng)計(jì)信息、客觀屬性、主觀屬性、生產(chǎn)屬性和組合信息。對(duì)于視覺(jué)信息,描述可能包括顏色、視覺(jué)對(duì)象、紋理、草圖、形狀、體積、空間關(guān)系、運(yùn)動(dòng)及變形等。對(duì)于音頻信息,描述可能包括音調(diào)、調(diào)式、音速、音速變化等。
2.根據(jù)信息的抽象層次,提供一種描述多媒體材料的方法以便表示不同層次的用戶對(duì)信息的需求。
3.支持?jǐn)?shù)據(jù)管理的靈活性、數(shù)據(jù)資源的全球化和互操作性。
三、MPEG-7構(gòu)成要素
MPEG-7的主要元素包括以下幾種。
1.描述工具,包括一組描述符D(Descriptor )和描述方案DS (Description Schemes )。描述符是指用來(lái)定義和表達(dá)實(shí)體某一方面特征的句法或語(yǔ)法。表達(dá)實(shí)體是由特征標(biāo)識(shí)符(如顏色)和數(shù)據(jù)類(lèi)型 (如字符串)等構(gòu)成的。數(shù)據(jù)類(lèi)型可以是“復(fù)合”的,既可以由幾個(gè)數(shù)據(jù)類(lèi)型的組合來(lái)構(gòu)成,也可以由數(shù)個(gè)D來(lái)“描述”一個(gè)特征。描述方案是由一個(gè)或多個(gè)D和DS構(gòu)成,DS規(guī)定了它們相互關(guān)系的結(jié)構(gòu)和語(yǔ)法。
2.描述定義語(yǔ)言DDL(Description Definition Language),用來(lái)指定描述方案的一種語(yǔ)言。它是一種模式化語(yǔ)言,是對(duì)音視頻數(shù)據(jù)建模結(jié)果的一種表征。DDL規(guī)定了MPEG的描述工具,包括描述符和描述方案,并提供了把描述符構(gòu)建為描述方案的規(guī)則。DDL同時(shí)也允許定義特殊應(yīng)用中的擴(kuò)展DS. 描述工具通過(guò)DDL被實(shí)例化,并以文本格式(XML)被描述。
3.用來(lái)支持多路描述、同步問(wèn)題、傳輸機(jī)理、文件格式等的系統(tǒng)工具。
四、MPEG-7屬性描述工具
MPEG-7標(biāo)準(zhǔn)提供了一系列的屬性描述工具對(duì)屬性進(jìn)行統(tǒng)一的管理,屬性描述工具多用在多于一個(gè)媒體被描述時(shí)(如音頻和視頻)。這些描述工具根據(jù)功能分為內(nèi)容描述、內(nèi)容管理、內(nèi)容組織、導(dǎo)航和訪問(wèn)以及使用者交互5類(lèi)。
1.基本元素(Basic Elements)
基本的數(shù)據(jù)類(lèi)型提供了一組對(duì)描述AV(Audio-Visual)內(nèi)容有幫助的擴(kuò)展的數(shù)據(jù)類(lèi)型和數(shù)學(xué)類(lèi)型,如矩陣和向量等?;緮?shù)據(jù)類(lèi)型同時(shí)也能構(gòu)建連接媒體文件、定位內(nèi)容、描述時(shí)間、地點(diǎn)、人物等。正是這些基本元素通過(guò)DS規(guī)范構(gòu)成了定義MPEG-7描述方案的基礎(chǔ)。
2.內(nèi)容描述(Content Description)
內(nèi)容描述的目的是描述可察覺(jué)信息內(nèi)容,用以表征可知覺(jué)的內(nèi)容信息。內(nèi)容描述包括結(jié)構(gòu)和語(yǔ)義兩個(gè)方面的內(nèi)容。結(jié)構(gòu)工具通過(guò)劃分片斷、幀、靜態(tài)和動(dòng)態(tài)區(qū)域來(lái)描述AV內(nèi)容的時(shí)間及空間方面的結(jié)構(gòu)信息。語(yǔ)義工具通過(guò)對(duì)象、事件、抽象觀念和關(guān)系等描述了和AV內(nèi)容所反映的現(xiàn)實(shí)世界。結(jié)構(gòu)工具和語(yǔ)義工具通過(guò)鏈接共同作用,共同完成了對(duì)內(nèi)容的描述。
3.內(nèi)容管理(Content Management) 內(nèi)容管理用于處理那些與多媒體文檔創(chuàng)建、媒體所有權(quán)和編碼等相關(guān)的信息,即那些不能被抽象出來(lái)的信息。4.內(nèi)容組織(Content Organization)內(nèi)容組織提供一種來(lái)描述多媒體數(shù)據(jù)的分析和分類(lèi)的方法,它可以用來(lái)描述一群對(duì)象的屬性。
5.導(dǎo)航和訪問(wèn)(Navigation and Access)
導(dǎo)航和訪問(wèn)工具被用來(lái)定義音頻、視頻內(nèi)容的一系列摘要,分解和變換信息,使瀏覽和獲取AV內(nèi)容更加便利。它包含概述、分解和變換三部分的內(nèi)容。
6.使用者交互(User Interaction)
它描述了用戶喜好以及使用信息等,使對(duì)媒體的訪問(wèn)變得更加個(gè)性化,為用戶使用提供了方便。例如,可以根據(jù)用戶的愛(ài)好來(lái)定義媒體的優(yōu)先級(jí),使用戶盡快找到最適合的信息。
五、MPEG-7的應(yīng)用領(lǐng)域
人們對(duì)日常生活中的多媒體信息,要求能高效率地進(jìn)行訪問(wèn)、交互操作和顯示。這就是MPEG-7 “Pull”(拉)和“Push”(推)的兩類(lèi)應(yīng)用。這兩類(lèi)應(yīng)用與社會(huì)的政治和經(jīng)濟(jì)有著密切的聯(lián)系,在教育、影視等專(zhuān)業(yè)領(lǐng)域和消費(fèi)應(yīng)用的不同場(chǎng)合都是必不可少的。
1.Pull類(lèi)型
MPEG-7標(biāo)準(zhǔn)產(chǎn)生的目的是要定義一種規(guī)范,使對(duì)AV資料的查詢變得和現(xiàn)在的文本查詢一樣方便。盡管其公認(rèn)的多媒體內(nèi)容描述的應(yīng)用遠(yuǎn)不止“獲取”這一種,但它還是作為許多原始的MPEG-7應(yīng)用而保留下來(lái)。這些“獲取”,即“Pull”類(lèi)型的應(yīng)用涉及到數(shù)據(jù)庫(kù)、多媒體信息檔案以及基于網(wǎng)絡(luò)的Intenet模型(用戶向服務(wù)器索取資料)。
以下是“Pull”類(lèi)型的一些應(yīng)用。
(1)商業(yè)音樂(lè)類(lèi)應(yīng)用(卡拉OK和音樂(lè)銷(xiāo)售)
當(dāng)用戶從電視臺(tái)看到一首歌,只要唱幾段,就可不費(fèi)力地從數(shù)據(jù)庫(kù)中“搜索”出完整的歌曲來(lái);在收取了適當(dāng)?shù)馁M(fèi)用后,即可把整首樂(lè)曲下載到用戶的計(jì)算機(jī)上。
(2)聲音效果庫(kù)
藝術(shù)家、聲響設(shè)計(jì)師可以指定一個(gè)聲效類(lèi)型,然后從這個(gè)聲源的眾多變化中選擇適合的需要。例如提供一個(gè)原型聲響,指定細(xì)節(jié)特征,或者使用擬聲,通過(guò)哼曲進(jìn)行“搜索”的一種變形方式,來(lái)發(fā)出他想要找的那種類(lèi)型的抽象聲音。
(3)歷史數(shù)據(jù)庫(kù)
人們可以通過(guò)一些特定的關(guān)鍵詞( “中華人民共和國(guó)成立啦!”)、關(guān)鍵事件(WTO)、演講人(比爾?蓋茨)、地點(diǎn)(首都)、日期(2001年9月11日),或者是以上幾個(gè)方面的任意組合,來(lái)“搜索”一個(gè)音視頻記錄或其他相關(guān)事件。
(4)通過(guò)可回憶的聽(tīng)覺(jué)事件進(jìn)行電影場(chǎng)景“搜索”
在人們的記憶世界里,許多的視覺(jué)事件是難以忘懷的。最明顯的例子就是用特定的“描述”來(lái)指代電影電視場(chǎng)景或?qū)Π?、音響等,用這樣的方式查找到一部電影。
2.Push類(lèi)型
“Push”與“Pull”類(lèi)型的應(yīng)用是相反的,“Push”類(lèi)型應(yīng)用更像是廣播方式,以及剛出現(xiàn)的網(wǎng)絡(luò)廣播?!癙ull”模型是從索引到“搜索”,“Push”模型是從選擇到“過(guò)濾”。這兩類(lèi)應(yīng)用有著完全不同的要求,通?!癙ull”處理的是存儲(chǔ)在數(shù)據(jù)庫(kù)里的靜態(tài)信息“描述”,而“Push”處理的是變化的動(dòng)態(tài)信息“描述”?!癙ush”,即“過(guò)濾”的要求是提供用戶只想收看或收聽(tīng)到的多媒體信息。
如在數(shù)字系統(tǒng)中(包括數(shù)據(jù)廣播),MPEG-7描述可以幫助用戶選擇節(jié)目和各類(lèi)數(shù)據(jù)廣播信息,用于當(dāng)時(shí)或以后觀看,以及記錄、存貯。在個(gè)性化廣播系統(tǒng)的環(huán)境中,提供給用戶的數(shù)據(jù)可以按照各自的類(lèi)型從數(shù)據(jù)廣播中“過(guò)濾”出來(lái),而類(lèi)型的生成可以是自動(dòng)的(如根據(jù)地點(diǎn)、年齡、性別、或以前的選擇行為等),也可以是半自動(dòng)的(如根據(jù)預(yù)設(shè)的興趣等)。
六、結(jié)束語(yǔ)
MPEG-7的出現(xiàn)是文本信息時(shí)代向多媒體信息時(shí)代過(guò)渡的必然產(chǎn)物,在未來(lái)的多媒體信息檢索服務(wù)中,MPEG-7必將發(fā)揮主導(dǎo)作用。目前,許多研究機(jī)構(gòu)都已開(kāi)始對(duì)其中的關(guān)鍵技術(shù)進(jìn)行研究,并已取得一定成果,但離實(shí)際應(yīng)用還有相當(dāng)差距。隨著MPEG標(biāo)準(zhǔn)和網(wǎng)絡(luò)系統(tǒng)的快速發(fā)展,MPEG-7的應(yīng)用也將蓬勃發(fā)展,為我們的學(xué)習(xí)和生活提供更多的方便。
評(píng)論