基于內(nèi)容的信息存取與MPEG-7
一、什么是MPEG-7
本文引用地址:http://m.butianyuan.cn/article/165381.htm現(xiàn)在,我們面臨的將是一個分布的計算環(huán)境,視聽信息在分布環(huán)境中創(chuàng)建、交換、檢索和重用。因此,需要開發(fā)一種視聽信息的“表示(Representation)形式”,它超越基于波形或基于樣本、基于壓縮(如MPEG-1和MPEG-2)甚至是基于對象(如MPEG-4)的表示,這就需要“表示形式”允許某種程度的對信息含義的注釋,同時設(shè)備或計算機代碼可以傳遞和存取這些注釋。
1996年10月,MPEG開始了一項新的工作,以提供對以上問題的解決方案。這個MPEG家族的新成員被稱為“多媒體內(nèi)容描述接口”(Multimedia Content Description Interface),簡稱為MPEG-7。其目標(biāo)就是產(chǎn)生一種描述多媒體內(nèi)容數(shù)據(jù)的標(biāo)準(zhǔn),滿足實時、非實時以及推-拉應(yīng)用的需求。MPEG并不對應(yīng)用標(biāo)準(zhǔn)化,但可利用應(yīng)用來理解需求并評價技術(shù),它不針對特定的應(yīng)用領(lǐng)域,而是支持盡可能廣泛的應(yīng)用領(lǐng)域。
MPEG-7將擴展現(xiàn)有標(biāo)識內(nèi)容的專用方案及有限的能力,包含更多的多媒體數(shù)據(jù)類型。換句話說,它將規(guī)范一組“描述子”,用于描述各種多媒體信息,也將對定義其他描述子以及結(jié)構(gòu)(稱為“描述模式”)的方法進行標(biāo)準(zhǔn)化。這些“描述”(包括描述子和描述模式)與其內(nèi)容關(guān)聯(lián),允許快速有效地搜索用戶感興趣的資料。 MPEG-7將標(biāo)準(zhǔn)化一種語言來說明描述模式,即“描述定義語言”。帶有MPEG-7數(shù)據(jù)的 AV資料可以包含靜止圖像、圖形、3D模型、音頻、語音、視頻,以及這些元素如何在多媒體表現(xiàn)中組合的信息。這些通用數(shù)據(jù)類型的特例可以包含面部表情和個人化特性。
MPEG-7的功能與其他MPEG標(biāo)準(zhǔn)互為補充。MPEG-1、 MPEG-2和MPEG-4是內(nèi)容本身的表示,而MPEG-7是有關(guān)內(nèi)容的信息,是比特的比特。
MPEG-3曾經(jīng)存在,但由于其HDTV目標(biāo)能夠用MPEG-2 工具實現(xiàn),因此,該工作終止。按順序推算,下一個標(biāo)準(zhǔn)應(yīng)該是MPEG-5,但是MPEG 決定不遵循序列的邏輯順序,而是選擇了數(shù)字7。MPEG-5和MPEG-6目前還沒有定義。 MPEG-7計劃在2001年9月正式成為國際標(biāo)準(zhǔn)。
二、 MPEG-7中的主要概念
為了更好地了解MPEG-7,我們需要了解MPEG-7中定義的一些概念:
數(shù)據(jù)(Data) 是用MPEG-7描述的視聽資料,不考慮它們的存儲、編碼、顯示、傳輸、媒介或技術(shù)。該定義非常廣泛,包含圖形、靜止圖像、視頻、影片、音樂、語音、聲音、文本和其他相關(guān)的AV媒體。
特征(Feature) 指數(shù)據(jù)的特性。特征本身不能比較,而要用有意義的特征表示(描述子)和它的實例(描述值)。如圖像的顏色、語音的聲調(diào)、音頻的旋律等。
描述子(Descriptor,D) 是特征的表示。它定義特征表示的句法和語義,可以賦予描述值。一個特征可能有多個描述子,如顏色特征可能的描述子有:顏色直方圖、頻率分量的平均值、運動的場描述、標(biāo)題文本等。
描述值(Descriptor Value) 是描述子的實例。描述值與描述模式結(jié)合,形成描述。
描述模式(Description Scheme,DS) 說明其成員之間的關(guān)系結(jié)構(gòu)和語義。成員可以是描述子和描述模式。DS和D的區(qū)別是:D僅僅包含基本的數(shù)據(jù)類型,不引用其他D或DS。如對于影片,時間結(jié)構(gòu)化為場景和鏡頭,在場景級包括一些文本描述子,在鏡頭級包含顏色、運動和一些音頻描述子。
描述(Description) 一個描述由一個描述模式(結(jié)構(gòu))和一組描述值組成。
編碼的描述(Coded Description) 是對已完成編碼的描述,滿足諸如壓縮效率、差錯恢復(fù)和隨機存取的相關(guān)要求。
描述定義語言(Description Definition Language,DDL) 是一種允許產(chǎn)生新的描述模式和描述子的語言,允許擴展和修改現(xiàn)有的描述機制。
為了更好地理解這些術(shù)語,請參看圖1。圖中解釋了 MPEG-7在實際系統(tǒng)中的位置。圓角框表示處理工具,矩形框表示靜態(tài)元素,陰影部分包含MPEG-7標(biāo)準(zhǔn)的規(guī)范元素:DDL提供建立描述模式的機制,然后將描述模式作為基礎(chǔ),產(chǎn)生一個描述。注意,描述的二進制表示是不必要的,文本表示足夠了。
三、MPEG-7的范圍
MPEG-7是針對存儲形式(在線、脫機)或流形式(如 Internet上的廣播、推送模型)的應(yīng)用而制定的,并且可以在實時和非實時環(huán)境中操作。一個實時環(huán)境意味著當(dāng)采集資料時,信息是與內(nèi)容相關(guān)的。
圖2是MPEG-7處理鏈的一種高度抽象示意圖,用于解釋MPEG-7的范圍。它包括特征抽取(分析)、描述本身和搜索引擎(應(yīng)用)。為了全面開發(fā) MPEG-7描述的潛力,自動的特征(或是描述子)提取將是極其有用的。但是很清楚,自動提取并不總是可能的,抽象層次越高,自動提取的難度就越大,這時可以采用交互提取工具。但不管它們多么有用,無論是自動的或半自動的,都不包括在標(biāo)準(zhǔn)范圍之內(nèi)。主要原因是不需要對它們標(biāo)準(zhǔn)化以建立互操作性,而是留有競爭的余地。另一個原因是在技術(shù)領(lǐng)域允許采納更好的改進方案。搜索引擎也不包含在MPEG-7范圍之內(nèi),它不需要,競爭將產(chǎn)生最好的結(jié)果。
像其他MPEG家族成員一樣,MPEG-7是滿足特定需求的視聽信息的標(biāo)準(zhǔn)表示。MPEG-7建立在其他標(biāo)準(zhǔn)表示的基礎(chǔ)之上,例如PCM、 MPEG-1、MPEG-2和MPEG-4。因此,MPEG-7會引用部分現(xiàn)有標(biāo)準(zhǔn),如在MPEG-4中的形狀描述子也可以用于MPEG-7。相似地,也可以利用在MPEG-1和MPEG-2中的運動矢量。
但MPEG-7描述子將不依賴于被描述內(nèi)容的編碼和存儲方式??梢园袽PEG-7的描述附加到模擬電影上去,或與印在紙上的圖片相關(guān)。即使 MPEG-7描述不依賴于資料的編碼表示,但是在某種程度上,該標(biāo)準(zhǔn)建立在MPEG-4之上。 MPEG-4提供對視聽資料以對象方式編碼的方法,這些對象具有一定的時間(同步)和空間 (空間位置和三維感受)關(guān)系。利用MPEG-4編碼,將有可能把描述附加到場景中的元素(對象)上。
MPEG-7可以獨立于其他MPEG標(biāo)準(zhǔn)使用,在MPEG-4 中定義的表示方式也非常適合MPEG-7標(biāo)準(zhǔn)的建立。
評論