基于統(tǒng)一特征模型的體育視頻鏡頭轉(zhuǎn)換檢測
1 引言
廣播體育視頻的自動分析是視頻檢索技術(shù)的一個重要應(yīng)用領(lǐng)域。體育視頻是鏡頭轉(zhuǎn)換檢測最具挑戰(zhàn)性的應(yīng)用領(lǐng)域。本文的體育視頻鏡頭轉(zhuǎn)換檢測圍繞廣受歡迎的足球視頻展開,且容易擴展到其他體育視頻的分析中。
在已有的研究中,局部顏色直方圖(Region ColorHistograms,RCH)距離特征(記作DRCH)是切變檢測中最受推薦的特征,且此特征在漸變鏡頭轉(zhuǎn)換檢測中依然有效。文獻[7]提出了一種在鏡頭轉(zhuǎn)換檢測中使用直方圖特征的統(tǒng)一模型,并在較大的數(shù)據(jù)集上取得了很好的效果。筆者在實驗中首先采用文獻[7]中的RCH特征模型和決策樹方案進行鏡頭轉(zhuǎn)換檢測,發(fā)現(xiàn)即使采用訓(xùn)練得到的最優(yōu)分類器,切變檢測的查全率和查準(zhǔn)率也僅能同時達到96%,而漸變檢測的查全率和查準(zhǔn)率則很難同時達到60%。這樣的檢測水平(尤其對于漸變)必然會給下一步視頻分析帶來負面影響。現(xiàn)有算法在體育視頻鏡頭轉(zhuǎn)換檢測中遇到的主要問題有:
1) 當(dāng)鏡頭轉(zhuǎn)換前的最后一幀與轉(zhuǎn)換后的第一幀都以大面積比賽場地為背景時,它們的RCH特征非常相似,容易造成漏檢。
2) 當(dāng)攝像機以特寫鏡頭跟蹤奔跑的球員時,將發(fā)生快速搖移。這一過程中的RCH特征變化速度與漸變過程中的速度相當(dāng),容易造成誤檢。
3) 當(dāng)前體育視頻中的漸變對應(yīng)的DRCH序列多數(shù)不再具有簡單的尖峰形狀,而是更復(fù)雜的模式,容易造成大部分動畫劃變被漏檢。
2 中層特征
特征提取是提高鏡頭轉(zhuǎn)換檢測算法性能的關(guān)鍵所在。由于鏡頭轉(zhuǎn)換的本質(zhì)是圖像序列的特征在語義層次上的不連續(xù),現(xiàn)有算法使用的底層特征不足以解決體育視頻中的問題。盡管能理想表達語義的是目標(biāo)級特征(高層特征),然而對視頻進行目標(biāo)級分析在今天仍然是一項極具挑戰(zhàn)性的工作。本文提出兩種新型的中層特征來充分反映體育視頻中的目標(biāo)層特征,如場地的相對位置、球員的運動等。其中一種特征基于對賽場主顏色的分割;另一種特征基于對運動矢量可信度的評價。
2.1 主顏色(Dominant Color,DC)中層特征
由于在體育視頻的多數(shù)幀中,具有某種特定顏色的場地在畫面中占據(jù)很大的比例,DC分割成為一種在鏡頭轉(zhuǎn)換檢測、鏡頭視角分類以及目標(biāo)檢測中的有效工具。本文算法基于DC分割提取的3個特征(FDC1,F(xiàn)DC2和FDC3)能夠有效地反映畫面中的目標(biāo)級特征。
由于廣播足球視頻中的場地通常呈現(xiàn)出綠色(實際上也可能偏青色或偏黃色),DC在HSV(Hue-Satura-tion-Value)或HIS(Hue-Saturation-Intensity)色彩空間的H通道中緊密地分布于一個小范圍內(nèi)。本文通過訓(xùn)練得到DC的HSV直方圖模型,模型的具體參數(shù)在視頻分析過程中逐幀自適應(yīng)地學(xué)習(xí)。這種DC分割算法有效、魯棒,其根基如下:
1) 在一幀以場地為主要背景的視頻圖像中,大比例的DC像素足以用來進行估計DC分布并進行分割。
2) 本文的DC模型是從大量足球視頻片段(“04-05賽季歐洲冠軍杯最佳進球”和“2006世界百大進球”)中得到的統(tǒng)計結(jié)果。
圖1給出了一些足球比賽視頻幀的DC分割結(jié)果。其中從左至右3列分別對應(yīng)于特寫、中景和遠景鏡頭。
將DC像素標(biāo)為1、非DC像素標(biāo)為0得到二值的DC掩膜矩陣MDC(t)。FDC1(t)定義為MDC(t)中的DC像素比例特征。如果FDC1(t)>0,將從二值掩膜矩陣MDC(t)中提取2個中層特征FDC2(t)和FDC3(t)。FDC2(t)主要反映攝像機是否拍攝到足球場地的邊界;FDC3(t)主要反映圖像中球員的相對大小。
為使算法更為魯棒和實用,F(xiàn)DC2(t)和FDC3(t)的提取是通過對MDC(t)的歸一化投影向量進行中值濾波下采樣、直線擬合、聚類(為計算FDC2聚為球場和場外兩類,為計算FDC3聚為球員和非球員兩類)等步驟實現(xiàn)的。
為說明本文DC特征反映的目標(biāo)級特性,以比賽場地作為主要背景,采用特寫、中景和遠景3個視角,從不同序列中采集了70個樣本,它們在特征空間中的分布見圖2。圖像中球員的相對大小(橫坐標(biāo))按照遠景、中景、特寫的順序依次增大,特寫鏡頭拍攝區(qū)域十分有限,一般不會拍攝到場地的邊界,因此縱坐標(biāo)都較小。本文特征能夠反映對視角分類最有價值的目標(biāo)級信息,可以較清晰地區(qū)分3種不同的鏡頭視角類型(圖2中黑色虛線)。
因為體育視頻相鄰鏡頭中的視頻幀極有可能屬于不同的鏡頭視角類型,所以其DC特征往往存在較大的差別,這一特性有助于檢測鏡頭轉(zhuǎn)換。
2.2 運動矢量(Motion Vector,MV)中層特征
通過分析MV這一有效的底層特征,同樣可提取出中層特征來反映目標(biāo)級的特性。在本文中,這種中層特征主要用來反映體育視頻中的紋理和運動信息。
視頻壓縮過程中計算得到的MV并不能代表所對應(yīng)圖像塊的真正運動信息,在體育視頻中尤其如此。例如,快速變化的圖像內(nèi)容、大面積弱紋理區(qū)域以及由于攝像機運動引起的畫面模糊都有可能導(dǎo)致MV雜亂且不可信。因此,為了消除這些不可信MV的影響,提出了一種MV過濾的方法。此方法判斷一個MV有效的準(zhǔn)則是它所對應(yīng)的塊匹配殘差小且塊匹配殘差隨它的改變而較快地增大。圖3給出了這種算法得到的一些實驗結(jié)果,其中非可信MV的塊被白色覆蓋。
基于這種MV可信度分析算法,本文定義3個特征:FMV1,F(xiàn)MV2和FMV3,它們分別表示可信MV的比例、集中程度和平均值。其中FMV1在鏡頭切變時比在鏡頭內(nèi)部小很多;而FMV2和FMV3可以鑒別鏡頭漸變(如溶解和動畫劃變)過程中的一些特性。
3 統(tǒng)一的特征模型
文獻[1]在使用全局閾值情況下提出對主顏色比例較大的兩幀進行比較時應(yīng)降低直方圖距離的閾值,從而提高了其算法在體育視頻鏡頭轉(zhuǎn)換檢測中的表現(xiàn)。筆者結(jié)合了這種想法,形成了一個將RCH特征與上述中層特征集成在一起的統(tǒng)一特征模型如圖4所示。最后,采用訓(xùn)練得到的支持向量機(Support Vector Machine,SVM)分類器完成對切變和漸變的檢測。
3.1 切變檢測方案
本文特征模型首先判斷進行比較的兩幀圖像是否滿足條件CDC(t,s):(FDC1(t)>0)∧(FDC1(t-s)>0),s表示兩幀圖像間的采樣間隔。
如果條件滿足,則兩幀很可能非常相似。因此本文模型中分別訓(xùn)練兩個SVM分類器進行分類(如圖4)。對于隔行掃描的電視廣播視頻,切變可能包含一個混合幀,為檢測切變,考察s為2的情況。當(dāng)且僅當(dāng)CDC(t,2)為真時,才可將這兩幀圖像的FDC2差和FDC3差作為2個DC特征輸入圖4中的SVMAY。
為檢測切變,模型中同時采用DRCH(t,2)和min{FMV1(t),F(xiàn)MV1(t-1))。為了自適應(yīng)地確定它們相應(yīng)的閾值(特征空間中的分類界面),鄰近幀的特征也作為分類器的輸入。一個鄰域特征表示左、右鄰域的DRCH平均值中較大者,另一個鄰域特征表示左、右鄰域的FMV1平均值中較小者。為了防止過訓(xùn)練現(xiàn)象的發(fā)生,本文的模型沒有使用文獻[7]中多而細致的鄰域特征。
3.2 漸變檢測方案
與切變檢測相似,2個DC特征當(dāng)且僅當(dāng)CDC(t,s)為真時被使用。如圖4所示,本文的特征模型對于漸變檢測同樣分別訓(xùn)練兩個不同的SVM分類器。本文還采用3個基于MV的漸變檢測特征,分別代表平均的可信MV比例,平均的可信MV集中度以及平均的可信MV大小。
漸變檢測中還利用DRCH值在時間軸上構(gòu)成的波形。例如,長度為s的漸變檢測可以通過在寬度為2s+1的滑動時間窗口中搜索符合特定規(guī)律的DRCH(t,s)波形來實現(xiàn)。為了完整地描述不同漸變過程所對應(yīng)的DRCH波形,本文提取了5個特征,包括峰、谷的值和位置,以及峰谷間變化的單調(diào)性等。假設(shè)要確定第(t-s)幀至第t幀是否是一個漸變,這5個特征將從序列{DRCH(t-s,s),…,DRCH(t+s,s)}中提取。在實際計算中,一般只使用幾個步長作為漸變長度s的可能值,例如當(dāng)幀率是29.97時使用步長12,18,24,30,36。
4 實驗結(jié)果
實驗在由12個視頻序列組成的數(shù)據(jù)集上進行,每個視頻序列對應(yīng)半場足球比賽。前6個序列用于SVM訓(xùn)練,后6個序列用于測試本文的算法。所有視頻序列的分辨率均為704
評論