基于統(tǒng)一特征模型的體育視頻鏡頭轉(zhuǎn)換檢測(cè)

——

作者：時(shí)間：2007-10-17 來源：電視技術(shù)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　1 引言

　　廣播體育視頻的自動(dòng)分析是視頻檢索技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域。體育視頻是鏡頭轉(zhuǎn)換檢測(cè)最具挑戰(zhàn)性的應(yīng)用領(lǐng)域。本文的體育視頻鏡頭轉(zhuǎn)換檢測(cè)圍繞廣受歡迎的足球視頻展開，且容易擴(kuò)展到其他體育視頻的分析中。

　　在已有的研究中，局部顏色直方圖(Region ColorHistograms，RCH)距離特征(記作DRCH)是切變檢測(cè)中最受推薦的特征，且此特征在漸變鏡頭轉(zhuǎn)換檢測(cè)中依然有效。文獻(xiàn)[7]提出了一種在鏡頭轉(zhuǎn)換檢測(cè)中使用直方圖特征的統(tǒng)一模型，并在較大的數(shù)據(jù)集上取得了很好的效果。筆者在實(shí)驗(yàn)中首先采用文獻(xiàn)[7]中的RCH特征模型和決策樹方案進(jìn)行鏡頭轉(zhuǎn)換檢測(cè)，發(fā)現(xiàn)即使采用訓(xùn)練得到的最優(yōu)分類器，切變檢測(cè)的查全率和查準(zhǔn)率也僅能同時(shí)達(dá)到96%，而漸變檢測(cè)的查全率和查準(zhǔn)率則很難同時(shí)達(dá)到60%。這樣的檢測(cè)水平(尤其對(duì)于漸變)必然會(huì)給下一步視頻分析帶來負(fù)面影響。現(xiàn)有算法在體育視頻鏡頭轉(zhuǎn)換檢測(cè)中遇到的主要問題有：

　　1) 當(dāng)鏡頭轉(zhuǎn)換前的最后一幀與轉(zhuǎn)換后的第一幀都以大面積比賽場(chǎng)地為背景時(shí)，它們的RCH特征非常相似，容易造成漏檢。

　　2) 當(dāng)攝像機(jī)以特寫鏡頭跟蹤奔跑的球員時(shí)，將發(fā)生快速搖移。這一過程中的RCH特征變化速度與漸變過程中的速度相當(dāng)，容易造成誤檢。

　　3) 當(dāng)前體育視頻中的漸變對(duì)應(yīng)的DRCH序列多數(shù)不再具有簡(jiǎn)單的尖峰形狀，而是更復(fù)雜的模式，容易造成大部分動(dòng)畫劃變被漏檢。

　　2 中層特征

　　特征提取是提高鏡頭轉(zhuǎn)換檢測(cè)算法性能的關(guān)鍵所在。由于鏡頭轉(zhuǎn)換的本質(zhì)是圖像序列的特征在語(yǔ)義層次上的不連續(xù)，現(xiàn)有算法使用的底層特征不足以解決體育視頻中的問題。盡管能理想表達(dá)語(yǔ)義的是目標(biāo)級(jí)特征(高層特征)，然而對(duì)視頻進(jìn)行目標(biāo)級(jí)分析在今天仍然是一項(xiàng)極具挑戰(zhàn)性的工作。本文提出兩種新型的中層特征來充分反映體育視頻中的目標(biāo)層特征，如場(chǎng)地的相對(duì)位置、球員的運(yùn)動(dòng)等。其中一種特征基于對(duì)賽場(chǎng)主顏色的分割;另一種特征基于對(duì)運(yùn)動(dòng)矢量可信度的評(píng)價(jià)。

　　2.1 主顏色(Dominant Color，DC)中層特征

　　由于在體育視頻的多數(shù)幀中，具有某種特定顏色的場(chǎng)地在畫面中占據(jù)很大的比例，DC分割成為一種在鏡頭轉(zhuǎn)換檢測(cè)、鏡頭視角分類以及目標(biāo)檢測(cè)中的有效工具。本文算法基于DC分割提取的3個(gè)特征(FDC1，F(xiàn)DC2和FDC3)能夠有效地反映畫面中的目標(biāo)級(jí)特征。

　　由于廣播足球視頻中的場(chǎng)地通常呈現(xiàn)出綠色(實(shí)際上也可能偏青色或偏黃色)，DC在HSV(Hue-Satura-tion-Value)或HIS(Hue-Saturation-Intensity)色彩空間的H通道中緊密地分布于一個(gè)小范圍內(nèi)。本文通過訓(xùn)練得到DC的HSV直方圖模型，模型的具體參數(shù)在視頻分析過程中逐幀自適應(yīng)地學(xué)習(xí)。這種DC分割算法有效、魯棒，其根基如下：

　　1) 在一幀以場(chǎng)地為主要背景的視頻圖像中，大比例的DC像素足以用來進(jìn)行估計(jì)DC分布并進(jìn)行分割。

　　2) 本文的DC模型是從大量足球視頻片段(“04-05賽季歐洲冠軍杯最佳進(jìn)球”和“2006世界百大進(jìn)球”)中得到的統(tǒng)計(jì)結(jié)果。

　　圖1給出了一些足球比賽視頻幀的DC分割結(jié)果。其中從左至右3列分別對(duì)應(yīng)于特寫、中景和遠(yuǎn)景鏡頭。

　　將DC像素標(biāo)為1、非DC像素標(biāo)為0得到二值的DC掩膜矩陣MDC(t)。FDC1(t)定義為MDC(t)中的DC像素比例特征。如果FDC1(t)>0，將從二值掩膜矩陣MDC(t)中提取2個(gè)中層特征FDC2(t)和FDC3(t)。FDC2(t)主要反映攝像機(jī)是否拍攝到足球場(chǎng)地的邊界;FDC3(t)主要反映圖像中球員的相對(duì)大小。

　　為使算法更為魯棒和實(shí)用，F(xiàn)DC2(t)和FDC3(t)的提取是通過對(duì)MDC(t)的歸一化投影向量進(jìn)行中值濾波下采樣、直線擬合、聚類(為計(jì)算FDC2聚為球場(chǎng)和場(chǎng)外兩類，為計(jì)算FDC3聚為球員和非球員兩類)等步驟實(shí)現(xiàn)的。

　　為說明本文DC特征反映的目標(biāo)級(jí)特性，以比賽場(chǎng)地作為主要背景，采用特寫、中景和遠(yuǎn)景3個(gè)視角，從不同序列中采集了70個(gè)樣本，它們?cè)谔卣骺臻g中的分布見圖2。圖像中球員的相對(duì)大小(橫坐標(biāo))按照遠(yuǎn)景、中景、特寫的順序依次增大，特寫鏡頭拍攝區(qū)域十分有限，一般不會(huì)拍攝到場(chǎng)地的邊界，因此縱坐標(biāo)都較小。本文特征能夠反映對(duì)視角分類最有價(jià)值的目標(biāo)級(jí)信息，可以較清晰地區(qū)分3種不同的鏡頭視角類型(圖2中黑色虛線)。

　　因?yàn)轶w育視頻相鄰鏡頭中的視頻幀極有可能屬于不同的鏡頭視角類型，所以其DC特征往往存在較大的差別，這一特性有助于檢測(cè)鏡頭轉(zhuǎn)換。

　　2.2 運(yùn)動(dòng)矢量(Motion Vector，MV)中層特征

　　通過分析MV這一有效的底層特征，同樣可提取出中層特征來反映目標(biāo)級(jí)的特性。在本文中，這種中層特征主要用來反映體育視頻中的紋理和運(yùn)動(dòng)信息。

　　視頻壓縮過程中計(jì)算得到的MV并不能代表所對(duì)應(yīng)圖像塊的真正運(yùn)動(dòng)信息，在體育視頻中尤其如此。例如，快速變化的圖像內(nèi)容、大面積弱紋理區(qū)域以及由于攝像機(jī)運(yùn)動(dòng)引起的畫面模糊都有可能導(dǎo)致MV雜亂且不可信。因此，為了消除這些不可信MV的影響，提出了一種MV過濾的方法。此方法判斷一個(gè)MV有效的準(zhǔn)則是它所對(duì)應(yīng)的塊匹配殘差小且塊匹配殘差隨它的改變而較快地增大。圖3給出了這種算法得到的一些實(shí)驗(yàn)結(jié)果，其中非可信MV的塊被白色覆蓋。

　　基于這種MV可信度分析算法，本文定義3個(gè)特征：FMV1，F(xiàn)MV2和FMV3，它們分別表示可信MV的比例、集中程度和平均值。其中FMV1在鏡頭切變時(shí)比在鏡頭內(nèi)部小很多;而FMV2和FMV3可以鑒別鏡頭漸變(如溶解和動(dòng)畫劃變)過程中的一些特性。

　　3 統(tǒng)一的特征模型

　　文獻(xiàn)[1]在使用全局閾值情況下提出對(duì)主顏色比例較大的兩幀進(jìn)行比較時(shí)應(yīng)降低直方圖距離的閾值，從而提高了其算法在體育視頻鏡頭轉(zhuǎn)換檢測(cè)中的表現(xiàn)。筆者結(jié)合了這種想法，形成了一個(gè)將RCH特征與上述中層特征集成在一起的統(tǒng)一特征模型如圖4所示。最后，采用訓(xùn)練得到的支持向量機(jī)(Support Vector Machine，SVM)分類器完成對(duì)切變和漸變的檢測(cè)。

　　3.1 切變檢測(cè)方案

　　本文特征模型首先判斷進(jìn)行比較的兩幀圖像是否滿足條件CDC(t，s)：(FDC1(t)>0)∧(FDC1(t-s)>0)，s表示兩幀圖像間的采樣間隔。

　　如果條件滿足，則兩幀很可能非常相似。因此本文模型中分別訓(xùn)練兩個(gè)SVM分類器進(jìn)行分類(如圖4)。對(duì)于隔行掃描的電視廣播視頻，切變可能包含一個(gè)混合幀，為檢測(cè)切變，考察s為2的情況。當(dāng)且僅當(dāng)CDC(t，2)為真時(shí)，才可將這兩幀圖像的FDC2差和FDC3差作為2個(gè)DC特征輸入圖4中的SVMAY。

　　為檢測(cè)切變，模型中同時(shí)采用DRCH(t，2)和min{FMV1(t)，F(xiàn)MV1(t-1))。為了自適應(yīng)地確定它們相應(yīng)的閾值(特征空間中的分類界面)，鄰近幀的特征也作為分類器的輸入。一個(gè)鄰域特征表示左、右鄰域的DRCH平均值中較大者，另一個(gè)鄰域特征表示左、右鄰域的FMV1平均值中較小者。為了防止過訓(xùn)練現(xiàn)象的發(fā)生，本文的模型沒有使用文獻(xiàn)[7]中多而細(xì)致的鄰域特征。

　　3.2 漸變檢測(cè)方案

　　與切變檢測(cè)相似，2個(gè)DC特征當(dāng)且僅當(dāng)CDC(t，s)為真時(shí)被使用。如圖4所示，本文的特征模型對(duì)于漸變檢測(cè)同樣分別訓(xùn)練兩個(gè)不同的SVM分類器。本文還采用3個(gè)基于MV的漸變檢測(cè)特征，分別代表平均的可信MV比例，平均的可信MV集中度以及平均的可信MV大小。

　　漸變檢測(cè)中還利用DRCH值在時(shí)間軸上構(gòu)成的波形。例如，長(zhǎng)度為s的漸變檢測(cè)可以通過在寬度為2s+1的滑動(dòng)時(shí)間窗口中搜索符合特定規(guī)律的DRCH(t，s)波形來實(shí)現(xiàn)。為了完整地描述不同漸變過程所對(duì)應(yīng)的DRCH波形，本文提取了5個(gè)特征，包括峰、谷的值和位置，以及峰谷間變化的單調(diào)性等。假設(shè)要確定第(t-s)幀至第t幀是否是一個(gè)漸變，這5個(gè)特征將從序列{DRCH(t-s，s)，…，DRCH(t+s，s)}中提取。在實(shí)際計(jì)算中，一般只使用幾個(gè)步長(zhǎng)作為漸變長(zhǎng)度s的可能值，例如當(dāng)幀率是29.97時(shí)使用步長(zhǎng)12，18，24，30，36。

　　4 實(shí)驗(yàn)結(jié)果

　　實(shí)驗(yàn)在由12個(gè)視頻序列組成的數(shù)據(jù)集上進(jìn)行，每個(gè)視頻序列對(duì)應(yīng)半場(chǎng)足球比賽。前6個(gè)序列用于SVM訓(xùn)練，后6個(gè)序列用于測(cè)試本文的算法。所有視頻序列的分辨率均為704

新聞中心

基于統(tǒng)一特征模型的體育視頻鏡頭轉(zhuǎn)換檢測(cè)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)