視頻圖像中文本的檢測(cè)、定位與提取
目前,基于內(nèi)容的視頻信息檢索(Content―Based Video Retrieval,簡(jiǎn)稱CBVR)的研究已取得了較大的進(jìn)展,但是檢索所采用的特征基本上都是低級(jí)視覺(jué)特征,如顏色、紋理、形狀、空間關(guān)系和運(yùn)動(dòng)等。這其中存在的主要問(wèn)題是低級(jí)視覺(jué)特征對(duì)視頻的描述與人對(duì)視頻的描述存在較大差異,而且用戶也不熟悉特征值的變化對(duì)視覺(jué)效果帶來(lái)的影響。而視頻本質(zhì)上是由文本、視頻和音頻等多種媒質(zhì)融合而成,它們之間存在語(yǔ)義關(guān)聯(lián),一種媒質(zhì)和另外一種媒質(zhì)表示同一語(yǔ)義或是其補(bǔ)充。只有通過(guò)挖掘構(gòu)成視頻的各種媒質(zhì)所表達(dá)的豐富語(yǔ)義信息,克服單純的視覺(jué)特征語(yǔ)義表達(dá)能力較弱這一缺點(diǎn),充分提取視頻中的高層語(yǔ)義,才能符合人們對(duì)視頻信息的理解習(xí)慣,實(shí)現(xiàn)實(shí)用的基于內(nèi)容的視頻檢索系統(tǒng)。
本文引用地址:http://m.butianyuan.cn/article/103942.htm在視頻中,文本信息(如新聞標(biāo)題、節(jié)目?jī)?nèi)容、旁白、工作人員名單等)均包含了豐富的高層語(yǔ)義信息,可用于對(duì)相應(yīng)視頻流所表達(dá)的事件、情節(jié)以及情感等進(jìn)行高級(jí)語(yǔ)義標(biāo)注。如果這些文本能自動(dòng)地被檢測(cè)、分割、識(shí)別出來(lái),則對(duì)視頻高層語(yǔ)義的自動(dòng)理解、索引和檢索是非常有價(jià)值的。視頻中的文本分為人工文本和場(chǎng)景文本。目前的研究主要集中于人工文本,而場(chǎng)景文本的研究才剛剛起步。正是由于文本的種類、形狀的多樣差異性,目前文本提取算法還沒(méi)有一個(gè)通用的評(píng)價(jià)準(zhǔn)則和標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)。
文中針對(duì)水平和豎直排列的靜止及滾動(dòng)文本,提出利用小波多尺度局部模極大值邊緣檢測(cè)算法來(lái)檢測(cè)文本圖像邊緣,利用形態(tài)學(xué)處理生成候選文本區(qū)域,用由粗到精的多次水平、豎直投影來(lái)定位精確的文本位置。然后,對(duì)于文本子圖用局部Otsu方法和區(qū)域填充處理進(jìn)行文字二值化提取。
1 小波模極大值算法提取視頻圖像的文字邊緣
1.1 二維小波變換模極大值原理
設(shè)θ(x,y)是一個(gè)二維平滑函數(shù),引入尺度因
模M2jf(x,y)取極大值的點(diǎn)(x,y)對(duì)應(yīng)于f*θs(x,y)的突變點(diǎn)或尖銳陡峭變化的位置,從而對(duì)應(yīng)于圖像f(x,y)的邊緣。梯度grad(f*θs)(x,y)在點(diǎn)(x,y)處的方向表示在圖像平面(x,y)上f(x,y)的方向?qū)?shù)的絕對(duì)值取極大值的方向。即計(jì)算一個(gè)光滑函數(shù)的導(dǎo)數(shù)沿梯度方向的模極大值等價(jià)于計(jì)算其小波變換的模極大值。
1.2 文本圖像的邊緣提取
在圖像中,文本字符具有特殊的線條結(jié)構(gòu)和紋理特點(diǎn),其灰度(顏色)與背景相差較大,邊緣變化劇烈,呈現(xiàn)出明顯的橫向、豎向、斜向邊緣特征,中、高頻信息較強(qiáng)。在小波圖像中表現(xiàn)為相應(yīng)區(qū)域高頻細(xì)節(jié)子圖的系數(shù)較大;橫向線條、豎向線條和斜向線條分別在LH,HL以及HH子圖相應(yīng)位置表現(xiàn)為較大的小波系數(shù)。
根據(jù)上述原理,在實(shí)際計(jì)算時(shí),采用3次B樣條小波,對(duì)輸入灰度文中圖像進(jìn)行保持圖像大小不變的二維小波變換,得到W12jf(x,y)和W22jf(x,y)。改變j的值得到在不同尺度下圖像的小波變換,文中選取小波分解最大尺度為J=3,其中1≤J≤J。由式(2)、式(3)計(jì)算每一點(diǎn)的模值和幅角,找出模圖像在梯度方向上的極大值。設(shè)置閾值T0,保留大于T的像素的模值。最后連接邊界點(diǎn),形成邊緣。
圖1(a)為使用小波模極大值算法提取的視頻圖像中的文字邊緣,圖1(b)、(c)、(d)分別為使用Canny算子、LOG算子和Sobel算子的結(jié)果。由圖1可知,文中方法比傳統(tǒng)邊緣檢測(cè)方法,能在檢測(cè)出文本邊緣的同時(shí)很好的抑制背景邊緣。
2 文本定位
由于有的圖像背景過(guò)于復(fù)雜,在上階段處理得到的邊緣圖中仍存在一定數(shù)量的背景邊緣噪聲,將其通過(guò)局部閾值處理來(lái)濾除;在采用形態(tài)學(xué)處理生成候選文本區(qū)域后,用基于局部區(qū)域直方圖和閾值的定位方法對(duì)水平和豎直文本進(jìn)行定位;為適應(yīng)不同尺度文本,采用兩層金字塔模型分別定位并合成結(jié)果。
2.1 背景噪聲濾除
受文獻(xiàn)的啟發(fā),用兩個(gè)同心窗對(duì)當(dāng)前待處理的二值邊緣圖像EMP進(jìn)行掃描。在實(shí)驗(yàn)中,選擇經(jīng)驗(yàn)值,外窗高為3h=30,內(nèi)窗高為h=10,以h為步長(zhǎng)進(jìn)行掃描。根據(jù)外窗中的邊緣密度直方圖來(lái)決定對(duì)內(nèi)窗處理時(shí)的閾值。同心窗的結(jié)構(gòu)及外窗內(nèi)的邊緣水平投影,如圖2所示,Pi(i=1,…,3h)是第i行的邊緣像素?cái)?shù)目。內(nèi)窗內(nèi)的局部閾值Tkernel就可以按照下面的公式計(jì)算
其中,Smax是最高邊緣強(qiáng)度(O或255)。由式(4)可見(jiàn),如果外窗內(nèi)的邊緣像素的數(shù)量非常少,密度小于某個(gè)閾值ξ,那么內(nèi)窗內(nèi)就很可能是背景噪聲,則將內(nèi)窗內(nèi)的閾值設(shè)置為Smax;否則,內(nèi)窗內(nèi)很可能是一個(gè)文本區(qū)域,將內(nèi)窗內(nèi)的閾值設(shè)置為Tmiddle,Tmiddle可以是0~255中任意一個(gè)數(shù)字。則在當(dāng)前掃描窗口,內(nèi)窗內(nèi)大于閾值的邊緣像素被標(biāo)記為文本;否則,將其值設(shè)置為0,即小于閾值的邊緣像素被覆蓋掉。
2.2 基于形態(tài)學(xué)的候選文本區(qū)域生成
形態(tài)學(xué)可將圖像信號(hào)與其幾何形狀聯(lián)系起來(lái),用具有一定形態(tài)的結(jié)構(gòu)元素去量度和提取圖像中的對(duì)應(yīng)形狀以達(dá)到對(duì)圖像分析和識(shí)別的目的。所以文中采用形態(tài)學(xué)處理來(lái)形成候選文本區(qū)域。形態(tài)學(xué)最基本的概念是腐蝕和膨脹,以及由它們組合而成的各種形態(tài)操作算子。
設(shè)Ω為二維歐幾里德空間,圖像A是Ω的一個(gè)子集,結(jié)構(gòu)元素B也是Ω的一個(gè)子集,b∈Ω是歐氏空間的一個(gè)點(diǎn),定義4個(gè)基本運(yùn)算:
其中,膨脹具有擴(kuò)大目標(biāo)區(qū)域的作用,腐蝕具有收縮目標(biāo)區(qū)域的作用,開(kāi)運(yùn)算可刪除目標(biāo)區(qū)域中的小分支,閉運(yùn)算可填補(bǔ)目標(biāo)區(qū)域中的空洞。 基于以上4個(gè)運(yùn)算,文中的形態(tài)處理流程為:選取3×3的矩型結(jié)構(gòu)元素進(jìn)行膨脹,然后用2×2的矩型結(jié)構(gòu)元素進(jìn)行腐蝕,再用長(zhǎng)為7,角度為0°的線型結(jié)構(gòu)元素進(jìn)行閉運(yùn)算處理??紤]到豎直文本的情況,再用長(zhǎng)為4,角度為90°的線型結(jié)構(gòu)元素進(jìn)行閉運(yùn)算處理。實(shí)驗(yàn)發(fā)現(xiàn),結(jié)構(gòu)元素的尺寸太大,會(huì)導(dǎo)致無(wú)效的膨脹重疊現(xiàn)象,增大計(jì)算量;而結(jié)構(gòu)元素尺寸過(guò)小將不能有效形成文本塊區(qū)域。所以結(jié)構(gòu)元素B的選擇對(duì)于候選文本區(qū)域形成與文本區(qū)域提取至關(guān)重要。實(shí)驗(yàn)證明,文中所采用的結(jié)構(gòu)元素很好地形成了候選文本區(qū)域。
2.3 基于兩層金字塔和局部區(qū)域直方圖的文本定位
對(duì)于生成候選文本區(qū)域的邊緣圖,在原圖和分辨率降低一半的圖像這兩個(gè)尺度的金字塔級(jí)別上分別采用由粗到精的多次水平、豎直投影,并合成結(jié)果,來(lái)確定文本塊的具體行列。對(duì)水平文本定位先水平投影后豎直投影,對(duì)豎直文本定位則交換投影順序。
定義一種局部區(qū)域的直方圖(Local Region histogram,即LRH)如下:
給定一幅圖像f(x,y),對(duì)于其中由若干連續(xù)的行或列(行數(shù)或列數(shù)為L(zhǎng))所構(gòu)成的任意子圖像,可分別按行或列生成局部區(qū)域直方圖LRH。LRH函數(shù)可定義為
其中,k為子圖像的像素行(列)號(hào),N表示一行(列)中的像素總數(shù),Nk則是經(jīng)過(guò)處理的邊緣圖中的高亮像素?cái)?shù),即是代表文本所在位置的那些白色像素?cái)?shù)。圖3給出了一幅處理后的邊緣圖像所生成的LRH圖。
由圖3可見(jiàn),文本區(qū)域在LRH圖中形成具有一定寬度的高函數(shù)值連續(xù)區(qū)域。利用閾值法來(lái)檢測(cè)行/列邊界,由于閾值T取值過(guò)小會(huì)造成不能分割出單獨(dú)的行/列,過(guò)大則會(huì)遺漏行/列。為了能自動(dòng)適應(yīng)不同的圖像,將閾值T定義為T=c*Mean(LRH)。c為一個(gè)微調(diào)系數(shù),可根據(jù)不同的視頻源的統(tǒng)計(jì)特性進(jìn)行調(diào)整。針對(duì)文中選取的視頻片段,在進(jìn)行了大量實(shí)驗(yàn)對(duì)比后,選取了實(shí)驗(yàn)效果較好的經(jīng)驗(yàn)值,對(duì)于水平的LRH圖,選擇c為1.O;對(duì)于豎直的LRH圖,選擇c為0.5。
最后,對(duì)標(biāo)出的矩形框,根據(jù)文本的尺寸比例,制定簡(jiǎn)單的約束條件來(lái)去除非文本區(qū)。
3 文本二值化提取
為適應(yīng)OCR軟件識(shí)別,需將文本子圖轉(zhuǎn)換成二值化圖像。在進(jìn)行二值化前,采用雙三次插值法將所有水平文本區(qū)域高度歸一化成60像素,而寬度則根據(jù)原區(qū)域的比例進(jìn)行相應(yīng)的放大或縮小(對(duì)于豎直排列的文字塊則放縮到60像素寬,高度隨比例放縮)。為了增強(qiáng)文本子圖中字符與背景的對(duì)比度,對(duì)插值后的圖像進(jìn)行灰度拉伸,自動(dòng)搜索直方圖上非0最小值a和最大值b,把[a,b]拉伸到[0,255]的整個(gè)區(qū)間。采用文獻(xiàn)中的方法對(duì)文字極性進(jìn)行判斷,并將其統(tǒng)一為“白底黑字”的形式。
Otsu算法是一種最大類間方差法,能夠自動(dòng)選取閾值,來(lái)分割圖像成兩部分。對(duì)于以上處理得到的圖像,二值化過(guò)程采用文獻(xiàn)中的基于滑動(dòng)窗口的局部自適應(yīng)Otsu方法和向內(nèi)填充的區(qū)域生長(zhǎng)方法,并對(duì)區(qū)域生長(zhǎng)方法的文本標(biāo)記做了改進(jìn)。根據(jù)文本字符的筆劃特點(diǎn),對(duì)文本點(diǎn)定義水平、豎直、右對(duì)角和左對(duì)角4個(gè)方向連通長(zhǎng)度,對(duì)文本進(jìn)行標(biāo)記保護(hù)。將文本像素標(biāo)記點(diǎn)定義為
MIN_W,MAX_W和MAX_L定義了連通最長(zhǎng)數(shù)目的范圍。經(jīng)過(guò)此步驟,再對(duì)背景進(jìn)行填充,并將連通區(qū)域面積過(guò)小的噪聲點(diǎn)去除。最后送入漢王OCR5.0增強(qiáng)版軟件進(jìn)行識(shí)別。圖4給出了二值化過(guò)程。
4 實(shí)驗(yàn)及分析
為了驗(yàn)證文中檢測(cè)定位算法的性能,人工挑選了150幀背景非常復(fù)雜的視頻圖像進(jìn)行了測(cè)試。其中有中文也有英文,有靜止也有線性滾動(dòng),有單行也有多行文本,字體多樣,尺寸有大有小。在實(shí)驗(yàn)之前已經(jīng)手工統(tǒng)計(jì)了這150幀圖像中所包含的文本塊總數(shù),實(shí)驗(yàn)結(jié)果,如表l所示。
其中,誤檢的原因主要是復(fù)雜背景下存在與文本相似性很高的區(qū)域,而漏檢的原因是由于該文本區(qū)域與周圍背景對(duì)比度太低,幾乎完全溶入到背景中或單獨(dú)出現(xiàn)的字符在一系列處理中不滿足文本塊的尺寸限定而被當(dāng)作背景噪聲濾除掉。采用軟件漢王OCR5.0增強(qiáng)版對(duì)二值化后的文本字符的最終識(shí)別率為88.7%。
5 結(jié)束語(yǔ)
提出采用小波多尺度局部模極大值邊緣檢測(cè)方法來(lái)對(duì)文本圖像進(jìn)行邊緣檢測(cè)。對(duì)于檢測(cè)到的文本邊緣圖,先用局部閾值處理來(lái)濾除背景噪聲,采用形態(tài)學(xué)處理生成候選文本區(qū)域。使用由粗到精的遞歸投影和基于局部區(qū)域直方圖的定位算法,利用兩層金字塔模型以檢測(cè)出大小不一的文本來(lái)降低漏檢率,并用相應(yīng)的準(zhǔn)則來(lái)消除虛假的文本區(qū)域。文本提取方面,采用雙三次插值來(lái)統(tǒng)一各文本的高度/寬度,用灰度拉伸的方法來(lái)增強(qiáng)文本圖像的分辨率。然后用改進(jìn)的Otsu方法和種子填充方法進(jìn)行二值化,去除連通面積過(guò)小的噪聲點(diǎn),最后送入OCR軟件進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果證明本文算法對(duì)于提取視頻圖像文本的有效性。
絕對(duì)值編碼器相關(guān)文章:絕對(duì)值編碼器原理 全息投影相關(guān)文章:全息投影原理
評(píng)論