陳伯豪,林志賢,姚劍敏,郭太良
(福州大學 物理與信息工程學院,福建 福州 350001)
?
面向OSD選單文字分割算法的研究
陳伯豪,林志賢,姚劍敏,郭太良
(福州大學 物理與信息工程學院,福建 福州 350001)
針對現(xiàn)有的自動化OSD選單圖像文字分割存在亮度不均勻、圖形噪聲等問題,提出了一種面向OSD選單的文字分割算法,首先結合頂帽變換和改進的雙閾值Otsu法對圖像進行光照校正和圖像二值化;通過垂直投影分析和Canny算子邊緣檢測法去除圖形噪聲,結合二分法和投影法解決文字黏合問題,最終達到OSD選單文字分割的目的。實驗結果表明,提出的算法能夠解決OSD選單亮度不均勻和圖形噪聲的問題,文字分割正確率達到88%以上,比傳統(tǒng)投影法的正確率提高了67%。
OSD選單;OTSU算法;投影法;文字分割
近年來,隨著顯示器成為人們獲取信息的重要渠道,應用也越來越廣泛。OSD選單(On-Screen Display)是用戶對顯示器進行設置以獲得最優(yōu)視覺享受的重要設置。在生產(chǎn)中為避免OSD選單出現(xiàn)文字錯誤,解決辦法是人工根據(jù)廠家提供的標準說明書和出廠的顯示器上的OSD選單的文字進行對比,以此得到出廠的顯示器的OSD選單文字是否有誤。人工檢測的工作量大,容易造成視覺疲勞,從而導致誤檢率升高。針對人工檢測出現(xiàn)的問題,福建捷聯(lián)電子有限公司正在研究OSD選單文字識別的自動化技術,而文字分割是文字識別的關鍵步驟,文字分割的質量將會直接影響文字識別的準確性。
目前,文字分割[1-2]的算法主要有:1)投影法。李靜[3]等采用水平投影確定字符所在行的區(qū)域后,利用垂直投影確定單個字符的位置,能有效分割出身份證的字符,該方法算法簡單、易于實現(xiàn),但對部分左右結構和上下結構的漢字無法有效地分割。2)聚類分析法。Jun[4]等提出了一種基于非線性聚類方法的手寫字符分割方法,通過計算筆畫比重,形成聚類標簽,最終分割出文字,該方法不能有效分割粘貼的字符。3)連通域法。Lei[5]等提出了一種利用非遞歸標記算法得到二值圖像連通域的方法,通過連通域合并算法分割字符,該方法計算量較大,且對圖像噪聲敏感。4)模板匹配法。PEI[6]等提出了一種基于多尺度模板匹配和基于零件模型的分割方法,通過兩種方式提取字符,利用兩者之間的幾何約束得到字符的最終分割結果,該方法自適應能力較差。
分析發(fā)現(xiàn),OSD選單的文字分割難點主要有:1)由于顯示器自身亮度、對比度,周圍光照不均勻等因素導致圖像二值化過程中形成了不必要的噪聲或出現(xiàn)斷字、漏字現(xiàn)象;2)存在圖形噪聲,影響投影分割的正確率;3)存在文字黏合現(xiàn)象,導致文字分隔時出現(xiàn)誤檢。針對以上分析,本文提出了一種面向OSD選單的文字分割算法,該算法結合頂帽算法和改進的雙閾值Otsu法對圖像進行光照校正和圖像二值化;再通過垂直投影分析和Canny算子邊緣檢測法去除圖形噪聲,同時采用二分法解決文字黏合問題,最終完成OSD選單文字分割。該算法能有效克服現(xiàn)有OSD選單文字分割的難點,大幅提升文字分割的正確率。
1.1數(shù)學形態(tài)學理論
數(shù)學形態(tài)學理論[7]是由法國的賽拉和馬瑟榮于1894年提出的,其基本思想是用具有一定形態(tài)的結構元素來處理圖像。數(shù)學形態(tài)學理論是基于腐蝕和膨脹這兩種基本運算。假設圖像集合為F(x,y),結構元素為B(u,v),DF和DB分別是F和B的定義域。
膨脹的表達式
F⊕B=max{F(x+u,y+v)+B(u,v)|(x+u),
(y+v)∈DF,(u,v)∈DB}
(1)
腐蝕的表達式
F?B=min{F(x+u,y+v)+B(u,v)|(x+u),
(y+v)∈DF,(u,v)∈DB}
(2)
用同一個結構元素對輸入圖像進行先腐蝕后膨脹,稱為開運算
F°B=(FΘB)⊕B
(3)
用同一個結構元素對輸入圖像進行先膨脹后腐蝕,稱為閉運算
F·B=(F⊕B)ΘB
(4)
頂帽變換是從原圖中減去形態(tài)學開運算后所得的圖像,表示為
G=F-(F°B)
(5)
頂帽變換多被用于增強前景與背景的對比度,從較暗的背景中提取目標,但是結構元素的選擇需要根據(jù)圖像的具體情況而定,自適應能力差。
1.2Otsu法分析
圖像二值化[8]是一種重要的圖像分割方法。目前,傳統(tǒng)圖像二值化的方法主要有Otsu,Bernsen,Sauvola等算法。Otsu算法簡單、處理速度快以及自適應能力強,可以將文字和背景很好的分離。傳統(tǒng)的Otsu[9]是通過遍歷法找到一個灰度值,使得圖像的前景和背景兩部分的類間方差最大,該灰度值即為二值化的最佳閾值。
假設圖像的總像素數(shù)為N,灰度級分為H={0,1,…,L-1},灰度為i的像素數(shù)為ni,則
(6)
Pi表示灰度為i的像素的概率,于是有
(7)
圖像灰度總均值
(8)
設C0和C1分別為前景和背景的像素集合,則有
(9)
設μ0(k)和μ1(k)分別為C0和C1的均值,則有
(10)
其中
(11)
于是可得C0和C1的類間方差為
(12)
通過遍歷法,獲得最佳閾值k為
(13)
分析公式可知,傳統(tǒng)Otsu法是基于圖像的全局灰度值,對文字和背景的對比度要求比較高,當圖像亮度不均勻、對比度不高或者文字部分光照不均勻時,二值化效果不佳。
1.2投影分割算法分析
投影法[10]是通過統(tǒng)計圖像在某方向上的投影信息,根據(jù)投影特點進行文字分割。假設圖像矩陣大小為M×N,其中M表示圖像的高度,N表示圖像的寬度。將圖像f(x,y)分別做水平方向和垂直方向上的積分投影,得到兩個方向上的投影向量fy(x)和fx(y)。
(14)
(15)
式中:式(14)表示水平方向上的投影,式(15)表示垂直方向上的投影。x和y的取值范圍分別為x∈[1,N],y∈[1,M]。投影法主要有行分割和字符分割兩個步驟。行分割是通過水平投影分析,利用行與行之間的空白間距將每行文字分離出來。字符分割是在行分割的基礎上,通過垂直投影分析,利用相鄰字符之間的間隙將漢字分割出來。
圖1所示為文本圖像行分割結果及其水平投影圖。純文本圖像的文字行距較大,從其水平投影圖可以看出,文字行之間的空白區(qū)域表現(xiàn)為明顯的波谷,可以很好地完成行分割。但是,OSD選單圖像中包含圖形噪聲,水平投影受到干擾。OSD選單圖像及其水平投影圖如圖2所示。從水平投影圖中可以看出,文字行之間不再呈現(xiàn)簡單而有規(guī)律的波峰或波谷,因此傳統(tǒng)的投影法無法簡單地運用于OSD選單圖像文字分割。

圖1 文本圖像行分割結果及其水平投影圖

圖2 OSD選單圖像及其水平投影
針對以上分析可知,由于OSD選單圖像存在光照不均勻和圖形噪聲,采用傳統(tǒng)投影法進行文字分割的效果不佳,正確率低。為此本文提出一種OSD選單的文字分割算法,先采用頂帽變換對采集的OSD選單圖像進行光照校正后用改進的雙閾值Otsu算法進行二值化,再結合Canny算子邊緣檢測法,去除剩余的圖形噪聲,最后結合二分法和投影法對文字進行分割。本文的算法流程如圖3所示。

圖3 本文算法流程圖
2.1圖像預處理
通過攝像頭獲取的OSD選單圖像,存在光照不均勻現(xiàn)象,導致無法得到理想的二值化效果。因此,在文字分割前需要先對采集的OSD選單圖像進行光照校正。經(jīng)分析OSD選單文本圖像,其存在背景亮度不均勻、文字區(qū)域亮度不均勻兩大問題。本文先采用全局光照校正后再用局部光照對圖片進行預處理,以減少背景亮度不均和文字區(qū)域亮度不均的問題。
2.1.1全局光照校正
本文尺寸為800×600的圖片進行測試,針對背景亮度不均勻問題,經(jīng)過多次實驗,在全局光照校正中,選擇半徑為10的圓盤結構元素B1,如式(16)所示,對圖像進行頂帽變換[11]。
(16)
“1”代表結構元素B的定義域DB的所在范圍,“0”代表DB的范圍之外。經(jīng)實驗測試發(fā)現(xiàn),結構元素半徑如果太大,會使文字區(qū)域的邊緣粘合在一起,文字變得模糊;半徑太小,則會去除文字邊緣的部分像素,造成信息丟失。采集的選單圖像經(jīng)過頂帽變換后,消除了比結構元素尺寸小的明亮特征,剩下的背景圖像較為均勻,同時也使文字在一定程度上得到了平滑。
2.1.2局部光照校正及二值化
經(jīng)過頂帽變換后,圖像整體亮度得到了校正。但是,文字區(qū)域的亮度不均勻現(xiàn)象仍未得到很好的改善。如果直接對圖像二值化,所得到的文字筆畫可能出現(xiàn)黏合現(xiàn)象。為此,還需對圖像進行局部的光照校正。本文仍采用頂帽算法對其進行局部亮度校正。
采用半徑為5的圓盤結構元素B2,對選單圖像進行開運算,細化圖像中的文字邊緣,避免文字筆畫黏合現(xiàn)象;再用結構元素B2進行閉運算,避免部分文字因為開運算造成筆畫斷開。
經(jīng)過全局和局部光照校正后,得到亮度較為均勻的圖像,開始對圖像進行二值化,將文字信息從背景中分割出來。Otsu可以快速對圖像進行二值化,選取合適的閾值至關重要。通過實驗,比較傳統(tǒng)Otsu、雙閾值Otsu[12]、二維Otsu[13]的二值化效果,本文選擇用改進的雙閾值Otsu。傳統(tǒng)Otsu法的類間方差公式如式(12)所示,拓展到雙閾值時,過程如下

(17)

(18)
其中

(19)
改進后的雙閾值公式如下
(20)

2.2改進的投影分割法
投影法是利用水平投影和垂直投影進行判斷文字區(qū)域,常規(guī)的方法——先行分割后字符分割已經(jīng)證明不適用于OSD選單。分析發(fā)現(xiàn),二值化后的圖像中存在大面積的圖形噪聲和光照噪聲,投影分析后,如圖2所示,這類噪聲表現(xiàn)為一個波峰且峰值接近于最大值。因此,根據(jù)這個特征,本文對選單圖像進行投影分析,將有此特征的區(qū)域判定為圖形,并將其全部濾除。
去除大面積噪聲后,進行行分割,發(fā)現(xiàn)仍存在一些圖形噪聲,這些圖形的形狀較為簡單,表現(xiàn)為矩形、三角形等。本文采用Canny算子[14]進行邊緣檢測,選出這些圖形并去除。Canny邊緣檢測法有較好的信噪比和檢測精度,能迅速檢測出所需要的圖形。具體檢測流程如圖4所示。

圖4Canny算子邊緣檢測流程圖
為解決相鄰文字間距小造成的難題,分析圖像中文字的垂直投影,發(fā)現(xiàn)漢字的水平投影寬度占總投影的3.1%~4.2%之間,個別文字如“伽”投影達到5.1%,英文字母及數(shù)字“j”和“0”等會小于3.1%。如圖5a所示,為去除噪聲后的OSD選單圖像,圖5b分別針對第一行和第五行文字進行垂直投影分析,圖中表明投影所代表的文字及其投影寬度所占總投影的比例。

圖5 OSD選單
假設一個波的投影寬度為L,一行字的總投影寬度為W,設置如下規(guī)定:
1)L/W<3.1%時,通過模板匹配法,確定該區(qū)域文字是否為英文字母或者數(shù)字。若是,則單獨分割出來,否則判定為漢字偏旁,與下一個相鄰投影相結合為一個字。
2)3.1% 3)L/W>5.2%,該投影對應的區(qū)域出現(xiàn)了文字黏合現(xiàn)象。采用二分法思想進行判定。首先,先根據(jù)投影寬度判定黏合的字數(shù),L/W∈(5.2%,10.2%)為雙字黏合,L/W∈(10.2%,15.2%)為三字黏合,實驗證明,在OSD選單圖像中最多出現(xiàn)三個字的黏合情況。本文采用洗允廷[15]等提出的基于二分法的投影分割算法,假設出現(xiàn)黏合的區(qū)域圖像為I,根據(jù)L/W所在的區(qū)間選擇使用二分法的次數(shù)。雙字黏合情況下,采用一次二分法,找到投影最小值作為分割點;三字黏合情況下,則使用兩次二分法,得到兩個投影I1和I2,選擇兩者中寬度較大的投影,再使用一次二分法,具體流程如圖6所示,i為二分法的使用次數(shù)。 圖6 二分法投影分割流程圖 為了驗證本文方法的效果,本文收集了300張光照不均勻的OSD選單圖像,將其裁剪為800×600,建立了文本圖像庫進行實驗。選單圖像庫包括冠捷旗下的ENVISION(易美遜)和AOC、飯山(Iiyama)、戴爾(Dell)等10種顯示器OSD選單。在實驗中,本文采用的硬件平臺為CPU 2.2 GHz,內(nèi)存為4 Gbyte,軟件算法使用VC編寫實現(xiàn),操作系統(tǒng)為Window7。 3.1圖像預處理結果分析 為了驗證本文光照處理后二值化的效果,實驗中分別對傳統(tǒng)的Otsu、直方圖均衡化以及本文的方法進行對比,如圖7所示。對3種方法二值化后每張圖的文字數(shù)進行統(tǒng)計,根據(jù)剩余可見且清晰的文字數(shù)占原圖像總字數(shù)的比例按(0,60%],(60%,70%],(70%,80%],(80%,90%],(90%,100%)5個區(qū)間記錄,結果如表1所示。 圖7 傳統(tǒng)二值化算法與本文方法效果圖 區(qū)間傳統(tǒng)Otsu法直方圖均衡化本文方法(90%,100%)3822202(80%,90%]894032(70%,80%]768536(60%,70%]41782560%以下56755總計300300300 對比實驗結果可以看出,圖像經(jīng)過光照處理后,削弱了光照不均對文字的影響,且采用本文的二值化方法可以去除大量的光照噪聲,避免出現(xiàn)斷字、缺字的情況,為投影法分割奠定了基礎。 3.2OSD選單文字分割結果分析 圖8顯示了本文算法對OSD選單進行文字分割的過程,對比3種方法的分割結果可以看出,通過垂直投影分析和Canny算子邊緣檢測,可以去除圖形噪聲,解決了圖形噪聲給投影法帶來的分割障礙;通過分析投影寬度,采用二分法可以較好地解決文字黏合問題。 圖8 本文算法對OSD選單進行文字分割(截圖) 將圖7d別采用傳統(tǒng)投影法、連通域法、模板匹配法以及本文方法進行文字分割,結果如圖9所示。從圖9可以看出,本文方法不僅能夠解決各種噪聲問題,而且可以解決文字黏合問題。 圖9 文字分割結果圖(截圖) 表2所示為4種算法的文字識別率情況,表3所示為4種算法的誤檢情況(誤檢率在本文中表現(xiàn)為將圖形誤判為文字或文字分割不完整)。 表24種算法的文字識別率 文字識別率區(qū)間傳統(tǒng)投影法/張連通域法/張模板匹配法/張本文方法/張(90%,100%)25181192(80%,90%]2123218(70%,80%]2616300(60%,70%]15206060%以下1323320總計100100100100 表34種算法的文字誤檢情況 誤檢個數(shù)區(qū)間傳統(tǒng)投影法/張連通域法/張模板匹配法/張本文方法/張(0,5)22397(5,10]2233193(10,15]3212230(15,20]122520020以上3228350總計100100100100 從表2、表3可以看出,圖形噪聲嚴重干擾了文字分割的正確率,本文方法可以去除圖形噪聲,消除其帶來的影響,不會將圖形誤判為文字,本文方法下的文字識別率明顯高于其他3種算法,且誤檢率低。其中,本文方法的文字識別率至少達到88%,比傳統(tǒng)方法最低識別率高出68%;識別率達到90%以上的圖像有92張,比傳統(tǒng)方法中識別率最高的聚類分析法多67張,多了3.68倍。由于本文方法包含了去除圖形噪聲過程,每張圖的誤檢個數(shù)控制3個以內(nèi),比傳統(tǒng)方法多94%。表3中本文方法出現(xiàn)有3張圖出現(xiàn)5個以上誤檢,分別是由于圖像傾斜角度太大、光照太強等原因,這種情況一般不會出現(xiàn),因此可以忽略。 本文提出了一種面向OSD選單的文字分割算法,結合頂帽算法和改進的雙閾值Otsu法對圖像進行光照校正和圖像二值化;再用改進投影法通過垂直投影分析和Canny算子邊緣檢測法去除圖形噪聲,并通過二分法解決文字黏合問題,最終完成OSD選單文字分割。本文對100張OSD選單圖像進行試驗,本文算法下每張圖像的文字識別率均高于88%,相比于傳統(tǒng)算法的識別率提高了67%。實驗結果表明,本文算法能夠很好地解決由于光照和顯示器本身硬件原因帶來的圖像亮度不均勻問題,能消除圖形噪聲帶來的障礙,解決文字黏合問題。 [1]許璐,陳文藝,楊輝.基于網(wǎng)格圖像自動檢測的鏡頭畸變校正[J].電視技術,2015,39(17):13-15. [2]馬文平,卿粼波,吳小強,等.基于HOG+SVM模型的場景文字二次檢測算法[J].電視技術,2015,39(7):118-121. [3]李靜 ,盧凱旋.二代身份證的自動分割方法研究[J].計算機工程與應用,2015,51(14):165-169. [4]TANAJ,LAIBJ-H,WANGBC-D,etal.Anewhandwrittencharactersegmentationmethodbasedonnonlinearclustering[J].Neurocomputing,2012,89(10):213-219. [5]ZHUL,YANGJ.AncientbooksChinesecharacterssegmentationbasedonconnecteddomainandchinesecharactersfeature[J].Advancedmaterialsresearch,2010,143(2): 227-231. [6]PEIMIT,WANGYJ,JIAYD,etal.Licenseplatecharactersegmentationbasedonmultiplescaletemplatesmatchingandpart-basedmodel[J].TransactionsofBeijinginstituteoftechnology,2014,34(9):961-971. [7]馬永慧,薛丹丹. 基于數(shù)學形態(tài)學和投影法的車牌定位方法[J].電視技術,2013,37(7):147-149. [8]AHMADIE,AZIMIFARZ,SHAMSM,etal.Documentimagebinarizationusingadiscriminativestructuralclassifier[J].Patternrecognitionletters,2015,63:36-42.[9]BISWAS B,DEY K N,CHAKRABARTI A. Remote sensing image fusion using multithreshold Otsu method in shearlet domain[J].Procedia computer science,2015,57:554-562. [10]李林,盧煥章,肖山竹,等.基于部分投影的粘連目標分割[J].電視技術,2013,37(11):203-205. [11]YANG X. Enhancement for road sign images and its performance evaluation[J]. Optik, 2015, 124(14): 1957-1960. [12]尹奎英,劉宏偉,金林.快速的Otsu雙閾值SAR圖像分割法[J]. 吉林大學學報(工學版),2011,41(6):1760-1765. [13]張新明,孫印杰,鄭延斌.二維直方圖準分的Otsu圖像割及其快速實現(xiàn)[J].電子學報,2011,39(8):1778-1784. [14]ZHU A,WANG G Y. A new detection operator for narrow band character extraction in low contrast scenes[J]. Canadian journal of electrical and computer engineering,2013,36(3):117-121. [15]冼允廷,路小波,施毅,等.基于投影二分法的車牌字符分割方法[J].交通與計算機,2007,25(5):69-72. 陳伯豪(1990— ),碩士生,主研嵌入式系統(tǒng)、模式識別; 林志賢(1975— ),碩士生導師,教授,本文通信作者,主要研究方向為信息顯示,平板顯示器件驅動和圖像處理技術; 姚劍敏(1978— ),碩士生導師,副研究員,主要研究方向為視頻圖像處理、模式識別; 郭太良(1963— ),博士生導師,研究員,主要研究方向為場致發(fā)射陰極材料及器件研究。 責任編輯:閆雯雯 Study of text segmentation algorithm for OSD menu CHEN Bohao,LIN Zhixian,YAO Jianmin,GUO Tailiang (CollegeofPhysicsandInformationEngineering,F(xiàn)uzhouUniversity,F(xiàn)uzhou350001,China) For automation OSD menu text image segmentation exiting uneven brightness, pattern noise and other issues, a text segmentation algorithm for the OSD menu is put forward, combined with Top-Hat algorithm and improved dual-threshold OTSU method for image illumination correction and image binarization; then uses the improved projection method to remove pattern noise, and uses dichotomy to solve the problem of text cohesion, and finally completes text segmentation. Experimental results show that this method can solve the problems of uneven brightness and pattern noise. The accuracy rate of text segmentation reaches over 88%, increasing by 67% compared with the traditional projection method. OSD menu; OTSU; projection method; text segmentation TN949.6 ADOI: 10.16280/j.videoe.2016.010.022 國家科技部“863”重大專項(2013AA030601);福建省科技重大專項(2014HZ0003-1);福建省資助省屬高校專項課題(JK2014003);福建省科技廳重點項目(2013H0033) 2015-12-02 文獻引用格式:陳伯豪,林志賢,姚劍敏,等. 面向OSD選單文字分割算法的研究[J].電視技術,2016,40(10):107-112. CHEN B H,LIN Z X,YAO J M,et al. Study of text segmentation algorithm for OSD menu [J]. Video engineering,2016,40(10):107-112.
3 實驗結果與分析






4 結語