





摘 要: 針對包含印刷體漢字的文字圖像提出一種過濾模型,該模型把圖像中每一個文字看成一個對象,通過相關技術手段從圖像中分割出對象并對這些對象進行識別,將敏感詞匯組成部分的對象標記為敏感對象。同時,建立了語義詞典,通過組合將敏感對象組合起來并與詞典中的詞匯相匹配,從而達到識別敏感詞的目的,以此為基礎可以實現對含有敏感詞的圖像的過濾。
關鍵詞: 文字圖像識別; 語義詞典; 組合規則; 文字圖像過濾
中圖分類號: TN915.08?34 文獻標識碼: A 文章編號: 1004?373X(2013)21?0070?04
0 引 言
互聯網技術發展到今天,已經成為廣大網民獲取信息和交流的重要途徑之一。互聯網上蘊含大量的共享信息,但是這些信息并不都是健康的和文明的,其中還包括了大量反動、色情、暴力以及垃圾郵件等不良信息,這些信息都會給網絡用戶帶來負面的影響。
為了解決上述問題,網絡信息安全研究者也在不斷的努力研究各種信息過濾方法來過濾這些不良信息,但是網絡垃圾信息制造者也常常采用不同的方式,例如,使用“*”、“|”等間隔符將敏感詞分割開,使不良信息逃脫關鍵字、黑白名單等過濾方法的阻撓[1],繼續在網絡上傳播;還有就是常見的廣告垃圾郵件,這種郵件大多數情況下都是在未經允許的時候發送給電子郵件用戶,由于廣告中的文字是嵌入到圖像中的,所以傳統的基于文本的垃圾郵件過濾系統對這類郵件都無法過濾。
針對上述問題,網絡信息過濾研究者們也在不斷的探索新的方法來實現更加完善的信息過濾,例如,對于廣告垃圾圖像,根據圖像的顏色特征[2]來判定該圖像是否是廣告垃圾圖像,這類方法對于信息的過濾有一定的幫助,但是這種過濾方法也會造成很高的誤判率。為了解決上述問題,本文提出了一種基于高層語義的文字圖像過濾模型,并以含有敏感詞的文字圖像為例闡述了整個模型的構建過程以及模型中所用到的一些相關技術,實驗證明該模型是可行的。
1 文字圖像語義構建
1.1 圖像語義層次模型
語義,反映圖像包含的信息,這些信息可以是圖像中所包含的具體事物、背景以及事物之間的空間關系等[3]。為了明確圖像所處的語義層次,文獻[4]中Eakins等提出了語義層次模型。該模型將語義層次劃分為3個層次,分別為圖像的底層特征層、對象層以及語義概念層,這3個層次又分別對應著6個不同的圖像語義級別,如圖1所示。圖中的箭頭表示語義的高低級別,下一個語義層次通常包含了比上一層次更高級更抽象的語義,而較高層的語義往往由較低層的語義通過某種規則推理而得。
對于上述一般圖像的語義層次模型,可以將其應用到文字圖像上。文字圖像不同于其他圖像,這類圖像所包含的主要內容就是文字,且背景往往比較簡單,例如自然風景圖像里面所包含的元素就比較多,像‘天空’、‘草原’、‘河流’、‘山脈’等等都可以是自然風景圖像的組成部分,而文字圖像中所包含的對象類別就比較單一。本文把文字圖像中的每個文字看成一個對象,采用一定的技術手段將文字圖像中的單個文字切分出來,并提取出該對象的底層特征,并識別出該對象,如果一個對象是敏感詞匯的組成部分,就將該對象稱為敏感對象,然后再根據一定的規則將這些對象組合起來,然后和語義詞典中的詞匯相比較,語義詞典中含有的就是敏感詞,若圖像中包含敏感詞,那么該圖像就會被過濾掉。
1.2 文字圖像語義的組成
本文所提出的模型主要是針對文字圖像,文字圖像不像其他圖像含有豐富的組成元素,該類圖像所包含的對象類別較單一,也沒有豐富的背景。將圖像中的每一個文字看成是一個對象,對于包含敏感詞的圖像來說,這些對象的組合就是一個敏感詞。下面將文字圖像高層語義提取中所用到的技術手段及流程做進一步闡述。
1.2.1 對象的分割
把圖像中的一個文字看成一個對象,所以在文字圖像的高層語義處理過程中的對象分割就是將圖像中的單個文字切分出了,即文字切分。文字切分流程如圖2所示,具體流程描述:
(1)圖像預處理,就是對圖像進行去噪,二值化等操作;
(2)文字區域定位,在一幅文字圖像中可能有一部分區域不包含文字,那么就要把不包含文字的區域去除掉,只保留含有文字的區域,這就是文字區域定位的作用;
(3)行分割,就是對圖像進行進一步切分,使得分割后的每一部分只包含一行文字;
(4)文字切分,完成行分割以后,就可以進行文字切分了,即切分出來的部分只包含一個文字,這就是一個對象。
1.2.2 對象的識別
在將圖像中的一個個文字切分出來以后,這些區域仍是以圖像形式表示的,這時就需要進行單個文字圖像的底層特征的提取,進而利用這些特征識別出單個文字圖像具體含義,即要把對象與底層特征關聯起來。本文選用的單個文字圖像的底層特征分別是網格特征、交叉特征以及重心特征,下面對這些特征進行詳細說明。
網格特征[5]:網格特征將文字圖像劃分為若干區域,稱之為網格,在每一個網格內提取各種特征,將其除以整個文字圖像中文字像素的個數,這樣即使個別點的統計有誤差也不會造成大的影響,增強了特征的抗干擾性。
交叉特征[6]:交叉數特征是指首先把單個文字圖像的行和列等分成若干份,然后分別在行、列的各等分處做水平和垂直線穿過字符,計算水平線和垂直線與字符邊緣相交次數的總和。
重心特征:重心特征顧名思義就是計算該特征所得數值能夠表征圖像中文字的重心偏向,即計算文字的上半部分所包含的文字像素與整個文字像素的比值和文字的左半部分所包含的文字像素與整個文字像素的比值。
1.2.3 提取高層語義
在對象分割、識別完成以后,接下來就要利用所識別出來的對象的不同組合來推理得出圖像的高層語義。本文所要建立的是一個文字圖像的安全模型,對于圖像中出現的各種敏感詞匯都要進行過濾,可以將這些敏感詞匯集合起來作為文字圖像的高層語義詞典,由識別出的對象得到的不同組合的詞匯與該詞典里的詞匯進行匹配,如果匹配成功,那就說明該圖像是含有敏感詞的,該圖像就應該被過濾掉。由對象到詞匯的過程是一個根據組合規則進行對象組合的過程,該組合規則描述如下:
確定各敏感詞匯的組成部分,即敏感詞匯具體是由哪些文字組成的。通過對象識別可以得到這些文字,把這些對象稱作敏感對象。判斷敏感對象在圖像中是否能夠構成一個詞匯。對象識別所識別出的敏感對象,只能說明它們是敏感詞匯的組成部分,這些對象在圖像中是否是一個詞匯還有待確定。
(1)一幅圖像是否是文字圖像的判定。要實現對敏感文字圖像的過濾,首要任務就是該圖像是文字圖像,本文通過Gabor小波變換[7]和SVM來實現文字圖像的識別;
(1)如果敏感對象位于同一行,則使用歐式距離來判斷敏感對象是否是相鄰的,歐式距離大小的設定以每一行中所有對象的平均間隔寬度為標準,小于等于這個標準的兩個敏感對象是相鄰的,大于這個標準的兩個敏感對象是不相鄰的,如果敏感對象是相鄰的,那么這些敏感對象就是一個可能的詞匯組合,然后再將該組合與語義詞典中的詞匯進行匹配,如果匹配成功就說明該圖像中含有敏感詞匯,該圖像將被過濾掉,否則不過濾該圖像;
(3)如果敏感對象彼此之間都不在同一行,那么這些敏感對象在原圖像中肯定不是一個詞匯,原始圖像就不包含敏感詞匯,該圖像不被過濾;
(4)如果敏感對象有一部分在同一行,其余部分在下一行。且一部分在一行的末尾,另一部分在下一行的開頭,在同一行中的敏感對象利用規則(2)判斷它們是否相鄰,如果相鄰,那么這些敏感對象就是一個可能的詞匯組合,然后再將該組合與語義詞典中的詞匯進行匹配,如果匹配成功就說明該圖像中含有敏感詞匯,該圖像將被過濾掉,否則不過濾該圖像。
2 模型設計
根據上面關于文字圖像過濾的敘述,開始構建基于高層語義的文字圖像過濾模型,如圖3所示。從圖中可以看出,該模型主要包括文字圖像識別、對象分割、敏感對象識別以及敏感詞匹配四個部分。
文字圖像識別:該部分使用Gabor小波變換提取圖像的紋理特征,并使用臺灣大學林智仁教授的LIBSVM作為分類器;
對象分割:該部分使用了積分投影法[5]、基于連通域的漢字切分技術[8]完成文字區域定位、行分割以及文字切分;
敏感對象識別:提取單個文字圖像的網格特征、交叉特征以及重心特征并通過歸一化得到一個含有多維的綜合特征向量,并使用臺灣大學林智仁教授的LIBSVM作為分類器,進而識別出敏感對象。
敏感詞匹配:正如前面所說首先將所有要過濾的敏感詞匯集合起來構成一個語義詞典,然后將敏感對象的組合結果與語義詞典匹配,若匹配成功,則原圖像包含敏感詞匯,該圖像被過濾。
3 訓練數據集的構成
本文需要建立兩個樣本圖像庫,一個用于文字圖像的識別,一個用于文字的識別。
(1)用于文字圖像識別的樣本圖像庫的構成。該圖像庫一共由96幅圖像構成,其中48幅圖像是由CoreI圖像庫中不同類別圖像中挑選出來的,另外48幅圖像是文字圖像,是在網上收集的,包括了不同背景不同字體不同大小的文字圖像。
(2)用于單個文字識別的樣本圖像庫的構成。該圖像庫一共包含了208幅圖像,這些圖像都是由單個文字組成的,其中的100幅圖像是非敏感詞圖像,這些圖像是由漢字中最常見的100個漢字組成,另外的108幅文字圖像是由組成敏感詞的文字圖像組成,這些圖像具有不同大小不同字體的特性。
4 實驗結果及分析
本文使用Matlab進行仿真實驗來驗證上述模型的可行性。在實驗中使用積分投影法、基于連通域的漢字切分技術以及臺灣大學林智仁教授的LIBSVM來實現文字圖像中文字區域的定位、文字行切分、文字切分以及文字識別;此外,使用Gabor小波變換提取圖像的紋理特征,結合LIBSVM實現對文字圖像的識別。
4.1 實驗結果
使用積分投影法對文字圖像進行文字區域定位及行分割,實驗結果如圖4所示。
使用基于連通域的漢字切分技術對文字圖像進行文字切分,原圖像及切分后的圖像分別如圖5、圖6所示,圖6中用邊框包圍起來的部分就表示是一個文字。
使用Gabor小波變換提取圖像的紋理特征,并使用SVM作為分類器對圖像進行識別,首先提取樣本圖像庫(1)中各圖像的紋理特征,并對圖像進行分類標注,文字圖像標注為‘1’,非文字圖像標注為‘-1’,然后利用該訓練樣本集對SVM進行訓練,這樣可以得到一個預測模型,接著,再從CoreI圖像庫中選出48幅圖像以及從網上搜索48幅文字圖像,這樣就得到96幅圖像(這96幅圖像不能和樣本圖像庫中的圖像相同),以這96幅圖像為測試集,可以得到如下結果,見表1。
表中RA代表識別正確率;TMN代表文字圖像誤分類個數;TMR代表文字圖像誤分率,是指文字圖像的誤分類個數與文字圖像總數的百分比;NTMN代表非文字圖像誤分類個數;NTMR代表非文字圖像誤分率,是指非文字圖像誤分類個數與非文字圖像總數的百分比。
分別提取樣本圖像庫(2)中各文字圖像的網格特征、交叉數特征和重心特征并進行相應的類別標注,屬于敏感詞中文字的類別標注為‘1’,不屬于敏感詞中文字的類別標注為‘-1’,這樣就得到用于建立SVM預測模型的訓練集。在得到預測模型以后,就是使用該模型進行預測。預測的結果見表2。
表2中敏感詞文字圖像是指該圖像只能包含一個文字且該文字是敏感詞中的一個;一般文字圖像是指該圖像只能包含一個文字且該文字不是組成敏感詞的文字;其中,RA代表識別正確率;STMN代表敏感詞文字圖像誤分類個數;STMR代表敏感詞文字誤分率,是指敏感詞文字圖像誤分類個數與敏感詞文字圖像總數的百分比;GTMN代表一般圖像誤分類個數;GTMR代表一般文字圖像誤分率,是指一般文字圖像誤分類個數與一般文字圖像總數的百分比。
4.2 分 析
從圖4中可以看出,對于背景比較單一的文字圖像,使用積分投影法進行文字區域定位和行分割的實驗效果還是比較好的,但是對于背景稍微復雜的文字圖像,該方法定位效果及切分效果就不太理想了。
從圖5和圖6中可以看出,基于連通域的漢字切割技術的切分準確率還是很高的,但是對于左右結構、上下結構以及全包圍結構的漢字(如‘回’就是全包圍結構的)的切分效果不是太理想,該方法會把左右結構的漢字切分為左右兩部分,上下結構的漢字切分成上下兩部分,全包圍結構的漢字切分結果有可能是把漢字切分成內外兩部分。
從表1中可以看到使用圖像的紋理特征來判別一幅圖像到底是不是文字圖像也有不足之處,雖然說文字圖像的紋理與非文字圖像的紋理有顯著的差別,但對于一些背景比較復雜的文字圖像來說,它的紋理就和非文字圖像差不多了,這樣就會導致圖像的誤分類。
從表2中可以看出,對于敏感詞文字圖像分類的正確率還是比較高的,108個敏感詞文字圖像中只有9個被誤分。而對于一般文字圖像來說誤分率較高,因為漢字之間具有相似的結構和筆畫,組成敏感詞的文字只有那么幾個,而其他文字則有很多,這些原因就導致了一般文字圖像的高誤分率。
5 結 論
本文將需要過濾的敏感詞匯集合起來構成語義詞典,將文字圖像中的每一個文字看成一個對象,并將分割出來的對象與底層特征相關聯,實現了對象的分割和識別,指定了敏感對象相對應的組合規則,并將組合結果與語義詞典中的詞匯相匹配,實現了由對象語義到更高層語義的推理,實驗證明本文提出的文字圖像過濾模型是可行的。對于本文中有關如何提高文字圖像的識別率、如何提高文字區域定位和行分割的精確度以及如何正確切分左右結構、上下結構以及全包圍結構的文字都是需要未來作進一步研究的問題。
參考文獻
[1] 吳慧玲,耿西偉.一種不良信息過濾的文本預處理方法研究[J].微計算機信息,2006,22(36):58?60.
[2] 丁丹,袁華,張凌.基于內容的廣告垃圾圖像過濾方法的研究[C]//第三屆全國信息檢索與內容安全學術會議論文集.北京:中國中文信息學會信息檢索與內容安全專業委員會,2007:38?41.
[3] 張捷.圖像語義標注[J].電腦開發與應用,2012,25(1):10?11.
[4] EAKINS J P.Automatic image content retrieval: are we getting anywhere [C]// Proc of 3rd International Conference on Electronic Library and Visual Information Research. Milton Keynes: ASLIB, 1996: 123?135.
[5] 陳義,李言俊,孫小煒.利用OCR識別技術實現視頻中文字的提取[J].計算機工程與應用,2010,46(10):180?183.
[6] TSENG Yi?Hong, KUO Chi?Chang, LEE His?Jian. Speeding?up chinese character recognition in an automatic document reading system [J]. Pattern Recognition, 1998, 31(11): 1601?1612.
[7] 蔡念,張國宏,樓朋旭,等.基于形狀和紋理的外觀設計專利圖像檢索方法[J].山東大學學報:工業版,2009,41(2):1?4.
[8] 陳艷,孫羽菲,張玉志.基于連通域的漢字切分技術研究[J].計算機應用研究,2005,22(6):246?248.