喬平安 劉佩龍



摘 ?要: 網絡社交平臺圖像包含豐富的文本信息,而文本檢測是提取這些文本信息的基礎。針對網絡社交平臺圖像的特點,提出一種基于筆畫寬度變換(Stroke Width Transform)的檢測圖像文本的方法。該方法首先預處理輸入的圖像,接著按照分布規則檢測圖像文本區域,然后根據形態規則和筆畫特征規則篩除非文本區域,最后輸出檢測的文本區域結果。仿真實驗結果表明,該方法能夠準確檢測網絡社交平臺圖像文本區域,效率較好。
關鍵詞: 圖像文本檢測; 網絡社交平臺; 筆畫寬度變換; 文本區域檢測; 算法流程; 仿真驗證
中圖分類號: TN919.8?34; TP391.1 ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)20?0048?05
Social networking platform image text detection based on SWT algorithm
QIAO Pingan1,2, LIU Peilong1
(1. School of Computing, Xian University of Posts and Telecommunications, Xian 710100, China;
2. Shaanxi Provincial Key Laboratory of Network Data Analysis and Intelligent Processing, Xian 710100, China)
Abstract: Social networking platform image contains abundant text information, and text detection is the basis of extracting text information. In allusion to the features of the social networking platform image, a method for text image detection based on SWT (stroke width transform) is proposed. In this method, the input image is preprocessed, the image text area is detected according to the distribution rules, and those non?text areas are eliminated according to the morphology rules and stroke feature rules. Finally, the detected results of text area are output. The simulation experimental results show that the method can accurately detect the image text area of the social networking platform, and has better detection efficiency.
Keywords: image text detection; social networking platform; stroke width transform; text area detection; algorithm flow; simulation verification
0 ?引 ?言
文本檢測已成為計算機視覺與模式識別、文檔分析與識別領域的一個研究熱點[1?3]。近年來,隨著互聯網的發展和移動終端的普及,微信、微博、Facebook、推特、ins等網絡社交平臺已經完全融入大眾生活,這些平臺上的大量信息成為情感研究、輿情監測、網絡環境凈化等關注的重點。目前,國內外對自然場景文本檢測研究很多,超過80%的關于自然場景論文關注圖像文本檢測問題[2,4],但是針對網絡社交平臺上的圖像文本的檢測卻很少。如何檢測、識別和提取網絡社交平臺上的圖像文本信息具有重要意義和研究價值。基于此,本文根據大眾在這些社交網絡平臺發布圖像的文本特點,提出一種基于筆畫寬度變換(SWT)的圖像文本檢測方法用于檢測網絡社交平臺圖像文本信息。
1 ?相關工作
目前,文本檢測中最具代表性的方法為最大穩定極值區域(MSER)法[5?7]和筆畫寬度變換(SWT)法[8]。SWT算法能準確地獲取圖像文本候選區域以及根據網絡平臺圖像文本的分布規則減少圖像檢測的面積,提高檢測效率。
Epshtein等人首次提出SWT算法,利用Canny算法對輸入圖像進行邊緣檢測,并計算邊緣像素點的梯度方向,沿著梯度方向的路線尋找與之匹配的像素[8]。這個做法使得場景文字檢測向前邁出一大步;Yao Cong通過筆畫寬度變換 (SWT) 處理獲得文本候選區域,用文本級分類器(簡單特征+隨機森林)過濾非文本區域[9];利用文本間的相似性連接成文本行,再用文本行級的分類器(簡單特征+隨機森林)[10]進一步過濾背景區域, 較早地實現了任意方向排列的自然場景文本檢測任務;Huang Weilin考慮到傳統的筆畫寬度變換方法在應對圖像中包含一些具有不規則梯度方向的邊緣時往往不能準確地計算出筆畫寬度,所以利用顏色信息來改進筆畫寬度算法并提出筆畫特征變換 (Stroke Feature Transform)算法[11]。
5) 筆畫寬度規則。繼續對圖像進行筆畫特征規則,有的圖像會產生長而窄的連通域,這些會被誤認為是文本區域,實則不然,在此限制它們的寬高比,不符合要求的剔除掉,對于高寬比較大的區域可以排除。同樣限制連通域的直徑和筆畫寬度的中值比。一塊區域的邊界框包含不超過兩塊連通域,以消除文本外圍包圍線之類,單獨的字符通常不出現在圖像中,當作噪聲剔除。
6) 合并輸出。連通域合并形成文本行然后輸出。中文合并:同一個文本行里的漢字有相似的筆畫寬度,所以平均筆畫寬度比值應該在0.8和1/0.8之間,兩個漢字之間水平排列,連通域外接矩形的中心點 坐標差值不大于兩個連通域之間較高的高度值的0.5。英文合并:兩個字母應具有相似的筆畫寬度(筆畫寬度均值比率小于2.0)。字母的高度比不得超過2.0(由于大寫和小寫字母之間的差異)。字母之間的距離不得超過寬字母寬度的3倍,另外顏色相同進行合并即可。
4 ?實驗與分析
4.1 ?實驗數據集
為了更好地評定本文的研究,本文根據ICDAR的數據集的圖像組成規則,建立了針對中英文文本提取的圖像庫,圖像主要來源于微信、微博、推特、Facebook、Ins等網絡社交平臺。具體建立步驟如下:
1) 數量組成:200幅當作訓練樣本的圖像和100幅作測試集的圖像。
2) 圖像分辨率范圍:類似的文中采集的圖像,分辨率范圍為650×260~860×1 024。
3) 難度比例:根據圖像文本提取的難度,將圖像分為難、中和易三個等級,比例為2∶3∶5。
4) 圖像文本內容:ICDAR圖像庫中文本內容包括路邊標志牌文本、建筑物名稱等,自建庫圖像適合聊天或發心情日志等帶有感情色彩。
4.2 ?評價標準
本文采用國際會議ICDAR所提出的評估方法具體如表1所示。
4.3 ?結果分析
仿真實驗數據集采用自建的中英文數據集,在WIN8系統下用Matlab 2016a版本進行仿真實驗。
圖6和圖7是仿真實驗的具體實現步驟。

圖8中列舉了一些本文算法的檢測結果。其中第1、2行特意選取符合文本規則的復雜場景圖像。圖8a)為原圖(藍色框為圖像文本規則分布);圖8b)為圖像檢測結果;圖8c)為原圖;圖8d)為它的檢測結果,說明該方法也能夠在有復雜背景的場景圖像中精確地檢測文本區域。第3行是網絡社交平臺圖像檢測結果。圖8e)為原圖;圖8f)為圖像檢測結果。第4行是失敗的檢測案例。圖8g)和圖8i)為輸入的原圖(藍色框為文本規則分布),由于圖像文本分布規則不符合,所以圖8h)和圖8j)原文本區域的文本當作背景篩除。
利用本文方法檢測圖像文本得到的結果與其他算法相比較,結果如表2所示。無論是準確率或者時間效率,本文算法都較優于其他一些文獻檢測算法。

5 ?結 ?語
依據網絡社交平臺圖像和自然場景圖像的不同點和相同點,提出了基于改進SWT法的圖像檢測方法,該方法分為4部分:圖像輸入、分布規則、篩選、輸出結果。筆畫寬度特征在分布規則之后進行檢測,分布規則大大減少了算法處理像素的數量,從而減少了算法時間成本和提高了效率。
仿真實驗結果表明效果達到了理想預期,提高了定位的準確性,但是由于SWT算法主要針對英文檢測,中文文本檢測還有提高的空間,以后還需要繼續研究改進。
參考文獻
[1] BAI X, SHI B, ZHANG C, et al. Text/nontext image classification in the wild with convolutional neural networks [J]. Pattern recognition, 2016, 66: 437?446.
[2] LIU Y, JIN L. Deep matching prior network: toward tighter multi?oriented text detection [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 3456?3461.
[3] SHI B G, BAI X, YAO C. An end?to?end trainable neuralnetwork for image?based sequence recognition and its application to scene text recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 39(11): 2298?2304.
[4] 王潤民,桑農,丁丁,等.自然場景圖像中的文本檢測綜述[J].自動化學報,2018,44(12):3?31.
WANG Runmin, SANG Nong, DING Ding, et al. Overview of text detection in natural scene images [J]. Journal of automation, 2018, 44(12): 3?31.
[5] NEUMANN L, MATAS J. A method for text localization and recognition in real?world images [C]// Proceeding of 10th Asian Conference on Computer Vision. Queenstown: [s.n.], 2010: 770?783.
[6] ZHU A, GAO R, UCHIDA S. Could scene context be beneficial for scene text detection [J]. Pattern recognition, 2016, 8: 204?215.
[7] WEI Y, ZHANG Z, SHEN W, et al. Text detection in scene images based on exhaustive segmentation [J]. Signal processing image communication, 2017, 50: 1?8.
[8] EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform [C]// Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 2963?2970.
[9] YAO C, BAI X, LIU W, et al. Detecting texts of arbitrary orientations in natural images [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 1083?1090.
[10] ANTHIMOPOULOS M, GATOS B, PRATIKAKIS I. Detection of artificial and scene text in images and video frames [J]. Pattern analysis and applications, 2013, 16(3): 431?446.
[11] HUANG W L, ZHE L, YANG J, et al. Text localization in natural images using stroke feature transform and text covariance descriptors [C]// Proceedings of IEEE International Conference on Computer Vision. Sydney: IEEE, 2013: 1241?1248.
[12] 張偉偉.一種針對漢字特點的場景圖像中文文本定位算法[J].信息工程大學學報,2014,15(6):729?736.
ZHANG Weiwei. A Chinese image localization algorithm for scene images based on Chinese characters [J]. Journal of Information Engineering University, 2014, 15(6): 729?736.