岳建杰,趙旦峰
哈爾濱工程大學信息與通信工程學院,黑龍江哈爾濱 150001
基于K-means的圖像文字識別與提取研究
岳建杰,趙旦峰
哈爾濱工程大學信息與通信工程學院,黑龍江哈爾濱 150001
針對當前圖像文字識別與提取的最新發展狀況,提出一種基于K-means的圖像文字識別與提取算法,其主要處理步驟包括圖像的預處理、像素點聚類處理、圖層的選擇與優化以及最終的文字切分等。經過上機對算法進行測試,該算法能夠有效提高圖像文字識別與提取的準確率與執行效率,并可以針對不同環境下的圖片文字進行有效識別。
K-means;圖像文字提??;文字識別;二值化處理
目前常用的識別算法包括神經網絡、支持向量機、K-近鄰算法等,而K-means聚類算法是當前常用的基于劃分的分類算法,能夠按照既定標準與要求將集合進行劃分。在數字圖像文字提取與識別中,可以通過對數字圖像進行灰度處理,將文字背景與文字前景用不同的灰度像素來表示,并使用K-means聚類算法進行像素劃分,從而將文字從數字圖像中提取出來,作為OCR識別的圖像輸入[1]。所以,K-means聚類算法是當前圖像文字識別與提取中使用非常廣泛的處理算法。
根據集合元素劃分方法的不同,聚類算法可以分為層次劃分、密度劃分、網格劃分以及模型劃分等,K-means屬于基于密度劃分的聚類算法[2]。
K-means聚類算法的基本思想是利用集合元素之間的距離為劃分標準,在集合內部按照元素的分布密度的不同將元素劃分為不同的子集合。
在劃分過程中,通過定義元素之間的距離,按照元素到聚類中心之間的距離最小原則將元素進行聚合,從而得到最終的劃分結果。
K-means聚類算法的基本流程主要包括以下幾個步驟[3]:
1)根據元素劃分的基本要求,從集合元素中隨機選擇k個元素作為劃分結果的中心元素,并針對集合中的每個元素計算其到聚類中心元素的距離大小,按照最小距離原則把各個元素劃分到對應的聚類中心元素集合中;
2)按照劃分結果對各個子集合中的元素計算特征均值,并根據計算結果對劃分結果進行更新操作[4];
3)對更新后的子集合元素再次按照第一步中的方法進行聚類操作,從而得到更新后的元素劃分結果;
4)按照上述步驟進行循環計算,當2次計算所得到的聚類中心元素相同時,所得到的劃分結果即為聚類結果。
由于K-means聚類算法的基本流程比較固定,其本質是在給定的集合元素距離計算方法的前提下,不斷進行聚類迭代與循環運算即可對元素進行聚類劃分[5]。所以在應用過程中只需要定義合適的距離計算方法即可非常方便地將K-means算法轉化為計算機可執行程序進行上機運行,所以K-means聚類算法是目前對集合元素進行分類的常用方法。
采用K-means聚類算法的缺陷主要是在選擇聚類中心元素時,算法受到樣本元素的選擇隨機性和外部噪聲的影響比較顯著,如果不進行有效的算法優化則比較容易導致算法陷入局部最優。因此在采用K-means聚類算法的圖像文字提取與識別處理中需要根據圖像文字自身的特點對算法進行改進與優化。
文中提出的基于K-means的圖像文字識別與提取算法中主要包括數字圖像預處理、像素聚類處理、圖層選擇與優化以及文字切分4個核心步驟,并最終得到能夠被OCR進行識別的文字數字圖像,算法詳細流程設計介紹如下。
2.1 圖像預處理
在本文提出的圖像文字識別與提取算法中,首先需要對數字圖像進行一系列的預處理,包括圖像灰度轉換、二值化處理、文字塊定位以及文字邊緣檢測等,圖像預處理的算法流程設計如圖1所示。

圖1 圖像預處理算法設計
從圖1中可以看到,圖像預處理的過程主要包括如下幾個步驟。
1)圖像灰度轉換
將彩色圖像轉化為僅包含像素亮度信息的灰度圖,并將數字圖像中的背景冗余信息與其他噪聲進行去除,從而為后續的文字塊分割以及文字提取提供便利。
數字圖像文字提取與識別中的噪聲主要是由于外界光照因素、顏色因素和其他因素導致的圖像有效信息受到干擾所產生的,因此噪聲的去除主要采用了濾波方式,包括領域平均濾波法以及中位值濾波法等,將數字圖像像素中的噪聲去除[7]。
2)二值化處理
將數字圖像經灰度化處理后得到的黑白圖像中的背景與前景進行分離,一般采用灰度像素閾值分離的方法來進行,包括全局域閾值分離法、局部閾值分離法以及動態可變閾值分離法等。
由于動態閾值分離法的計算量較大、處理效率不高,同時全局閾值分離法的分離效果較差,所以本算法采用了局部最優閾值分離法,通過計算數字圖像不同區塊中像素的灰度梯度值的變化來對像素進行分離[8]。
3)邊緣檢測處理
將經二值化處理后的圖像進行特征區域劃分,通過對數字圖像灰度變化、顏色變化以及紋理特征的變化差異進行檢測,從而實現文字塊與圖像背景的分離。
本算法的邊緣檢測算法中主要采用了一階以及二階微分算子來進行圖像像素灰度導數值的計算,從而實現不同區域的邊緣檢測。
2.2 聚類處理
經過圖像預處理之后即可得到能夠采用K-means聚類算法進行文字塊提取的目標圖像[9]。通過對目標圖像中的像素進行聚類處理,可以從圖像中提取得到待識別的文字目標區塊,本算法采用的聚類處理詳細流程如圖2所示。

圖2 聚類處理詳細流程設計
從圖2中可以看到,聚類處理過程主要包括的步驟如下所述。
1)對數字圖像進行像素空間分類,將其劃分為N個子簇,并在每個像素簇中隨機選擇一個像素作為中心點;
2)采用歐幾里得距離作為像素間距離的計算方式分別計算N個像素簇中各個像素點到中心點的距離大小,并按照最小距離原則進行像素聚類,得到N個像素點子集合,記為Pi(n),其中i=1,2,…,N;
3)隨機選擇2個像素子集合Pk和Pm,并計算2個集合之間的最近距離,隨后將Pk中距離Pm最近的像素點歸入Pm集合,并從Pk中刪除;
4)重新計算經過上一步處理后得到的N個像素子集合的中心點,重復上述過程直到各個像素子集合不再發生變化;
5)對最終得到的N個像素子集合計算灰度均值,并以計算得到的灰度值作為各個像素子集合的標記,并采用局部聚類分類法進行,從而得到最終的聚類結果。
2.3 圖層選擇與優化
在經過聚類處理后可以將原數字圖像的灰度處理結果劃分為多個圖層。由于數字圖像文字的中心特性,可以通過計算各個圖像圖層像素點距離中心區域的距離大小得到最終需要選擇的圖像圖層[10]。
在本算法中為了提高圖層選擇的準確度,在圖層選擇過程中,首先將圖層集合按照中心距離的大小劃分為2個子集合。其次采用連通域分析、像素噪聲去除等操作,最后再選擇距離最小的圖像圖層作為最終的選擇結果,在此圖層中即包含了要進行提取與識別的文字塊,即可對其進行文字切分操作。
2.4 文字切分
在經過閾值分割后得到的圖像區域中可能還包含部分噪聲像素,即得到的分割結果中還包含了部分不屬于文字區域的像素點,所以需要對這些噪音像素進行去除處理,經過切分處理后得到最終能夠被OCR識別的文字圖像[11]。
在本文的算法中對上述噪音像素進行剔除的步驟主要包括:
1)首先將文字處理結果中明顯不符合文字高寬比的像素進行去除;
2)通過定義文字塊的邊緣密度,并根據文字塊邊緣密度通常大于0.2的特征進一步去除噪音像素;
3)將處理結果中區域面積小于10個像素點的區域進行去除;
4)對處理結果中的像素塊進行融合處理,得到最終的文字塊。
通過文字切分處理后即可得到能夠被OCR識別的文字圖像。
為了檢驗本文提出的圖像文字識別算法的識別效果,做了與基于BP神經網絡識別算法的對比。本文提出的圖像文字識別算法采用OpenCV開發接口在Visual C++6.0開發環境下對算法進行了軟件實現,OCR識別功能接口采用Microsoft Office工具實現,軟件實現的基本流程如圖3所示。

圖3 圖像文字識別軟件實現流程圖
圖像文字識別軟件的運行界面如圖4所示。

圖4 圖像文字識別軟件運行界面
2種算法對文字識別軟件的識別效果測試結果如表1、2所示。從表中可以看出,本文提出的文字提取與識別算法對數字圖像中的文字區域定位比較準確,高于BP神經網絡的識別算法,在圖像文字排列比較復雜的情況下,算法的定位準確度依然保持在95%以上,而BP神經網絡明顯低于本文提出的算法。

表1 K-means圖像文字識別軟件測試效果

表2 BP神經網絡圖像文字識別軟件測試效果
通過對K-means聚類算法進行考察與分析,并結合數字圖像的灰度處理、二值化、邊緣檢測等技術,設計了一個基于聚類的圖像文字識別與提取算法。通過與BP神經網絡識別算法的對比驗證得出,該算法能夠很好地對復雜數字圖像背景中的文字區域進行定位與提取操作,并得到能夠被OCR進行識別的圖像文字,具有比較高的執行效率與準確度。
[1]楊春蓉,趙小勇.利用改進的最優聚類算法邊緣提取方法研究[J].計算機應用與軟件,2012(12):54-58.
[2]RAMAN M,AGGARWALH.Study and comparison of vari-ous image edge detection techniques[J].International Jour-nal of Image Processing,2009(2):113-118.
[3]王景中,胡貝貝.歸一化算法在文字識別系統中的應用研究[J].計算機應用與軟件,2011(3):22-24.
[4]閻少宏,彭亞綿,楊愛民,等.LLE算法及其在手寫文字識別中的應用[J].河北聯合大學學報:自然科學版,2012(2):49-53.
[5]種耀華.基于NSCT圖像文字信息提取新方法[J].計算機應用,2012(2):182-185.
[6]常瑩.基于聚類與邊緣檢測的自然場景文本提取方法[J].計算機工程與設計,2010(18):33-36.
[7]胡石根,陸以勤.漢字聯機手寫識別系統的設計與實現[J].計算機仿真,2010(9):77-79.
[8]MANSHENG X,X M,MANSHENG X,et al.A property optimization method in support of approximately duplicated records detecting[C]//IEEE International Conference on Intelligent Computing and Intelligent Systems.[S.l.],2009:118-122.
[9]胡廣,李娟,黃本雄.結合空間信息的模糊C均值聚類圖像分割算法[J].計算機與數字工程,2008(4):29-32.
[10]劉小丹,牛少敏.一種改進的K-means聚類彩色圖像分割方法[J].湘潭大學自然科學學報,2012(2):47-51.
[11]GATOSB,PRATIKAKIS I,PERANTONISS J.Adaptive degraded document image binarization[C]//Computation-al Intelligence Laboratory,Institute of Informatics and Tel-ecommunications,National Center for Scientific Research “Demokritos”.Athens,Greece.2006:327-329.
Research on the recognition and extraction of image characters based on K-means
YUE Jianjie,ZHAO Danfeng
College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China
Based on the latest developments in the recognition and extraction of image characters,this paper propo-ses a K-means-based algorithm for the recognition and extraction of image text.Itsmain processing steps include im-age preprocessing,pixel clustering process,selection and optimization of the layer and the final text segmentation.By computer testing,itwas found that the algorithm can effectively improve the accuracy and efficiency of recogni-tion and extraction of image characters.In addition,it can effectively identify image characters under differentenvi-ronments.
K-means;extraction of image text;character recognition;binarization
TN971.1
A
1009-671X(2015)02-017-04
10.3969/j.issn.1009-671X.201406014
2014-06-19.
日期:2015-03-25.
黑龍江省科技攻關計劃資助項目(GC12A305).
岳建杰(1986-),男,碩士研究生;
趙旦峰(1961-),男,教授,博士生導師.
岳建杰,E-mail:348274742@qq.com.
http://www.cnki.net/kcms/detail/23.1191.u.20150325.1256.009.html