李彬+趙連軍+劉帥


【摘 要】為了準確快速地識別一張完整的考核測評表的特征目標信息,提出了一種基于表格圖像處理的特征目標自動識別的算法。根據表格圖像的特點,對考核測評表圖像進行灰度化等預處理,并利用感興趣區域檢測方法定位考核表單元格位置,在此基礎上,研究了采用像素統計方法和角點檢測方法識別特征目標,最后通過實驗驗證了算法的正確性和可行性。
【關鍵詞】圖像預處理;光學字符識別;角點檢測
【Abstract】In order to identify the characteristics of a complete assessment form of the target information accurately and quickly,an automatic recognition algorithm for feature objects based on table image processing is proposed.According to the characteristics of the table image,On the assessment of the assessment of the image of the gray, and uses the interest area detection method to locate the position of the table cell.On this basis,according to the feature of objects, the thesis studies to automatically recognize ticks using statistics pixels and corner detection methods..Finally, the correctness and feasibility of the algorithm are verified by experiments.
【Key words】Image preprocessing; OCR; Corner Detection
0 概述
傳統的企事業單位一般采用人工統計方式進行人員年度考核測評,從下發考核文件,組織相關人員填寫考核測評表,收回考核測評表,計算得出人員的考核測評成績。這樣的流程復雜繁瑣,花費時間,效率低下。而且,最終要將紙質版的表格進行存檔,這種存檔方式不利于今后的文件查閱,影響了文件的可追溯性。為減少人工操作,提高工作效率,本文研究了一種電子考核測評系統,通過該系統可以將一張有固定版面格式的考核測評表圖像進行灰度化[1]、二值化[2]、圖像細化[3]、傾斜校正和歸一化[4]等操作,使得圖像的版面清晰;然后,對考核測評表進行版面特征方面的分析,為快速定位考核表內單元格的位置,提出了感興趣區域檢測方法。對于考核測評表內的文字信息和特征目標(對勾),分別采用了光學字符識別技術和角點檢測方法進行自動識別。這些方法和技術的提出,使得數字圖像處理技術在企事業單位人員考核測評中得到應用,節省了人力和時間,提高了工作的準確性和效率。
1 表格圖像預處理
經過照相機和掃描儀等設備采集后的圖像,經常受到外部環境諸如光照、拍攝角度等因素的影響,采集后的圖像存在圖像傾斜、模糊、圖像失真等情況,極大的影響后續考核表內的文字信息和特征目標的提取。因此,必須對獲取到的圖像進行預處理操著,預處理操作的流程如圖1所示:
1.1 灰度化
彩色圖片所包含的像素都是由紅(R)、綠(G)、藍(B)三種基本顏色組合而成,這三種基本顏色的參數都是在0~255之內。為減少處理彩色圖像的計算量和時間復雜度,本文采用線性變換中的加權平均法對圖像進行灰度化處理,得到單色圖。
1.2 二值化
為了將圖像中目標與背景分割開,去除干擾信息,需要根據圖像設置合理的閾值。由于本文所研究的考核測評表的版面清晰、灰度級別對比明顯,所以采用固定閾值[5]法對圖像進行二值化操作,通過比較考核表中每一個像素點的灰度值與設定的固定閾值的大小關系,將原圖像中每一個像素點的灰度值,即取值范圍從0~255被置換為0或1兩個值。
1.3 平滑處理
考慮到一些外部因素如外部光照條件造成的亮度不統一,從而引發明暗對比、圖像失真等不良后果。為降低圖像上的噪聲,分別研究了中值模糊處理法[6]、雙邊濾波處理法[7]對圖像進行平滑處理。
1.4 傾斜校正
對于考核測評表不可避免出現的圖像傾斜的現象,經過研究,根據表中表格線的特征,使用Hough變換[8]計算得出圖像的傾斜角度,將不同的坐標系中的點和線建立起一種對偶關系。方法簡單且圖像校正的效果不錯。
此外,在經過圖像細化和歸一化等操作后,對考核表圖像的預處理操作就結束了,在得到內容和版面清晰的圖像后,便可順利進入下一步的特征目標定位的操著。
2 特征目標定位算法的研究
以整個考核測評表為研究對象,通過版面理解的特征目標定位算法,從幾何結構出發,分析版面特征,明確橫縱向記錄之間的關系。
2.1 幾何分析的版面理解技術研究
每張考核表由標題、主體這兩部分組成。標題處在考核表的最頂端的位置,是一行描述性的文字,主體由大小規格統一的二維表格組成,考核表的內容簡單、主體信息明確,只包含了被考核人員的姓名和考核內容兩部分,所要填寫的特征目標(對勾),所在的矩形框大小都是60*60像素的單元格,而且單元格之間分隔存在,并不相互連接,這樣便于對不同單元格內信息的提取。
2.2 基于感興趣區域檢測的單元格定位
對于一副圖像,我們感興趣的是圖像中的某部分,有時候要對目標進行跟蹤時,需要選取目標特征,為方便將圖像中的目標區域標記出來,通過設置感興趣區域(ROI),即將考核表圖像中的有用信息如姓名、單位等文字信息和對勾所處的位置設置為感興趣的區域。本文使用cvsetImageROI(src,cvRect(x,y,width,height))函數進行感興趣區域的劃分,在該函數的參數中,src為需要進行處理的圖像,x和y代表感興趣區域的起點坐標,width和height為感興趣區域的寬和高。
結合本人事考核表的實際情況,考核測評表一共8行單元格,在Opencv中設置感興趣區域的同時設置相應的一個計數器,每執行完一行單元格就對計數器進行一次累加操作,直到執行完最后一行。
3 特征目標自動識別技術的研究
在研究了幾何分析的版面理解和基于感興趣區域檢測的單元格定位的方法后,在一張完整的考核表內,實現了準確定位目標單元格位置和文字信息的效果,在此基礎上,進一步研究如何提取已經定位好的特征目標(對勾)的位置。
3.1 像素統計法識別對勾
像素是數字圖像中最基本的單位,對數字圖像的操作也就是對數字圖像中的像素的操作,每一幅圖像都有像素個數固定、像素位置排列固定和像素獨立存在的特點。在考核測評表中,有些單元格中有對勾,有些單元格中沒有對勾,這二者的像素差距非常明顯,有對勾單元格的黑色像素個數多于沒有對勾的單元格。根據每個感興趣區域像素點的位置,逐行進行像素檢測,直到整個感興趣區域的像素檢測結束。每個感興趣區域的黑色像素點的個數運用求和公式得出,參考對照已經設定好的定值,判斷該區域是否為對勾,如果是,記錄該區域的位置。
3.2 角點檢測識別對勾
一般圖像邊緣曲率的極大值點或者亮度變化劇烈的點被認為是角點,角點有利于匹配的可靠性和運算速度的提高,在減少信息數據量的同時又能保留圖像的大部分信息。角點檢測的方法有許多種,如Fast角點檢測算法、Moravec角點檢測算法、Shi-Tomas角點檢測算法、Harris角點檢測算法、曲率空間角點檢測算法和外界鏈碼角點檢測算法[9]等算法。根據本文所研究的考核測評表的結構特征和對以上有關算法的了解,選擇Harris角點檢點算法進行研究。
Harris是一種簡單的點特征提取算子,這種算子受到信號處理中的自相關函數的啟發,自相關函數相聯系矩陣的特征值是它的一階曲率,如果該點是特征點,曲率值會很高。Harris角點檢測算法的原理如圖2所示。
圖(a),這是窗口在圖像中的平滑區域里面,窗口在移動時,在所有的方向上都沒有任何變化,其運動軌跡沒有改變;圖(b),窗口在邊緣區域,窗口在該區域移動的時候,其運動軌跡是沿著邊緣方向的,沒有方向上的變化;圖(c),這是窗口進入角點區域,窗口的運動軌跡在各個方向上具有變化。Harris角點檢測的自相關函數可以表示為:
其中,E(m,n)是兩個窗口偏移[m,n]而造成的圖像灰度變化的結果,在一副圖像中,角點區域是變化最明顯的區域。對于本文所研究的考核測評表圖像,利用OpenCV中提供的cvGoodFeaturesToTrack函數,在設置每個單元格為感興趣區域時使用該函數中的mask參數,根據程序得出的結果,得出感興趣區域中角點的個數。由于每個規范填寫的對勾會有至少3個角點,單元格是一個規范的矩形,會有4個角點,這樣該區域的角點個數大于等于7個的時候,該感興趣區域內存在特征目標對勾,此時程序輸出該感興趣區域的位置標記符。
4 實驗分析
采用的實驗環境平臺為Microsoft Visual Studio2010,用C++作為編程語言,在Visual Studio 軟件上配置OpenCV實驗環境。通過配置好的實驗環境,做實驗對比分析像素統計法和角點檢測法對對勾位置提取的準確度。如圖3為一張測試圖。
通過像素統計法和角點檢測法得到的結果圖4所示,可以看出,對于一張填寫并不規范的表格,角點檢測法比像素統計法的容錯能力更高。
5 結束語
本文提出了一種快速識別一張人事考核表圖像中的特征目標的算法,經過對圖像的預處理和表格圖像的版面分析等操作,最后通過實驗對比分析像素統計法和角點檢測法對圖像中特征目標識別的準確度。
【參考文獻】
[1]王澤發,唐興國.基于灰度變換的圖像增強方法研究[J].科技創新導報,2011(1):119.
[2]平麗.圖像平滑處理方法的比較研究[J].信息技術,2010(1):65-67.
[3]吳麗麗,余春燕.基于Sobel算子和Radon變換的車牌傾斜校正方法[J].計算機應用,2013(S1):220-222.
[4]周冠瑋,平西建,程娟.基于改進Hough變換的文本圖像傾斜校正方法[J].計算機應用,2007(7):1813-1816.
[5]段晉英,史建芳.改進的高低帽變換對固定閾值二值化算法的優化[J].科學技術與工程,2014(15):245-250.
[6]王芳,滿益云.基于模糊中值濾波的椒鹽噪聲去除方法[J].模糊系統與數學,2012(1):166-174.
[7]張闖,遲健男,張朝暉,王志良.基于邊緣檢測與雙邊濾波的彩色圖像去噪[J].電子學報,2010(8):1776-1783.
[8]梁添才,皮佑國,彭晶,朱朝華.基于Hough變換的列車客運票圖像傾斜校正[J].華南理工大學學報,2007(5):35-40.
[9]盧瑜,郝興文,王永俊.Moravec和Harris角點檢測方法比較研究[J].計算機技術與發展,2011,21(6):95-97.
[責任編輯:許麗]