劉劍飛 石翔宇 杜子俊 孫源辰 王敬烜



摘 要:針對低質(zhì)量的退化文檔存在文字污染、受自然侵蝕等情況,提出一種基于背景估計和最大類間方差法的二值化算法。首先對原圖用加權平均值與平均值混合法灰度化進行預處理;然后對灰度化處理后的圖像進行兩次形態(tài)學閉操作估計圖像背景,計算背景估計圖與灰度圖的絕對差值,確定前景像素候選點,取反,再對圖像進行對比度增強得到背景刪減圖;最后利用最大方差類間法進行二值化處理。實驗結(jié)果表明,本文算法的綜合性能優(yōu)于傳統(tǒng)的最大類間方差二值化算法,從視覺效果來看,本文算法的二值分割較為精準,提升了經(jīng)典算法處理受污染文檔圖像的精確度。
關鍵詞:文本圖像二值化;灰度化;背景估計;最大類間方差法
一 緒論
1.1 算法研究背景及意義
文字是人類文明傳承的媒介,如今隨著科學的飛速發(fā)展,信息流通方式不再拘泥于紙張,人們可以通過獲取大量數(shù)字化的文本信息。古典書籍受外界物理條件或人為因素的影響,使得珍貴文獻難以保存,研究機構(gòu)將書籍電子化,相比于傳統(tǒng)文檔,具有更環(huán)保、傳播范圍更廣以及耐儲存的優(yōu)勢。
二值化屬于數(shù)字圖像處理的基礎技術,已被應用于醫(yī)學影像分析、工業(yè)缺陷檢測、光學字符識別、遙感圖像觀測以及智能交通管理等領域。圖像二值化將關鍵信息與背景分離,從而達到排除干擾、減少分析量的目的。一種優(yōu)秀的圖像二值化解決方案,在光學字符識別以及復雜背景圖像分割領域中均起到關鍵作用,諸多形態(tài)學圖像分割算法需要將二值圖像的輪廓作為輸入,以便分析前景信息,因此二值化準確率對后續(xù)的解析與識別有較大關聯(lián)性。
受到外界或人為因素的影響,文檔圖像存在多種退化因素,如古籍文檔在發(fā)掘時遭受到自然的侵蝕,使得文字被模糊與浸染,在拍攝、掃描文檔時,現(xiàn)場光照分布不均勻,導致文字信息與背景區(qū)分度較小。雖然文檔圖像二值化已被研究多年,但針對不同類型的退化情況建模難度較大,因此歷史文檔圖像閾值處理方法仍然需要不斷地優(yōu)化改進。
考慮到現(xiàn)有圖像二值化算法的局限性,未能適用多種類型的退化情況,因此要找到一種擁有語言通用性更強、魯棒性更高的文檔圖像二值化算法,具有重要的實際應用意義。
1.2 二值化國內(nèi)外研究現(xiàn)狀
低質(zhì)量歷史文檔圖像二值化成為近年來國內(nèi)外研究的關注熱點,目前文檔圖像二值化依據(jù)閾值計算方式不同,大致分全局閾值分割法、局部閾值分割法和混合閾值分割法。由于低質(zhì)量歷史文檔圖像含有多種退化因素,各種二值化方法都未能較好地解決二值分割問題,因此歷史文檔圖像二值化算法仍是研究的難點。
1.3研究內(nèi)容及創(chuàng)新點
本文針對退化文本存在污染的問題,提出了一種結(jié)合加權平均值與平均值混合法灰度化、背景估計和最大類間方差法的退化文本圖像二值化的處理方法。
二 算法介紹
2.1 算法框架
2.2 加權平均值與平均值混合法灰度化
數(shù)字圖像通過顏色空間模型承載圖像的信息分布,如一幅彩色的掃描文檔圖像,如圖2.2所示。
灰度化算法能夠?qū)⒏呔S數(shù)據(jù)映射至低維空間,并通過單維度圖像的梯度特征結(jié)構(gòu),反映出原始圖像的顏色信息,避免依次處理圖像各通道分量,從而降低算法冗余度。 目前灰度化算法有最大值法、平均值法、加權平均法等,本文采用加權平均與平均值混合法對圖像進行灰度化處理。
相較傳統(tǒng)的最大值法、平均值法、加權平均值法。圖2.3的字符與背景的對比度更加明顯,同時經(jīng)過加權平均值與平均值混合法灰度化處理的圖像,在二值化后,字符前景基本保持完整,僅有少量噪聲。
所以本文采用加權平均值與平均值混合法對文檔圖像做灰度化處理。
2.3 背景估計
低質(zhì)量文檔圖像由于含有墨跡浸潤、字符褪色等復雜情況,造成受污染區(qū)域字符與背景之間的灰度值較為接近,在墨跡的邊緣處產(chǎn)生較強的灰度突變,從而導致算法將污漬像素點錯判為前景,如圖2.4所示。
本文通過形態(tài)學操作背景估計方法削弱污漬對文檔圖像的影響。
2.4圖像背景移除
圖像形態(tài)學操作是基于形狀的一系列圖像處理操作的集合,主要是基于集合論基礎上的形態(tài)學數(shù)學。
本文采用兩次形態(tài)學閉操作來對圖像進行背景估計。筆畫結(jié)構(gòu)屬于文檔圖像獨有的特征,字符的結(jié)構(gòu)元半徑依賴于筆畫粗細,因此第一次閉操作需要估計出圖像的字符寬度,本文采用筆畫寬度變換方法(Stroke Width Transform, SWT)估計字符寬度。
第二次閉操作比第一次閉操作的結(jié)構(gòu)元增加△d。關于△d的選取,本文將2008年至2018
年國際文本圖像二值化競賽的數(shù)據(jù),作為訓練集,依次對進行取值。依據(jù)測試結(jié)果,當△d取12時,F(xiàn)M值較高為。所以本文選用12為?d的值。
圖像經(jīng)過兩次形態(tài)學閉操處理作后,可以大致估計出文檔圖像的背景,得到原圖的背景估計圖像fbg,如圖2.5所示。計算估計背景圖像fbg與灰度圖像fgray的絕對差值結(jié)果,得到背景刪減文檔圖像fdiff,如圖2.6所示,此時圖像中白色的點屬于前景像素候選點,對圖像fdiff取反,得到背景去除圖像fnegate,如圖2.7所示。最后在對圖像fnegate做對比度增強,得到對比度增強圖像feq,如圖2.8所示。
最大類間方差法二值化處理
最大類間方差法是一種自適應閾值確定的方法,是一種基于全局的二值化算法。它是按圖像的灰度特性,將圖像分成背景和字符兩部分。背景和字符之間的類間方差越大,說明構(gòu)成圖像的兩部分的差別越大,當部分字符錯分為背景或部分背景錯分為字符都會導致兩部分差別變小。因此,使類間方差最大的分割意味著錯分概率最小。
最大類間方差算法,算法簡單,當目標與背景的面積相差不大時,能夠有效地對圖像進行分割。
三 實驗結(jié)果與分析
本文方法,對比傳統(tǒng)的基于最大類間方差法,主要區(qū)別在于圖像灰度化時,采用了加權平均值與平均值混合法對原圖進行灰度化。減小了前景像素間的灰度值差異,增強了對比度。
下圖是本文算法與傳統(tǒng)算法得到的結(jié)果的對比圖。
由圖3.2可見,左側(cè)為本文算法效果圖,右側(cè)為傳統(tǒng)最大類間方差算法的效果圖。本文算法在處理有污漬的效果圖時,文檔和圖像的分割更為準確。在精確分離文檔和圖像的同時,又能很好的去除噪聲、抑制污染、并保留字符筆畫。可見本文算法優(yōu)于傳統(tǒng)的最大類間方差法。
四、結(jié)語
本文提出了一個結(jié)合加權平均值與平均值混合法灰度化與最大類間方差法的二值化算法,該算法能有效的處理受污染的文本圖像,并通過實驗比較與視覺對比,該算法要優(yōu)于傳統(tǒng)的最大類間方差法。
參考文獻:
[1]? 岡薩雷斯.數(shù)字圖像處理(第三版)[M],電子工業(yè)出版社,2011:479-483.(GONGZALEZ. Digital image processing (third edition)[M],Publishing House of Electronics Industry,2011:479-483)
[2] Gatos B, Ntirogiannis K, Pratikakis I.? ICDAR 2009 document image binarization contest
(DIBCO 2009) [C]// Proceedings of the 10th International Conference on Document Analysis
and Recognition, Barcelona, SPAIN, 2009: 1375-1382.
[3] Pratikakis I, Gatos B, Ntirogiannis K. H-DIBCO 2010 handwritten document image binarization competition[C]// Proceedings of the 12th International Conference on Frontiers in Handwriting Recognition, Kolkata, INDIA, 2010: 727-732.
[4] Pratikakis I, Gatos B, Ntirogiannis K. ICDAR 2011 document image binarization contest (DIBCO 2011) [C]// Proceedings of the 11th International Conference on Document Analysis and Recognition, Beijing, CHINA, 2011: 1506-1510.
[5] Pratikakis I, Gatos B, Ntirogiannis K. ICFHR 2012 competition on handwritten document image binarization (H-DIBCO 2012) [C]// Proceedings of the 13th International Conference on Frontiers in Handwriting Recognition, Monopoli, ITALY, 2012: 817-822.
[6]Pratikakis I, Gatos B, Ntirogiannis K. ICDAR 2013 document image binarization contest
(DIBCO 2013) [C]// Proceedings of the 12th International Conference on Document Analysis
and Recognition, Washington, DC, USA, 2013: 1471-1476.
[7] Ntirogiannis K, Gatos B, Pratikakis I. ICFHR2014 competition on handwritten document image binarization (H-DIBCO 2014) [C]//Proceedings of the 14th International Conference on Frontiers in Handwriting Recognition, Hersonissos, Greece, 2014: 809-813.
[8] Pratikakis I, Zagoris K, Barlas G, et al. ICFHR2016 handwritten document image binarization
contest (H-DIBCO 2016) [C]// Proceedings of the 15th International Conference on Frontiers in Handwriting Recognition, Shenzhen, CHINA, 2016: 619-623.
[9] Pratikakis I, Zagoris K, Barlas G, et al. ICDAR2017 competition on document image binarization (DIBCO 2017) [C]// Proceedings of the 14th International Conference on Document Analysis and Recognition, Kyoto, JAPAN, 2017: 1395-1403.
[10] Pratikakis I, Zagoris K, Kaddas P, et al. ICFHR2018 competition on handwritten document image binarization (H-DIBCO 2018) [C]// Proceedings of the 16th International Conference on Frontiers in Handwriting Recognition, Niagara Falls, USA, 2018: 489-493.
[11] Eskenazi S, Petra G K, Ogier J M. A comprehensive survey of mostly textual document segmentation algorithms since 2008[J]. Pattern Recognition, 2017, 64(1): 1-14.
[12] 熊煒. 基于背景估計和能量最小化的文檔圖像處理.? 湖北工業(yè)大學, 2018.
[13] Ma J, Sheridan R P, Liaw A, et al. Deep neural nets as a method for quantitative structure–activity relationships[J]. Journal of Chemical Information and Modeling, 2015, 55(2): 263-274.