999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于離線參數調整的古籍圖像二值化算法

2022-03-21 10:33:40陳汝真
計算機工程與設計 2022年3期
關鍵詞:方法

馮 炎,陳汝真

(西藏大學 信息科學技術學院,西藏 拉薩 850000)

0 引 言

圖像二值化是古籍文檔圖像數字化修復的關鍵預處理步驟,同時圖像二值化算法也是學者們研究的熱點問題之一。Kovesi[1]提出了一種圖像相位保持降噪方法,Nafchi等[2]的結果表明相位保持降噪方法能夠提高圖像二值化算法的性能。Lu等[3]提出了一種基于背景和筆劃寬度估計的二值化算法,實驗結果表明了該算法的有效性。Howe[4]提出了基于拉普拉斯能量的最優化全局能量函數計算方法,并采用圖割算法分割文本和背景,接著,Howe[5]通過調整圖像的關鍵參數設置來提高算法性能,但該算法對退化嚴重的古籍二值化效果不理想。Cheriet等[6]通過提取特征和最優參數,學習所提取特征和最優參數之間的關系,提出了基于學習框架的最優參數自動選擇算法。Ballaprakash等[7]采用競賽機制(racing algorithms)自適應調整算法中的參數設置,實驗結果顯示,該方法能夠有效調整算法中的參數設置并取得了較好的結果,并用迭代弗里德曼競賽機制(iterated fried man racing algorithms,I/F-Race)進一步改進了算法[7]。綜上所述,雖然學者們提出了多種二值化算法,然而這些方法對于退化嚴重的古籍二值化效果仍然不理想[8]。I/F-Race方法能夠調整算法參數,但該方法根據不同的應用場景有多種實現方式,主要體現在I/F-Race方法擬合函數選擇、參數初始值設置、候選參數配置抽樣方案和最優候選參數配置選擇方法的不同。本文根據I/F-Race方法原理和Howe[5]的二值化算法存在的問題,設計了一種基于離線參數調整的古籍圖像二值化算法。

1 本文的二值化算法

1.1 算法介紹

(1)

(2)

(3)

其中,μij和σij分別表示局部均值和局部方差,方差σij計算方法見Howe算法[5],φ是一個較大的負數。

從實驗結果得知,Howe算法[5]對退化嚴重的古籍圖像二值化效果不理想,原因是Howe算法中μij是窗口半徑為r的古籍原始圖像局部均值,要求窗口半徑r足夠大并且至少是文本筆劃寬度的幾倍,然而,當r太大時所求局部均值會忽略局部細節,當r太小時局部均值又容易受局部文本像素的影響偏小,因此,Howe算法中的局部均值μij估計值不準確。根據圖割算法原理分析得知,該均值應該是背景局部均值,而非背景和文本混合在一起的古籍原始圖像局部均值。

1.2 背景局部均值估計方法

為解決Howe算法局部均值估計值μij不準確的問題,提出了一種背景局部均值μij估計方法,所提算法分為3步:第一,通過3種不同的降噪算法對退化古籍圖像進行降噪,從而消除古籍背景信息并確定古籍文本區域,同時要確保降噪后的古籍圖像文本召回率盡可能高;第二,將以上降噪結果作為背景修復模板并結合Ntirogiannis的圖像修復算法[9]估計古籍背景;第三,用窗口半徑為rc的高斯平滑算法進一步消除殘留文本信息,從而獲得較為準確的古籍背景局部均值估計值μij。

第一次降噪是采用窗口半徑為ra的高斯平滑算法估計古籍背景,并對古籍圖像I進行背景補償從而去除大塊背景噪聲,降噪后的結果Ic計算方法如下

(4)

式中:gsmooth為高斯平滑算法。

第二次降噪是采用Kovesi提出的相位保持降噪[1]算法,該算法認為相位信息是圖像中最重要的特征,使用非正交的復值log-Gabor小波提取圖像中每個點的局部相位和幅度信息,同時保留感知上重要的圖像相位信息,降噪過程是在每個小波尺度下確定噪聲閾值,并在保持相位不變的前提下適當縮小濾波器幅度響應。用Kovesi算法對以上結果Ic進行降噪,從而去除文本附近的噪聲,降噪后的結果Ik計算方法如下所示

Ik=kovesi(Ic)

(5)

式中:kovesi() 為相位保持降噪算法。

Lu等[3]提出的基于背景和筆劃寬度估計的二值化算法是通過估計古籍圖像背景來補償古籍圖像存在的退化現象,本文第三次降噪時采用了該算法思想。第三次降噪時先對以上結果Ik進行歸一化,然后采用Otsu算法[10]對歸一化后的Ik二值化,接著對該二值化結果進行數學形態學腐蝕操作來補償二值化過程所丟失的文本信息,從而粗略確定文本區域并用Inoe表示,其中腐蝕半徑為rb。最后去除第二次降噪結果Ik中除文本區域Inoe之外的背景噪聲,用Ike表示,方法如下

Ike(i,j)=Ik(i,j)×Inoe(i,j)

(6)

接著,對Ike依次進行歸一化、Otsu二值化[10]以及數學形態腐蝕操作來進一步去除背景噪聲,得到最終降噪結果,從而確定文本區域,其中腐蝕半徑為rb。

算法過程演示如圖1所示,示例圖片選自H-DIBCO 2018數據集[11]。從圖1可以看出,與Howe算法相比,本文算法更能夠體現背景細節,同時本文算法所估計的背景局部均值包含文本信息相對少一些。

圖1 背景局部均值估計結果對比

2 算法關鍵參數離線調整方法

2.1 參數離線調整方法

競賽機制可以解決有多種候選解的問題,該方法執行時需要從給定的實例集選取一些訓練實例,每個候選解都在相同的實例上進行計算,在競賽過程中淘汰表現差的候選解,該方法也可以解決從一組候選算法參數中選擇最優參數的問題。算法參數調整問題被視為泛化問題,就像在其它領域(例如機器學習)一樣,根據給定的一組訓練實例集,目標是確定算法參數配置使其在不可見的測試實例上性能表現最優。Ballaprakash等[7]采用競賽機制算法思想提出了一種算法參數調整方法,該方法是在特定的訓練實例上對候選參數配置依次進行測評,淘汰遠遠落后于當前的最優參數的某個候選參數配置,其中,最優參數是在競賽過程的某一個階段表現最好的候選參數。I/F-Race[7]采用迭代弗里德曼競賽機制進行離線算法參數設置,算法使用弗里德曼檢驗,在給定的訓練實例上對每個候選參數配置的評估性能進行排序并計算秩次和,用以決定在某一給定步驟中需要刪除哪些候選參數配置,并且在每次迭代中,新采樣的候選參數配置都會偏差于先前迭代中尚存的候選參數配置,以此方式將候選參數配置的采樣集中在性能較優的參數配置周圍。但是I/F-Race方法中擬合函數、參數初始值設置和候選參數配置采樣方案需要根據不同的算法應用做相應的調整。本文根據Mesquita等對I/F-Race的解釋[12]給出二值化算法的參數配置調整方法,并根據本文二值化算法的特點重新設計了I/F-Race中的參數初始值設置、候選參數配置抽樣方案和最優候選參數配置選擇方法。

參數離線調整算法包含離線訓練和測試兩個階段,離線訓練時,在有限的時間內通過給定實例集確定最優參數配置,使得算法以某種度量標準達到性能最優,訓練實例集盡可能包含測試階段遇到的各種實例,以期得到最優結果,然后在測試階段,算法采用訓練所得參數在一組實例上執行。為了清楚起見,假設本文二值化算法具有d個需要調整的參數,每個參數的所有可能值之間的組合稱為參數空間X,我們的目標是從參數空間X中通過某種抽樣方法選擇一種配置H使得給定的評價函數δ在實例集I上取值最小或最大化。參數離線調整方法具體實現分為3個步驟:第一,采用正態分布作為抽樣概率分布模型,并采用本文提出的候選參數配置抽樣方法從參數空間X中抽取新的參數配置;第二,通過競賽方法從所抽取的參數配置中選擇最優參數配置;第三,更新概率分布模型方差,使下一次迭代時候選參數配置抽取偏向更好的參數配置。重復執行這3步直到滿足終止條件。

2.2 候選參數配置抽樣

在第一次迭代中,初始候選參數配置集H0是通過從參數空間X中均勻抽取得到,之后的迭代中,從參數空間中重新采樣候選參數配置。用Ns表示固定的候選參數配置數,在參數離線調整每次迭代中,對經過F-Race方法通過競賽選擇幸存下來的最佳的Nelite個候選配置,重新采樣Ns-Nelite個新的候選參數配置。新的候選配置會圍繞最佳配置進行采樣,以便能夠發現更好的參數配置值。前一次迭代尚存的候選參數都有偏差于新采樣的候選參數,也就是說新的候選參數是圍繞前一次尚存的候選參數周圍的其它參數采樣。

具體方法如下,首先對最佳的Ns個候選配置,標出其在每個實例的評估結果秩次,然后,根據秩和從小到大排序,根據其秩rz(z=1,…,Ns) 對這Ns個精英配置進行加權,權重wz與其秩成反比,計算方法[12]如下

(7)

然后,需要循環Ns-Nelite次來采樣每個新的候選配置,每次循環時需要按權重隨機從最佳的Ns個候選配置中選擇一個較優參數配置,假設隨機選擇一個較優參數配置為Xi,在較優參數配置兩旁即邊界為Xi∈[(Xi-Xi-1)/2,(Xi+1-Xi)/2] 的區間根據采樣概率分布模型隨機采樣一個值。若采樣的參數與已采樣的參數相同則重新采樣,若重復10次無法采到找新的值則結束循環。

2.3 最優候選參數配置選擇

本文采用基于弗里德曼競賽機制的F-Race算法[12]進行最優候選參數配置選擇。用Ii表示第i個實例,Hk表示競賽中在迭代k時仍然存在的候選配置。在F-Race第k次迭代,競賽機制順序將所有采樣候選參數配置在實例集I中每個實例Ii上執行一次。

當候選參數配置Hk中的每個參數在單個實例Ii上評估時,首先要查找該參數是否在上一次F-Race迭代中運行過,若上一次F-Race用同樣的參數和實例執行過,則取上一次的結果,否則執行性能評估運算,當評估完成后,需要根據弗里德曼測試方法對評估結果進行統計檢驗,來確定某些參數配置在實例Ii上的評估結果是否存在顯著的性能差異,如果有足夠的數據證明候選參數配置Hk中的某幾個參數配置的性能要差別于其它參數配置,該參數配置會被刪除。剩余的候選配置將繼續在下一個實例中運行,若淘汰后剩余參數個數小于Nstop則F-Race提取結束。這個程序執行直到所有實例執行完后,對性能評估結果按相對秩和從小到大排列(按從優到差),若結果個數大于Nmax,則取前Nmax個。

2.4 概率分布模型更新方法

為了獲得更好的抽樣值,在參數離線調整方法每次迭代中都需要更新抽樣概率分布模型,抽樣概率分布模型為正態分布。而抽樣概率分布的方差std根據參數離線調整方法迭代計數器k的增加而減少,這樣就可以使候選配置越來越集中在性能最好的配置上,std計算方法如下[12]

std=1-2×k/10

(8)

3 實驗及結果分析

3.1 實驗環境及評價方法

本文實驗訓練數據和測試數據采用了H-DIBCO 2016[13]和H-DIBCO 2018[11]提供的古籍圖像數據集及相應的基準圖像,這些圖像數據集是具有不同退化類型的古籍圖像,使用這些數據集可以檢驗本文所提算法是否有效。

實驗采用了主觀實驗演示和客觀實驗評價對本文算法進行評估。客觀實驗采用了DIBCO[11]推薦的評價方法,具體是精確度(Precision)、峰值信噪比(peak signal to noise ratio,PSNR)、F值(Fmeasure)、距離倒數失真度量(distance reciprocal distortion,DRD)和錯誤分類處罰指標(misclassification penalty metric,MPM)5種圖像客觀評價指標。其中,Precision是指二值化結果所含文本像素個數的比例即正確率,指標值越大說明算法精確度越高;PSNR是一種基于對應像素點間的誤差質量評價方法,該值越大說明圖像二值化效果越好;Fmeasure是可以兼顧準確率和召回率的一種圖像二值化評價方法,該值越大說明結果越接近基準圖像;DRD是一種圖像失真度評價方法,該值越小說明圖像二值化結果失真越小;MPM是懲罰錯誤分類像素的方法,值越小表示錯誤分類越少。

實驗選取了HoweAlg1[5]、HoweAlg3[5]、Niblack[14]、Bernsen[15]和Otsu[10]5個有代表性的二值化算法與本文算法進行比較,其中,HoweAlg1和HoweAlg3是Howe[5]提出的兩種不同的二值化算法,本文算法是在HoweAlg1算法的基礎上做的改進。

本文算法采用的保持相位降噪和邊緣檢測算法參數根據參考文獻設置[5]:k=1,nscale=5,mult=2,norient=3,softness=1,thi=0.4,tlo=0.1,sigE=0.6。本文局部背景均值古籍算法中的參數ra根據實驗設置:ra=20,而參數rb和rc是本文的關鍵參數,需要根據參數離線調整方法設置,根據該方法實驗結果:rb=3,rc=3,意味著本文所估計的古籍背景局部均值是半徑rc=3的窗口內的均值。

離線參數調整算法所需參數需要根據參考文獻[12]和本文算法實際情況進行設置,參數說明如下:d是需要優化設置的參數個數;X是算法使用的候選參數空間,即為所有可能的參數組合,本文有兩個關鍵參數,每個參數取值范圍都是1,2,…10,可能的參數組合有100個;I是訓練實例集,本文選了10個具有代表性的訓練樣本集合;Ns是通過實驗定義的抽樣候選參數配置的數量;δ是擬合函數,采用Fmeasure為擬合函數來評估二值化算法性能;Max_iter是I/F-Race最大迭代次數;Nstop是每次迭代中F-Race終止條件;Nmax是競賽過程中保留的最大的最優參數個數。具體設置如下:d=2,Ns=16,Max_iter=2+log2(d),Nstop=2+log2(d),Nmax=0.5×Ns。

3.2 實驗結果分析

本文在表1中給出了各二值化算法在H-DIBCO 2016數據集中10幅古籍圖像的二值化結果平均值對比,其中,Precision、PSNR和Fmeasure值是越大越好,而DRD和MPM值是越小越好。如表1所示,本文的算法的5種評價指標即Precision值、PSNR值、Fmeasure值、DRD值和MPM值都是最優,其它幾個二值化算法各有優劣,充分說明了本文算法的性能不僅優越而且穩定。

表1 各二值化算法在H-DIBCO 2016數據集的結果

表2中給出了不同二值化算法在H-DIBCO 2018數據集中10幅古籍圖像二值化結果的平均值對比。如表2所示,本文算法的各項性能指標均是第一,HoweAlg3次之,HoweAlg1排第三。與次優HoweAlg3算法比較,本文算法的Precision值、PSNR值和Fmeasure值分別提高了12.33%、8.27%和4.48%,值得一提是本文的DRD值和MPM值分別降低了47.28%和66.21%。

表2 各二值化算法在H-DIBCO 2018數據集的結果

從表1和表2的實驗數據可以看出,本文算法的5種性能指標均優于其它二值化算法,充分表明本文算法可以處理多種退化類型的古籍圖像,同時表明本文圖像二值化算法可以有效降低圖像失真度和分類錯誤率。

為直觀顯示本文算法的優越性,從H-DIBCO 2018選取了1幅具有代表性的測試圖像,該圖像是一幅退化嚴重的古籍圖像,并在圖2中給出了不同二值化算法結果對比。從圖2可以看出,HoweAlg1以及HoweAlg3算法處理效果較滿意,但仍有部分殘留噪聲,尤其是邊緣部分的噪聲;

圖2 不同二值化算法結果對比

Otsu算法在對比度較高的區域內二值化效果較好,但對于退化嚴重的低對比度區域效果較差;Niblack算法和Bernsen算法殘留噪聲太多,更容易將背景污漬誤判為文本;本文提出的二值化算法結果最接近基準圖像,并且能夠很好地解決退化嚴重的古籍圖像中存在的背景噪聲干擾問題。

4 結束語

學者們常用I/F-Race方法離線調整算法參數,但該方法需要根據不同的應用場景設計相應的實現方式。本文根據I/F-Race方法原理和Howe算法存在的局部均值估計值不夠準確的問題,設計了一種基于離線參數調整的古籍圖像二值化算法,所提算法分為兩步,一是估計古籍圖像背景局部均值,并結合基于拉普拉斯能量的二值化算法對古籍進行二值化,二是根據I/F-Race算法設計了一種離線參數調整方法來優化本文算法中的參數配置。本文的背景局部均值估計算法是通過3種不同的降噪算法對退化古籍圖像進行降噪,并結合圖像修復算法及高斯平滑算法來估計古籍背景局部均值。實驗結果顯示本文算法可以處理多種退化類型的古籍圖像,并且可以有效降低圖像失真度和分類錯誤率,驗證本文所提算法的有效性。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产精品美女网站| 手机成人午夜在线视频| 亚洲成人精品| 一级爆乳无码av| 熟妇无码人妻| 中文字幕 91| 国产浮力第一页永久地址 | 欧类av怡春院| 97久久人人超碰国产精品| 天堂在线亚洲| 久久99精品国产麻豆宅宅| 欧美a在线看| 国产激情无码一区二区APP | 伊人久热这里只有精品视频99| 日韩精品一区二区三区大桥未久 | 老司机久久99久久精品播放| 大香伊人久久| 天天综合网色中文字幕| 99精品在线视频观看| 国产精品v欧美| 亚洲丝袜第一页| 国产精品亚洲αv天堂无码| 亚洲婷婷丁香| 国产欧美日韩在线在线不卡视频| 国产又粗又猛又爽| 免费一看一级毛片| 一级毛片免费高清视频| 一级毛片高清| 东京热高清无码精品| 亚洲人成网18禁| 国产农村1级毛片| 中文字幕无码中文字幕有码在线| 国产精品福利一区二区久久| 国产乱人伦精品一区二区| a级毛片免费网站| 九色免费视频| 日韩精品亚洲一区中文字幕| av在线无码浏览| 一级毛片a女人刺激视频免费| 中文字幕亚洲另类天堂| 亚洲天堂免费观看| 91无码人妻精品一区| 久久精品人妻中文视频| 3p叠罗汉国产精品久久| 中国精品自拍| 91久久精品国产| 中文字幕66页| 亚欧乱色视频网站大全| 国内熟女少妇一线天| 88国产经典欧美一区二区三区| 思思热精品在线8| 久久一本精品久久久ー99| 日韩高清成人| 亚洲无码一区在线观看| 国产精品视频第一专区| 制服丝袜无码每日更新| 精品1区2区3区| 国产成人a在线观看视频| 国产高颜值露脸在线观看| 日韩不卡高清视频| 欧美性猛交xxxx乱大交极品| 欧洲高清无码在线| www中文字幕在线观看| 亚洲一区二区黄色| 婷五月综合| 99久久性生片| 久久综合色88| 欧日韩在线不卡视频| av大片在线无码免费| 欧美日韩另类在线| 欧美啪啪网| 国产综合另类小说色区色噜噜| 亚洲国产天堂久久综合226114| 亚洲AV无码乱码在线观看裸奔 | 亚洲欧美另类日本| 日韩精品亚洲一区中文字幕| 国产传媒一区二区三区四区五区| 欧美全免费aaaaaa特黄在线| 男人的天堂久久精品激情| 啪啪永久免费av| 国产原创自拍不卡第一页| 国产成人永久免费视频|