陳湘 程路

摘 要:檔案是珍貴的歷史資料,具有很高的再利用價值。針對檔案資料在長期的保存和使用過程中容易沾染污漬,使檔案在數字化過程中不能準確和清晰的實現檔案搜索、查詢和利用等問題,本文提出一種自動檢測檔案中污漬的算法。算法首先將檔案的正面彩色圖像和正面紅外圖像作灰度化處理;其次,采用最大類間方差法對兩種檔案圖像進行二值化處理,隨后對兩種圖像進行按位與運算,檢測出可能的污漬區域;再次,對圖像進行腐蝕運算,消除背景中的噪聲;最后,采用連通域標記算法精確檢測出污漬區域。經過實際檔案圖像測試,相比于現有方法,本文采用的方法能夠快速準確的檢測出檔案中的污漬部分,對于檔案間的信息共享和信息交換具有重要的現實意義。
關鍵詞:檔案;數字化;污漬檢測;圖像處理
1 引言
檔案是珍貴的歷史資料,《中華人民共和國公共圖書館法》第四十一條規定:“政府設立的公共圖書館應當加強館內古籍的保護,根據自身條件采用數字化、影印或者縮微技術等推進古籍的整理、出版和研究利用,并通過巡回展覽、公益性講座、善本再造、創意產品開發等方式,加強古籍宣傳,傳承發展中華優秀傳統文化”[1]。檔案數字化的主要目的是保護原件,讓掃描件代替原件使用,避免原件在頻繁的使用中遭受毀損[2],同時使檔案可通過計算機進行檢索、查詢、分享和下載,提高檔案的利用率。
但由于檔案資料一般為紙質文物,大多存放時間長且材質脆弱,在長期的保存和使用過程中會發生各種病害,其中污漬就是紙質檔案的一種病害,它一般是由灰塵、泥漬、墨漬、油漬等導致[3],使檔案在數字化過程中出現影像的污點和污漬噪聲,造成檔案圖像視覺質量下降,給后續圖像處理工作,如檔案中文字分割、文字定位、文字識別、文字利用和檔案圖像檢索功能等工作帶來很大困難,不能準確的傳達檔案信息,不能實現檔案搜索、查詢和利用的價值,所以需要通過計算機圖像處理技術,增強影像的可讀性,修復檔案圖像。去污處理是館藏資源數字化建設中一個非常重要的過程[4],去污處理的第一步是污漬檢測。目前,通過圖像處理技術對掃描的檔案圖像進行污漬檢測的方法很少,一般集中在對檔案雜點的檢測上。王海杰[5]采用基于分塊快速去除雜點和基于鄰域去除字里行間雜點的算法消除檔案影像中的雜點;王琛[6]采用基于中值濾波的自適應算法消除檔案影像中的噪音;尹翔[7]采用中值濾波和均值濾波方法去除與檔案圖像中無關的痕跡,并利用直方圖增強方法提高檔案圖像質量;荊永菊[8]采用圖像二值化和圖像增強等方法消除圖像中無關的信息。這些方法無法檢測出面積稍大的污漬,且存在算法計算量大、效率低、破壞數字化后的檔案圖像質量等問題。本文提出一種自動檢測檔案中污漬的算法,算法首先將正面彩色圖像和正面紅外圖像轉為灰度圖像;其次,采用最大類間方差法(OTSU)對兩種檔案圖像進行二值化處理,隨后對兩種圖像進行按位與運算,檢測出可能的污漬區域;再次,對圖像進行腐蝕運算,消除背景中的噪聲;最后,采用連通域標記算法精確檢測出污漬區域。
2 檔案圖像污漬檢測算法
檔案資料在長期的保存和使用過程中容易沾染污漬,直接數字化后的檔案圖像視覺質量下降,給后續的圖像處理工作帶來困難,計算機圖像處理技術可增強圖像的可讀性,為自動化的去污處理提供依據。檔案圖像的污漬部分在正面彩色和正面紅外圖像中都顯示為一團連續的部分,污漬檢測算法中關鍵部分是圖像的二值化處理和污漬區域的檢測和定位。
本文采用最大類間方差法(OTSU)尋找灰度化正面彩色圖像和正面紅外圖像的各自最優二值分割閾值。OTSU是一種自適應的閾值確定方法,它按圖像的灰度特性將圖像分成目標、背景,目標和背景間的類間方差越大,則構成圖像兩部分差別越大,當目標錯分為背景或背景錯分為目標時都會導致兩部分差別變小,因此,使類間方差最大的分割意味著錯分概率最小[9]。對于圖像I(x,y),前景(即目標)和背景的分割閾值記作T,前景像素點數占圖像的比記ω0,其平均灰度為μ0;背景像素點數占圖像的比記ω1,其平均灰度為μ1,圖像總平均灰度為μ,類間方差為g。假設圖像背景較暗,大小為M×N,圖像中像素灰度值小于T的像素個數為N0,像素灰度大于T的像素個數為N1,則有:
式(5)代入 (6),得到g=ω0×ω1×(μ0-μ1)2,采用遍歷方法得到使類間方差最大的閾值T,即為所求。
連通域標記算法主要是用來檢測和定位污漬區域,便于根據連通區域的特征,確定可能的污漬區域,為后續污漬的精確定位提供依據。其基本思想是:首先,得到連通區域的輪廓,其具體過程為:(1)逐行掃描,把一行中連續白色像素組成的一個序列稱為一個團,并記下其起點、終點和所在行;(2)標記連通區域,對于除了第一行外的所有行里的團,如果它與前一行中的所有團沒有重合區域,則給它一個新的標號;如果它僅與上一行中一個團有重合區域,則將上一行的那個團的標號賦給它;如果它與上一行的兩個以上的團有重疊區域,則給當前團賦一個相連團的最小標號,并將上一行的這幾個團的標記寫入等價對,說明它們屬于一類;(3)對等價標記進行合并,將等價對轉換為等價序列,每一個序列需要給一相同的標號,因為它們都是等價的;從1開始,給每個等價序列一個標號;(4)遍歷開始團的標記,查找等價序列,給予它們新的標記;(5)將每個團的標號填入標記圖像中;(6)讀等價標記進行重新標記,得到連通區域的4個頂點坐標和面積。其次,確定各連通區域的一個外接矩形,即找到外接矩形四個頂點坐標,并根據其左上角X軸坐標由小到大排序,得到的就是連通的區域,即可能的污漬區域。最后,保存所有殘缺區域信息,返回連通區域數目。
檔案數字化過程中的污漬檢測算法過程如下:
第一步,將檔案的正面彩色圖像和正面紅外圖像作灰度化處理。
第二步,圖像二值化處理。檔案圖像二值化處理目的是把原始灰度圖像的灰度值置為0或255,使處理變得簡單,便于對圖像做進一步處理,而且數據量小,有利于壓縮、存儲和傳輸。本文采用最大類間方差法(OTSU)尋找灰度化的正面彩色圖像和正面紅外圖像的各自最優二值分割閾值otsu1、otsu。并對閾值做一定限定,本文將二值化的分割閾值限定在[180,200]之間。接下來,遍歷整個灰度化后的正面彩色圖像,如果圖像中灰度值在[T1 ,otsu1]間(T1取100),將像素點的值置為255(即白色),否則置為0(即黑色),得到圖像A,此時就篩選出正面彩色圖像中可能的污漬區域;遍歷整個灰度化后的正面紅外圖像,如果圖像中灰度值在[T2 ,otsu]間(T2取100),將像素點的值置為255,否則置為0,得到圖像B,此時就篩選出正面紅外圖像中可能的污漬區域;隨后,將圖像A和圖像B相與得到圖像C,得到的圖像C就是進一步確定的可能污漬區域,即如果正面彩色圖像某處和正面紅外圖像某處同時為污漬,則可能是污漬區域,否則不是污漬。
第三步,對圖像C進行兩次腐蝕運算,得到圖像D。由于圖像C是由圖像A和圖像B相與得到,此時背景中會產生很多額外的細小噪聲,需消除背景中的噪聲,故對圖像C進行腐蝕運算,消除背景中的噪聲。
第四步,由于對圖像C做了兩次腐蝕運算,此時雖然消除了背景中的噪聲,但前景中細微處可能產生新的間斷,需根據污漬區域的面積大小,對污漬區域做更進一步的篩選。首先對圖像D運用連通域標記算法得到各連通區域,即可能的污漬區域,再根據設定的閾值T(取100)去除小面積區域,得到圖像E。遍歷圖像E中所有連通區域(可能的污漬區域),如果某連通區域的面積大于設定的最大值,同時該連通區域外接矩形的高度和寬度均大于某值,也就是占空比要滿足一定的條件,要為一團(取40),則將該區域就是精確檢測和定位到的污漬區域。
3 結語
本文對檔案數字化過程中污漬的檢測方法做了討論,主要針對檔案資料的正面彩色圖像和正面紅外圖像的掃描圖像進行圖像處理,精確的檢測和定位出檔案中存在的污漬,給后續的圖像處理工作,如檔案中文字分割、文字定位、文字識別、文字利用和檔案圖像檢索功能等提供便利,準確傳達檔案信息,實現檔案搜索、查詢和利用的價值。經過實際檔案圖像測試,相比于現有方法,該文采用的方法能夠快速精確的檢測出檔案中的污漬,對于檔案之間的信息共享和信息交換具有重要現實意義,并能促進檔案數字化的進一步發展。
參考文獻
[1]《中華人民共和國公共圖書館法》[J].圖書館,2019(01):112.
[2]王婉萍.檔案數字化圖像處理之我見[J].檔案管理,2013(05):88.
[3]楊有,尚晉,楊華芬,余平.檔案圖像處理模型研究[J].重慶文理學院學報(自然科學版),2010,29(05):29-32.
[4]甘嵐.紙質檔案規范化保護修復研究[J].檔案管理,2015(01):59-60.
[5]王海杰.文檔影像圖像處理中的糾偏與降噪研究[D].浙江大學,2008.
[6]王琛.掃描檔案的圖像處理技術[D].天津大學,2016.
[7]尹翔.現代檔案管理如何發揮圖像處理的最大功效[J].蘭臺世界,2012(29):21-22.
[8]荊永菊.圖像預處理技術在數字圖書館中的應用[J].科技情報開發與經濟,2012,22(20):56-57+65.
[9]LEMY F,HADJIGEORGIOU J.Discontinuity trace map construction using photographs of rock exposures[J].International Journal of Rock Mechanics and Mining Sciences,2003,40( 6):903-917.
作者簡介
陳湘(1988-),女,漢,湖北大悟,碩士,助理館員,研究方向:圖像處理,科學數據管理,數據分析。
程路(1989-),男,漢,湖北荊州,碩士,助理館員,研究方向:數據分析,圖書館建設。