關鍵詞:圖像模式識別;數字圖書資料;局部二值化
摘要:圖像模式識別是一種新的數字圖書資料的自動修復技術,它以傳統的圖書資料修復方法為基礎,主要運用計算機完成。文章闡述了圖形模式識別技術在數字圖書資料修復中的應用情況,即通過對圖書資料進行掃描、二值化和圖像的重建等方法對不清晰的圖形進行自動修復,最終實現數字圖書資料的數字化處理。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2014)08-0116-02
1背景
圖書內容的電子化和網絡化發展就是圖書資料的數字化過程,圖書資料實現了數字化之后,就會存儲在專業的數據庫服務系統中,讀者只需要通過網絡就可以在線閱讀或者下載。網絡媒介和傳統的紙質媒介所表達的文獻資料的內容都是相同的,數字化的圖書資料經過了數字化技術處理,能夠完整并真實地反映出紙質圖書的所有內容,只不過兩種媒介所表達的方式有所區別。在這個過程中,圖書的數字化處理技術發揮了關鍵作用。目前,清華同方和維普資訊等學術性的文獻數據庫已經建立起來并得到了廣泛應用。
2數字圖書資料修復存在的問題
對圖書資料進行數字化處理,首先要進行數據收集,即將相關的數據輸入計算機;而后,會顯示出一個長方形方框;對這個長方形方框進行圖像預處理之后,就要對區域內的圖像進行模式識別。通過這種方法能將圖書資料中的文字清晰而又準確地反映出來,為圖書資料的修復提供參考意見。這一系列過程完成之后,就可以實現圖書和檔案的數字化。
目前,二值化方法是圖書數字化中使用最多的方法。因為在數字圖書資料的修復過程中,需要對大量的數據進行處理,而使用二值化的方法就能滿足這種需求。二值化方法具有工作效率高的特點,這也是其最大的優勢。數字圖書資料經過二值化的處理之后,所得到圖像的對比度會高于原有圖書資料中的圖像,給識別和閱讀提供方便的同時也會帶來一些新的問題,例如:二值化處理會使原來圖像中本來就不清晰的部分字符變得更加模糊,不能進行準確識別。這個問題不能解決,就會給圖書資料的數字化工作帶來巨大的負面影響。如果連數字化處理的基本要求都無法達到,就會迫使圖書管理人員放棄對這一部分資料進行修復。此外,通過圖像采集系統攝入的圖像通常都會自動生成BMP格式并存放在計算機中,但計算機顯示出來的卻是灰度圖像。在各種因素的影響下,圖像會出現模糊,筆畫斷開、粗細不均衡等現象,而且圖像中大量孤立噪聲的存在,也會使提取字符的難度加大。
針對數字圖書資料修復中存在的這些問題,筆者在傳統二值化處理的基礎上,引用了局部二值化的處理方法,主要是為了對不清晰的數字圖書資料進行修復,從而實現圖書資料的數字化。
3圖像模式識別技術的工作原理
3.1模式識別的定義
對表征事物和現象進行數值、文字和邏輯關系等多種形式的信息進行處理和分析,以便能對事物和現象進行描述、辨認,并完成對它們的分類和解釋,這樣一個過程就是模式識別。模式識別的基礎就是大量的信息和數據,采用的主要方法是計算機和數學推理,識別的主要對象是形狀、曲線、數字、字符格式和圖形等。目前,模式識別技術已經被廣泛應用于社會的各行各業,包括天氣的預測、衛星圖片和航空圖片的解釋、工業產品的檢測、字符識別、語音識別、指紋識別和醫學影像分析等。值得一提的是,模式識別在圖像處理中運用最典型的案例就是目前被廣泛使用的文字識別,這種方法在圖書信息的修復上有著廣闊的發展前景,能夠為圖書資料的數字化提供相應的技術支持。
3.2局部二值化的內涵
以一張最普通的A4大小的圖像為例,它上面存在上千像素點,這么大的一張圖像,即便能夠通過大律法進行完美的掃描,單一閥值的方法也不能得到最好的二值化結果。所以對大圖像進行閥值計算時,最常見的方法就是:先對整個大圖像進行分割,使之變成若干張大小相等的小圖像,然后利用二值化方法對這些小圖像進行閥值計算,而后將經過二值化之后的小點陣進行整合,得到最后的結果,這種方法就是局部二值化。在對數字圖書資料中的圖像進行二值化的過程中,需要先將圖像的局部切割成小塊,這樣就能將大圖像的二值化問題轉換成為小圖像的二值化問題。這樣一來,即便數字圖像資料中色度分布不均、局部顏色透明度不高,在二值化的過程中也不會發生因為顏色暗淡而丟失字符的問題。
3.3圖像模式識別的原理
圖像模式識別的工作原理主要由兩部分構成,即局部二值化的原理和圖像分塊的確定。下面就對這兩方面進行具體分析。
3.3.1局部二值化原理。所謂的局部二值化就是將一張比較大的圖像分割成若干比較小的圖像,然后對這些比較小的圖像進行二值化,經過組合之后形成完整的二值化圖像。換句話說,只需要分割、塊二值化和合并三個步驟就能完成圖像的二值化處理。
3.3.2圖像分塊的確定。在對大圖像進行分割時,應該將圖像的局部灰度平均值作為分割的依據,這樣就可以使一些質量較差圖像的局部二值化效果得到提高。從理論上講,對大圖像分割的小圖像數量越多,最后二值化的效果就會越好。但是在實際的操作過程中,這樣的分割方法會大大降低計算的速度。而且,圖像分割得越小,經過局部的二值化之后,最后整合出來的二值化的噪音就會越多,這樣就會給后面的平滑處理帶來更多的問題,增加后期處理的難度。
4數字圖書資料的修復方法
在進行圖書資料數字化的過程中,圖形經過掃描之后,還需要經過圖像的預處理、提取圖像中的字符信息、對圖形進行局部二值化的處理等過程,其中圖像的局部二值化處理是進行圖書資料修復的核心步驟。下面筆者就對這三方面的工作內容進行詳細說明。
4.1對圖像進行預處理
柴森:基于圖像模式識別的數字圖書資料修復及應用柴森:基于圖像模式識別的數字圖書資料修復及應用一方面,受掃描系統的版本、光電轉換的不同位置以及工作環境中的光電等因素的影響,會使圖書或者是檔案資料在進行數字化的過程中,出現圖像掃描不均勻、對比度差異較大等問題,導致圖像的清晰度不夠,還原度和可視程度降低。另一方面,光電敏感元件中的載荷粒子會隨著機器的運轉產生一定的噪音,或者是受到傳輸通道的干擾,灰度圖像在經過數字化的處理之后,都會含有一定的噪聲。正是由于這兩方面的原因,在對圖書或者是檔案圖像進行二值化的處理之前,都需要對圖像進行預處理。endprint
目前,在圖書資料數字化的過程中,對圖像進行預處理的辦法主要有兩種,即灰度變換和平滑濾波。其中灰度變換主要是指對圖像像素的灰度值進行修正,讓圖像經過處理之后顏色分布更加均勻,對比度更加飽滿。而平滑濾波主要就是指在圖像的處理過程中,在平滑的圖像中加入噪聲。
4.2提取圖像中的字符信息
對于亮度比較大的點,可以將它的值假設為0;對于亮度較小的點,可以假設它的值為1。像素的集合就是圖像的背景區域,如果將小于或者是等于閾值N的像素設置成黑色,那么像素的值就為1,通過這樣的方法就能得到只有黑白兩個等級的二值化圖像,圖像中字符信息就會顯示出來。通常情況下,數字圖書資料的背景色都很淺,而字符的顏色比較深。以紙質圖書為例,它的背景色通常都是白色,而字符則是黑色。
4.3二值化圖像的二次處理
對圖像進行局部二值化的處理之后,就能得到各個小塊圖像的值點。雖然這種方法能夠避免部分小塊顏色暗淡只是整體圖像沒有值點現象的產生,但會使圖像中包含很多的噪音。這些噪音在進行圖像的重組之前必須去除,一般情況下,可以使用圖像重構的方式進行處理。采用圖像重構法不僅能夠得到完整的原始圖像,還能夠構造出BMP位圖文件,打印出比原來效果更好的圖書資料,達到修復圖書資料的目的。
5結語
本文從四個方面對圖像模式識別技術在數字圖書資料修復中的應用進行了探討,首先是數字圖書資料的概述,其次是數字圖書資料在修復過程中存在的問題,再次是模式識別的工作原理,最后是模式識別技術的主要方法。
參考文獻:
[1]代小紅.基于圖像模式識別的數字圖書資料修復及應用[J].圖書情報工作,2009(3):111-114.
[2]康汶,鄒愛國,鄒利明.數字圖書館統一身份認證及綜合應用研究[J].計算機與現代化,2010(12):79-84.
[3]賈昔玲.基于圖像模式識別的數字圖書資料修復及應用研究[J].數字技術與應用,2010(10):75.
[4]李鵬.數字圖書館內容管理開源軟件應用與評價研究[D].吉林大學,2012.
[5]陸穎雋.虛擬現實技術在數字圖書館的應用研究[D].武漢大學,2013.
[6]李志華.中山市勞教管理學校的數字圖書管理系統設計與實現[D].電子科技大學,2012.
[7]徐寧.圖書館數字化資源管理系統的設計與實現[D].電子科技大學,2011.
[8]化明艷.高校數字圖書館信息服務能力評價模型研究[D].南京農業大學,2010.
(編校:周雪芹)endprint
目前,在圖書資料數字化的過程中,對圖像進行預處理的辦法主要有兩種,即灰度變換和平滑濾波。其中灰度變換主要是指對圖像像素的灰度值進行修正,讓圖像經過處理之后顏色分布更加均勻,對比度更加飽滿。而平滑濾波主要就是指在圖像的處理過程中,在平滑的圖像中加入噪聲。
4.2提取圖像中的字符信息
對于亮度比較大的點,可以將它的值假設為0;對于亮度較小的點,可以假設它的值為1。像素的集合就是圖像的背景區域,如果將小于或者是等于閾值N的像素設置成黑色,那么像素的值就為1,通過這樣的方法就能得到只有黑白兩個等級的二值化圖像,圖像中字符信息就會顯示出來。通常情況下,數字圖書資料的背景色都很淺,而字符的顏色比較深。以紙質圖書為例,它的背景色通常都是白色,而字符則是黑色。
4.3二值化圖像的二次處理
對圖像進行局部二值化的處理之后,就能得到各個小塊圖像的值點。雖然這種方法能夠避免部分小塊顏色暗淡只是整體圖像沒有值點現象的產生,但會使圖像中包含很多的噪音。這些噪音在進行圖像的重組之前必須去除,一般情況下,可以使用圖像重構的方式進行處理。采用圖像重構法不僅能夠得到完整的原始圖像,還能夠構造出BMP位圖文件,打印出比原來效果更好的圖書資料,達到修復圖書資料的目的。
5結語
本文從四個方面對圖像模式識別技術在數字圖書資料修復中的應用進行了探討,首先是數字圖書資料的概述,其次是數字圖書資料在修復過程中存在的問題,再次是模式識別的工作原理,最后是模式識別技術的主要方法。
參考文獻:
[1]代小紅.基于圖像模式識別的數字圖書資料修復及應用[J].圖書情報工作,2009(3):111-114.
[2]康汶,鄒愛國,鄒利明.數字圖書館統一身份認證及綜合應用研究[J].計算機與現代化,2010(12):79-84.
[3]賈昔玲.基于圖像模式識別的數字圖書資料修復及應用研究[J].數字技術與應用,2010(10):75.
[4]李鵬.數字圖書館內容管理開源軟件應用與評價研究[D].吉林大學,2012.
[5]陸穎雋.虛擬現實技術在數字圖書館的應用研究[D].武漢大學,2013.
[6]李志華.中山市勞教管理學校的數字圖書管理系統設計與實現[D].電子科技大學,2012.
[7]徐寧.圖書館數字化資源管理系統的設計與實現[D].電子科技大學,2011.
[8]化明艷.高校數字圖書館信息服務能力評價模型研究[D].南京農業大學,2010.
(編校:周雪芹)endprint
目前,在圖書資料數字化的過程中,對圖像進行預處理的辦法主要有兩種,即灰度變換和平滑濾波。其中灰度變換主要是指對圖像像素的灰度值進行修正,讓圖像經過處理之后顏色分布更加均勻,對比度更加飽滿。而平滑濾波主要就是指在圖像的處理過程中,在平滑的圖像中加入噪聲。
4.2提取圖像中的字符信息
對于亮度比較大的點,可以將它的值假設為0;對于亮度較小的點,可以假設它的值為1。像素的集合就是圖像的背景區域,如果將小于或者是等于閾值N的像素設置成黑色,那么像素的值就為1,通過這樣的方法就能得到只有黑白兩個等級的二值化圖像,圖像中字符信息就會顯示出來。通常情況下,數字圖書資料的背景色都很淺,而字符的顏色比較深。以紙質圖書為例,它的背景色通常都是白色,而字符則是黑色。
4.3二值化圖像的二次處理
對圖像進行局部二值化的處理之后,就能得到各個小塊圖像的值點。雖然這種方法能夠避免部分小塊顏色暗淡只是整體圖像沒有值點現象的產生,但會使圖像中包含很多的噪音。這些噪音在進行圖像的重組之前必須去除,一般情況下,可以使用圖像重構的方式進行處理。采用圖像重構法不僅能夠得到完整的原始圖像,還能夠構造出BMP位圖文件,打印出比原來效果更好的圖書資料,達到修復圖書資料的目的。
5結語
本文從四個方面對圖像模式識別技術在數字圖書資料修復中的應用進行了探討,首先是數字圖書資料的概述,其次是數字圖書資料在修復過程中存在的問題,再次是模式識別的工作原理,最后是模式識別技術的主要方法。
參考文獻:
[1]代小紅.基于圖像模式識別的數字圖書資料修復及應用[J].圖書情報工作,2009(3):111-114.
[2]康汶,鄒愛國,鄒利明.數字圖書館統一身份認證及綜合應用研究[J].計算機與現代化,2010(12):79-84.
[3]賈昔玲.基于圖像模式識別的數字圖書資料修復及應用研究[J].數字技術與應用,2010(10):75.
[4]李鵬.數字圖書館內容管理開源軟件應用與評價研究[D].吉林大學,2012.
[5]陸穎雋.虛擬現實技術在數字圖書館的應用研究[D].武漢大學,2013.
[6]李志華.中山市勞教管理學校的數字圖書管理系統設計與實現[D].電子科技大學,2012.
[7]徐寧.圖書館數字化資源管理系統的設計與實現[D].電子科技大學,2011.
[8]化明艷.高校數字圖書館信息服務能力評價模型研究[D].南京農業大學,2010.
(編校:周雪芹)endprint