古籍書影中鈐印提取技術(shù)的探討

2017-06-29 12:00:34葛懷東

計算機應(yīng)用與軟件 2017年5期

葛懷東尚弘

1(金陵科技學院人文學院江蘇南京 210038)2(富士通研究開發(fā)中心有限公司北京 100025)

古籍書影中鈐印提取技術(shù)的探討

葛懷東1尚弘2

1(金陵科技學院人文學院江蘇南京 210038)2(富士通研究開發(fā)中心有限公司北京 100025)

藏書鈐印是古籍在流傳過程中所鈐蓋的收藏印記，具有深蘊的文化內(nèi)涵和藝術(shù)鑒賞價值，因此一直是古籍研究方面的重點。介紹一種基于HSV顏色空間的古籍鈐印提取算法，通過該算法自動從古籍數(shù)字影像中提取印章圖像。該算法包含了自適應(yīng)設(shè)計，可用于不同質(zhì)量的古籍文檔圖像的印章提取工作。同時，該方法通過顏色空間的投影分析可以有效去除正文對印章像素點所造成的干擾，從而生成清晰的印章圖像。通過對200多張籍影像中的620枚印章的提取實驗表明，該印章提取算法具有較好的提取效果，印章圖像的召回率達到93.4%，準確率達到83.4%。

古籍藏書鈐印顏色空間圖像提取

0 引言

卷帙浩繁的古典文獻是我們祖國寶貴文化遺產(chǎn)的重要組成部分，同時也因其不可再生而彌足珍貴。為了解現(xiàn)存古籍的保護狀況，我國于2007年啟動“中華古籍保護計劃”[1]。其中，古籍普查是“中華古籍保護計劃”的重要內(nèi)容，是對我國現(xiàn)存古籍的總盤點，也是搶救、保護與利用古籍的重要環(huán)節(jié)，并為“中華古籍聯(lián)合目錄”及“中華古籍綜合信息數(shù)據(jù)庫”的建設(shè)提供數(shù)據(jù)準備，從而促進對古籍資源的利用[2]。

古籍鈐印(也稱印章)是構(gòu)成版本信息的重要元素，在古籍普查中有專門的鈐印表著錄古籍在遞藏過程中所鈐蓋的印章信息，包括印章釋文、所有者朝代、所有者姓名、印文類型、印章形狀等[3]。同時，這些藏書鈐印形制各異，又能展現(xiàn)篆刻藝術(shù)之美，可以聚合為極具中國特色的文化元素。因而，在古籍數(shù)字資源庫開發(fā)過程中，古籍鈐印及釋文也應(yīng)成為可檢索的本體對象，以提供對版本源流、藏書文化研究的支撐。本文介紹了一種從古籍書影中自動提取印章圖像的方法，該方法采用分級結(jié)構(gòu)，利用顏色信息找到候選的印章位置，然后通過形狀信息提取印章圖像。

1 古籍鈐印自動提取方法概述

在我國傳統(tǒng)文化中，往藏書上鈐印的風尚相習久遠，且印文豐富、形制各異，至明清兩代最為盛行。鈐印一般包括名家印、名號印、書齋印、書室印、堂印、閑章等等五花八門的篆字草書，形狀有長方形、正方形、橢圓形、圓形等。這些印章不僅能體現(xiàn)古籍的歷史歸屬，提升古籍價值，還能為古籍版本鑒定提供重要依據(jù)，也是文人雅士鑒賞的藝術(shù)品[4]。當前，在大力推進古籍數(shù)據(jù)化建設(shè)的階段，應(yīng)著眼于古籍數(shù)字資源的增值性開發(fā)，挖掘古文獻中極具中國文化元素——“鈐印”，為古籍信息資源的再利用提供新視角。

傳統(tǒng)的印章提取方法是通過Photoshop等圖像處理軟件，即人工在古籍書影圖像中選擇印章的區(qū)域并切分提取。該方法需要花費大量的人工，效率低下。同時，也無法處理復(fù)雜背景對印章內(nèi)容的干擾。目前，一些學者也提出了相關(guān)古籍印章提取的算法，但是這些算法存在如下缺陷：① 對印章形狀做出了假設(shè)，只能檢測圓形、橢圓形或矩形形狀的印章[5]；② 適用的圖像背景相對簡單[6]，對于復(fù)雜背景下或圖像質(zhì)量退化嚴重的圖像不適用。因此，傳統(tǒng)的印章自動提取算法并不能很好的勝任古文獻中的印章提取工作。

針對這種情況，本文提出了一種針對古籍書影中紅色鈐印的自動提取算法。該方法基于HSV顏色空間，對原始圖像進行自適應(yīng)的紅色連通分量提取，針對這些連通分量進行降噪、合并及篩除，得到候選印章的位置。同時針對印章和正文內(nèi)容重疊這一普遍現(xiàn)象，利用前景和背景顏色分離的算法，通過顏色空間的投影分析可以有效去除正文對印章像素點所造成的干擾，有效地生成標準的印章圖像。

相對于傳統(tǒng)方法，本方法具有如下優(yōu)勢：

(1) 整個印章提取工作可自動完成；(2) 支持不同形狀印章的提取；(3) 參數(shù)自適應(yīng)，可以適應(yīng)復(fù)雜背景下的印章提取；(4) 可以去除印章圖像上的無關(guān)背景(如墨跡等)；(5) 具有較高的提取召回率及精度等。

2 古籍鈐印自動提取方法概述

鈐印自動提取算法的流程如圖 1所示，以包含紅色印章的古籍書影圖像為輸入，算法可自動從輸入圖像中提取印章并針對印章進行去噪。

圖1 基于顏色的印章提取流程圖

鈐印自動提取算法的主要步驟如下：

1) HSV顏色空間轉(zhuǎn)換

通常情況下，同一種顏色可以通過不同的顏色空間來表述。用于表達顏色的顏色空間有很多種，其中RGB顏色空間是最為常用的一種顏色空間。該空間是一種依賴于顯示設(shè)備的顏色空間，其通過紅、綠、藍三個顏色通道的亮度疊加來表述特定的顏色，因此RGB顏色空間對物體的亮度比較敏感，同一物體在受到不同強度的光照時，其對應(yīng)到RGB顏色空間的顏色分量差異是比較大的。由于中國古籍文檔的紙張、油墨存在著不同情況的退化，因此人眼認為同樣是紅色的兩枚印章，其顏色對應(yīng)到RGB顏色空間上的距離會相差甚遠，不利于紅色印章的自動提取。相比RGB顏色空間，HSV顏色空間則更符合人眼判斷顏色的規(guī)律。HSV顏色空間通過色度H、飽和度S及亮度V三個分量來對人眼顏色感知過程進行更精準的描述[7]。當同一物體受到不同強度的光照時，其對應(yīng)到HSV顏色空間的H通道變化較小，因此更適用于中國古籍文檔圖像的印章提取。

2) 紅色像素提取

鈐在中國古籍文檔中的印章絕大多數(shù)是紅色的。因此，文檔圖像中的紅色像素是本文關(guān)注的主體。根據(jù)古代印章在中國古籍文檔中多呈紅色或暗紅色的特點，前景紅色像素在HSV空間下需滿足以下情況：

H(x,y)∈[0°,30°]∪[330°,360°]
S(x,y)∈[0,0.35]
V(x,y)∈[0,1]

(1)

其中，H、S、V分別表示HSV顏色空間的三個顏色分量。基于HSV顏色空間對古籍文檔圖像進行處理，篩選出所有滿足上述要求的紅色像素，如圖 2-圖 5所示。

圖2 原始古籍文檔圖像1

圖3 原始古籍文檔圖像2

圖4 HSV空間下提取紅色像素圖4

圖5 HSV空間下提取紅色像素

可以看到，古籍文檔圖像中，由于印章區(qū)域包含大量紅色像素，因此屬于印章區(qū)域的像素被完整地提取出來。但是由于文檔本身退化嚴重，圖像整體偏暗紅色，使得一些背景像素也被提取出來，與此同時，圖像中有一些紅色非印章區(qū)域(如邊框等)，也被當作前景提取了出來。因此，本文下一節(jié)將通過自適應(yīng)連通分量提取的方式來實現(xiàn)印章前景像素和背景像素的分離。

3) 自適應(yīng)連通分量提取

在古籍文檔圖像中，絕大多數(shù)印章都是整幅圖像中紅色特征最明顯的區(qū)域，在這些區(qū)域中，其H分量是最接近0°或360°的。因此，對于紙張退化所引起的暗紅色背景噪聲，可以通過縮短式(2)中H分量的閾值區(qū)間來消除，但如何確定區(qū)間參數(shù)是能否提取印章的關(guān)鍵。如果該閾值區(qū)間過窄，圖中符合閾值要求的像素過少，無法有效提取印章。反之，如果閾值區(qū)間過寬，印章被淹沒在背景噪聲中，增加印章提取的難度。只有當閾值區(qū)間合理時，印章像素才會被完整的提取出來。

針對這樣的情況，本文采用自適應(yīng)連通分量提取算法[9]。首先對步驟2)中所提取的紅色像素進行8-領(lǐng)域連通分量標記，得到古籍文檔圖像的紅色連通分量，從而確定古籍文檔圖像的紅色連通分量數(shù)量總和NCC和面積總和ACC。對于絕大多數(shù)古籍文檔圖像，印章區(qū)域所占的比例一般不會超過圖像的30%，因此，在針對文檔圖像進行連通分量提取時，如果閾值區(qū)間合理，所得到的NCC和ACC不會過高，當NCC過高時，說明圖像中有大量的小面積連通分量，即如圖4所示的紅色噪點；當ACC過高時，說明圖像中有大片粘連的連通分量。

為了更精確地衡量圖像中的紅色連通分量占圖像的整體比例，分別定義單位面積連通數(shù)PN和單位面積連通比例PA，如下式：

(2)

閾值區(qū)間設(shè)置過寬都會導(dǎo)致PN或PA的升高。為了更好地說明印章提取狀況與PN、PA的關(guān)系，本文對150余幅古籍文檔圖像樣本分別進行了H∈[0°,30°]的閾值提取連通分量，按照噪聲連通分量面積、印章連通分量面積等因素將印章提取情況分為5種類型，即印章區(qū)域被濾除、過渡區(qū)域1、印章區(qū)域完整提取、過渡區(qū)域2和圖像噪聲過多。圖 6和圖 7分別給出了閾值區(qū)間、PN、PA以及印章提取狀況的關(guān)系。

圖6 隨H閾值變化曲線

圖7 隨H閾值變化曲線

從圖中可以看到，對圖像樣本集進行初始閾值為30°的連通分量提取時，印章區(qū)域基本被淹沒在噪聲中，無法有效提取印章，當閾值不斷降低時，PN、PA的取值隨之降低，當PN、PA分別降至2.3e-3和5.0e-3左右時，印章恰好被完整提取，當PN、PA的取值低于1.5e-3和3.0e-3時，印章區(qū)域則被逐漸濾除。

針對這樣的實驗結(jié)果，本文提出了自適應(yīng)連通分量提取算法。首先用一個較為寬松的閾值對圖像進行連通分量提取，計算PN、PA取值，如果PN、PA、過高，則降低取值，使得閾值更加嚴格，再次對圖像進行連通分量提取及計算PN、PA，直至PN、PA的取值滿足一定閾值TN和TA要求后，所得到的閾值H即為該圖像印章提取的最佳閾值。整個算法可以用如圖8流程圖描述。

圖8 自適應(yīng)連通分量提取算法流程圖

圖9描述了紅色連通分量自適應(yīng)提取的直觀過程。

圖9 紅色連通分量自適應(yīng)提取過程

4) 形態(tài)學去噪

此時圖像中存在一些孤立的紅色噪點，這些噪點將會影響后期的印章提取，因此需要通過形態(tài)學的方法將這些噪點去掉[10]。首先對圖像進行開操作，濾除掉除印章之外的獨立噪點，然后對圖像進行閉操作，填充印章區(qū)域的一些空洞，從而得到完整干凈的印章區(qū)域，如圖 10-圖 12所示。

圖10 帶有噪聲和空洞的印章圖像

圖11 開變換去除獨立噪點

圖12 閉變換填充空洞

5) 矩形合并

對連通分量進行形態(tài)學去噪后，由于印章的多樣性和圖像質(zhì)量等因素，同一枚印章可能會包含多個連通分量，為了準確提取出屬于同一枚印章的連通分量，需要對這些連通分量進行合并。

對于中國傳統(tǒng)印章，無論是矩形印、橢形印還是不規(guī)則肖形印，其所在區(qū)域均可以用矩形來描述。而根據(jù)中國古籍鈐印傳統(tǒng)，兩枚印章鈐在紙張時不會出現(xiàn)重疊區(qū)域，因此，兩枚印章分別包含的連通分量的所在矩形不會存在交集，如果兩個連通分量所在矩形存在交集，則可以判定這兩個連通分量屬于同一枚印章，可以進行合并，如圖 13所示。

圖13 印章連通分量所屬矩形

針對上述情況，可通過以下算法進行連通分量矩形合并，從而確定每一枚印章在圖像中的準確位置：計算圖中每一個連通分量所在的矩形，如果兩個連通分量所在的矩形存在交集，則對這兩個矩形進行合并，重復(fù)該過程，直至圖中沒有存在交集的連通分量[11]。最終的合并結(jié)果即為每一個印章的準確位置。如圖14所示。

圖14 印章連通分量的矩形合并

6) 印章判別

獲取印章所在矩形后，將矩形內(nèi)的圖像裁剪出來，得到原始印章圖像。但有些古籍文檔存在一些大面積的紅色背景，這些紅色背景通過前面描述的算法無法有效篩除，如圖15所示。

圖15 基于CNN的非印章圖像剔除

為了進一步提高印章提取算法的精度，本文針對印章和非印章圖像設(shè)計了分類器，通過機器學習的方法對上述算法提取出的候選圖像進行判別，從而提出非印章圖像。本文所采用的分類器為卷積神經(jīng)網(wǎng)絡(luò)(CNN)，網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計如圖16所示。

圖16 CNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

網(wǎng)絡(luò)由輸入層、三個卷積層以及全連接層構(gòu)成，輸入圖像為歸一化到256×256的彩色待分類的印章/非印章圖像，全連接層的輸出為分類結(jié)果。整個網(wǎng)絡(luò)通過標注好的10 000張印章圖像和10 000張非印章圖像樣本進行訓(xùn)練，在訓(xùn)練集和測試集上的分類精度分別為97.3%和96.2%。本文通過上述網(wǎng)絡(luò)對待候選的圖像進行分類，剔除非印章圖像，提高算法的提取精度。

7) 印章背景去除

原始印章圖像通常存在黑色墨跡等背景，這些背景影響印章圖像的欣賞、分析價值，需去除。本文利用顏色分離算法，通過顏色聚類分析獲得印章像素點、背景像素點和正文像素點的初始聚類顏色[12]，利用mean shift算法得到三類像素點的準確的顏色中心。通過顏色空間的投影分析，有效地去除背景(如黑色墨跡、表格線、碑文等物體)對印章像素點所造成的干擾，有效地生成標準的印章圖像。如圖17、圖18所示。

3 古籍鈐印自動提取技術(shù)的實驗結(jié)果和分析

基于上述方法，分別對兩個包含大量鈐印的古籍文檔掃描圖像樣本集進行測試。樣本集1為年代相對較近的古籍掃描影像，包含49張古籍影像，共計66枚印章，印章質(zhì)量較好；樣本集2中的古籍年代相對久遠，共計157張古籍影像，其中包含印章554枚，部分影像背景復(fù)雜，印章質(zhì)量較差。分別對兩個樣本集進行印章提取，得到如表1所示的結(jié)果。

表1 兩個樣本集的印章提取評價

圖19分別給出了樣本集1和2的一些印章提取結(jié)果。

圖19 (a)、(b)、(c)樣本集1的部分印章提取結(jié)果(d)、(e)、(f)樣本集2的部分印章提取結(jié)果

從圖19中可知，由于提取算法針對古籍鈐印的特點，充分地利用了圖像的顏色信息，使得算法可以適用于陰刻印、陽刻印、矩形印、圓形印、甚至是不規(guī)則的肖形印(如圖19(c)、圖19(e))等不同形式的印章，相比基于形狀分析的算法而言，具有更高的魯棒性。此外，對比樣本集1和樣本集2可以發(fā)現(xiàn)，由于算法在提取紅色連通分量過程中采用了自適應(yīng)的設(shè)計，因此無論是針對背景簡單、均一、印章質(zhì)量較好的樣本集1，還是針對具有復(fù)雜背景(墨跡、碑文、表格線等)、印章退化嚴重、紙張顏色變化較大的樣本集2，本文提出的算法均具有較高的召回率和精度。

在樣本集2的部分樣本中，由于圖像背景相對復(fù)雜，導(dǎo)致部分假目標被當作印章提取出來，因此算法的精度有所下降。圖 20中給出了一些比較典型的誤檢測案例。其中，古籍中間部分的鈐印過于密集，導(dǎo)致算法在進行矩形合并時出現(xiàn)了“過合并”的現(xiàn)象，導(dǎo)致其提取結(jié)果是附近所有印章的集合。針對這種典型錯誤，本文在開發(fā)印章提取軟件的過程中為用戶提供人機交互接口，用戶可以通過接口手動添加、刪除印章，通過人工的方式達到100%的召回率和準確率。

圖20 印章提取算法典型錯誤

4 結(jié) 語

本文針對古籍中鈐印圖像的特點提出了基于顏色的印章分離算法。該算法基于HSV顏色空間，對圖像中的紅色連通分量進行自適應(yīng)的提取與矩形合并，進而提取出印章區(qū)域，得到印章圖像。同時，為了進一步增強印章圖像的分析、欣賞價值，本文對提取出來的印章圖像進行了基于顏色分離算法的背景去除，通過該算法去掉了印章圖像中的墨跡等無關(guān)背景，最終得到清晰干凈的印章圖像。

本文所提出的算法召回率和準確率能夠分別達到93.4%和83.4%，對于具有復(fù)雜背景的古籍冊頁掃描影像的印章提取中表現(xiàn)出良好的魯棒性，在古籍整理、古籍特色數(shù)字資源開發(fā)、鈐印影像采集及出版等領(lǐng)域中具有良好的應(yīng)用前景。

[1] 徐漣.中華古籍保護計劃啟動[N].中國文化報,2007-3-1(1).

[2] 江水.全國古籍保護工作會議在京召開[N].新華書目報,2014-10-17(1).

[3] 喬敏,張華艷.古籍普查中版本鑒定新思路[J].圖書館理論與實踐,2012(2):110-112.

[4] 張寶珠.古籍藏書印芻議[J].圖書館學刊,2008,30(5):128-129.

[5] Roy P P, Pal U, Lladós J. Seal detection and recognition: An approach for document indexing[C]// Document Analysis and Recognition, 2009. ICDAR ’09. 10th International Conference on. IEEE, 2009:101-105.

[6] Frejlichowski D, Forczmański P. General Shape Analysis Applied to Stamps Retrieval from Scanned Documents[M]// Artificial Intelligence: Methodology, Systems, and Applications. Springer Berlin Heidelberg, 2010:251-260.

[7] 張永庫,李云峰,孫勁光.基于改進顏色聚合向量與貢獻度聚類的圖像檢索算法[J].計算機科學,2015,42(2):311-315.

[8] 王文強,葉宇煌.基于HSV顏色空間的圖像檢索系統(tǒng)[J].信息通信,2014(2):82-83.

[9] 姚金良,翁璐斌,王小華.一種基于連通分量的文本區(qū)域定位方法[J].模式識別與人工智能,2012,25(2):325-331.

[10] 鄢煜塵,周前進,段柳云,等.形態(tài)學重度污染文本圖像去噪處理[J].武漢大學學報(信息科學版),2012,37(9):1100-1103.

[11] 付蘆靜,錢軍浩,鐘云飛.基于漢字連通分量的印刷圖像版面分割方法[J].計算機工程與應(yīng)用,2015,51(5):178-182.

[12] Zheng D, Sun J, Naoi S, et al. Separation of overlapped color planes for document images[C]// Image Processing (ICIP), 2010 17th IEEE International Conference on. IEEE, 2010: 1949-1952.

DISCUSSION ON THE EXTRACTION OF SEAL PRINTS IN ANCIENT DOCUMENT IMAGES

Ge Huaidong1Shang Hong2

1(SchoolofHumanities，JinlingInstituteofTechnology，Nanjing210038,Jiangsu,China)2(FUJITSUR&DCenter，Beijing100025,China)

Seal prints is the collection mark of ancient documents in the process of spreading, with deep cultural connotation and appreciation of the value of art, have been the focus of ancient documents research. This paper introduces an HSV color space based algorithm for ancient seal extraction.The algorithm can automatically extract the seal image from the ancient digital images, and can be used for different quality of ancient documents image of the seal extraction work. At the same time, the method can effectively remove the interference caused by the text to the seal pixel by projection analysis of the color space, and thus produce a clear seal image. The extraction of 620 stamps from more than 200 images shows that the seal extraction algorithm has a good extraction effect, the recall rate of stamp images is 93.4%, and the accuracy rate is 83.4%.

Ancient documents Seal prints Color space Image extraction

2016-04-16。江蘇省教育廳2014年度高校哲學社會科學研究基金指導(dǎo)項目(2014SJD214)。葛懷東，副教授，主研領(lǐng)域：古籍數(shù)字化，中文信息處理。尚弘，碩士。

TP391

10.3969/j.issn.1000-386x.2017.05.033

計算機應(yīng)用與軟件2017年5期

計算機應(yīng)用與軟件的其它文章: 基于區(qū)域方差的紋理濾波算法; 一種適用于Docker Swarm集群的調(diào)度策略和算法; 基于改進K-近鄰算法的電視劇點播量預(yù)測方法; 基于壓縮感知的監(jiān)控視頻多目標自適應(yīng)跟蹤算法; 基于雙膚色模型和改進的SNoW算法的人臉檢測方法; 一種改進的質(zhì)心定位及誤差校正算法

古籍書影中鈐印提取技術(shù)的探討

0 引 言

1 古籍鈐印自動提取方法概述

2 古籍鈐印自動提取方法概述

3 古籍鈐印自動提取技術(shù)的實驗結(jié)果和分析

4 結(jié) 語

0 引言