999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古籍書影中鈐印提取技術的探討

2017-06-29 12:00:34葛懷東
計算機應用與軟件 2017年5期

葛懷東 尚 弘

1(金陵科技學院人文學院 江蘇 南京 210038)2(富士通研究開發中心有限公司 北京 100025)

古籍書影中鈐印提取技術的探討

葛懷東1尚 弘2

1(金陵科技學院人文學院 江蘇 南京 210038)2(富士通研究開發中心有限公司 北京 100025)

藏書鈐印是古籍在流傳過程中所鈐蓋的收藏印記,具有深蘊的文化內涵和藝術鑒賞價值,因此一直是古籍研究方面的重點。介紹一種基于HSV顏色空間的古籍鈐印提取算法,通過該算法自動從古籍數字影像中提取印章圖像。該算法包含了自適應設計,可用于不同質量的古籍文檔圖像的印章提取工作。同時,該方法通過顏色空間的投影分析可以有效去除正文對印章像素點所造成的干擾,從而生成清晰的印章圖像。通過對200多張籍影像中的620枚印章的提取實驗表明,該印章提取算法具有較好的提取效果,印章圖像的召回率達到93.4%,準確率達到83.4%。

古籍 藏書鈐印 顏色空間 圖像提取

0 引 言

卷帙浩繁的古典文獻是我們祖國寶貴文化遺產的重要組成部分,同時也因其不可再生而彌足珍貴。為了解現存古籍的保護狀況,我國于2007年啟動“中華古籍保護計劃”[1]。其中,古籍普查是“中華古籍保護計劃”的重要內容,是對我國現存古籍的總盤點,也是搶救、保護與利用古籍的重要環節,并為“中華古籍聯合目錄”及“中華古籍綜合信息數據庫”的建設提供數據準備,從而促進對古籍資源的利用[2]。

古籍鈐印(也稱印章)是構成版本信息的重要元素,在古籍普查中有專門的鈐印表著錄古籍在遞藏過程中所鈐蓋的印章信息,包括印章釋文、所有者朝代、所有者姓名、印文類型、印章形狀等[3]。同時,這些藏書鈐印形制各異,又能展現篆刻藝術之美,可以聚合為極具中國特色的文化元素。因而,在古籍數字資源庫開發過程中,古籍鈐印及釋文也應成為可檢索的本體對象,以提供對版本源流、藏書文化研究的支撐。本文介紹了一種從古籍書影中自動提取印章圖像的方法,該方法采用分級結構,利用顏色信息找到候選的印章位置,然后通過形狀信息提取印章圖像。

1 古籍鈐印自動提取方法概述

在我國傳統文化中,往藏書上鈐印的風尚相習久遠,且印文豐富、形制各異,至明清兩代最為盛行。鈐印一般包括名家印、名號印、書齋印、書室印、堂印、閑章等等五花八門的篆字草書,形狀有長方形、正方形、橢圓形、圓形等。這些印章不僅能體現古籍的歷史歸屬,提升古籍價值,還能為古籍版本鑒定提供重要依據,也是文人雅士鑒賞的藝術品[4]。當前,在大力推進古籍數據化建設的階段,應著眼于古籍數字資源的增值性開發,挖掘古文獻中極具中國文化元素——“鈐印”,為古籍信息資源的再利用提供新視角。

傳統的印章提取方法是通過Photoshop等圖像處理軟件,即人工在古籍書影圖像中選擇印章的區域并切分提取。該方法需要花費大量的人工,效率低下。同時,也無法處理復雜背景對印章內容的干擾。目前,一些學者也提出了相關古籍印章提取的算法,但是這些算法存在如下缺陷:① 對印章形狀做出了假設,只能檢測圓形、橢圓形或矩形形狀的印章[5];② 適用的圖像背景相對簡單[6],對于復雜背景下或圖像質量退化嚴重的圖像不適用。因此,傳統的印章自動提取算法并不能很好的勝任古文獻中的印章提取工作。

針對這種情況,本文提出了一種針對古籍書影中紅色鈐印的自動提取算法。該方法基于HSV顏色空間,對原始圖像進行自適應的紅色連通分量提取,針對這些連通分量進行降噪、合并及篩除,得到候選印章的位置。同時針對印章和正文內容重疊這一普遍現象,利用前景和背景顏色分離的算法,通過顏色空間的投影分析可以有效去除正文對印章像素點所造成的干擾,有效地生成標準的印章圖像。

相對于傳統方法,本方法具有如下優勢:

(1) 整個印章提取工作可自動完成;(2) 支持不同形狀印章的提取;(3) 參數自適應,可以適應復雜背景下的印章提取;(4) 可以去除印章圖像上的無關背景(如墨跡等);(5) 具有較高的提取召回率及精度等。

2 古籍鈐印自動提取方法概述

鈐印自動提取算法的流程如圖 1所示,以包含紅色印章的古籍書影圖像為輸入,算法可自動從輸入圖像中提取印章并針對印章進行去噪。

圖1 基于顏色的印章提取流程圖

鈐印自動提取算法的主要步驟如下:

1) HSV顏色空間轉換

通常情況下,同一種顏色可以通過不同的顏色空間來表述。用于表達顏色的顏色空間有很多種,其中RGB顏色空間是最為常用的一種顏色空間。該空間是一種依賴于顯示設備的顏色空間,其通過紅、綠、藍三個顏色通道的亮度疊加來表述特定的顏色,因此RGB顏色空間對物體的亮度比較敏感,同一物體在受到不同強度的光照時,其對應到RGB顏色空間的顏色分量差異是比較大的。由于中國古籍文檔的紙張、油墨存在著不同情況的退化,因此人眼認為同樣是紅色的兩枚印章,其顏色對應到RGB顏色空間上的距離會相差甚遠,不利于紅色印章的自動提取。相比RGB顏色空間,HSV顏色空間則更符合人眼判斷顏色的規律。HSV顏色空間通過色度H、飽和度S及亮度V三個分量來對人眼顏色感知過程進行更精準的描述[7]。當同一物體受到不同強度的光照時,其對應到HSV顏色空間的H通道變化較小,因此更適用于中國古籍文檔圖像的印章提取。

2) 紅色像素提取

鈐在中國古籍文檔中的印章絕大多數是紅色的。因此,文檔圖像中的紅色像素是本文關注的主體。根據古代印章在中國古籍文檔中多呈紅色或暗紅色的特點,前景紅色像素在HSV空間下需滿足以下情況:

H(x,y)∈[0°,30°]∪[330°,360°]
S(x,y)∈[0,0.35]
V(x,y)∈[0,1]

(1)

其中,H、S、V分別表示HSV顏色空間的三個顏色分量。基于HSV顏色空間對古籍文檔圖像進行處理,篩選出所有滿足上述要求的紅色像素,如圖 2-圖 5所示。

圖2 原始古籍文檔圖像1

圖3 原始古籍文檔圖像2

圖4 HSV空間下提取紅色像素圖4

圖5 HSV空間下提取紅色像素

可以看到,古籍文檔圖像中,由于印章區域包含大量紅色像素,因此屬于印章區域的像素被完整地提取出來。但是由于文檔本身退化嚴重,圖像整體偏暗紅色,使得一些背景像素也被提取出來,與此同時,圖像中有一些紅色非印章區域(如邊框等),也被當作前景提取了出來。因此,本文下一節將通過自適應連通分量提取的方式來實現印章前景像素和背景像素的分離。

3) 自適應連通分量提取

在古籍文檔圖像中,絕大多數印章都是整幅圖像中紅色特征最明顯的區域,在這些區域中,其H分量是最接近0°或360°的。因此,對于紙張退化所引起的暗紅色背景噪聲,可以通過縮短式(2)中H分量的閾值區間來消除,但如何確定區間參數是能否提取印章的關鍵。如果該閾值區間過窄,圖中符合閾值要求的像素過少,無法有效提取印章。反之,如果閾值區間過寬,印章被淹沒在背景噪聲中,增加印章提取的難度。只有當閾值區間合理時,印章像素才會被完整的提取出來。

針對這樣的情況,本文采用自適應連通分量提取算法[9]。首先對步驟2)中所提取的紅色像素進行8-領域連通分量標記,得到古籍文檔圖像的紅色連通分量,從而確定古籍文檔圖像的紅色連通分量數量總和NCC和面積總和ACC。對于絕大多數古籍文檔圖像,印章區域所占的比例一般不會超過圖像的30%,因此,在針對文檔圖像進行連通分量提取時,如果閾值區間合理,所得到的NCC和ACC不會過高,當NCC過高時,說明圖像中有大量的小面積連通分量,即如圖4所示的紅色噪點;當ACC過高時,說明圖像中有大片粘連的連通分量。

為了更精確地衡量圖像中的紅色連通分量占圖像的整體比例,分別定義單位面積連通數PN和單位面積連通比例PA,如下式:

(2)

閾值區間設置過寬都會導致PN或PA的升高。為了更好地說明印章提取狀況與PN、PA的關系,本文對150余幅古籍文檔圖像樣本分別進行了H∈[0°,30°]的閾值提取連通分量,按照噪聲連通分量面積、印章連通分量面積等因素將印章提取情況分為5種類型,即印章區域被濾除、過渡區域1、印章區域完整提取、過渡區域2和圖像噪聲過多。圖 6和圖 7分別給出了閾值區間、PN、PA以及印章提取狀況的關系。

圖6 隨H閾值變化曲線

圖7 隨H閾值變化曲線

從圖中可以看到,對圖像樣本集進行初始閾值為30°的連通分量提取時,印章區域基本被淹沒在噪聲中,無法有效提取印章,當閾值不斷降低時,PN、PA的取值隨之降低,當PN、PA分別降至2.3e-3和5.0e-3左右時,印章恰好被完整提取,當PN、PA的取值低于1.5e-3和3.0e-3時,印章區域則被逐漸濾除。

針對這樣的實驗結果,本文提出了自適應連通分量提取算法。首先用一個較為寬松的閾值對圖像進行連通分量提取,計算PN、PA取值,如果PN、PA、過高,則降低取值,使得閾值更加嚴格,再次對圖像進行連通分量提取及計算PN、PA,直至PN、PA的取值滿足一定閾值TN和TA要求后,所得到的閾值H即為該圖像印章提取的最佳閾值。整個算法可以用如圖8流程圖描述。

圖8 自適應連通分量提取算法流程圖

圖9描述了紅色連通分量自適應提取的直觀過程。

圖9 紅色連通分量自適應提取過程

4) 形態學去噪

此時圖像中存在一些孤立的紅色噪點,這些噪點將會影響后期的印章提取,因此需要通過形態學的方法將這些噪點去掉[10]。首先對圖像進行開操作,濾除掉除印章之外的獨立噪點,然后對圖像進行閉操作,填充印章區域的一些空洞,從而得到完整干凈的印章區域,如圖 10-圖 12所示。

圖10 帶有噪聲和空洞的印章圖像

圖11 開變換去除獨立噪點

圖12 閉變換填充空洞

5) 矩形合并

對連通分量進行形態學去噪后,由于印章的多樣性和圖像質量等因素,同一枚印章可能會包含多個連通分量,為了準確提取出屬于同一枚印章的連通分量,需要對這些連通分量進行合并。

對于中國傳統印章,無論是矩形印、橢形印還是不規則肖形印,其所在區域均可以用矩形來描述。而根據中國古籍鈐印傳統,兩枚印章鈐在紙張時不會出現重疊區域,因此,兩枚印章分別包含的連通分量的所在矩形不會存在交集,如果兩個連通分量所在矩形存在交集,則可以判定這兩個連通分量屬于同一枚印章,可以進行合并,如圖 13所示。

圖13 印章連通分量所屬矩形

針對上述情況,可通過以下算法進行連通分量矩形合并,從而確定每一枚印章在圖像中的準確位置:計算圖中每一個連通分量所在的矩形,如果兩個連通分量所在的矩形存在交集,則對這兩個矩形進行合并,重復該過程,直至圖中沒有存在交集的連通分量[11]。最終的合并結果即為每一個印章的準確位置。如圖14所示。

圖14 印章連通分量的矩形合并

6) 印章判別

獲取印章所在矩形后,將矩形內的圖像裁剪出來,得到原始印章圖像。但有些古籍文檔存在一些大面積的紅色背景,這些紅色背景通過前面描述的算法無法有效篩除,如圖15所示。

圖15 基于CNN的非印章圖像剔除

為了進一步提高印章提取算法的精度,本文針對印章和非印章圖像設計了分類器,通過機器學習的方法對上述算法提取出的候選圖像進行判別,從而提出非印章圖像。本文所采用的分類器為卷積神經網絡(CNN),網絡結構設計如圖16所示。

圖16 CNN網絡結構示意圖

網絡由輸入層、三個卷積層以及全連接層構成,輸入圖像為歸一化到256×256的彩色待分類的印章/非印章圖像,全連接層的輸出為分類結果。整個網絡通過標注好的10 000張印章圖像和10 000張非印章圖像樣本進行訓練,在訓練集和測試集上的分類精度分別為97.3%和96.2%。本文通過上述網絡對待候選的圖像進行分類,剔除非印章圖像,提高算法的提取精度。

7) 印章背景去除

原始印章圖像通常存在黑色墨跡等背景,這些背景影響印章圖像的欣賞、分析價值,需去除。本文利用顏色分離算法,通過顏色聚類分析獲得印章像素點、背景像素點和正文像素點的初始聚類顏色[12],利用mean shift算法得到三類像素點的準確的顏色中心。通過顏色空間的投影分析,有效地去除背景(如黑色墨跡、表格線、碑文等物體)對印章像素點所造成的干擾,有效地生成標準的印章圖像。如圖17、圖18所示。

3 古籍鈐印自動提取技術的實驗結果和分析

基于上述方法,分別對兩個包含大量鈐印的古籍文檔掃描圖像樣本集進行測試。樣本集1為年代相對較近的古籍掃描影像,包含49張古籍影像,共計66枚印章,印章質量較好;樣本集2中的古籍年代相對久遠,共計157張古籍影像,其中包含印章554枚,部分影像背景復雜,印章質量較差。分別對兩個樣本集進行印章提取,得到如表1所示的結果。

表1 兩個樣本集的印章提取評價

圖19分別給出了樣本集1和2的一些印章提取結果。

圖19 (a)、(b)、(c)樣本集1的部分印章提取結果(d)、(e)、(f)樣本集2的部分印章提取結果

從圖19中可知,由于提取算法針對古籍鈐印的特點,充分地利用了圖像的顏色信息,使得算法可以適用于陰刻印、陽刻印、矩形印、圓形印、甚至是不規則的肖形印(如圖19(c)、圖19(e))等不同形式的印章,相比基于形狀分析的算法而言,具有更高的魯棒性。此外,對比樣本集1和樣本集2可以發現,由于算法在提取紅色連通分量過程中采用了自適應的設計,因此無論是針對背景簡單、均一、印章質量較好的樣本集1,還是針對具有復雜背景(墨跡、碑文、表格線等)、印章退化嚴重、紙張顏色變化較大的樣本集2,本文提出的算法均具有較高的召回率和精度。

在樣本集2的部分樣本中,由于圖像背景相對復雜,導致部分假目標被當作印章提取出來,因此算法的精度有所下降。圖 20中給出了一些比較典型的誤檢測案例。其中,古籍中間部分的鈐印過于密集,導致算法在進行矩形合并時出現了“過合并”的現象,導致其提取結果是附近所有印章的集合。針對這種典型錯誤,本文在開發印章提取軟件的過程中為用戶提供人機交互接口,用戶可以通過接口手動添加、刪除印章,通過人工的方式達到100%的召回率和準確率。

圖20 印章提取算法典型錯誤

4 結 語

本文針對古籍中鈐印圖像的特點提出了基于顏色的印章分離算法。該算法基于HSV顏色空間,對圖像中的紅色連通分量進行自適應的提取與矩形合并,進而提取出印章區域,得到印章圖像。同時,為了進一步增強印章圖像的分析、欣賞價值,本文對提取出來的印章圖像進行了基于顏色分離算法的背景去除,通過該算法去掉了印章圖像中的墨跡等無關背景,最終得到清晰干凈的印章圖像。

本文所提出的算法召回率和準確率能夠分別達到93.4%和83.4%,對于具有復雜背景的古籍冊頁掃描影像的印章提取中表現出良好的魯棒性,在古籍整理、古籍特色數字資源開發、 鈐印影像采集及出版等領域中具有良好的應用前景。

[1] 徐漣.中華古籍保護計劃啟動[N].中國文化報,2007-3-1(1).

[2] 江水.全國古籍保護工作會議在京召開[N].新華書目報,2014-10-17(1).

[3] 喬敏,張華艷.古籍普查中版本鑒定新思路[J].圖書館理論與實踐,2012(2):110-112.

[4] 張寶珠.古籍藏書印芻議[J].圖書館學刊,2008,30(5):128-129.

[5] Roy P P, Pal U, Lladós J. Seal detection and recognition: An approach for document indexing[C]// Document Analysis and Recognition, 2009. ICDAR ’09. 10th International Conference on. IEEE, 2009:101-105.

[6] Frejlichowski D, Forczmański P. General Shape Analysis Applied to Stamps Retrieval from Scanned Documents[M]// Artificial Intelligence: Methodology, Systems, and Applications. Springer Berlin Heidelberg, 2010:251-260.

[7] 張永庫,李云峰,孫勁光.基于改進顏色聚合向量與貢獻度聚類的圖像檢索算法[J].計算機科學,2015,42(2):311-315.

[8] 王文強,葉宇煌.基于HSV顏色空間的圖像檢索系統[J].信息通信,2014(2):82-83.

[9] 姚金良,翁璐斌,王小華.一種基于連通分量的文本區域定位方法[J].模式識別與人工智能,2012,25(2):325-331.

[10] 鄢煜塵,周前進,段柳云,等.形態學重度污染文本圖像去噪處理[J].武漢大學學報(信息科學版),2012,37(9):1100-1103.

[11] 付蘆靜,錢軍浩,鐘云飛.基于漢字連通分量的印刷圖像版面分割方法[J].計算機工程與應用,2015,51(5):178-182.

[12] Zheng D, Sun J, Naoi S, et al. Separation of overlapped color planes for document images[C]// Image Processing (ICIP), 2010 17th IEEE International Conference on. IEEE, 2010: 1949-1952.

DISCUSSION ON THE EXTRACTION OF SEAL PRINTS IN ANCIENT DOCUMENT IMAGES

Ge Huaidong1Shang Hong2

1(SchoolofHumanities,JinlingInstituteofTechnology,Nanjing210038,Jiangsu,China)2(FUJITSUR&DCenter,Beijing100025,China)

Seal prints is the collection mark of ancient documents in the process of spreading, with deep cultural connotation and appreciation of the value of art, have been the focus of ancient documents research. This paper introduces an HSV color space based algorithm for ancient seal extraction.The algorithm can automatically extract the seal image from the ancient digital images, and can be used for different quality of ancient documents image of the seal extraction work. At the same time, the method can effectively remove the interference caused by the text to the seal pixel by projection analysis of the color space, and thus produce a clear seal image. The extraction of 620 stamps from more than 200 images shows that the seal extraction algorithm has a good extraction effect, the recall rate of stamp images is 93.4%, and the accuracy rate is 83.4%.

Ancient documents Seal prints Color space Image extraction

2016-04-16。江蘇省教育廳2014年度高校哲學社會科學研究基金指導項目(2014SJD214)。葛懷東,副教授,主研領域:古籍數字化,中文信息處理。尚弘,碩士。

TP391

A

10.3969/j.issn.1000-386x.2017.05.033

主站蜘蛛池模板: 在线观看国产小视频| 亚洲国产精品一区二区第一页免| 漂亮人妻被中出中文字幕久久| 任我操在线视频| 国产无码精品在线| 欧美高清视频一区二区三区| 国产白浆一区二区三区视频在线| 免费精品一区二区h| 久久久久免费精品国产| 香蕉视频在线精品| 97se亚洲综合在线| 婷婷色一区二区三区| 伊人激情综合| 91年精品国产福利线观看久久| 亚洲一级毛片在线观| 国产麻豆91网在线看| 亚洲天天更新| 九色综合伊人久久富二代| 欧美成人免费午夜全| 亚洲日本www| Jizz国产色系免费| 亚洲欧美在线看片AI| 丰满人妻中出白浆| 国模视频一区二区| 99精品视频九九精品| 色婷婷在线播放| 国产日韩欧美在线视频免费观看| 天天综合亚洲| 欧美性猛交xxxx乱大交极品| 毛片卡一卡二| 蜜芽国产尤物av尤物在线看| 国产h视频在线观看视频| 青青草原国产精品啪啪视频| 亚洲日本精品一区二区| 国产免费a级片| 高h视频在线| 五月婷婷精品| 久久一色本道亚洲| 亚洲精品无码抽插日韩| 国产精品成人不卡在线观看| 欧美日韩一区二区三区四区在线观看| 久久人体视频| 午夜啪啪网| 中文国产成人久久精品小说| 国产一级毛片yw| 伊人久久大线影院首页| 思思99思思久久最新精品| 国产成人综合日韩精品无码不卡| 免费观看精品视频999| 中文字幕不卡免费高清视频| 日韩国产黄色网站| 欧美日韩第三页| 中文字幕人妻无码系列第三区| 欧美精品v| 日韩无码精品人妻| 99久久精品无码专区免费| 成人韩免费网站| 国产精品播放| 欧美国产菊爆免费观看| h网址在线观看| 秋霞国产在线| 欧美va亚洲va香蕉在线| 青青草原国产精品啪啪视频| 国产男人天堂| 91视频区| 国产一区二区三区日韩精品| 六月婷婷综合| 欧美午夜精品| 久久久波多野结衣av一区二区| h视频在线观看网站| 亚洲精品国产首次亮相| 欧美成人午夜影院| 免费看美女毛片| a级毛片免费网站| 狠狠色丁香婷婷综合| 91极品美女高潮叫床在线观看| 97超级碰碰碰碰精品| 亚洲欧美国产五月天综合| 国产手机在线小视频免费观看| 色男人的天堂久久综合| a天堂视频| 国产精品久久久久无码网站|