基于數(shù)據(jù)增強和ViT的印章識別方法研究

2024-05-06 08:26:32張志劍夏蘇迪劉政昊王文慧陳帥樸霍朝光

情報學報 2024年3期

張志劍，夏蘇迪，劉政昊，王文慧，陳帥樸，霍朝光

（1. 武漢大學信息管理學院，武漢 430072；2. 武漢大學大數(shù)據(jù)研究院，武漢 430072；3. 武漢大學信息資源研究中心，武漢 430072；4. 南京中醫(yī)藥大學衛(wèi)生經(jīng)濟管理學院，南京 210023；5. 中國人民大學信息資源管理學院，北京 100872）

0 引言

我國印章文化源遠流長，最早的印章可以追溯到殷商晚期三方銅印，著錄于《鄴中片羽》，距今約有3700年歷史[1]。印章文化流行于戰(zhàn)國時期，其功能、章法和規(guī)制在隋唐時期初步形成并不斷完善，與詩歌、繪畫和書法共同構成我國重要的四大傳統(tǒng)藝術形式。恰如黃賓虹[2]所言，“一印雖微，可與尋丈摩崖、千鈞重器同其精妙”。印章文化不但展示了中華民族獨特的審美特質和情懷，也傳承和弘揚了中華文化的精神內涵[3]。印章通常可以分為官印和私章兩種，作為一種身份憑證，被廣泛應用于權利和身份認證、財物封存和文書遞送等場景[4]。當下的印章文化更多在于文化傳承上，用于寄托主人的志趣。由于書法繪畫作品通常具有極高的鑒賞和收藏價值，歷代藏家都會悉心保存，作品上的印章也能夠得以保留。因此，觀賞和了解印章有助于人們領悟作品背后的文化內涵，提高自身審美修養(yǎng)和藝術鑒賞能力，增強民族文化自豪感。

篆書是一種具有結構規(guī)整、筆畫長短精確、形態(tài)簡潔美觀等特點的字體，它通過篆刻技藝應用于印章上，能夠確保印文的清晰、準確和規(guī)范。然而，與簡體字相比，篆書的使用場景較為有限，不再被人們所熟知。此外，印章作為主人的一種精神寄托，通常體現(xiàn)主人的巧思和獨特性。在印章內容和布局的設計上，人們更加注重創(chuàng)新和個性化。因此，印章的樣式千差萬別，每個印章都有其獨特的魅力。此外，還演變出了象形印章。但上述情況也增加了人們理解印章的難度。在公眾欣賞書法字畫時，常常會看到大量復雜的印章，這些印章記錄了作品的創(chuàng)作信息和歷史流傳過程。只是這些印章主要為篆書或象形表示，非專業(yè)人士往往難以辨識。現(xiàn)有的識圖軟件和方法無法識別印章內容，而通過翻閱專業(yè)印章書籍來識別印章不僅耗時耗力，往往還難以得到滿意的結果，導致欣賞者在面對印章圖像時產生沮喪感，失去了欣賞書法字畫的興趣，這也是導致中國傳統(tǒng)文化藝術作品不易推廣的重要原因之一。因此，急需一種印章圖像識別方法，降低用戶的理解與鑒賞的負擔，并激發(fā)公眾對傳統(tǒng)文化藝術的興趣，推動中華傳統(tǒng)文化的傳承和發(fā)展。

由于印章類別繁多，印章識別任務屬于超多分類問題，只有當印章數(shù)據(jù)充分時，神經(jīng)網(wǎng)絡模型才能發(fā)揮其較強的特征提取能力，從而準確地識別不同印章。然而，古代印章存世數(shù)量有限，而多次出現(xiàn)的印章也較少。因此，在訓練集數(shù)據(jù)缺乏的情況下，難以對神經(jīng)網(wǎng)絡模型進行充分訓練。數(shù)據(jù)增強方法可以通過對有限的數(shù)據(jù)進行變換得到新的數(shù)據(jù)，在保證標簽不變的前提下，可以對數(shù)據(jù)集進行擴展。但是數(shù)據(jù)增強方法并非總是有效的，當數(shù)據(jù)存在較多噪聲和錯誤標簽時，數(shù)據(jù)增強方法在擴充數(shù)據(jù)集的同時也將噪聲和錯誤進行了放大，導致模型學習到錯誤信息。某些任務無法通過數(shù)據(jù)增強捕捉到數(shù)據(jù)的關鍵信息，例如，在醫(yī)學影像任務中，病變的形狀和位置具有較強的多樣性，常規(guī)的數(shù)據(jù)增強無法滿足需求。一枚相同的印章在鈐印和傳承過程中受到不同因素的影響，表現(xiàn)出較強的多樣性；但是同一枚實體印章鈐印出的印章圖像具有同源性，導致同一枚印章的圖像在形狀、尺寸、內容等方面具有一定程度的相似性。通過分析印章圖像的特點進行數(shù)據(jù)增強可以有效提升模型在復雜場景下的識別能力。因此，本文使用數(shù)據(jù)增強的方法應對上述問題，并針對不同場景設計不同的數(shù)據(jù)增強策略，以確保訓練數(shù)據(jù)的充分性。由于經(jīng)過數(shù)據(jù)增強的數(shù)據(jù)集較為充分，可以使用特征提取能力較強的ViT（vision transformer）模型提取印章特征并進行識別，以取得較好的識別效果。

1 研究進展

鑒于印章識別任務屬于圖像分類任務，且本文使用了數(shù)據(jù)增強方法，本節(jié)從圖像分類方法、數(shù)據(jù)增強方法和印章識別方法三個角度探討當前研究進展。

1.1 圖像分類方法

圖像分類任務是計算機視覺領域的核心問題，其目的是將輸入的圖像分配到預定義的多個類別之一[5]。早期的圖像分類方法主要依賴于手工構建特征。Lowe等[6]提出了一種尺度不變性較好的SITF（scale-invariant feature transform）方法，其在圖像旋轉、縮放、平移等變換情況下具有較強的魯棒性，并且能夠抑制局部遮擋和形變；然而該方法計算量較大，且對于模糊和邊緣平滑圖像的特征提取效果較差。Dalal等[7]提出一種梯度方向直方圖（histo‐grams of oriented gradient，HOG）方法，該方法通過對圖像進行灰度化表示和gamma校正來抑制噪聲的影響。因此，該方法具有對光照和噪聲不敏感以及計算量較小的優(yōu)點，但是該方法的尺度不變性較差。為了降低SITF方法的計算量，Bay等[8]提出了SURF（speeded up robust features）方法，Rublee等[9]提出了ORB（oriented FAST and rotated BRIEF）方法。此外，Ojala等[10]提出了一種局部二值模式（local binary pattern，LBP）方法，該方法是一種描述圖像局部紋理的方法，具有旋轉不變性和灰度不變性等優(yōu)點。Viola等[11]提出了一種基于一維Haar小波變換的Haar方法，可以較好地描述明暗變化，該方法常被用于人臉檢測任務。

傳統(tǒng)的圖像分類方法通常需要先手工構建特征，再使用支持向量機、決策樹、樸素貝葉斯等算法進行分類[12]。然而，手工構建特征的過程不僅耗時費力，而且無法完整地表達數(shù)據(jù)中的全部有用特征。神經(jīng)網(wǎng)絡具備的強大特征提取能力和自適應學習特征的優(yōu)勢逐漸取代了手工構建特征的過程。例如，LeCun等[13]提出了卷積神經(jīng)網(wǎng)絡（convolution‐al neural network，CNN）用于手寫數(shù)字識別，并在圖像識別領域中獲得了良好的分類效果。CNN模型在情感分類[14-16]、期貨價格預測[17]、股票指數(shù)預測[18]等任務中也表現(xiàn)出了卓越性能。許多研究人員針對CNN模型進行了改進。Simonyan等[19]提出了VGG（visual geometry group）模型，通過加深網(wǎng)絡的隱藏層以提取圖像中的隱藏特征，獲得了較好的分類效果。Szegedy等[20]提出了GoogleNet模型，該模型采用了inception module結構，通過多個分支提取圖像特征，并在不同分支間進行拼接，進一步提升了模型的性能。He等[21]提出了ResNet（residual network）方法，該方法基于深度殘差網(wǎng)絡，通過引入residual block結構有效抑制了神經(jīng)網(wǎng)絡的退化問題，提升了模型的訓練穩(wěn)定性。還有研究基于循環(huán)神經(jīng)網(wǎng)絡（recurrent neural network，RNN）提出了RNN-CNN方法，該方法使用CNN提取圖像特征，并使用RNN來處理這些特征序列，在性能上取得了一定的提升[22]。此外，Bahdanau等[23]提出了注意力機制，作為一種機器翻譯模型。注意力機制可以區(qū)分不同特征的重要性，因此在圖像分類任務上逐漸處于領先位置，基于注意力機制的改進方法ViT模型依然是當今較為先進的模型之一[24]。

1.2 數(shù)據(jù)增強方法

數(shù)據(jù)增強方法通過對原始數(shù)據(jù)進行一定程度的變換來增加訓練數(shù)據(jù)，從而提神經(jīng)網(wǎng)絡模型的泛化能力[25]。數(shù)據(jù)增強的思想可以追溯到1998年，Le‐Cun等[13]在過采樣應用的討論中使用過采樣方法緩解類別數(shù)據(jù)不平衡的問題。過采樣方法旨在復制或生成數(shù)量較少的類別數(shù)據(jù)，后續(xù)改進的過采樣方法也均可視為數(shù)據(jù)增強算法[26-28]。數(shù)據(jù)增強可以分為基于圖像變換的方法和基于生成模型的方法兩大類別。

基于圖像變換的方法主要包括三種類型：基于幾何變換的方法，通過翻轉、模糊、縮放和裁剪等方式實現(xiàn)[29-31]；基于像素變換的方法，通過改變圖像的亮度、對比度和銳化處理等方式實現(xiàn)[32]；基于混合樣本的方法，通過將不同的樣本進行混合從而生成新的圖像數(shù)據(jù)。其中，mixup方法通過對兩個不同樣本和標簽進行線性插值，模擬樣本和標簽間的線性關系，從而生成新的訓練數(shù)據(jù)，提高模型的泛化能力[33]。AdaMixUp方法可以自適應地選擇混合參數(shù)，更好地適應不同數(shù)據(jù)樣本的特征分布，解決了mixup中存在生成圖像與原始圖像都不相似的問題[34]。sample pairing方法通過將一個Batch的數(shù)據(jù)劃分為兩個子集，并將兩個子集的樣本兩兩組合生成新的數(shù)據(jù)樣本[35]。另外，RICAP（random im‐age cropping and patching）方法隨機選擇四個樣本，并從上述樣本中隨機剪裁一部分進行拼接，進而生成新的樣本[36]。MixStyle是一種基于風格遷移的數(shù)據(jù)增強方法，該方法通過對輸入樣本的樣式和內容進行分離和混合，生成新的訓練樣本以提高模型的魯棒性和泛化能力[37]。這些方法可以有效增加訓練數(shù)據(jù)的多樣性，從而提升模型的泛化性能和魯棒性，已被廣泛應用于計算機視覺領域。

基于生成模型的數(shù)據(jù)增強方法是通過生成對抗網(wǎng)絡直接生成新的圖像樣本，并將這些生成的樣本加入訓練集中。生成對抗網(wǎng)絡由生成器和判別器組成，二者相互博弈，生成器負責生成逼近真實的新樣本，判別器負責區(qū)分真假樣本，使生成的樣本質量不斷提升[38]。常見的生成模型包括GANs（gener‐ative adversarial networks）[38]、CGANs（conditional generative adversarial networks）[39]、ACGANs（aux‐iliary classifier generative adversarial networks）[40]、DAGANs（data augmentation generative adversarial networks）[41]等，這些模型設計了不同的機制來提高生成樣本質量和多樣性。另外，自動編碼器（auto-encoder，AE）[42]和變分自動編碼器（varia‐tional auto-encoder，VAE）[43]也可用于樣本生成。AE通過編碼器和解碼器實現(xiàn)樣本重構，而VAE在AE基礎上約束了潛在空間，使其生成的樣本更加清晰。GAN與VAE結合的VAE-GANs模型[44]可以進一步改善生成樣本的真實性。

雖然基于生成模型的數(shù)據(jù)增強方法通常具有較強的通用性，但是這類方法的本質是學習并模仿訓練數(shù)據(jù)的底層特征，對關鍵特征進行保留和組合，從而生成相似但不相同的數(shù)據(jù)。在印章識別任務中，印章圖像是由實體印章鈐印所得，具有客觀的物理形態(tài)特征。生成模型在模仿訓練數(shù)據(jù)的過程中，可能改變或扭曲印章圖像的關鍵物理特征，從而生成不符合實際情況的樣本圖像。失真的訓練集會降低模型的識別能力，因此，在印章識別任務中選擇基于圖像變換的數(shù)據(jù)增強方式更為有效。

1.3 印章識別方法

印章識別技術研究主要針對字畫印章和公文印章兩大類，雖然兩者的應用場景不同，但其識別技術具有較強的通用性。相關研究主要聚焦印章定位、印章提取和印章識別三個方面。印章定位主要用于識別印章的位置，印章提取能將印章主體從復雜背景中分離出來，而印章識別則需對印章含義進行識別。由于印章數(shù)據(jù)集一般較小，因此，鮮有研究直接使用深度學習進行模型訓練。

楊琴等[45]提出了一種高光譜成像系統(tǒng)，可對模糊印章進行信息增強，提高其辨識度。牟加俊等[46]開發(fā)了一種印章定位算法，該算法可通過雙板濾波和顏色增強，準確定位印章區(qū)域。楊有等[47]提出了UNet-S（UNet for seal）方法，可用于精準分割民國檔案圖像中的印章。周新光等[48]利用高光譜成像技術采集圖像，結合最小噪聲分離和波段剪裁來提取辨識度不高的印章。康雅琪等[49]首先將印章圖像轉換到SN色彩空間，并提取印章主體，然后使用基于雙邊濾波的自適應Canny算子來提取印章邊緣，抑制偽邊緣。葛懷東等[50]提出了一種基于HSV（hue, saturation, value）顏色空間和自適應紅色連通分量的算法，能夠有效去除背景噪聲。陳婭婭等[51]提出了一種基于ResNet和遷移學習的古印章文本識別方法，可避免模型過擬合，提高識別準確率和泛化能力。歐陽歡等[52]提出了一種多特征融合決策的印章識別算法，該算法具有準確率高和抗造性好等優(yōu)點。戴俊峰等[53]提出了一種基于極坐標轉換的方法，該方法根據(jù)印章元素排列特點展開中文印章圖像極坐標，緩解了印文方法不統(tǒng)一的問題。

2 研究框架

印章識別的難點在于缺乏足夠的標注數(shù)據(jù)，導致神經(jīng)網(wǎng)絡模型無法得到充分訓練，使得印章識別效果不理想。為解決這一問題，通常會采取包括數(shù)據(jù)增強、遷移學習、生成對抗網(wǎng)絡以及數(shù)據(jù)采集等四種策略。然而，遷移學習的應用前提是源任務和目標任務存在一定的相似性，而在印章識別任務中，往往難以找到具有相似數(shù)據(jù)分布的源任務或模型。生成對抗網(wǎng)絡可以通過生成與真實數(shù)據(jù)相似的新數(shù)據(jù)來緩解數(shù)據(jù)匱乏的問題，但在印章識別任務中，可能生成與印章本體偏離的圖像，這可能會對現(xiàn)實中印章圖像的識別造成干擾。數(shù)據(jù)采集則依賴于領域專家對額外數(shù)據(jù)進行標注得到的擴充數(shù)據(jù)集，然而受制于印章圖像的多樣性，難以覆蓋所有特殊情況的印章圖像。印章圖像均由實體印章鈐印所得，通過對印章圖像的出現(xiàn)情況進行分析，使用數(shù)據(jù)增強方式對上述情況進行模擬，可以有效提高模型的泛化和識別能力。因此，數(shù)據(jù)增強方法與任務更為契合。在數(shù)據(jù)集充足的前提下，ViT模型使用Transformer作為特征提取器，更容易捕獲印章圖像的全局特征，從而適應印章圖像的多種復雜情境。基于上述分析，本文提出了一種基于數(shù)據(jù)增強和ViT的印章識別方法，其流程如圖1所示。本文方法主要分為印章數(shù)據(jù)獲取與標注、數(shù)據(jù)增強模塊和印章識別模塊三個部分，其中印章數(shù)據(jù)獲取與標注負責從作品中截取清晰的印章圖像，并由領域專家標注印章的主人和內容。然后，使用數(shù)據(jù)增強模塊對標注數(shù)據(jù)進行多維度增強。最后，使用增強數(shù)據(jù)訓練印章識別模塊中的ViT模型，并保存效果最佳的模型用于最終印章識別。

圖1 基于數(shù)據(jù)增強與ViT的印章識別模型

2.1 印章數(shù)據(jù)獲取與標注

數(shù)據(jù)增強需要基于一定規(guī)模的高質量數(shù)據(jù)集，首先需要標注一定數(shù)量的印章圖像。圖1左側為印章數(shù)據(jù)獲取與標注模塊，為保證基礎印章圖像具有較高的清晰度，需要獲取TIFF（tag image file for‐mat）格式的字畫作品圖像。TIFF格式是一種非失真的壓縮格式，可以保留原始圖像的顏色和層次。然后，從作品中逐個截取印章圖像，在截取過程中剔除缺損嚴重或無法識別的印章圖像。同時，盡可能減少截取圖像中的非印章部分，即截取的印章圖像要貼近印章邊緣。最后，由領域專家對印章的所有人和內容進行識別和標注。

如圖2所示，印章所有人可能擁有多枚內容一致但樣式不同的印章。因此，本文在標注過程中使用“人物-內容-樣式-編號”格式，其中人物為印章的所有人，內容為印章所包含的內容，樣式使用英文字母進行區(qū)分。同一枚印章可能鈐印在不同地方，在采集過程中可能多次出現(xiàn)。為避免重復命名的情況，需要為每個印章賦予一個編號。根據(jù)這個標注格式，圖2a的印章標注為“乾隆-五福五代堂古稀天子寶-A-1”，圖2b的印章標注為“乾隆-五福五代堂古稀天子寶-B-1”。在訓練神經(jīng)網(wǎng)絡模型時，去除編號后的“人物-內容-樣式”即數(shù)據(jù)集的標簽。

圖2 “五福五代堂古稀天子寶”印章

2.2 數(shù)據(jù)增強

數(shù)據(jù)增強是一種通過旋轉、裁剪、亮度與對比度變換、潛在空間變換等方式對數(shù)據(jù)集進行擴增的方法。然而，原始數(shù)據(jù)集本身包含的信息有限，數(shù)據(jù)增強方法可以通過人工先驗知識添加部分信息，但這些信息不能無限增加。若采用與任務不符合的數(shù)據(jù)增強方式，則會在數(shù)據(jù)集中引入噪聲，導致模型識別能力下降。因此，選擇與人物特性相符的數(shù)據(jù)增強方式至關重要。

在印章識別任務中，印章圖像無論鈐印在何處，都無法脫離原始實體印章。模擬印章圖像出現(xiàn)場景可有效擴充印章數(shù)據(jù)，提升模型泛化能力。領域專家通過深入分析印章圖像的形狀、紋理、顏色、大小、種類和分布情況，在全面了解印章數(shù)據(jù)的整體特性后，結合印章圖像所處的不同復雜場景，制定了相應的數(shù)據(jù)增強方法（表1），字跡覆蓋模塊、紋理覆蓋模塊、邊緣擴大模塊的詳細流程見附錄。

表1 數(shù)據(jù)增強模塊參數(shù)

涉及圖像尺寸和方向調整類的數(shù)據(jù)增強方法通過改變圖像大小和方向，模擬特定現(xiàn)實場景。通過圖像縮小模塊對圖像按比例縮小，模擬由于圖像采集設備質量低、拍攝晃動、網(wǎng)絡傳輸對圖像壓縮等因素導致的模糊情況。圖像裁剪模塊則按不同方向和尺寸對圖像進行裁剪，模擬作品在重新裝裱或拍攝角度不當?shù)惹闆r下，印章圖像出現(xiàn)橫向或縱向缺失的情況。圖像旋轉模塊將圖像隨機旋轉不同角度，模擬拍攝或印章鈐印時角度不正導致的印章圖像偏轉。由于印章實體和印章圖像為水平翻轉關系，通過圖像翻轉模塊能夠模擬印章本體圖形。同時，拍攝印章實體時，更容易存在圖像不正的情況，需要同時搭配印章旋轉模塊。

有關圖像質量調整的數(shù)據(jù)增強通過改變印章圖像亮度和對比度以及添加噪聲點的方式，提升模型識別能力。在采集過程中，印章圖像可能出現(xiàn)圖案過亮或過暗的情況，可以通過圖像亮度調整模塊模擬不同光照條件。相機硬件的差異、智能手機在拍攝時采用的不同白平衡算法、色彩還原算法、HDR（high dynamic range）模式或曝光補償?shù)炔呗裕伎赡軐D像對比度造成顯著影響，導致對比度存在較大差異。為模擬這種現(xiàn)象，可以使用圖像對比度調整模塊。圖像的噪聲情況是另一種需要模擬的現(xiàn)實世界中的圖像采集情況。隨機噪聲模塊通過添加高斯噪聲和椒鹽噪聲來實現(xiàn)這一模擬。這些模擬有助于使模型更好地應對真實世界的噪聲干擾，從而提高其識別能力。

有關圖像內容修改的數(shù)據(jù)增強則通過掩蓋部分區(qū)域和添加字跡與紋理來模擬現(xiàn)實場景。圖像掩蓋模塊用于模擬書法字畫在長期保存過程中可能出現(xiàn)的污漬和斑點，或在鑒賞、借閱、展覽過程中可能對畫面產生的損壞。該方法詳細流程可參見附錄的算法1。字跡覆蓋模塊則通過生成少量文字并將其覆蓋到印章圖像上，模擬在題跋過程中因規(guī)劃不佳而導致字跡與印章圖像的重疊。此外，作者在題跋上鈐印印章以標識身份，也可能導致字跡與印章圖像的重疊。該方法的實現(xiàn)代碼可參見附錄的算法2。紋理覆蓋模塊則用于模擬印章圖像因不當保存而導致的細密紋路的褪色，以及因不同材質載體（如紙張或絲綢布帛）而導致的印章圖像多樣性紋理。這些模擬有助于模型更好地處理現(xiàn)實世界中的各種復雜情況，從而提升其識別能力。

附錄：關鍵數(shù)據(jù)增強模塊算法

算法1. 圖像掩蓋模塊算法

算法2. 圖像字跡覆蓋模塊算法

有關圖像邊緣處理的數(shù)據(jù)增強為邊緣擴大模塊。在鈐印過程中，印章可能蘸取過多的印泥導致印章圖案存在粘連現(xiàn)象，增加了印章識別的難度。因此，本文通過提取印章的印文區(qū)域并擴大數(shù)個像素點來模擬這種情境。首先，需要將印章圖像轉換到HSV顏色空間，該色彩空間使用色調（hue）、飽和度（saturation）和亮度（value）三個分量來表示顏色。通過將色調的取值范圍限定在[0,36] ∪[216,300] ，可以提取印章圖像中的紅色區(qū)域。其次，使用skimage中的morphology模塊對紅色區(qū)域進行膨脹操作，本文在水平和垂直方向擴大r像素，r∈[5,15] 。最后，將擴大的區(qū)域填充為紅色區(qū)域內的平均顏色。該模塊的具體過程見附錄的算法3。

算法3. 圖像邊緣膨脹模塊算法

使用上述方法進行數(shù)據(jù)增強，增強后的數(shù)據(jù)集可以提高模型在復雜場景下對印章的識別能力。圖3為“安歧-?邨”印章圖像的數(shù)據(jù)增強示例。

2.3 印章識別

如圖1右側所示，本文方法使用ViT模型來完成印章識別任務。與CNN模型不同，ViT模型使用Transformer替換卷積層提取圖像特征。由于CNN受到卷積核尺寸固定的限制，難以獲取輸入序列的全局特征。而Transformer中的自注意力機制卻能夠捕捉輸入序列所有元素之間的關系，從而獲取輸出序列的全局特征。因此，在面臨圖像遮擋（occlu‐sion）、數(shù)據(jù)分布偏移（distribution shift）、存在對抗patch（adversarial patch）和圖像分割重排列（per‐mutation）等情況下，ViT模型具有比CNN更強的魯棒性[54]。這些情況與印章被字跡覆蓋、鈐印位置材質不同導致的紋理不同、印章圖像存在污漬、印章圖像被裁剪或缺失的情況相似，因此，ViT模型對印章識別的復雜情境具有較強的適應能力。原始的印章數(shù)據(jù)難以滿足ViT模型的訓練要求，經(jīng)過數(shù)據(jù)增強的印章數(shù)據(jù)恰好解決了該問題。此外，由于Transformer具有較強的可擴展性，隨著模型參數(shù)和數(shù)據(jù)量的增長不存在性能飽和的現(xiàn)象。因此，使用ViT模型可以較好地適應后續(xù)數(shù)據(jù)集增加情況。綜上所述，基于數(shù)據(jù)增強的ViT模型可以較好地應用于印章識別任務。

使用ViT模型進行印章識別可以分為數(shù)據(jù)預處理、特征提取和印章分類三步。首先，數(shù)據(jù)預處理模塊將輸入圖像轉換為可供Transformer編碼器接受的形狀。該模塊通過將圖像大小縮放至[224,224,3] ，其中的參數(shù)分別表示圖像的高度、寬度和通道數(shù)。其次，將其分割為196個邊長為16的正方形圖像塊，在圖像塊嵌入模塊中將其從三維降至一維，使用長度為768的向量來表示每個大小為[16,16,3] 小圖像塊，此時輸入圖像的維度變?yōu)閇196,768] 。然而，在不同的印章圖像中，最重要的圖像塊位置是不固定的，無法用某一個圖像塊來代替全局特征。因此，在ViT模型的頭部位置添加[class] 標記。由于該標記本身不包含印章圖像信息，在該標記與其余196個圖像塊向量一起輸入Transformer中進行學習后，即可得到印章圖像的全局特征。同時，位置信息也是印章圖像中重要的特征，需要在模型訓練前加入位置信息，此處的位置信息是一個維度為[197,768] 的可訓練矩陣。隨后將圖像塊嵌入和位置嵌入相加，即可得到用于Transformer學習的矩陣。在特征提取步驟中，使用16層疊加的Transformer編碼器對輸入的矩陣進行學習，此時的[class] 標簽已經(jīng)包含了輸入印章圖像的全局特征信息。最后，將[class] 標簽輸入分類器進行印章分類，該分類器是一個長度為印章類別數(shù)的全連接層，使用soft‐max作為激活函數(shù)。分類器的輸出是輸入印章圖像對應每個類別的概率，輸出概率最大的類別即可得到印章的識別結果。

3 實驗結果與分析

3.1 數(shù)據(jù)集及對比方法

實驗選取了16幅著名的書法字畫，包括《蘭亭序》《祭侄文稿》《寒食帖》《伯遠帖》《韭花帖》《快雪時晴帖》《資治通鑒殘稿》《中秋帖》《仲尼夢奠帖》《上陽臺帖》《洛神賦》《松風閣帖》《蜀素帖》《自敘帖》《秾芳詩帖》和《清明上河圖》。獲取上述作品的TIFF格式高清圖像，由領域專家在其中截取并標注了1259枚印章圖像，共計529類。每一類都代表一個實體印章所鈐印出的圖像，如圖2左側印章的類別為“乾隆-五福五代堂古稀天子寶-A”。該類別也是模型的預測目標，通過模型預測可以獲取印章圖像的所有者和印章內容。印章的所有者包含古代皇室、貴族、書畫家、收藏家、官員、機構等多種類型，內容涵蓋了姓名字號、收藏、格言志趣、年號、職務等方面。數(shù)據(jù)集中的印章圖像時間跨度大且種類豐富，可用于合理評估模型的識別能力。

訓練集和測試集的構建過程如下。初始訓練集包含1259枚印章圖像，對此初始訓練集進行數(shù)據(jù)增強，利用不同的模塊生成新的印章圖像。這包括使用10個數(shù)據(jù)增強模塊（除圖像翻轉模塊外）對原始印章進行增強，每個模塊根據(jù)一枚原始的印章圖像生成10枚新的印章圖像。由于圖像翻轉模塊對印章圖像進行水平方向的翻轉，其結果具有唯一性，因此對原始印章圖像進行一次水平翻轉。總的來說，每枚印章圖像通過增強生成了101張新的圖像。經(jīng)過上述步驟，形成兩個訓練集，即原始訓練集和數(shù)據(jù)增強訓練集。為了更全面地評估本文方法在復雜情境下的印章圖像識別能力，并避免數(shù)據(jù)泄露，測試集應獨立于訓練集并盡可能覆蓋所有類別。因此，從互聯(lián)網(wǎng)上獲取獨立的印章數(shù)據(jù)作為測試集，該集合包含了模糊、不完整、亮度和對比度差異大、角度偏斜、字跡覆蓋、紋理不同以及邊緣粘連等各種情況的印章圖像。對上述數(shù)據(jù)集分別進行隨機排序，最終，初始訓練集、數(shù)據(jù)增強數(shù)據(jù)集和測試集分別包含了1259、127159和522枚印章圖像。

3.2 實驗環(huán)境及參數(shù)設置

本文使用武漢大學超級計算機中心的GPU（graphics processing unit）服務器集群作為實驗平臺，該服務器采用Intel(R) Xeon(R) E5-2640 CPU和Nvidia Tesla V100 GPU，配備了128 GB內存，操作系統(tǒng)為CentOS 7.7。實驗代碼基于python 3.8和Ten‐sorflow 2.5框架編寫。為了降低隨機誤差的影響，采用重復實驗的方法。具體地，每個實驗均重復10次，取結果的平均值作為最終實驗結果。此外，實驗采用了early stop策略來避免模型過擬合和降低實驗時間開銷。在訓練過程中，當驗證集的損失值連續(xù)3個epoch（訓練輪次）沒有降低時，停止模型的訓練并保存損失值最小的模型。該方法在保證實驗結果可靠的前提下，提高了實驗效率。為了確定最優(yōu)的模型參數(shù)組合，實驗采用網(wǎng)格搜索策略，為每個參數(shù)設置了候選值列表，通過遍歷循環(huán)的方式得到每一種參數(shù)組合的實驗結果，最終選擇效果最佳的組合作為模型的最終參數(shù)，具體的參數(shù)和取值如表2所示。

表2 模型參數(shù)設置

模型的評價指標為精確率P（precision）、召回率R（recall）和F1值。在多分類任務中，實際計算的是宏平均值（macro average）。單獨計算每個類別的P、R和F1，然后求所有類別的平均值。當計算某一類別樣本時，該類樣本為正樣本，其余樣本為負樣本。各指標定義為。

其中，n表示類別總數(shù)；TPi表示識別為第i類的樣本中，識別正確的樣本數(shù)；FPi表示負樣本被識別為正樣本的個數(shù)；FNi是正樣本被識別為負樣本的個數(shù)；P表示被正確識別為第i類的樣本數(shù)和所有被識別為第i類的樣本數(shù)的比值，即被正確識別為第i類的占比；R表示被正確識別為第i類的樣本數(shù)和實際為第i類的樣本數(shù)的比值；F1值表示P和R的等權調和平均值，綜合了P和R對模型性能的評價。

3.3 實驗結果與分析

實驗使用CNN、VGG和ResNet作為對比模型，其中CNN模型的隱藏層由三層卷積層和三層池化層交替疊加所構成，卷積層的神經(jīng)元個數(shù)分別為64、128和256，輸出層為兩層全連接層。VGG模型具有結構簡單和遷移性強的優(yōu)點，是計算機視覺領域最常用的方法之一。ResNet通過引入殘差塊的概念可以在不發(fā)生梯度消失的前提下構建更深的網(wǎng)絡結構。為了探究模型深度對印章識別結果的影響，本實驗采用了不同規(guī)模的ResNet模型，包括ResNet50、ResNet101和ResNet152。其中，VGG、ResNet和ViT模型通過加載TensorFlow Hub在Ima‐geNet數(shù)據(jù)集上進行預訓練，引入一定的先驗知識。上述實驗的結果如表3所示。

表3 數(shù)據(jù)增強對印章識別精度影響的模型性能評估

根據(jù)表3可以發(fā)現(xiàn)，所有未經(jīng)數(shù)據(jù)增強的模型都無法實現(xiàn)有效擬合。這種情況主要是因為原始數(shù)據(jù)集中印章圖像的數(shù)量不足，平均每類只有2.4張印章圖像。在這種數(shù)據(jù)稀疏的情況下，模型難以學習到不同印章之間的差異，進而導致嚴重的過擬合現(xiàn)象，無法準確識別測試集中的印章圖像。盡管VGG16、ResNet和ViT模型在ImageNet數(shù)據(jù)集上進行了預訓練，獲得了一定的先驗知識，這仍然無法幫助模型實現(xiàn)有效擬合。然而，當應用了數(shù)據(jù)增強方法后，所有的模型都能夠實現(xiàn)有效擬合，這說明在印章圖像識別任務中，數(shù)據(jù)增強方法可以有效地解決因數(shù)據(jù)稀疏所導致的過擬合問題，同時提升模型的魯棒性。

具體而言，CNN、VGG16、ResNet50、ResNet101、ResNet152和ViT模型的F1值分別提高至23.75%、64.94%、60.59%、58.57%、44.50%和72.76%。經(jīng)過數(shù)據(jù)增強后，模型需要處理更豐富且更復雜的圖像特征。由于CNN模型的結構相對簡單，難以捕獲到充足的特征用于印章識別，導致其F1值最低，相比之下，VGG16模型具有更深的網(wǎng)絡結構，包含13個卷積層和3個全連接層，因此，其特征提取能力較強，增強了印章識別能力，F(xiàn)1值比CNN模型提高了41.19個百分點。一般而言，淺層的卷積核用于學習簡單的邊緣、紋理和顏色特征，深層的卷積核則用于組合淺層特征，進而學習到針對特定任務的區(qū)分性特征。ResNet50模型具有更深的網(wǎng)絡結構，但其F1值相較于VGG16降低了4.35個百分點。其原因可能是ResNet50更深的網(wǎng)絡結構可以捕獲到更復雜的組合特征，但印章圖像的內容和顏色特征相對簡潔，過強的特征提取能力可能導致過擬合現(xiàn)象。類似地，ResNet101和ResNet152的F1值相較于VGG16分別降低了6.37和20.44個百分點。印章識別任務不僅需要考慮局部細節(jié)，還需要考慮全局特征及其排布情況。ViT模型由于其Transformer中的自注意力機制，能夠更好地捕獲每個圖像塊之間的關系，而非像卷積核那樣主要關注局部信息。因此，在經(jīng)過數(shù)據(jù)增強方法后，ViT模型可以得到更為豐富的全局特征，并且實現(xiàn)了最佳的印章識別結果。

綜上所述，數(shù)據(jù)增強方法與印章識別任務的相容性較高，能有效提升模型的性能并促進其擬合過程。然而，不同架構的模型可能產生不同的數(shù)據(jù)增強效果。對于特征提取能力較弱的模型，可能難以充分提取訓練集中的特征信息，導致識別效果較差。相反地，如果模型的特征提取能力過強，那么可能導致過度學習訓練集中的特征。由于訓練集無法完全覆蓋印章圖像可能出現(xiàn)的所有場景，過度的特征提取可能降低模型的泛化能力。在這種情況下，模型可能難以識別與訓練集有一定差異的印章圖像，而對于與訓練集相似的印章圖像則能準確識別。這導致了實驗結果中模型的召回率低于精確率。因此，對于小規(guī)模的數(shù)據(jù)集進行數(shù)據(jù)增強時，選擇具有針對性的策略以及合適的深度學習模型至關重要。

4 結語

為了降低用戶查詢和識別印章的難度并提升印章文化的推廣水平，急需一種可以快速、準確識別印章圖像內容的方法。由于印章識別任務的類別數(shù)目較多且每一類樣本數(shù)量少，直接使用深度學習模型進行訓練會導致模型識別效果欠佳。即使通過細致的調參使其勉強擬合，也難以識別處于復雜情境下的印章圖像。因此，面對上述困境通常需要更大的數(shù)據(jù)集。然而印章圖像數(shù)據(jù)本身較為稀缺，同時對標注人員本身印章知識的要求較高，導致印章識別領域缺少大規(guī)模的標注數(shù)據(jù)集。

為解決上述問題，本文提出一種基于數(shù)據(jù)增強和ViT模型的印章識別方法。通過分析印章圖像的特征，有針對性地對上述場景進行數(shù)據(jù)增強，有效提升了模型在印章識別任務中的泛化能力。同時，使用特征提取能力優(yōu)秀且擴展性較強的ViT模型作為印章識別任務的特征提取器，取得了較好的印章識別結果。因此，本文方法對印章文化的傳播具有一定應用價值，為快速、準確識別復雜情境下的印章圖像提供了新的研究思路，針對印章圖像的數(shù)據(jù)增強模式還可以為后續(xù)印章識別研究提供基礎。但本文方法缺乏語義推理能力，模型通過建立印章圖像的全局特征與標簽間的映射完成識別過程，尚無法對印章圖像進行逐字識別。在未來的工作中，需要構建具有語義推理能力的印章識別模型，通過圖像分割、文字識別、內容排序來完成對印章語義層次的理解和識別，從而識別未知印章，擴展深度學習模型在傳統(tǒng)文化領域的應用，并為傳統(tǒng)文化的普及和傳承提供技術支持。