中圖分類號(hào):TP751文獻(xiàn)標(biāo)志碼:A
A Model for Detection and Recognition of Tampered Ancient Text Images
LI Yongbo 1 , QIAN Yonggang 2 , LIU Qin 1 , MA Yuqi 1 , WU Sheng 1 , YU Xianping 1 , CHEN Shanxiong ?1,3 (1.Collge of Computer and Information Science,Southwest University,Chongqing 40O715,China;2. Information Center, ChongqigVocational CollgeofIntellgntEngineeing,Chongqing 40216O,China;3.KeyLaboratoryofEthnic Language Intellgent Analysisand SecurityGovernance,MinistryofEducation,Minzu UniversityofChina,Beijing1Ooo81,China)
Abstract:Toeffectively detectandrecognize tampered textinancientdocument images,atampering detectionand recognition model named MDAS-Net,which canbe used for the character images of ancient texts,was proposed.A fuse atention block was introduced inthe edge-supervised branch to enhance multi-scale feature extraction of imagecontent. Additionally,to improve feature integration between theedge-supervised branch and the noise-sensitive branch,acrossbranch feature transfer modulenamedE-2-N/N-2-EHelp Block wasdesigned,whichfacilitatedeffectiveinformation exchangeand yields higher-qualityfused features.To verifytheefectivenessofthemodel,adatasetofancient textimage tampering was created,and comparative experimentsandablation experimentswereconducted in combination with the Text in Tampered Images (TTI)dataset.The experimental results show that MDAS-Net achieves promising performance in tampered region detection,with an area under curve of receiver operating characteristic(AUC)of O.852 and an F1 (204 score of O.784,confirming its practical value in ancient text image tampering detection.
Keywords: image processing;feature fusion;detection of tampered image;ancient text image;deep learning
在文字圖像篡改檢測(cè)和識(shí)別任務(wù)中,模型須要通過(guò)像素級(jí)別的精確定位來(lái)區(qū)分篡改圖像和真實(shí)圖像,這意味著模型不僅要識(shí)別被篡改的區(qū)域,而且要精確地定位這些區(qū)域。如果僅考慮篡改的存在,那么篡改識(shí)別任務(wù)可以被視作圖像分類任務(wù)的簡(jiǎn)化版本,篡改檢測(cè)任務(wù)則可被視作圖像分割任務(wù)的簡(jiǎn)化版本。將現(xiàn)有的圖像分類模型和語(yǔ)義分割模型直接應(yīng)用于文字圖像篡改檢測(cè)和識(shí)別的效果并不是最佳的,因?yàn)檫@些模型通常被設(shè)計(jì)為用于捕獲圖像中的語(yǔ)義信息,使得模型對(duì)數(shù)據(jù)集的依賴性過(guò)強(qiáng),泛化能力差,因此,設(shè)計(jì)一個(gè)能夠?qū)W習(xí)篡改區(qū)域中語(yǔ)義不可知特征的模型至關(guān)重要。該模型從篡改區(qū)域中提取出特定的特征,這些特征不應(yīng)只是基于語(yǔ)義信息的簡(jiǎn)單表征,而應(yīng)該是基于像素級(jí)別的微小變化,可以用于確定被篡改的區(qū)域。現(xiàn)有篡改檢測(cè)研究大多是基于自然圖像,雖然以往的文本分析和識(shí)別研究也著重于檢測(cè)和理解文本的內(nèi)容,但對(duì)于文本篡改的真實(shí)性卻鮮有研究。
近年來(lái),人們對(duì)信息安全的擔(dān)憂與日俱增,并且隨著越來(lái)越多古籍文本的轉(zhuǎn)錄被提上日程,古籍文本圖像篡改檢測(cè)越來(lái)越受到學(xué)術(shù)界和文博界的關(guān)注。古籍文本圖像篡改檢測(cè)作為一個(gè)全新的領(lǐng)域,離不開自然圖像篡改檢測(cè)的相關(guān)方法與理論作為支撐。傳統(tǒng)的篡改檢測(cè)方法通?;谀撤N特定圖像操作所引起的圖像特征改變進(jìn)行分析,例如基于重疊塊、特征點(diǎn)、圖像屬性或設(shè)備屬性等。Rao等[1]將深度學(xué)習(xí)模型應(yīng)用于數(shù)字圖像的篡改檢測(cè),并通過(guò)特征融合技術(shù)獲得最終的用于分類的判別特征,為后續(xù)的研究奠定了基礎(chǔ)。Zhang等[2]提出一種兩階段的深度學(xué)習(xí)方法來(lái)學(xué)習(xí)特征以檢測(cè)不同類型的篡改圖像。Bappy等[3]用混合卷積神經(jīng)網(wǎng)絡(luò)(CNN)-長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模型來(lái)捕獲篡改區(qū)域與非篡改區(qū)域之間的判別特征,使得整個(gè)框架能夠檢測(cè)不同類型的圖像篡改操作。Bunk 等[4]提出一種基于重采樣特征的檢測(cè)算法,利用隨機(jī)游走分割方法定位篡改區(qū)域。Bondi等[5]根據(jù)不同相機(jī)的成像特性,提出一種圖像篡改檢測(cè)和定位的算法,通過(guò)迭代聚類的方法對(duì)特征進(jìn)行分類以檢測(cè)圖像是否被篡改,并定位篡改區(qū)域。Liu等提出一種深度融合網(wǎng)絡(luò),通過(guò)跟蹤篡改文本特征邊界來(lái)定位篡改區(qū)域,從而識(shí)別圖像塊的來(lái)源是否相同。 Wu 等[7]提出一種深度匹配和驗(yàn)證網(wǎng)絡(luò)(DMVN),將提取特征開展視覺匹配和驗(yàn)證,并對(duì)文本特征掩碼(mask)進(jìn)行融合。Chen等[8]研發(fā)一種基于相機(jī)響應(yīng)函數(shù)(CRF)分析的篡改檢測(cè)技術(shù),證明了CRF有助于區(qū)分邊緣或者偽造的拼接邊界。Bi等[9提出一種用于圖像拼接篡改檢測(cè)的環(huán)形殘差U-Net 網(wǎng)絡(luò)(RRU-Net),使未篡改區(qū)域和篡改區(qū)域的圖像屬性差異更加明顯。Ma等[10]設(shè)計(jì)一個(gè)特征金字塔的增強(qiáng)融合模塊,能夠增強(qiáng)捕捉文字細(xì)微差別的能力。
目前在圖像篡改檢測(cè)模型中最常用的深度學(xué)習(xí)方法主要分為基于噪聲視圖和基于邊緣監(jiān)督兩類,前者旨在利用篡改區(qū)域在噪聲分布方面與真實(shí)圖像之間的差異,后者則通過(guò)尋找邊界偽影作為篡改痕跡,并增加一個(gè)輔助模塊來(lái)重建篡改區(qū)域的邊界?;谠肼曇晥D的方法是將通過(guò)預(yù)定義的特征提取網(wǎng)絡(luò)生成噪聲特征視圖,并將其送人網(wǎng)絡(luò)學(xué)習(xí)或者將噪聲視圖與輸人圖像一同送人網(wǎng)絡(luò)學(xué)習(xí)。為了減少模型對(duì)語(yǔ)義信息的關(guān)注,Li等[1提出一種全卷積網(wǎng)絡(luò)(FCN),用可訓(xùn)練的高通濾波器構(gòu)建FCN的第一個(gè)卷積層,從而增強(qiáng)圖像中的篡改痕跡,并通過(guò)4個(gè)串聯(lián)的殘余神經(jīng)網(wǎng)絡(luò)ResNet塊建立特征提取模塊來(lái)學(xué)習(xí)圖像差異性。Yang等[12]提出一種粗細(xì)粒度的約束區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)兩階段模型:第1個(gè)階段是通過(guò)可學(xué)習(xí)的篡改特征提取器捕捉特征,并執(zhí)行篡改分類和邊界框的回歸;第2個(gè)階段是融合多層特征以增強(qiáng)全局的特征表示。 Hu 等[13提出一種用于檢測(cè)和定位多種篡改類型的空間金字塔注意網(wǎng)絡(luò)(SPAN),通過(guò)局部自注意模塊的引入,提高了模型的檢測(cè)效率和準(zhǔn)確性。 Wu 等[14]提出一種端到端全卷積網(wǎng)絡(luò)ManTra-Net,通過(guò)自監(jiān)督學(xué)習(xí)的方式從多種圖像篡改類型中學(xué)習(xí)特征,并將篡改定位問題當(dāng)作局部異常點(diǎn)檢測(cè)問題處理。Zhou 等[15]提出一種雙流快速R-CNN(FasterR-CNN)網(wǎng)絡(luò),分別提取外觀流和噪聲流不同特征,最終將2種空間模式特征融合在一起。
由于篡改圖像中的區(qū)域不可避免地會(huì)留下痕跡,因此基于邊界監(jiān)督的方法利用這種邊界偽影也可以提升檢測(cè)性能。Salloum等[16]提出一種多任務(wù)全卷積網(wǎng)絡(luò)(MFCN),通過(guò)2個(gè)輸出分支進(jìn)行多任務(wù)學(xué)習(xí)。Zhou等[17]提出一個(gè)新的分割框架GSR-Net,首先利用生成網(wǎng)絡(luò)來(lái)創(chuàng)建數(shù)據(jù)集,然后通過(guò)一個(gè)由邊界信息引導(dǎo)的分割和細(xì)化網(wǎng)絡(luò),關(guān)注篡改圖像的邊界偽影而不是語(yǔ)義內(nèi)容。為了兼顧模型在篡改圖像上的靈敏度和在真實(shí)圖像上的特異度,Chen等[18]提出一種基于多視角、多尺度監(jiān)督的篡改檢測(cè)模型MVSS-Net,通過(guò)聯(lián)合利用噪聲圖和邊界偽影來(lái)學(xué)習(xí)篡改檢測(cè)特征,達(dá)到SOTA模型(指檢測(cè)效果最好、識(shí)別率最高、正確率最高的算法模型)的效果,但是該模型直接使用深層特征來(lái)捕獲淺層邊緣特征并不利于分割任務(wù)的準(zhǔn)確性,原因是深層特征可能導(dǎo)致邊緣輪廓信息丟失,而直接使用淺層特征又不具備區(qū)分性。此外,該模型中采用簡(jiǎn)單的特征拼接來(lái)進(jìn)行特征融合,忽視了來(lái)自不同塊特征的重要性。
本文中改進(jìn)和優(yōu)化MVSS-Net,提出一個(gè)可用于古籍文字圖像篡改的檢測(cè)識(shí)別模型MDAS-Net。首先,針對(duì)深層特征丟失邊緣信息的問題,提出基于注意力機(jī)制的特征融合方法,使網(wǎng)絡(luò)更加關(guān)注篡改邊界的語(yǔ)義不可知特征;其次,針對(duì)通過(guò)簡(jiǎn)單拼接進(jìn)行特征融合的問題,提出一種用于不同分支間的特征交流模塊,使得網(wǎng)絡(luò)的2個(gè)分支能夠?qū)崿F(xiàn)信息共享;最后,通過(guò)全局平均池化處理融合后的特征,可以得到最終的特征向量。這些改進(jìn)和優(yōu)化都旨在提升MDAS-Net模型在文字圖像篡改區(qū)域檢測(cè)任務(wù)中的效果,并且通過(guò)消融實(shí)驗(yàn)證明該模型的有效性。
MDAS-Net模型
本文中提出的MDAS-Net模型結(jié)構(gòu)如圖1所示。模型主要包含邊緣監(jiān)督分支(edge-supervisedbranch,ESB)和噪聲敏感分支(noise-sensitivebranch,NSB)2個(gè)分支結(jié)構(gòu),均用于提取語(yǔ)義不可知特征。其中,邊緣監(jiān)督分支專門利用被篡改區(qū)域周圍的邊界偽影信息,而噪聲敏感分支則用于捕獲被篡改區(qū)域和真實(shí)區(qū)域之間的不一致性。一張RGB顏色空間圖像輸入到模型中,在邊緣監(jiān)督分支中,首先通過(guò)4個(gè)殘差卷積模塊來(lái)提取初步特征,其中每個(gè)殘差卷積模塊的特征經(jīng)過(guò)一個(gè)Sobel層和邊緣殘差模塊(Sobelamp;ERB)層后,通過(guò)提出的混合注意力模塊(fuseattentionblock)結(jié)構(gòu)漸進(jìn)式地組合在一起;在噪聲敏感分支中,首先通過(guò)一個(gè)Bayer約束卷積(BayarConv)18生成輸入圖像的噪聲圖,然后通過(guò)4個(gè)殘差卷積模塊提取噪聲圖的特征。為了使這2個(gè)分支之間的特征得到學(xué)習(xí),MDAS-Net中設(shè)計(jì)一個(gè)新的模塊,即特征傳遞模塊E-2-N/N-2-EHelpBlock,在邊緣監(jiān)督分支和噪聲敏感分支之間相同尺寸的殘差卷積模塊中相互傳遞信息,促進(jìn)特征之間的相互交流,從而生成最終的像素級(jí)預(yù)測(cè)結(jié)果。

本文的研究目標(biāo)可形式化為:給定一個(gè)寬度為W? 高度為 H? 通道數(shù)為3的 RGB 顏色空間圖像,通過(guò)建立深度神經(jīng)網(wǎng)絡(luò) P ,經(jīng)過(guò)反向傳播訓(xùn)練后,使得檢測(cè)模型不僅能檢測(cè)到圖像是否被篡改,而且可以定位到被篡改的像素。用 P(x) 表示網(wǎng)絡(luò)預(yù)測(cè)到的圖像是否被篡改的概率,用 P(xi) 表示網(wǎng)絡(luò)預(yù)測(cè)到的每個(gè)像素是否被篡改的概率,其中 i=1,2,…,W× H ,因此全局分割掩碼可表示為 {P(xi)} 。由于圖像級(jí)別的預(yù)測(cè)概率會(huì)受到像素級(jí)別概率的影響,因此在全局分割掩碼上通過(guò)全局最大池化(globalmax-pooling,GMP)獲得 P(x) ,即
P(x)GMP({P(xi)}i=0i=W×H)?q
1. 1 改進(jìn)的邊界監(jiān)督機(jī)制
不同于使用傳統(tǒng)模型中使用ResNet作為主干網(wǎng)絡(luò),為了充分利用不同尺度的特征,MDAS-Net模型改進(jìn)ResNet-18的結(jié)構(gòu),設(shè)計(jì)一個(gè)基于空洞卷積的多尺度特征提取模塊,其結(jié)構(gòu)如圖2所示。3個(gè)具有不同步長(zhǎng)的空洞卷積分支的作用是最大程度地提升特征更新的感受野,提取到的多尺度特征可記作
Xnew=FC(Conv(X))+X,
式中: X 為模塊的輸入特征圖; Xnew 為輸出特征圖;Conv(X) 表示對(duì) X 進(jìn)行多尺度空洞卷積并通道級(jí)連接操作;FC(·)表示全連接操作。

為了使模型更關(guān)注于被篡改的區(qū)域,MDAS-Net在邊緣監(jiān)督分支中采用類似于MVSS-Net模型的方法,通過(guò)邊界監(jiān)督來(lái)引導(dǎo)模型將注意力集中在被篡改的區(qū)域上,但是,MVSS-Net模型中通過(guò)直接使用網(wǎng)絡(luò)的最后一層特征,即用最后一個(gè)ResNet提取到的特征對(duì)邊界進(jìn)行監(jiān)督,導(dǎo)致邊界信息丟失,如圖3中(a)所示。為了解決這一問題,本文中設(shè)計(jì)一個(gè)混合注意力模塊,如圖3中(b)所示,通過(guò)引入注意力機(jī)制,聯(lián)合使用淺層和深層的特征來(lái)提高檢測(cè)和識(shí)別的準(zhǔn)確率,同時(shí)通過(guò)聯(lián)合特征來(lái)監(jiān)督損失函數(shù)的學(xué)習(xí)。
作為一種全新的特征融合方式,混合注意力模塊可以將來(lái)自不同層次結(jié)構(gòu)的特征漸進(jìn)式地組合在一起,從而生成最終的特征表示?;旌献⒁饬K的結(jié)構(gòu)如圖4所示。


為了進(jìn)一步增強(qiáng)模型對(duì)圖像中邊界的感知能力和對(duì)局部特征的提取能力,MDAS-Net模型中的邊緣監(jiān)督分支除了使用多尺度特征提取模塊組外,還采用了與MVSS-Net模型相同的Sobelamp;ERB結(jié)構(gòu),將來(lái)自相鄰模塊的特征通過(guò)注意力模塊組合,組合后的特征再通過(guò)一個(gè)邊緣殘差模塊(ERB)后,與下一模塊的對(duì)應(yīng)特征采用加權(quán)求和的方式漸進(jìn)地組合在一起。Sobel層和ERB模塊的結(jié)構(gòu)如圖5所示,計(jì)算過(guò)程如式(3)所示,其中 Xi 為多尺度特征模塊提取到的特征, Xsobel 為Sobel層的輸出特征,XERB 為ERB模塊的輸出特征, BN(?) 表示批次歸一化操作, L2(?) 為 L2 范數(shù)。


混合注意力模塊中的注意力模塊與傳統(tǒng)的注意力機(jī)制不同,它可以同時(shí)考慮空間和通道維度的重要性,從而更好地提取和組合特征。注意力模塊的結(jié)構(gòu)如圖6所示??臻g注意力和通道注意力共同作用于特征圖中的每個(gè)像素,以確定每個(gè)像素在特征圖的重要性,然后將重要性權(quán)重應(yīng)用于特征圖的每個(gè)通道上,從而生成融合的特征圖。這種融合方式生成的特征既具有代表性又具有魯棒性,能夠顯著提高模型的精度。注意力模塊的計(jì)算過(guò)程如式(4)所示。

Sobelamp;ERB—Sobel層和邊緣殘差模塊;Q、K、V—特征向量矩陣。

式中: Z 為注意力模塊的輸出;
和 V 為來(lái)自不同的多尺度特征提取模塊的特征向量矩陣; dq 為縮放因子。
這些特征將被用于計(jì)算注意力范式,以便更好地結(jié)合多個(gè)特征。為了防止過(guò)度的累積效應(yīng),須要在組合后的特征進(jìn)入下一輪特征組合之前用另一個(gè)ERB模塊處理。這種機(jī)制類似于MVSS-Net模型,可以有效地防止邊緣頭信息被過(guò)度監(jiān)督或完全忽略深層特征的情況發(fā)生,同時(shí)確保模型能夠更準(zhǔn)確地學(xué)習(xí)到不同尺度的特征,從而提高模型的整體性能。
最終,邊緣監(jiān)督分支有2個(gè)輸出:一是來(lái)自最后一個(gè)殘差卷積模塊多尺度特征提取模塊的用于主任務(wù)的特征圖,可表示為 {fesh,1,fesh,2,…,fesh,k} ;二是預(yù)測(cè)的篡改邊界圖,可表示為 {fedge(xi)} 。整個(gè)邊緣監(jiān)督分支的數(shù)據(jù)流可表示為

其中 MD(x) 表示對(duì)特征 x 進(jìn)行殘差卷積操作。
1. 2 改進(jìn)的噪聲敏感分支
為了充分利用噪聲圖,本文中建立一個(gè)與邊界監(jiān)督分支平行的噪聲敏感分支,使用多尺度特征提取模塊作為基礎(chǔ)模塊以擴(kuò)大網(wǎng)絡(luò)感受野,并在分支頭通過(guò)BayarConv來(lái)生成原始圖像的噪聲視圖。
1.3 改進(jìn)的融合分支
為了在邊緣監(jiān)督分支和噪聲敏感分支之間實(shí)現(xiàn)信息共享,本文中在MDAS-Net模型中設(shè)計(jì)一個(gè)可用于信息傳遞的特征傳遞模塊,這種模塊只作用在相同層級(jí)的多尺度特征提取模塊中(如邊緣監(jiān)督分支和噪聲敏感分支的的殘差卷積模塊2之間)。同時(shí)為了減少網(wǎng)絡(luò)的復(fù)雜度,特征傳遞模塊采用與ERB相同的結(jié)構(gòu)實(shí)現(xiàn),該結(jié)構(gòu)能夠有效地傳遞不同分支特征之間的信息,從而提高模型的性能。
此外,在2個(gè)分支末端進(jìn)行特征融合時(shí),MDAS Net模型采用可訓(xùn)練的雙重注意力(DA)模塊。DA模塊具有2個(gè)平行工作的注意機(jī)制,即通道注意力(CA)和位置注意力(PA),如圖7所示。其中,通道注意力用于選擇性地強(qiáng)調(diào)相互依賴的通道特征圖,位置注意力則對(duì)所有位置的特征進(jìn)行加權(quán)求和,從而選擇性地更新每個(gè)位置的特征。這種融合方式可以在不同分支之間有效地共享信息,從而提高模型的性能和泛化能力。

將通道注意力和位置注意力的輸出相加,并通過(guò) 1×1 卷積轉(zhuǎn)化為大小為 (W/16)×(H/16) 的特征圖,記作 {P′(xi)} 。模型通過(guò)一個(gè)沒有參數(shù)的雙線性上采樣,再通過(guò)一個(gè)逐元素的Sigmoid函數(shù),{P′(xi)} 被轉(zhuǎn)化為最終的分割圖,雙重注意的融合可表示為

式中: fesb?fnsb 分別為從邊緣監(jiān)督分支和噪聲敏感分支中提取的特征; σ(?) 為Sigmoid激活函數(shù);Up(?) 為對(duì)特征進(jìn)行上采樣操作。
1.4 損失函數(shù)
MDAS-Net模型采用像素級(jí)、邊緣級(jí)和圖像級(jí)的損失函數(shù)來(lái)更好地學(xué)習(xí)語(yǔ)義不可知特征,其中基于像素尺度的損失用于提高模型對(duì)像素級(jí)篡改檢測(cè)的敏感性,基于邊界尺度的損失用于學(xué)習(xí)語(yǔ)義不可知特征,基于圖像尺度的損失用于改進(jìn)模型對(duì)圖像級(jí)篡改檢測(cè)的特性。
1)像素?fù)p失。由于在給定圖像中被篡改的像素通常為少數(shù),因此使用可以從極不平衡的數(shù)據(jù)中有效學(xué)習(xí)的Dice損失,其中 yi∈{0,1} 是一個(gè)二分類標(biāo)簽,用于表示第 i 個(gè)像素是否被篡改

式中: Lseg(x) 為像素?fù)p失; G(xi) 1 yi 分別為像素 i 的二分類預(yù)測(cè)概率和標(biāo)簽值。
2)邊緣損失。由于邊緣像素被非邊緣像素所包圍,即邊緣像素在給定圖像中也為少數(shù),因此再次使用Dice損失檢測(cè)篡改邊緣,記作 Ledge 。由于篡改邊緣檢測(cè)是一項(xiàng)輔助任務(wù),因此不在完整尺寸 W×H 上計(jì)算 Ledge ,而是在更小尺寸 (W/4)×(H/4) 上計(jì)算損失,從而在降低訓(xùn)練成本的同時(shí)提高模型的性能。
3)圖像尺度損失。為了減少誤報(bào),在訓(xùn)練階段必須考慮到真實(shí)圖像的情形,然而,之前的篡改檢測(cè)方法大多依賴于分割損失。例如,對(duì)于一個(gè)真實(shí)的圖像而言,在使用二分類交叉熵(BCE)損失時(shí),如果有一小部分像素被錯(cuò)誤分類,那么對(duì)BCE損失的貢獻(xiàn)是微乎其微的,導(dǎo)致模型難以有效地減少誤報(bào)。此外,由Dice損失的定義可知,它不能處理真實(shí)圖像,因此本文采用基于圖像尺度的BCE損失。

式中: Lclf(x) 為圖像尺度損失; y 為二分類標(biāo)簽0或1; G(x) 為模型對(duì)輸入圖像 x 的圖像級(jí)別預(yù)測(cè)概率,即整張圖像被篡改的概率。
4)總損失函數(shù)。最終的損失函數(shù)由上述3種損失的加權(quán)求和得到,
LT=αLseg+βLelf+(1-α-β)Ledge,
其中 α , β∈(0,1) 為權(quán)重,需要注意的是,真實(shí)圖像只用于計(jì)算 Lclf 。
2 實(shí)驗(yàn)與結(jié)果分析
2.1 數(shù)據(jù)集
古籍圖像的珍貴和特殊性導(dǎo)致目前沒有可支撐研究的古籍圖像篡改數(shù)據(jù)集。為了解決這一問題,本文中從蘇軾書法作品數(shù)據(jù)集中選取100張邊緣完整、背景清晰的古籍圖像作為實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)集。為了模擬實(shí)際應(yīng)用場(chǎng)景中的篡改情況,通過(guò)Photo-shop軟件,對(duì)其中的80張圖像進(jìn)行篡改處理,每張圖像隨機(jī)篡改2\~5處字符或者印章,并在篡改過(guò)程中力求保持圖像的真實(shí)性和可信度,如圖8所示。采用這種方式,得到一個(gè)包含100張古籍圖像的篡改數(shù)據(jù)集,其中80張圖像經(jīng)過(guò)篡改處理,20張圖像作為對(duì)照組,無(wú)任何篡改。每張篡改圖像都有相應(yīng)的掩碼,掩碼中分辨率與原始圖像一致,像素值為0(黑色)表示該像素被標(biāo)記為未篡改,像素值為255(白色)表示該像素被標(biāo)記為已篡改。每個(gè)掩碼的形狀都是根據(jù)像素被編輯的標(biāo)準(zhǔn)來(lái)定義的,即:如果被篡改的文本區(qū)域是不規(guī)則的,那么掩碼的形狀也是不規(guī)則的;如果一個(gè)文本與其周圍的背景一起被篡改,那么周圍的背景和文本都將被注釋為被篡改的像素

此外,為了更好地探究古籍圖像篡改的問題,本文中引入阿里巴巴公司制作的圖像文本(TTI)數(shù)據(jù)集作為擴(kuò)充,構(gòu)建更加全面、豐富的實(shí)驗(yàn)數(shù)據(jù)集。TTI數(shù)據(jù)集中包含19000張圖像,其中15994張圖像為被篡改的圖像(包括5999張人工篡改圖像和9995張自動(dòng)生成的篡改圖像)。由于生活中大多數(shù)都是真實(shí)的文本圖像,因此為了評(píng)估模型在真實(shí)圖像上的誤判情況,數(shù)據(jù)集還選取了3006張未經(jīng)過(guò)任何處理的圖像。將TTI數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集包含4000張篡改圖像和4285張真實(shí)圖像。
2.2 評(píng)價(jià)指標(biāo)
F1 值為準(zhǔn)確率和回歸率的調(diào)和平均值,

式中 P,R 分別為準(zhǔn)確率、回歸率。

式中: NTP 為篡改像素被判斷正確的數(shù)量; NFP 為原始像素被判斷錯(cuò)誤的數(shù)量; NFN 為篡改像素被判斷錯(cuò)誤的數(shù)量。
受試者工作特性曲線下的面積(AUC)是評(píng)價(jià)分類模型性能優(yōu)劣的一個(gè)重要指標(biāo),取值為 0.5~ 1.0,數(shù)值越大則模型的分類性能越好,區(qū)分正負(fù)樣本的準(zhǔn)確度越高。針對(duì)圖像篡改檢測(cè)任務(wù)中正樣本(篡改區(qū)域)通常比負(fù)樣本(未篡改區(qū)域)少得多導(dǎo)致類別不平衡問題,AUC作為一個(gè)綜合指標(biāo),不受類別不平衡的影響,能夠客觀地評(píng)價(jià)檢測(cè)方法的性能
2.3 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)采用深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn),并在NVIDIA2070圖像處理器(GPU)進(jìn)行訓(xùn)練,輸入圖像的尺寸為512像素 ×512 像素。模型的2個(gè)分支結(jié)構(gòu)ESB和NSB中使用的多尺度特征提取網(wǎng)絡(luò),通過(guò)圖像數(shù)據(jù)集ImageNet預(yù)訓(xùn)練初始化。訓(xùn)練過(guò)程中使用Adam優(yōu)化器,學(xué)習(xí)率周期性地從 10-4 衰減到 10-7 。聯(lián)合損失函數(shù)中的將2個(gè)權(quán)重設(shè)置為 α=0.16和 β=0. 04 。此外,在訓(xùn)練過(guò)程中還采用了數(shù)據(jù)增強(qiáng)策略,包括模糊、對(duì)比度增強(qiáng)等。
2.4 實(shí)驗(yàn)結(jié)果和分析
2.4.1 MDAS-Net模型對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文中提出的MDAS-Net模型的有效性,首先采用廣泛認(rèn)可的CASIAv1基準(zhǔn)數(shù)據(jù)集進(jìn)行檢測(cè)實(shí)驗(yàn)。為了降低檢測(cè)難度,本文中僅比較文本圖片是否被篡改的圖像級(jí)別,即在分割損失后采取了與MVSS-Net模型一致的分類損失處理,并輸出概率。為了驗(yàn)證模塊的有效性,本文只使用了單個(gè)模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明,在MVSS-Net模型中加入本文所提出的模塊后,AUC和 F1 指標(biāo)均得到一定的提升,表明所設(shè)計(jì)的模塊是有效的。此外,將MDAS-Net模型與其他2個(gè)篡改檢測(cè)模型在融合數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)

注: ①AUC 為受試者工作特性曲線下的面積。 ②F1 值為準(zhǔn)確率和回歸率的調(diào)和平均值。 ③ MDAS-Net為本文中提出的古籍文字圖像篡改的檢測(cè)識(shí)別模型。
結(jié)果如表2所示。從表中可以看出,MDAS-Net模型的AUC指標(biāo)提升了0.019,證明了MDAS-Net模型在篡改檢測(cè)任務(wù)中的有效性。

注: ①AUC 為受試者工作特性曲線下的面積。 ②MDAS-Net 為本文中提出的古籍文字圖像篡改的檢測(cè)識(shí)別模型。
2.4.2 不同模塊的消融實(shí)驗(yàn)
本文中提出的MDAS-Net模型改進(jìn)點(diǎn)主要有以下3個(gè):一是基于ResNet-18改進(jìn)的多尺度特征提取模塊;二是在邊界監(jiān)督分支中提出混合注意力模塊的特征融合方式;三是在邊界監(jiān)督分支和噪聲敏感分支通過(guò)特征傳遞模塊進(jìn)行特征交流。為了驗(yàn)證各模塊的有效性,本文中在融合數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn),結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明,獨(dú)立使用3個(gè)模塊可使模型的AUC指標(biāo)分別提升0.001、0.004和0.003,但是,當(dāng)3個(gè)模塊經(jīng)過(guò)聯(lián)合訓(xùn)練后,模型的AUC、 F1 值分別提升了0.020和0.019,充分證明了聯(lián)合使用淺層和深層特征方法在提高模型檢測(cè)性能方面的有效性。此外,注意力機(jī)制與分支間的特征交流對(duì)于模型的檢測(cè)性能確實(shí)有益,進(jìn)一步證明了聯(lián)合使用混合注意力、特征傳遞模塊的有效性。

2.4.3 不同主干網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)
在MDAS-Net模型中,邊界監(jiān)督分支和噪聲敏感分支均使用基于ResNet-18改進(jìn)的多尺度特征提取的殘差卷積模塊,因此本文中采用不同的主干網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn),結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果表明,采用更深層的主干網(wǎng)絡(luò)對(duì)于模型檢測(cè)性能有明顯提升,并且能夠幫助模型更好地處理輸入圖像中的特征尺度變化和視角變化等問題,因?yàn)樗鼈兙哂懈鼜?qiáng)的表示能力和更大的感受野,能夠更好地捕捉輸入圖像中的局部和全局上下文信息,并從中提取更豐富的特征,提高模型的檢測(cè)性能。

2.4.4多尺度殘差卷積模塊的消融
為了探究不同數(shù)量的多尺度殘差卷積模塊對(duì)MDAS-Net模型性能的影響,因此對(duì)模塊數(shù)量進(jìn)行消融實(shí)驗(yàn),結(jié)果如表5所示。實(shí)驗(yàn)結(jié)果表明,當(dāng)殘差卷積模塊的數(shù)量為4時(shí),MDAS-Net模型性能最佳;但是,隨著多尺度殘差卷積模塊數(shù)量的增加,模型的復(fù)雜度也隨之增加,因此導(dǎo)致檢測(cè)性能略有下降。
2.5 可視化分析
MDAS-Net模型在融合數(shù)據(jù)集的圖像篡改檢測(cè)實(shí)驗(yàn)結(jié)果如圖9所示。由圖可見,MDAS-Net模型將篡改的古籍文字區(qū)域(掩碼區(qū)域)都有效地檢測(cè)出來(lái),相比之下,MVSS-Net模型對(duì)篡改區(qū)域的檢測(cè)效果稍差,表明MDAS-Net模型具有較強(qiáng)的泛化性,能夠應(yīng)用于不同類型的圖像數(shù)據(jù)集,并在各種實(shí)際場(chǎng)景中具有出色的檢測(cè)識(shí)別效果。


3 結(jié)語(yǔ)
本文中在自然圖像篡改檢測(cè)模型MVSS-Net的基礎(chǔ)上,設(shè)計(jì)了一個(gè)可用于古籍圖像文字篡改的檢測(cè)識(shí)別模型MDAS-Net,針對(duì)邊緣監(jiān)督分支和噪聲敏感分支提出了兩方面改進(jìn),除了改進(jìn)主干網(wǎng)絡(luò)外,在邊緣監(jiān)督分支中,還設(shè)計(jì)一個(gè)全新的特征融合方式混合注意力模塊。針對(duì)2個(gè)分支的特征融合,設(shè)計(jì)特征傳遞模塊用于增強(qiáng)特征之間的信息交流。通過(guò)對(duì)比和消融實(shí)驗(yàn)證明了MDAS-Net模型在古籍文字篡改檢測(cè)任務(wù)中的有效性。該研究成果對(duì)古籍文字圖像篡改檢測(cè)和識(shí)別提供了新的解決方案,為該領(lǐng)域的實(shí)際應(yīng)用提供了有價(jià)值的參考。
參考文獻(xiàn):
[1] RAO Y,NI J Q.A deep learning approach to detection of splicing and copy-move forgeriesin images[C]//2016 IEEE International WorkshoponInformationForensicsandSecurity(WIFS),December4-7,2016,AbuDhabi,UAE.NewYork:IEEE,2016:1-6.
[2] ZHANGY,GOHJ,WINLL,etal. Image region forgery detection:a deep learning approach[C]//MATHURA,ROY-CHOUDHURYA. Proceedings of the Singapore Cyber-Security Conference (SG-CRC)2016.Amsterdam:IOS Press,2016:1-11.
[3] BAPPY JH,ROY-CHOWDHURY AK,BUNKJ, et al. Exploiting spatial structure for localizing manipulated image regions [C]/? 2017IEEE Iternational Conference on Computer Vision(ICCV), October 22-29,2017,Venice,Italy.New York:1EEE,201/: 4980-4989.
[4]BUNK J,BAPPY JH,MOHAMMED T M, et al. Detection and localization of image using resampling features and deep learning [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPR),July 21-26,2017. Honolulu, HI,USA.New York:IEEE,2017:1881-1889.
[5]BONDI L,LAMERI S,GUERA D,et al. Tampering detection and localization through clustering of camera-based CNN features [C]/2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPR).July 21-26,2017.Honolulu, HI,USA.New York:IEEE,2017:1855-1864.
[6]LIU B,PUN C M. Deep fusion network for splicing forgery localization[C]//LEAL-TAIXE L,ROTH S. Computer Vision-ECCV 2018 Workshops. Cham: Springer Cham,2018:237-251.
[7]WU Y,ABD-ALMAGEED W,NATARAJAN P. Deep matching and validation network :an end-to-end solution to constrained image splicing localization and detection[C]//MM’17:Proceedings of the 25th ACMInternational Conference on Multimedia,October 23- 27,2017,MountainView,California,USA.New York:ACM, 2017:1480-1502.
[8] CHEN C,McCLOSKEY S,YU J. Image splicing detection via camera response function analysis[C]//2O17 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPR), July 21-26,2017.Honolulu,HI,USA.New York:IEEE,2017: 1876-1885.
[9] BIXL,WEIY,XIAOB,etal.RRU-Net:theringed residual U-Net for image splicing forgery detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,June 16-17,2019,Long Beach,CA,USA.New York: IEEE,2019:30-39.
[10]MA Y Q,CHEN S X,LI YB,et al. STEF: a swin transformerbased enhanced feature pyramid fusion model for Dongba character detection[J].Heritage Science,2024,12:206.
[11]LI H D,HUANG J W. Localization of deep inpainting using high-pass fully convolutional network[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV), October 27- November2,2019,Seoul,Republic of Korea.New York: IEEE, 2019:8300-8309.
[12] YANG C, LI HZ,LIN FT,et al. Constrained R-CNN: a general image manipulation detection model[ C]//2O20 IEEE International Conference on Multimedia and Expo(ICME 2020 London),July 6-10,2020,London,UK.New York:IEEE,2020:1-6.
[13] HU X F, ZHANG Z H, JIANG Z Y, et al. SPAN: spatial pyramid attention network for image manipulation localization[C]// Computer Vision-ECCV 2020: 16th European Conference,August 23-28,2020,Glasgow,UK. Cham:Springer,2020:312-328.
[14]WU Y,ABD-ALMAGEED W,NATARAJAN P. ManTra-Net: anipulation tracing network for detection and localization of image forgeries with anomalous features[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),June 15-20,2019,Long Beach,CA,USA.New York:IEEE, 2019: 9535-9544.
[15]ZHOU P,HAN X T,MORARIU V I,et al. Learning rich features for image manipulation detection[C]//2O18 IEEE/CVF Conference on Computer Vision and Pattern Recognition,June 18- 23,2018,Salt Lake City,UT,USA. New York:IEEE,2018: 1053-1061.
[16] SALLOUM R,REN Y Z,KUO C C J. Image splicing localization using a multi-task fully convolutional network (MFCN)[J]. Journal of Visual Communication and Image Representation,2018, 51:201-209.
[17] ZHOU P,CHEN B C,HAN X T,et al. Generate,segment, and refine: towards generic manipulation segmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence:Vol. 34,No.7:AAAI-2O Technical Tracks 7. Palo Alto:AAAI Press,2020:13058-13065.
[18] CHENXR,DONG C B,JI JQ,et al. Image manipulation detection by multi-view multi-scale supervision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV),October 10-17,2021,Montreal,QC,Canada.NewYork: IEEE,2021:14165-14173.
(責(zé)任編輯:劉飚)