










摘" 要: 傳統的篡改方法如拷貝粘貼和拼接已演變為利用深度學習生成的高質量偽造圖像,這些篡改技術在圖像紋理和細節上留下難以察覺的痕跡,如高頻噪聲模式的異常、顏色分布的微妙變化,以及邊緣區域的不自然過渡。這些痕跡分布在不同分辨率層次和空間位置,增加了檢測的難度。現有模型在整合多尺度和多位置特征時存在不足,難以有效捕捉局部細微紋理變化。針對這一問題,文中提出一種基于多分支HRNet的圖像篡改檢測與定位模型。該模型通過集成紋理增強模塊,增強對圖像篡改細節特征的捕獲能力。同時,結合Spatial Weighting與Cross Resolution Weighting策略優化特征融合,并使用新的損失函數W_Arcloss,顯著提升了模型在復雜篡改檢測任務中的性能。在CASIA、Columbia、COVERAGE和NIST16等數據集上,該模型的檢測準確度相較于PSCC?Net、HIFI?Net模型分別平均提升了6.5%與0.8%,并且泛化能力得到提升。這些結果證明了模型在處理多種篡改類型時的有效性和魯棒性,為圖像篡改檢測與定位領域提供了新的研究視角和技術手段。
關鍵詞: 圖像篡改檢測; 深度學習; 多分支HRNet; 紋理增強模塊; Spatial Weighting; Cross Resolution Weighting; W_Arcloss
中圖分類號: TN911.73?34; TP391.41" " " " nbsp; " " " 文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)03?0035?08
Image tampering detection and localization model based on multi?branch HRNet
ZENG Zhen1, 2, TAN Ping1
(1. School of Information, Guizhou University of Finance and Economics, Guiyang 550025, China; 2. Big Data Institute, Wuhan University, Wuhan 430000, China)
Abstract: Traditional tampering methods such as the copy and paste and the stitching have evolved into high?quality forged images generated by deep learning. These tampering technologies leave imperceptible marks on the textures and details of the image, such as anomalies in high?frequency noise patterns, subtle changes in color distribution, and unnatural transitions in edge regions. These traces are distributed at different levels of resolution and spatial positions, which increases the difficulty of detection. The existing models have shortcomings in integrating multi?scale and multi?position features, which makes it difficult to capture local subtle texture changes effectively. In view of the above, this study proposes an image tamper detection and localization model based on multi?branch HRNet (high?resolution net). This model enhances the ability to capture the image tampering details by integrating a texture enhancement module. In addition, the feature fusion is optimized by combining the strategies of Spatial Weighting and Cross Resolution Weighting, and a new loss function W_Arcloss is adopted, which significantly improves the model performance in complex tasks of tamper detection. On datasets such as CASIA, Columbia, COVERAGE and NIST16, the detection accuracy of this model has improved by an average of 6.5% and 0.8% in comparison with the PSCC?Net and HIFI?Net models, respectively, and its generalization ability has been improved. These results demonstrate the effectiveness and robustness of the model in processing multiple types of tampering, which provides a new perspective of research and technical means for the field of image tampering detection and localization.
Keywords: image tampering detection; deep learning; multi?branch HRNet; texture enhancement module; Spatial Weighting; Cross Resolution Weighting; W_Arcloss
0" 引" 言
在數字化時代,圖像篡改技術快速發展,對圖像真實性構成挑戰。社交媒體虛假信息[1]和操縱圖像造成公共秩序混亂[2]等問題引起關注。因此,開發高效、準確的圖像篡改檢測技術成為計算機視覺領域的重要課題。
傳統圖像篡改包括復制移動[3]、拼接[4]和移除[5]等。近年來,基于深度學習的DeepFake[6?7]和GAN[8]等技術生成的虛假圖像更難檢測。篡改方式多樣,但現有檢測方法通常只適用于特定類型的篡改。
針對深度學習偽造圖像(如DeepFake和GAN),出現了一些檢測方法。文獻[9]提出ManTra?Net,一個全卷積網絡提取操縱特征和捕捉異常,但未充分利用圖像塊間的空間關系。另外,文獻[10]提出了SPAN(Spatial Pyramid Attention Network),通過空間金字塔注意力模塊建立多尺度的像素級空間關系,雖然嘗試利用空間信息,但其注意力機制仍基于單個像素,未能很好地捕捉像素之間的相關性。文獻[11]提出了PSCC?Net,利用密集交叉連接融合不同尺度特征,從粗到細生成操縱掩碼預測,展現出不錯的魯棒性,但該方法使用標準卷積操作,難以建模長范圍上下文依賴。文獻[12]則引入Transformer的自注意力機制,提出ObjectFormer,雖性能不錯,但在無明顯對象結構的篡改檢測中可能受影響,難以深挖篡改屬性和建立偽造像素的空間聯系。文獻[13]則提出HiFi?Net,從層次化細粒度分類出發,雖檢測效果不錯,但在淺層篡改細節捕捉和不同分辨率圖像的權重處理上存在不足。
綜上所述,近年來深度學習篡改檢測方法雖有進展,但存在問題,如模型多針對單一篡改方式,難以應對實際場景;難以捕捉深度偽造圖像的深層次痕跡;多數模型未能有效建模圖像空間位置相關性,限制了檢測能力。鑒于此,本文提出基于多分支HRNet的圖像篡改檢測與定位模型,具有以下三個創新點。
1) 提出了DuaTex_Extractor特征抽取器,通過圖像頻率域和顏色域抽取特征,并通過紋理增強模塊提升對紋理的感知,增強對細微篡改特征的捕捉,提高復雜場景的檢測精度。
2) 設計了HRWFuse?Net,在傳統HRNet[14]結構上融合Spatial Weighting與Cross Resolution Weighting策略,通過加權融合不同分辨率下的特征以及空間位置信息,用于捕獲空間和通道相關性,提升對篡改區域的定位精確性。
3) 提出W_Arcloss優化損失函數,使模型在訓練過程中更加注重區分篡改區域與真實區域之間的差異,進一步提高識別篡改圖像的準確率。
本文在CASIA、Columbia、COVERAGE和NIST16等多個公認的數據集上進行了廣泛的實驗,實驗結果表明,與現有的基線模型相比,本文模型在[F1]分數和AUC值上分別提高了0.8%和0.1%。這些成果不僅證明了模型在處理多種篡改類型時的有效性和魯棒性,而且為圖像篡改檢測與定位領域提供了一種新的解決方案。
1" 基于多分支HRNet的圖像篡改檢測與定位模型
本文任務是檢測可疑圖像是否被篡改,并定位篡改區域。采用的多分支HRNet模型由DuaTex_Extractor、HRWFuse?Net網絡、定位模塊和分類模塊構成,具體結構如圖1所示。
設輸入圖像的尺寸為[H×W×C],[H]、[W]、[C]分別表示輸入圖像的長、寬和通道數。輸入圖像首先通過DuaTex_Extractor在頻域和顏色域提取特征,提取后的特征各自經紋理增強模塊(Texture Enhancement Module)進行紋理增強,使得模型能更準確地識別和理解圖像的篡改細節特性,而后進行特征融合,融合后的特征輸入HRWFuse?Net網絡。定位模塊通過直接依賴于HRWFuse?Net最高分辨率分支(即[L4])的特征輸出生成二元掩碼[M],二元掩碼(Binary Mask)[M]與輸入圖像疊加得到掩碼圖像[Xmask],通過兩層PConv后進入分類模塊得到分類結果。
1.1" DuaTex_Extractor
針對現有模型難以捕捉深層次偽造痕跡和建模圖像空間相關性的問題,本文提出DuaTex_Extractor特征提取器。該提取器從頻域和顏色域捕捉分析篡改痕跡。該設計參考了文獻[15],利用圖像生成偽影可存在于RGB和頻域的特點。篡改會在圖像邊緣留下不連續痕跡,本文采用高斯拉普拉斯(Laplacian of Gaussian, LoG)[16]濾波器增強邊緣,捕捉偽造細節,專注分析異常高頻模式或噪聲,有效檢測先進模型產生的篡改。
顏色域分支深入挖掘圖像的顏色信息,包括色彩分布、飽和度變化等,這對于識別那些通過色彩調整進行掩飾的篡改區域至關重要。
此外,頻域和顏色域分支抽取的特征會各自進入紋理增強模塊。
圖2是紋理增強模塊的結構圖。紋理增強模塊旨在提升模型對篡改區域細節特征的敏感度,特別是偽造紋理細節。模塊采用注意力機制使模型聚焦潛在篡改區域,自動檢測并強調異常紋理特征。訓練時重點關注這些區域,提高定位和識別篡改的準確性。
首先用3×3卷積層提取基本特征,然后1×1卷積核產生注意力圖,以識別和強調可能篡改的區域。而后注意力圖作為加權因子與原特征圖相乘,使模型專注于可能含篡改痕跡的區域。接著,模塊引入5×5卷積核的紋理增強層(Conv0)廣泛捕捉上下文,識別異常紋理。之后,特征通過3×3卷積層(Conv1、Conv2、Conv3)增強,每層后接批量歸一化和ReLU激活。在這個過程中,每個紋理增強層輸出既進入下一層,也與之前層輸出融合,確保網絡深入時考慮更多紋理信息。例如,feature_maps1是feature_maps0和Conv1輸出的融合,同樣,feature_maps2和feature_maps3也是累積結果。最終的1×1卷積層整合所有特征,提供全面的篡改特征表示。
紋理增強模塊結合頻域和顏色域特征,通過注意力機制提高對篡改區域的識別敏感度。頻域分支的LoG濾波器捕捉高頻變化,如邊緣不連續,與注意力加權特征結合,精確描繪篡改輪廓。顏色域分支分析色彩分布和飽和度變化,識別顏色調整異常,紋理增強后,顏色域信息強化,尤其在篡改區域紋理細節上,揭示掩飾的篡改行為。
1.2" HRWFuse?Net
為了在細粒度層次上檢測偽造屬性,設計了HRWFuse?Net,以HRNet作為基礎框架,因其在保持高分辨率特征的同時,通過多分辨率并行結構提取豐富的上下文信息,對精確定位篡改區域至關重要。HRNet內部并行處理不同分辨率信息,確保特征豐富連貫,使模型同時觀察細節和整體,在細粒度層次檢測偽造特征。
然后通過Spatial Weighting和Cross Resolution Weighting兩種策略對特征進行加權。
Spatial Weighting側重于強化每個通道內的關鍵特征,關注局部區域的精確性。如式(1)所示,通過全局平均池化捕獲通道的全局統計信息,而后通過一對1×1的卷積層和ReLU激活,將這些信息映射到一個較小的維度空間并重新投影回原始通道數量,通過sigmoid激活函數產生的空間權重圖與輸入特征圖逐像素相乘,增強了對關鍵區域的關注,同時抑制了不太相關的區域。Spatial Weighting生成了一個按通道分的注意力圖。這個注意力圖被應用到輸入的特征圖上,細化模型焦點,以強調與偽造檢測相關特征,空間加權確保模型優先考慮潛在操作區域。
[FLSP_W=FL⊙σConv2ReLUConv1AvgPool(FL)]
(1)
與此同時,Cross Resolution Weighting確保了不同分辨率特征之間的有效融合,平衡了全局上下文和局部細節之間的關系。如式(2)所示,首先將來自不同分辨率流的特征圖進行自適應池化,以匹配最低分辨率,然后,這些特征圖在通道上被合并,并通過一個1×1的卷積層,以減少參數數量并學習跨尺度的特征表示。經過ReLU激活和第二個1×1的卷積層,生成通道級的權重。最后,通過sigmoid函數將這些權重標準化,然后將它們應用到對應的特征圖上,每個特征圖都根據其分辨率大小通過最近鄰插值被放大到原始尺寸。通過將來自所有分辨率的特征圖聚合和加權,然后再重新分配回各自的分辨率流,確保模型在每個尺度上都有最適宜的特征表征。
[FLCR_W=FLUpsampleσConv2ReLUConv1CatPool(FL)]
(2)
二者共同為HRNet提供了全面的權重調整能力,不僅保留了高分辨率細節信息,同時也利用了低分辨率的上下文信息,為圖像篡改檢測帶來了更細致的層次分析能力,允許在不犧牲高層次特征的情況下進行低層次的精準分類。
1.3" 定位模塊
定位模塊的目的是利用高分辨率特征輸出([L4])生成二元掩碼[M],以精確標識圖像中的篡改區域。二元掩碼[M]被覆蓋在輸入圖像上以產生一個掩蔽圖像[Xmask],用以突出顯示被篡改的區域。定位模塊采用自注意力機制[17?18],使潛在的篡改區域更加突出。
此外,參照文獻[15]的方法,本文采用度量學習目標函數來增強模型對真實和篡改像素之間差異的識別。具體地,基于訓練集中所有真實圖像的像素特征,計算出一個參考中心向量[c∈RD]。使用[F′ij∈RD]表示最終掩碼預測層的第[ij]個像素。因此定位損失[Lloc]為:
[Lloc=1HWi=1Hj=1WLFtij,Mij,c,τ] (3)
式中:
[L=F′ij-c2," " " Mij realmax0,τ-F′ij-c2," " " "Mij" forged]
與文獻[15,19]的方法不完全相同,在特征空間中使用了預定的邊界[τ],用于控制真實像素和篡改像素之間的最小特征距離。式(3)中,[Mij]表示在掩碼圖像[M]的[ij]位置像素。當[Mij]為真時,使真實像素的特征向量朝著參考中心收斂;當[Mij]為假時,強制篡改像素的特征向量與參考中心保持至少[τ]的距離。這種機制在訓練中不斷拉大兩類像素間的特征距離,提高了模型的分類準確性,是生成高質量的掩蔽圖[Xmask]的關鍵。
為了最大程度地利用掩蔽圖像[Xmask],使用PConv(Partial Convolution Operato)[20]處理。PConv的卷積核經過改動后僅適用于未被掩蓋的像素,從而確保特征圖專注于被操作的像素。
1.4" 分類模塊
二元掩碼[M]不僅作為分類模塊的前奏,也作為后續分類模塊的重要先驗。
采用式(4)掩碼更新機制:
[M=1," " " " " "M≥00," " " " " otherwise] (4)
將掩碼更新后的[M]與HRWFuse?Net不同分支([L1]~[L4])的輸出特征一起傳入分類模塊。分類模塊采用層次化方法預測偽造屬性,學習不同屬性間的依賴關系。以下是各層的屬性分類。
[L1]:全局篡改檢測,判斷整張圖像是否遭到篡改。利用HRWFuse?Net提供的高分辨率特征圖,模型能在全局層面捕捉微妙的篡改跡象,如整體色調、紋理或邊緣的異常變化。
[L2]:篡改類型區分,確定是完全合成(全圖篡改),還是局部篡改(對象插入、移除或編輯),深入分析特定區域。
[L3]:篡改手法識別,識別用于篡改的具體技術或工具,如基于GAN的方法、克隆工具或圖像編輯軟件。
[L4]:細化篡改特征,關注篡改區域的紋理、邊緣和噪點等細節。
層次化路徑預測的原理如下。
給定圖像[X],將分支[Lb]的輸出對數和預測概率分別記為[Lb(X)]和[pybX],那么:
[pybX=softmaxLb(X)⊙1+pyb-1X] (5)
在計算分支[Lb]的概率[pybX]時,會結合前一個分支的預測概率,即[pyb-1X]與當前分支的輸出對數logits[Lb(X)]來計算。
通過這一系列層次化的細粒度分類步驟,實現了對篡改圖像的全面識別和定位,每一層級的分類都為最終的判定提供了支持。
1.5" W_Arcloss
為了增強模型的區分能力,本文基于ArcFaceloss[21]引入了基于樣本難度和類別特異性的動態權重,創造W_Arcloss損失函數。具體見式(6):
[LW_Arc=-1Ni=1Nwi?loges?wc?cosθyi+mes?wc?cosθyi+m+j=1,j≠yines?cosθj] (6)
式中:[N]是批次中樣本的總數;[wi]是第[i]個樣本的權重,反映了樣本的難度或對模型訓練的重要性;[wc]是對應于樣本真實類別[yi]的類別權重;[s]是縮放因子,用于調整特征向量的范數;[m]是加入到類別間角度的邊界間隔,用于增加類別間的可分性;[θyi]是樣本[i]的特征向量和其對應的類別權重[wyi]之間的角度。
W_Arcloss通過在特征空間中加入角度邊界[m],顯著增加了不同篡改類型之間的區分度。樣本權重和類別權重使模型能針對難度不同的樣本和重要性不同的類別進行優化,確保模型更關注提高整體性能最關鍵的部分。通過動態調整損失,W_Arcloss有助于模型在[L1]~[L4]分支上對具體篡改行為的細粒度分類任務實現更高的準確率。W_Arcloss通過角度間隔和權重調整,促進模型學習到的特征表示在類內緊湊、類間分離的同時,還具有高度的魯棒性。這意味著即使在圖像質量變化或篡改技術微妙變化的情況下,模型也能保持高效的分類性能。
2" 實驗部分
2.1" 數據集和評價指標
模型訓練使用的數據集是HIFI?IFDL[13]數據集。HIFI?IFDL數據集包含多張真實圖像,以及通過先進的生成對抗網絡(GAN),例如StyleGAN[22]、StarGAN?v2[23]和基于自動編碼器的方法生成的偽造圖像,以及使用其他圖像編輯軟件(如Photoshop)進行的手工篡改圖像。具體數據集的構成和圖像數量參考HIFI?IFDL[13]論文介紹。為了評估模型性能,使用了5個主流的篡改檢測數據集進行測試,分別為:CASIA[24]、Columbia[25]、COVERAGE[26]以及NIST16[27]和IMD2020[28]。
評估指標使用了像素級曲線下面積(Area Under ROC Curve, AUC)、[F1]分數([F1]?score)。
[F1]分數的計算方式如式(7)所示:
[F1=2×TP2×TP+FN+FP] (7)
式中:TP表示模型預測正確的篡改像素點數目;FP表示模型預測錯誤的篡改像素點數目;FN表示模型預測錯誤的載體像素點數目。
2.2" 實驗設置
本文的實驗環境為:Python=3.7.16,PyTorch=1.11.0,Torchvision=0.12.0。使用的顯卡為RTX 4090,采用Adam優化器降低網絡損失,并加入學習率衰減使后期迭代不再需要手動調整,初始化學習率為0.000 1,一共訓練了150個迭代次數(epoch)、批次大小(batchsize)為16。
2.3" 實驗結果
篡改定位比二進制檢測更具挑戰性,因為它需要模型捕獲更精細的篡改特征。沿用SPAN和PSCCNet的模型評估實驗,將本文模型與其他最先進的篡改定位方法在兩種設置下進行比較。
1) 經hifi?ifdl進行訓練后,在完整測試數據集上評估。
2) 在NIST16、Coverage和CASIA上微調預訓練模型,再對其評估。
2.3.1" 圖像篡改定位性能對比
1) 預訓練模型評估
將多分支HRNet模型與MantraNet、SPAN和PSCCNet、Objectformer、HIFINet進行了比較,結果見表1。在表1中報告了AUC分數,可以觀察到Objectformer在多數數據集上取得了最佳的定位性能。特別地,多分支HRNet模型在真實數據集IMD2020上達到了84.5%,比HIFINet提高了1.1%。這表明本文方法具有優越的捕獲篡改特征的能力,并且可以很好地推廣到高質量的篡改圖像數據集。在Columbia數據集上,超SPAN 3.7%、Objectformer 1.8%,但低于PSCCNet 0.9%、HIFINet 1.1%,認為原因可能是他們的訓練數據與Columbia的分布非常相似。
2) 微調模型評估
為了微調多分支HRNet,遵循了與文獻[19?20,22]相同的設置進行公平比較。在NIST16、Coverage和CASIA上微調預訓練模型,微調后的模型性能對比如表2所示。本文方法在平均AUC和[F1]上取得最佳性能。具體來說,僅在NIST16上稍顯落后。
2.3.2" 圖像篡改檢測性能對比
各模型篡改檢測的性能如表3所示。
結果表明,本文模型取得了比HIFINet更好的性能,AUC為99.5%,[F1]為97.8%,這證明了本文方法捕捉偽造痕跡的有效性。
2.4" 可視化
圖3為多分支HRNet模型與SPAN以及HIFINet預測圖像可視化對比結果。在可視化時,三個網絡都是以0.5為閾值,超過0.5則認為該像素被篡改,否則認為該像素未被篡改。
如圖3所示,多分支HRNet模型相比于SPAN及HIFINet在定位篡改區域上表現得更加準確。這說明了多分支HRNet模型相較于其他模型具有更好的檢測及定位性能。
2.5" 消融實驗
本節進行消融實驗探究多分支HRNet模型中關鍵組件對篡改檢測與定位性能的影響。表4呈現了在CASIA數據集上進行篡改定位任務時,不同模塊和策略添加或移除后模型性能的變化。
首先關注紋理增強模塊對性能的提升。基準模型引入紋理增強模塊后,AUC和[F1]值分別提升0.7%和0.3%,證實了其提取異常篡改特征的重要性。
接下來考察Spatial及Cross Resolution Weighting策略加入的影響。實驗顯示,AUC從基準的86.6%降至83.5%,[F1]值反而從58.7%增至61.2%,猜測可能的原因是過度聚焦于特定區域或過度依賴偽造痕跡,忽略了全局語義。
但當它們與紋理增強模塊共同使用時,AUC和[F1]值分別從87.3%和59.0%提升至89.0%和61.9%。這一明顯改善印證了紋理增強模塊與這兩種權重策略之間存在協同效應,這意味著Spatial Weighting和Cross Resolution Weighting策略在確保對關鍵特征有效突出的同時,又與紋理增強模塊互補,共同促進了對篡改區域的識別和定位精度。
表5呈現了在CASIA數據集上進行篡改檢測任務時,隨著W_Arcloss的加入帶來的性能變化情況。
當單獨加入W_Arcloss時,模型在CASIA數據集上的篡改檢測性能指標[F1]提高了0.4%,盡管提升幅度相對較小,但也證實了W_Arcloss在優化模型對篡改區域與正常區域之間差異的區分能力方面起到了積極的作用。
3" 結" 論
在當今信息時代,圖像內容安全成為重要議題,圖像篡改檢測成為維護內容真實性的關鍵手段。然而,過去工作常忽視現實中無法預知圖像的具體篡改方式這一困難。
因此,本文提出了多分支HRNet圖像篡改檢測模型,能夠對多種篡改方式進行檢測。該模型集成了紋理增強模塊DuaTex_Extractor,能更好地挖掘圖像中細微的篡改特征。HRWFuse?Net中的Weighting策略優化了特征融合,使模型能更精確地定位篡改區域。本文還引入了W_Arcloss損失函數,通過基于樣本難度和類別特異性的動態權重,顯著提高了模型區分真實與篡改區域的能力。
實驗結果表明,與現有基線模型相比,本文模型檢測準確度平均提升了6.5%和0.8%,并通過消融實驗證明了每個模塊的必要性和貢獻度。未來工作將圍繞輕量化網絡設計和更高效的特征提取融合策略,使模型能在資源受限環境中保持高性能。
注:本文通訊作者為譚平。
參考文獻
[1] 廖汨,劉暢.廣西柳州一男子P圖篡改核酸檢測結果被查[EB/OL].[2022?02?12]. https://www.chinanews.com.cn/sh/2022/02?12/9674485.shtml.
[2] 黃成.南京祿口機場要求成都旅客“原路返回”?機場回應:謠言![EB/OL].[2020?12?12]. https://m.news.cctv.com/2020/12/12/ARTIu2yVmUDoFiCpmRumHhaG201212.shtml.
[3] 趙鴻圖,周秋豪.基于改進顯著圖和局部特征匹配的copy?move竄改檢測[J].計算機應用研究,2023,40(9):2838?2844.
[4] HUH M, LIU A, OWENS A, et al. Fighting fake news: Image splice detection via learned self?consistency [C]// Proceedings of European Conference on Computer Vision. Heidelberg: Springer, 2018: 106?124.
[5] ZHU X S, QIAN Y J, ZHAO X F, et al. A deep learning approach to patch?based image inpainting forensics [J]. Signal processing: Image communication, 2018, 67: 90?99.
[6] TOLOSANA R, VERA?RODRIGUEZ R, FIERREZ J, et al. Deepfakes and beyond: A survey of face manipulation and fake detection [J]. Information fusion, 2020, 64: 131?148.
[7] DANG H, LIU F, STEHOUWER J, et al. On the detection of digital face manipulation [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 5780?5789.
[8] GOODFELLOW I J, POUGET?ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014. [S.l.: s.n.], 2014: 2672?2680.
[9] WU Y, ABDALMAGEED W, NATARAJAN P. ManTra?Net: Manipulation tracing network for detection and localization of image forgeries with anomalous features [C]// Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 9543?9552.
[10] HU X F, ZHANG Z H, JIANG Z Y, et al. SPAN: Spatial pyramid attention network for image manipulation localization [C]// Proceedings of 16th European Conference on Computer Vision. [S.l.: s.n.], 2020: 312?328.
[11] LIU X H, LIU Y J, CHEN J, et al. PSCC?Net: Progressive spatio?channel correlation network for image manipulation detection and localization [J]. IEEE transactions on circuits and systems for video technology (TCSVT), 2022, 32(11): 7505?7517.
[12] WANG J K, WU Z X, CHEN J J, et al. ObjectFormer for image manipulation detection and localization [EB/OL]. [2022?03?29]. https://arxiv.org/abs/2203.14681.
[13] GUO X, LIU X H, REN Z Y, et al. Hierarchical fine?grained image forgery detection and localization [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2023: 3155?3165.
[14] SUN K, XIAO B, LIU D, et al. Deep high?resolution representation learning for human pose estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 5693?5703.
[15] MASI I, KILLEKAR A, MASCARENHAS R M, et al. Two?branch recurrent network for isolating deepfakes in videos [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2020: 667?684.
[16] BURT P J, ADELSON E H. The Laplacian pyramid as a compact image code [J]. IEEE transactions on communications, 1983, 31(4): 532?540.
[17] WANG X L, GIRSHICK R B, GUPTA A, et al. Non?local neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2018: 7794?7803.
[18] ZHANG H, GOODFELLOW I J, METAXAS D N, et al. Self?attention generative adversarial networks [C]// Proceedings of the International Conference on Machine Learning (ICML). New York: PMLR, 2019: 7354?7363.
[19] RUFF L, GORNITZ N, DEECKE L, et al. Deep one?class classification [C]// Proceedings of the International Conference on Machine Learning (ICML). New York: PMLR, 2018: 4390?4399.
[20] LIU G L, REDA F A, SHIH K J, et al. Image inpainting for irregular holes using partial convolutions [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 89?105.
[21] DENG J K, GUO J, XUE N N, et al. ArcFace: Additive angular margin loss for deep face recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 4690?4699.
[22] TERO K, SAMULI L, TIMO A. A style?based generator architecture for generative adversarial networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 4217?4228.
[23] CHOI Y, UH Y, YOO J, et al. StarGAN v2: Diverse image synthesis for multiple domains [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 8185?8194.
[24] DONG J, WANG W, TAN T N. CASIA image tampering detection evaluation database [C]// 2013 IEEE China Summit and International Conference on Signal and Information Processing. New York: IEEE, 2013: 422?426.
[25] NG T T, HSU J, CHANG S F. Columbia image splicing detection evaluation dataset [EB/OL]. [2007?02?14]. https://www.ee.columbia.edu/ln/dvmm/downloads/AuthSplicedDataSet/detailed.htm.
[26] WEN B H, ZHU Y, SUBRAMANIAN R, et al. COVERAGE: A novel database for copy?move forgery detection [C]// 2016 IEEE International Conference on Image Processing. New York: IEEE, 2016: 161?165.
[27] NIST. Nist nimble 2016 datasets [EB/OL]. [2016?05?28]. https://www.nist.gov/sites/default/files/documents/2016/11/30/should i believe or not.pdf.
[28] NOVOZAMSKY A, MAHDIAN B, SAIC S. IMD2020: A large?scale annotated dataset tailored for detecting manipulated images [C]// IEEE Winter Applications of Computer Vision Workshops. New York: IEEE, 2020: 71?80.