













摘" 要: 當前基于深度學習的圖像拼接定位方法大多只關注深層次特征,且感受野有限,忽略了淺層次特征,影響圖像拼接定位的準確性。針對上述問題,文中提出一種結合改進U?Net和多尺度多視角Transformer的圖像拼接定位網絡UMTransNet。改進U?Net模型的編碼器,將編碼器中的最大池化層替換成卷積層,防止淺層次特征的流失;將多尺度多視角Transformer嵌入到U?Net的跳躍連接中,Transformer的輸出特征與U?Net的上采樣特征進行有效融合,實現深層次特征與淺層次特征的平衡,從而提高圖像拼接定位的準確性。通過可視化檢測結果圖顯示,所提方法在定位拼接篡改區域方面表現得更加出色。
關鍵詞: 數字圖像取證; 圖像拼接定位; U?Net; 多尺度感知; 自注意力機制; 交叉注意力機制
中圖分類號: TN911.73?34; TP391" " " " " " " " "文獻標識碼: A" " " " " " " " " " 文章編號: 1004?373X(2025)01?0033?07
UMTransNet: Image stitching and localization method combining U?Net"and multi?scale perception Transformer
ZHANG Wei, HE Yueshun, XIE Haohao, YANG Anbo, YANG Chaowen, Lü Xiong
(School of Information Engineering, East China University of Technology, Nanchang 330013, China)
Abstract: Most of the current deep learning based image stitching and localization methods are primarily focused on deep?level features with limited receptive fields, thereby overlooking shallow?level features, which adversely affects the accuracy of image stitching and localization. In view of the above, a novel image stitching and localization network UMTransNet which combines an improved U?Net architecture with a multi?scale multi?view Transformer is proposed. The encoder of the U?Net model is enhanced, and the maximum pooling layer of the encoder is replaced with convolutional layers to prevent the loss of shallow?level features. Additionally, the multi?scale multi?view Transformer is embedded into the skip connections of the U?Net, which facilitates the effective fusion of the output features of the Transformer and the upsampled features of the U?Net, so as to achieve a balance between deep?level and shallow?level features, thereby enhancing the accuracy of image stitching and localization. The results of visualization detection graph show that the proposed methed is more excellent in locating stitched tampered regions.
Keywords: digital image forensics; image stitching localization; U?Net; multi?scale perception; self?attention mechanism; cross?attention mechanism
0" 引" 言
數字圖像[1]處理技術的進步使得圖像成為重要的信息記錄工具,但同時也帶來了圖像篡改的挑戰。圖像拼接[2]通常是指將外來圖片插入到原圖片中,拼接操作[3]引起的細微變化可以通過基于物理學和統計學的方法追溯。基于物理學的方法追溯“場景級別”留下的不一致性,文獻[4]提出可操作金字塔變換結合局部二值模式和支持向量機的圖像偽造檢測方法,以及結合SPT和YCbCr色彩空間的技術提高檢測性能。基于統計學的方法專注于“信號級”的偽影,文獻[5]將從小波子帶特征函數中提取的特征與從DCT域中提取的特性相結合,以獲得用于支持向量機(SVM)分類的判別特征向量。其中通常需要一些必要的先驗知識,在實際應用中,這就要求涉及的剪接檢測方案更具通用性,更少地依賴于特定的假設。
近年來,深度神經網絡[6]已被證明能夠表征來自高維感官輸入的復雜統計依賴性,并有效地學習其分層表示,使它們能夠很好地推廣到各種計算機視覺任務中,包括圖像分類、對象跟蹤等。目前,大多數深度學習方法都利用卷積神經網絡提取特征,文獻[7]提出一種雙流的Faster R?CNN網絡,其目的是從圖像和噪聲中提取特征,并通過雙線性池化層融合來自兩個流的特征。文獻[8]提出一種高置信度操作定位體系結構,利用重采樣特征、長短期記憶(LSTM)單元和編解碼器網絡將被操作區域與非被操作區域分割出來。但由于卷積操作的感受野有限,僅能考慮圖像局部區域,難以捕捉遠距離像素之間的關聯。文獻[9]設計了一種跳躍架構來利用低級別的高分辨率特征,并對不同的CNN架構[9?10]進行了測試。文獻[11]用自然卷積保持更高分辨率的特征映射,文獻[12]用可學習的反卷積操作恢復空間信息。但是,在進行特征融合時沒有考慮特征冗余和特征貢獻,簡單的將特征進行合并不利于發揮特征的互補性,這將導致檢測效果受到限制。
為了克服上述限制,本文提出一種U型拼接篡改檢測網絡UMTransNet,該網絡基于改進的U?Net結構、多尺度多視角Transformer技術和交叉注意力特征融合方法。UMTransNet的U形結構使其能夠有效捕捉目標的細節和邊界,同時,采用Transformer捕捉跳躍連接傳遞的特征之間的內部相關性,利用交叉注意力特征融合方法將Transformer特征與上采樣特征進行融合,以確保冗余信息不會影響網絡的學習效果。
1" 圖像拼接定位模型
1.1" 改進的U?Net結構
傳統的U?Net[13]網絡由收縮路徑和對稱擴展路徑組成,本文改進了傳統的U?Net結構用于圖像拼接定位檢測,使用卷積層代替最大池化層,由于卷積層相比最大池化層能夠學習到更具判別性的特征表示,因此本文提出的網絡模型中采用了卷積核大小設置為2×2、步長設置為2的卷積層,代替傳統的最大池化層完成特征圖下采樣的操作。最大池化層雖然可以減小特征圖尺寸、降低計算量,但其過于簡單的池化方式會導致一些細節信息的丟失。而卷積層通過可學習的卷積核和非線性激活函數,可以自動學習輸入數據更深層次的抽象表示,從而挖掘出更富有區分能力的特征。為了加速訓練收斂、提高模型泛化性能,本文在網絡中每個卷積層的輸出后接入了批量歸一化層。這有助于緩解一些訓練時常見的梯度消失或梯度爆炸問題,從而加快收斂速度。因此,通過引入卷積下采樣層和BN層,不僅可以更好地捕獲特征信息,還能顯著提升模型的訓練效率和泛化水平。U?Net下采樣模塊如圖1所示。
1.2" 多尺度多視角Transformer
為了解決U?Net的跳躍連接問題,本文改進了多尺度多視角Transformer模型MMViT,如圖2所示,它將多尺度特征圖和多視角編碼引入Transformer模型。該模型對不同視圖進行編碼,并建立多個通道分辨率特征階段,以同時處理多個視圖。在每個尺度階段,使用交叉注意力塊來跨視圖融合信息,從而使MMViT模型能夠獲取不同分辨率的復雜高維表征。
每個自注意力塊結構如圖3所示,輸入視圖[X]通過單獨的線性層生成[Q]、[K]、[V],并對其進行池化操作生成[Q]、[K]、[V]。池化操作[P=?;θ]使用具有參數集(卷積核,步幅,填充)的卷積運算實現,可以表示為:
[PoolingAttention?=" " " " " " " SoftmaxPQ;θQPTK;θKdPV;θV] (1)
交叉注意力塊用于在每個尺度階段合并來自不同視圖的信息。為了充分利用縮放到較低分辨率之前學到的各個視圖中的信息,交叉注意力塊位于自注意力塊之前。交叉注意力塊的結構在圖4中詳細呈現。與自注意力塊類似,首先輸入視圖通過線性層和池化注意力層傳遞輸入視圖,生成[Qi]、[Ki]、[Vi]。隨后沿著時間和空間維度連接所有[Qi]、[Ki]、[Vi],形成交叉注意力的[Q]、[K]、[V]。交叉池化注意力表達式為:
[CrossPoolingAttention?=Softmaxi=0NpQi;θQii=0NpTKi;θKidi=0NpVi;θVi] (2)
式中:[i=0N表示連接操作],[N]是視圖的數量。交叉注意力機制用于獲取全局上下文信息,并將其在每個視圖之間的信息合并。在注意力機制之后,輸出特征被分離為各個視圖,以備后續使用。
1.3" 通道交叉注意力(CCA)特征融合模塊
為了更好地融合Transformer特征和上采樣特征,本文引入一種通道級交叉注意力模塊,具體結構如圖5所示。該模塊能夠引導信息過濾,消除與解碼器特征之間的歧義。它將第[i]層Transformer輸出[Oi∈RC×H×W]和第[i]層解碼器輸出[Di∈RC×H×W]作為通道級交叉注意力的輸入,并通過全局平均池化(GAP)層進行空間壓縮,產生向量[GX=1H×Wi=1Hj=1WXki, j]。本文使用這個操作嵌入全局空間信息,然后生成注意力掩碼:
[Mi=L1?GOi+L2?GDi] (3)
式中:[L1∈RC×C]和[L2∈RC×C]是兩個線性層的權重。得到的向量用于重新激活[Oi],即[Oi=σMi?Oi],其中,[σMi]表示通道的重要性。最后,被掩蔽的[Oi]與第[i]層解碼器特征連接在一起。
1.4" 圖像拼接定位模型構建
目前基于Transformer的圖像篡改方法主要集中在改進U?Net的編碼器。文獻[14]指出,由于較淺層的編碼器和解碼器之間存在語義差距,淺層特征的語義信息較少,可能會通過簡單的跳躍連接降低最終性能。本文在U?Net編碼器和解碼器之間引入一個Transformer模塊來構建UMTransNet框架,如圖6所示,以更好地融合編碼器特征并減少語義間隙。
具體來說,改進傳統U?Net結構以適應圖像拼接檢測任務,引入一種多尺度多視角Transformer來代替U?Net中的跳躍連接,并利用交叉注意力特征融合模塊融合Transformer特征與上采樣特征。
2" 實驗結果及分析
2.1" 實驗設置
2.1.1" 實驗數據
本研究使用兩個公開數據集CASIA1.0數據集[15]和CASIA2.0數據集[15]以及參照文獻[16]中的合成方法,從COCO數據集[17]中提取的對象拼接到無操作的NIST16數據集上的合成數據集。訓練集和測試集的配置見表1。圖7展示了部分拼接樣本及其對應的真實掩模,其中白色區域表示拼接區域。
2.1.2" 實驗配置
實驗采用的配置如下:實驗平臺為Windows 11,64位操作系統;CPU為i5?12490F;GPU為NVIDIA GeForce RTX 3060,12 GB顯存;計算機運行內存為32 GB。CUDA版本為11.8;Python版本為3.9;PyTorch版本為2.0.1。采用自適應矩陣(Adaptive Moment Estimation, Adam)作為優化器,學習率初始值設定為[1×10-6],經過500輪訓練后逐步調整為[1×10-8],批尺寸大小為8,并進行總共1 000輪訓練。在最終階段,本文選擇在訓練集上達到最高[F1]?Score的模型進行測試。
2.1.3" 評價指標
實驗旨在識別并準確定位圖像中的篡改拼接部分。本文以[F1]?Score和交并比(IoU)作為評價指標,用于評估方法的性能。所有的評價指標都是基于像素級別的,計算時將檢測結果圖[Ma]和實際篡改區域圖[Ga]進行對比。[F1]?Score的計算公式如下:
[F1?Score=2×precision×recallprecision+recall=2?TP2?TP+FP+FN] (4)
式中:[precision=TPTP+FP];[recall=TPTP+FN];TP代表正確檢測的篡改區域;FP代表錯誤檢測的非篡改區域;FN代表錯誤檢測的篡改區域;[F1]?Score是精確度和召回率的調和平均,取值范圍介于0~1之間,較高的[F1]?Score表示更好的檢測結果。交并比(IoU)用于評估算法性能,通過計算預測框與實際目標框的交集與并集的比值來衡量,公式如下,較大的IoU表示更好的檢測結果。
[IoU=TPTP+FP+FN] (5)
2.2" 消融實驗
本文研究UMTransNet中各個模塊包括改進U?Net、多尺度多視角Transformer(MMViT)、交叉注意力特征融合模塊CCA對最終檢測定位性能的影響。表2給出了各個方案的拼接檢測結果。從表2可以看出,單一的改進對模型的整體性能提升有限,這是因為單一改進在某些方面帶來改善,但在其他方面會引入負面影響,導致整體提升性能有限。本文將各個模塊進行結合以獲得更好的定位性能,改進U?Net能夠提升對復雜圖形的特征提取能力,相較于傳統U?Net在圖像篡改檢測任務中更加具有優勢,而MMViT能夠同時處理輸入的不同分辨率的多個視角,在每個尺度階段獲取多分辨率的時間上下文,從而融合編碼器的多尺度特征,從整體上有效地探索足夠的信息,而CCA能夠引導MMViT特征與解碼器的特征進行更有效的融合,從而消除解碼器與MMViT之間的語義差距,進一步提升模型的性能。
2.3" 對比實驗
本文分別與其他3種典型方法進行對比,其均為基于深度學習的檢測方法,對比方法包括:基于環形殘差U形網絡的拼接定位網絡RRU?Net[18];基于處理痕跡的篡改檢測網絡ManTra?Net[19];基于多任務學習的注意力網絡圖像篡改檢測方法SE?Network[20]。具體結果如表3所示。
從表3可以看出,本文方法比其他方法表現出了更好的性能。這是因為本文方法能夠有效捕捉輸入序列的長距離依賴,通過交叉注意力協作學習來有效融合U?Net跳躍連接中存在尺度語義差距的多尺度特征,在不同層次的特征表示之間進行有效的信息交流和整合,以達到從整體上有效地探索足夠的信息,并解決復雜的尺度變化問題。不僅能夠從局部深層次地關注圖像特征,更能夠從全局上獲取圖像特征。同時,從表3可以發現,所提方法在合成數據集上比公共數據集表現得更好,這是因為合成數據集的規模要遠大于公共數據集,這使得模型能夠從圖像中獲取到更多的特征。
圖8為各方法的可視化結果圖,由圖8可知,本文提出的UMTransNet在拼接區域的定位上表現更佳。
2.4" 魯棒性實驗
為了掩蓋篡改痕跡,可以對圖像進行后處理。本文將測試所提出的方法對JPEG壓縮和高斯濾波處理的魯棒性。在實驗中,采用RRU?Net[18]和SE?Network[20]進行比較。不同方法對JPEG壓縮和高斯濾波兩種后處理操作的拼接圖像的實驗結果([F1]?Score)分別如圖9、圖10所示。
拼接后的圖像可以通過JPEG壓縮導致圖像質量損失和篡改區域的不可逆變化。從圖9可見,雖然RRU?Net對JPEG壓縮的抵抗力相對較強,但在拼接區域的整體定位方面并未達到理想水平。隨著質量因子的降低,不僅RRU?Net的[F1]?Score較低,其他方法也都顯示出了性能下降的趨勢。
這表明壓縮質量的降低對于拼接區域定位任務的影響是普遍存在的,而非特定于某一種方法。然而,盡管所有方法在一定程度上都存在性能下降的問題,但在對比中,本文提出的方法在拼接區域定位任務上表現出了更為出色的性能。這是因為本文方法在處理拼接區域時具有更好的特征提取能力和更準確的邊界檢測。因此,盡管存在壓縮引起的性能下降問題,但本文方法在應對這一挑戰時展現出了更高的魯棒性和準確性,為拼接圖像處理提供了一種可靠的解決方案。
高斯濾波常用于處理拼接圖像的邊緣部分。在圖10中,本文對比了三種不同的方法,并觀察到它們都對高斯濾波的變化相當敏感。隨著高斯濾波標準差的增加,與其他兩種方法相比,本文提出的方法在精度下降方面的速度較為緩慢。這表明本文方法在面對高斯濾波時能夠更好地保持穩健性和準確性。因此,本文方法在高斯濾波下表現出更高的魯棒性,這意味著即使在較大的濾波范圍內,本文方法仍能夠保持相對穩定的性能,這對于實際應用中的圖像處理任務是非常重要的。
從上述實驗結果可以看出,JPEG壓縮和高斯濾波處理兩種后處理操作都對實驗結果產生了影響,這是因為這兩種處理會使圖像細節退化,從而影響了篡改痕跡,但總體而言,本文方法在檢測和定位拼接區域時表現出了最高的準確性和可靠性,這證明所提方法具有較好的魯棒性。
3" 結" 論
本文方法利用改進的U?Net作為主干網絡,將多尺度多視角Transformer模塊嵌入U?Net的跳躍連接部分,并使用交叉注意力特征融合模塊CCA將上采樣特征與Transformer傳遞的特征進行融合,可以有效提高網絡對特征的提取與聚焦能力,達到較高的識別率,解決現有網絡對邊緣特征與全局特征提取能力不足的問題。然而,本文是在大量數據樣本的訓練下進行測試,雖獲得了較好的定位性能,但其泛化能力有待進一步提高。這種局限性導致其盡管在大型數據集上表現良好,但當應用于小數據集時,性能并不盡如人意,如何在較少數據集的情況下達到較高的識別精度是今后的主要研究方向。
注:本文通訊作者為何月順。
參考文獻
[1] 朱新同,唐云祁,耿鵬志.數字圖像篡改檢測技術綜述[J].中國人民公安大學學報(自然科學版),2022,28(4):87?99.
[2] 賀一峰,趙旭東,亞森·艾則孜.精細化自動檢測篡改區域的數字圖像取證方法[J].現代電子技術,2016,39(7):83?88.
[3] 王釬灃,夏國靜,牛鑫鑫,等.基于改進的SIFT圖像快速拼接方法[J].現代電子技術,2022,45(8):159?162.
[4] MUHAMMAD G, AL?HAMMADI M H, HUSSAIN M, et al. Image forgery detection using steerable pyramid transform and local binary pattern [J]. Machine vision and applications, 2014, 25(4): 985?995.
[5] SHI Y Q, CHEN C H, CHEN W. A natural image model approach to splicing detection [C]// Proceedings of the 9th Workshop on Multimedia Security. New York: ACM, 2007: 51?62.
[6] 盧佳佳.基于計算機視覺的KLT跟蹤圖像拼接模型設計[J].現代電子技術,2021,44(13):41?45.
[7] ZHOU P, HAN X T, MORARIU V I, et al. Two?stream neural networks for tampered face detection [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2017: 1831?1839.
[8] BAPPY J H, SIMONS C, NATARAJ L, et al. Hybrid LSTM and encoder?decoder architecture for detection of image forgeries [J]. IEEE transactions on image processing, 2019, 28(7): 3286?3300.
[9] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2015: 3431?3440.
[10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [EB/OL]. [2015?04?10]. https://arxiv.org/abs/1409.1556.
[11] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. [2016?06?07]. https://arxiv.org/abs/1412.7062.
[12] NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation [C]// 2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE, 2015: 1520?1528.
[13] RONNEBERGER O, FISCHER P, BROX T. U?Net: Convolutional networks for biomedical image segmentation [C]// Proceedings on 18th International Conference on Medical Image Computing and Computer?assisted Intervention. Heidelberg: Springer, 2015: 234?241.
[14] WANG H N, CAO P, WANG J Q, et al. UCTransNet: Rethin?king the skip connections in U?Net from a channel?wise perspective with transformer [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2022: 2441?2449.
[15] DONG J, WANG W, TAN T N. CASIA image tampering detection evaluation database [C]// 2013 IEEE China Summit amp; International Conference on Signal and Information Processing. New York: IEEE, 2013: 422?426.
[16] ZHOU P, HAN X T, MORARIU V I, et al. Learning rich features for image manipulation detection [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 1053?1061.
[17] LIN T Y, MAIRE M, BELONGIE S J, et al. Microsoft COCO: Common objects in context [C]// Proceedings of 13th European Conference on Computer Vision. Heidelberg: Springer, 2014: 740?755.
[18] BI X L, WEI Y, XIAO B, et al. RRU?Net: The ringed residual U?Net for image splicing forgery detection [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE, 2019: 30?39.
[19] WU Y, ABDALMAGEED W, NATARAJAN P. ManTra?Net: Manipulation tracing network for detection and localization of image forgeries with anomalous features [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 9543?9552.
[20] ZHANG Y L, ZHU G P, WU L G, et al. Multi?task SE?Network for image splicing localization [J]. IEEE transactions on circuits and systems for video technology, 2022, 32(7): 4828?4840.
基金項目:江西省科技計劃項目(20232ABC03A09)
作者簡介:張" 維(1997—),男,湖南衡陽人,碩士研究生,主要研究方向為人工智能、圖像處理。
何月順(1971—),男,湖南永州人,博士研究生,教授,博士生導師,主要研究領域為人工智能、大數據分析與智能處理、網絡空間安全。