注意力機制的秦腔視頻去噪算法

2025-02-07 00:00:00師秦高雪楊超然劉鑫達耿國華

西北大學學報(自然科學版) 2025年1期

摘要秦腔，作為中國傳統戲曲藝術的瑰寶，擁有深厚的歷史底蘊。然而，秦腔早期的影像資料常受噪聲和失真影響，導致畫質不佳，嚴重妨礙了秦腔數字檔案的保存品質。目前應用的視頻去噪技術在處理秦腔那色彩豐富、紋理復雜的服飾時，往往沒有充分利用視頻幀序列的時間連貫性，使得去噪效果并不理想，難以有效保留視頻幀的核心特征。基于注意力機制的秦腔視頻去噪算法開展研究，針對現有視頻去噪算法忽略幀間時序相關性導致效果不佳的問題，提出了一種新的視頻去噪算法，該算法利用雙門控注意力機制進行時序信息的融合。首先，通過時序融合模塊，將視頻連續幀的時序信息進行有效整合;其次，利用雙門控注意力去噪網絡精確識別并消除時序上的噪聲;最后，通過多頭交互注意力精煉模塊進一步細化特征，以消除去噪過程中可能產生的偽影并恢復丟失的細節，從而提升去噪后圖像的質量。實驗結果表明，與DVDNet、ViDeNN以及FastDVDNet等現有方法相比，該方法可以更好地利用視頻的時序信息，達到干凈且高效的秦腔視頻去噪效果。

關鍵詞秦腔；視頻去噪；注意力機制；時序融合

中圖分類號：TP391" DOI：10.16152/j.cnki.xdxbzr.2025-01-014

Qin Opera video denoising algorithm basedon attention mechanism

SHI Qingaoxue1，2， YANG Chaoran1，2， LIU Xinda1，2， GENG Guohua1，2

（1.National and Local Joint Engineering Research Center for Cultural Heritage Digitization， Northwest University，Xi’an 710127， China; 2.Institute of Visualization Technology， Northwest University， Xi’an 710127， China）

Abstract Qin Opera， as a treasure of Chinese traditional theatre art， has a profound historical heritage. However， the early video materials of Qin Opera are often affected by noise and distortion， resulting in poor picture quality， which seriously hampers the preservation quality of Qin Opera digital archives. Currently applied video denoising techniques often do not make full use of the temporal coherence of the video frame sequence when dealing with the colorful and complex texture of Qin Opera’s costumes， which makes the denoising effect unsatisfactory and makes it difficult to effectively retain the core features of the video frames. In this paper， we carry out research on the Qin Opera video denoising algorithm based on the attention mechanism， and the main research contents are as follows： Aiming at the existing video denoising algorithms ignoring the temporal correlation between frames which leads to the problem of poor effect， we propose a new video denoising algorithm， which makes use of the double gating attention mechanism for the fusion of the temporal sequence information. The algorithm firstly integrates the timing information of consecutive video frames effectively through the timing fusion module; then accurately identifies and eliminates the timing noise using the dual-gated attention denoising network; finally， the features are further refined through the multi-head interactive attention refining module to eliminate the artifacts that may be generated during the denoising process and recover the lost details， to enhance the quality of the denoised image. The experimental results demonstrate that compared with existing methods such as DVDNet， ViDeNN， and FastDVDNet， this method can make better use of the timing information of the video to achieve clean and efficient denoising of Qin Opera" videos.

Keywords Qin Opera; video denoising; attention mechanism; temporal fusion

秦腔，作為中國戲曲藝術的重要組成部分，是中華文化寶庫中的璀璨明珠。信息技術的應用極大地促進了秦腔等文化遺產的數字化記錄，便于其再現與再利用。然而，秦腔數字化過程中面臨諸多挑戰，如老舊錄音錄像資料的噪聲和失真問題。盡管秦腔擁有深厚的歷史底蘊和豐富的藝術表現形式，但歷史遺留下來的錄音和錄像資料往往因質量低下而受到噪聲和失真的困擾。受限于存儲與技術水平，部分秦腔資料已損壞或不完整，影響了數據的完整性和可用性。

隨著科技的不斷進步，秦腔這一傳統藝術形式迎來了新的傳播和發展空間。人工智能和數字化技術的應用，不僅為秦腔藝術的保護、展示和傳承提供了有力支持，而且極大地提升了秦腔藝術的數字化展示效果。在這個過程中，確保秦腔數字資源的品質至關重要，是維護和傳遞秦腔文化的核心環節。在秦腔圖像處理的領域中，去噪技術的應用成為了一個關鍵步驟。這一過程首先需要對秦腔表演的圖像進行預處理，包括調整圖像的灰度和尺寸等，以便更好地適應后續處理流程。其次，通過先進的圖像處理技術，對圖像中的噪點進行識別和分析，從而確定噪點的類型和具體位置。針對秦腔表演圖像的獨特性，選擇恰當的去噪算法是至關重要的，不僅能夠有效地消除圖像中的噪點和干擾，還能確保圖像的核心信息和細節得到保留。在去噪操作完成后，通過一些后處理步驟，例如圖像銳化和對比度優化，可以進一步提升圖像質量，從而獲得清晰、生動的秦腔表演圖像。

圖像去噪在計算機視覺領域扮演著至關重要的角色，且致力于精確地消除圖像中的噪聲并恢復其原始風貌。該技術不僅能提升圖像的視覺感知品質，還能為圖像識別、分析和理解等后續處理任務提供更為清晰和精確的數據基礎。圖像去噪的應用增強了數字化圖像記錄的品質，確保了圖像保存的清晰度和真實感，對于秦腔等藝術形式的記錄和傳播至關重要，有助于其藝術表現的長久保存與廣泛傳播。

隨著數字化技術的發展，文化遺產的保護工作已經進入了一個新階段。在這一領域，周明全等人在其著作中全面探討了文化遺產數字化保護的技術和應用［1］，為該領域的研究者提供了寶貴的知識資源。本研究提出的秦腔視頻去噪算法，不僅在視頻處理領域展現出巨大的應用潛力，也為文化遺產的數字化保護與活化提供了強有力的技術支持。這一成果與耿國華等人所強調的觀點相呼應，他們指出文化遺產的活化迫切需要創新技術的支撐［2］。因此，針對現有視頻去噪算法在保留秦腔圖像重要細節等方面，未能有效利用幀之間高度相關的內容的問題，提出了一種基于雙門控注意力的時序融合視頻去噪算法（twin gate attention-temporal fusion network，TGA-TFNet）。該算法首先通過時序融合模塊整合連續幀之間的信息，并利用時序上的連續性和冗余信息來提升去噪性能。其次，采用雙門控注意力去噪網絡，有效識別并去除時序上的噪聲，同時保留重要的時序信息，例如運動細節和連貫性。最后，通過多頭交互注意力精煉模塊對特征進行再次細化，以消除去噪過程可能產生的偽影，并恢復因去噪導致的過度平滑而丟失的一些細節，從而提高去噪結果的質量。

與將視頻分割成單幀處理的現有方法相比，本研究能夠更好地挖掘視頻的時序信息，從而提高去噪性能。這一創新性方法不僅有助于數字化技術在文化遺產保護中的應用，也為秦腔文化的數字化保護與傳承開辟了新的可能性，為秦腔藝術的傳承與發展注入了新的活力。

1 相關工作

視頻去噪是計算機視覺領域中一個重要的研究方向，其目標是從含有噪聲的視頻中恢復清晰的圖像。早期視頻去噪技術主要使用幀內和幀間的濾波方法［3］，然而這些方法難以充分利用視頻的時空信息。隨著深度學習的興起，視頻去噪得到了新的解決方案，能夠更有效地捕捉視頻數據的復雜性。最近，自監督學習領域也取得了進展，例如Liu等人提出的FeaSC方法［4］，通過減少視圖間的互信息，增強了自監督預訓練的有效性。Maggioni等人成功地利用視頻的時空信息進行了去噪［5］，但是該方法在處理復雜場景時仍存在一定的限制。為了克服這一問題，Davy等人提出了基于深度學習的時空去噪網絡［6］，通過學習視頻數據的深層特征來進行去噪，相比傳統方法，該方法能夠更好地恢復細節并減少模糊。然而，這種方法的網絡參數較多，需要大量計算資源。而Tassano等人提出的DVDNet通過創新的雙路徑網絡結構有效地融合了幀內和幀間信息［7］，用于視頻去噪。但該方法的性能受限于高計算資源需求并且對相鄰幀質量的依賴較高。另外，Xue等人提出的TOFlow通過端到端可訓練的網絡［8］，將運動估計與視頻處理集成在一起，顯著提高了性能。盡管這種方法能夠學習特定任務的運動表示，優于傳統的光流方法，但可能需要較大的計算資源，并且可能受到實時應用的限制。Wang等人提出的FITVNet通過先對單幀圖像進行去噪［9］，然后應用時空去噪模塊來處理整個視頻，有效地解決了快速移動物體邊界模糊的問題，尤其提高了物體邊界處的去噪質量。然而，該方法的去噪能力在極端情況下有限，并且在處理非常復雜的場景時可能受到限制。Mehta等人提出的EVRNet采用輕量級的網絡設計［10］，能夠顯著降低參數和計算成本，同時還能保持與同時期方法相競爭的性能。

Tassano等人提出了FastDVDNet［11］，結合了注意力機制和端到端學習，在無需顯式運動補償的情況下實現了實時視頻去噪。該方法顯著提高了視頻去噪的效率并保持了良好的去噪效果。然而，在極端噪聲條件下，該方法的去噪效果仍有改進的空間。Vaksman等人引入了補丁工藝幀的概念［12］，通過拼接匹配的補丁構建與真實幀相似的人工幀，并將視頻序列與補丁工藝幀結合后送入CNN，從而顯著提高了去噪性能。然而，當處理大量數據以生成每個輸出幀時，可能需要較大的計算資源，這可能限制了在資源受限環境中的應用。Maggioni等人提出了EMVD［13］，通過循環方式應用多個級聯處理階段，包括時間融合、空間去噪和時空細化。該方法遞歸地利用自然視頻中固有的時空相關性，可以顯著降低模型復雜性，同時不會嚴重影響性能。Song等人提出了TempFormer［14］，使用小波變換預處理降低視頻分辨率以提高效率，并通過空間時間Transformer塊和聯合空間時間混合模塊來學習空間和時間注意力。Li等人提出的方法可以隱式地捕捉幀間的多幀聚合對應關系［15］，通過引入分組空間位移，獲得廣闊的有效感受野，并有效地聚合幀間信息。Liang等人提出的VRT方法聚合視頻序列的局部和全局特征信息，并對相鄰幀進行融合［16］。該方法具有平行幀預測和長距離時間依賴性建模的能力。

綜上所述，盡管當前的視頻去噪算法在提升視頻流暢度方面取得了顯著成效，但它們在處理特定類型的視頻內容如秦腔視頻時，仍然面臨一系列獨特的挑戰。秦腔視頻的去噪工作不僅要求提高視頻的流暢度，更關鍵的是要消除偽影和恢復因過度平滑而丟失的細膩表情與動作細節，這些是秦腔藝術表現力的核心。秦腔視頻因其獨特的古典美感、豐富的表情變化和傳統文化背景而備受關注，使得其去噪處理不僅要注重技術性能，還要考慮到文化傳承的準確性。

秦腔視頻的質量問題，往往與視頻的動態范圍、色彩飽和度和紋理細節的保留緊密相關。這些因素在傳統的視頻去噪算法中可能未被充分考慮，導致在去噪的同時損失了秦腔視頻的藝術特色。因此，設計一種能夠兼顧時序融合、細節保留、計算效率和適應性的秦腔視頻去噪算法，成為本研究的核心目標。

本研究將深入分析秦腔視頻的特性，如其特有的表演節奏、面部表情的微妙變化以及服飾的精細紋理，從而開發出更具針對性的去噪算法。通過這種針對性的設計，旨在提升秦腔視頻質量的處理能力，確保在去噪過程中能夠最大限度地保留秦腔的藝術魅力。該方法不僅能夠提高視頻的觀賞性，也為保護和傳承這一珍貴文化遺產提供了技術支持。

2 TGA-TFNet

本文提出了一種基于雙門控注意力的時序融合視頻去噪算法（twin gate attention-temporal fusion network，TGA-TFNet）。該算法能夠有效捕捉相鄰幀之間的相關性，保證去噪結果的時序一致性，并避免引入偽影以及修復因過度平滑而損失的細節，從而生成高質量的去噪視頻。TGA-TFNet主要由時序融合模塊、雙門控注意力去噪網絡以及多頭交互注意力精煉模塊組成，這些組成部分旨在解決秦腔視頻去噪過程中的關鍵挑戰。通過與秦腔視頻特征的緊密結合，TGA-TFNet在保持視頻時序性的同時，充分保留了視頻細節，提高了去噪效果，展現出對秦腔視頻處理的顯著優勢。下面將詳細介紹這些模塊的功能和作用。

2.1 網絡結構

本文提出的基于雙門控注意力的時序融合視頻去噪算法如圖1所示。該方法的具體流程包括時序融合、去噪、精煉與細化3個步驟。輸入包括當前噪聲幀noisy（t）和先前幀序列的特征融合特征fused（t-1），輸出為當前幀以及當前幀的去噪與細化結果refine（t）。

本文提出的基于雙門控注意力的時序融合視頻去噪方法，包括如下步驟。

1）時序融合。將輸入的兩個幀noisy（t）和fused（t-1）傳入時序融合模塊，得到新的融合特征fused（t）。該步驟的目標是利用視頻中固有的時間相關性，最大程度地減少圖像中的噪聲，同時不引入任何時間偽影。

2）去噪。將上一步驟得到的融合特征fused（t）輸入雙門控注意力去噪網絡，進行去噪處理，得到去噪后的視頻幀denoised（t）。此步驟的目的是利用融合特征fused（t）中的時間冗余信息，精確且高效地去除噪聲。

3）精煉與細化。該步驟的輸入由上兩步驟生成的denoised（t）和fused（t），以及先前幀序列的去噪與細化結果refine（t-1）的卷積結果組成。將這兩個輸入送入多頭交互注意力精煉模塊，對去噪后的視頻幀進行精煉和細化，得到經過去噪和細化處理的干凈視頻幀refine（t）。該步驟的目的是消除去噪過程中引入的偽影，并恢復因過度平滑而損失的細節。

2.2 時序融合模塊

在視頻去噪過程中，有效利用時序信息是提高去噪性能的關鍵。由于視頻幀與幀之間的內容具有高度相關性，這種相關性可以用來增強單個幀中的信號并抑制噪聲。然而，傳統的視頻去噪網絡通常只關注單幀內的特征提取，而忽視了幀與幀之間的時序關聯。為了克服這一限制，本文設計了一個時序融合模塊（temporal fusion model，TFM）。

該模塊的主要目的是整合連續幀之間的信息，以增強當前幀的信號并減少噪聲。通過引入先前幀的融合特征和當前的噪聲幀，該模塊旨在利用時序上的連續性和冗余信息來提升去噪性能。如圖2所示，首先進行拼接操作，將當前的噪聲幀noisy（t）與先前幀中的融合特征fused（t-1）結合，以整合時間維度上的信息。其次，利用兩個連續的3×3卷積層（使用ReLU激活函數）對融合后的數據進行特征提取，從而增強有用信號并抑制噪聲。隨后，采用另一個帶有Sigmoid激活函數的3×3卷積層，動態地調整特征圖中每個元素的重要性。接下來，將先前的融合結果與Sigmoid輸出相乘，這一步驟使網絡能夠有選擇地增強關鍵特征，得到的結果再與將先前的融合結果相加。最后，利用另一個3×3卷積層對特征進行整合和細化，得到當前幀的融合特征fused（t），為下一階段的去噪網絡提供保留更多時序特征的特征集。通過設計時序融合模塊（TFM），該方法能夠更有效地利用視頻序列中的時序冗余性，不僅提高去噪網絡對時間相關特征的捕捉能力，而且增強網絡在處理高動態場景時的穩健性。

2.3 雙門控注意力去噪網絡

本小節提出了一種基于HIN的雙門控注意力去噪網絡（twin gated attention denoising network，TGADNet），該網絡采用HIN的整體結構，并引入雙門控注意力模塊（twin gated attention model，TGAM），專門處理視頻序列的時序特征。

HINet利用半實例歸一化（half instance normalization，HIN）結合了批量歸一化（batch normalization，BN）和實例歸一化（instance normalization，IN）的特性。通過在BN和IN之間建立平衡，HINet能夠保持圖像內容的穩定性，同時增強網絡對于圖像細節和紋理的恢復能力。然而，這些方法仍然不足以滿足視頻去噪的需求。因此，引入了TGAM作為HINet編碼器和解碼器之間的橋梁，以幫助模型更好地理解和重建秦腔視頻幀之間的動態變化。TGAM使網絡能夠識別和調節對空間噪聲特征的關注，并根據視頻幀之間的動態變化調整注意力分布。通過這樣的設計，本小節提出的TGADNet在處理秦腔視頻序列時能夠有效地識別和去除時序上的噪聲，同時保留重要的秦腔視頻時序信息，例如運動細節和連貫性。

如圖3所示，TGADNet由兩個子網絡組成，這兩個子網絡通過跨階段特征融合模塊（cross-stage feature fusion，CSFF）和監督注意模塊（supervised attention module，SAM）進行連接。這兩個模塊的設計靈感來自于Zamir的方法［17］。

首先，將帶有時序信息的融合特征送入第一個子網絡，對視頻幀進行第一階段的去噪。在去噪過程中，每一層所產生的特征以及第一階段的去噪結果分別通過跨階段特征融合模塊（cross-stage feature fusion，CSFF）和監督注意模塊（supervised attention module，SAM）傳遞到下一個階段進行聚合。CSFF模塊用于豐富下一階段的多尺度特征，而SAM模塊則用于強調重要特征并抑制次要信息。接下來，第二個子網絡接收第一個子網絡提供的輸入，進行第二階段的去噪，并輸出去噪后的特征denoised。

每個子網絡都采用U-Net結構。對于每個階段的U-Net，首先通過單層卷積獲取待去噪特征圖的淺層特征，然后將特征送入編解碼架構中（4個下采樣+4個上采樣）。編碼器部分使用HIN Block來提取每個尺度的特征，并在下采樣過程中增加通道數。編碼器最底部的輸出被送入一組TGAM中，以從編碼器特征中獲取關鍵的去噪線索。TGAM將經過門控注意力加權的特征送入解碼器中。解碼部分通過Pixel Shuffle進行上采樣，以避免傳統上采樣方法引入偽影或模糊問題，并恢復或增加圖像的細節和清晰度。同時，解碼部分使用ResBlock來提取高級特征，并與HIN Block提取的特征進行融合，以補償反復采樣導致的信息損失。最終，輸出每個階段的去噪結果。

自注意力（self-attention，SA）模塊對于去噪很有幫助，因為它可以捕獲遠程依賴關系，從而增加接受野。然而，由于SA模塊需要計算序列中每對元素之間的相互作用，因此在處理高分辨率圖像時，這些模塊通常具有很高的計算復雜性。門控注意力（gate attention，GA）是對傳統自注意力機制的一種改進。

為了在減少計算負擔的同時提高去噪過程的效率，本小節采用了TGAM。TGAM通過引入額外的門控機制來動態調整注意力的聚焦程度，以調節不同元素之間注意力權重的分配。這樣可以使模型更加專注于噪聲密集或重要區域，從而提高去噪的效率和性能。此外，TGAM通過擴展特征圖的通道并將其分流送入可學習矩陣，以對頻域中的依賴性進行建模，從而捕獲特征中的長距離依賴關系，并大大降低了計算成本。

TGAM的結構圖如圖4所示。

首先，輸入特征圖Fin經過LayerNorm層進行歸一化。其次，通過1×1卷積將特征圖的通道數從c擴展到（2r1+r2）c，其中r1≤1和r2≤1是用于控制通道冗余的縮減因子的超參數。（2r1+r2）c通道被分為3個流，每個流具有r1c，r1c和r2c數量的通道，以捕獲遠程依賴關系。接下來，在兩個流中分別兩次捕獲頻域中的遠程依賴關系，得到F0和F1。最后，通過一系列點乘和1×1卷積的降維操作，并與Fin進行殘差連接，得到經過門控注意力加權的特征圖Fout。上述提到的兩次捕獲頻域中的遠程依賴關系是通過學習一個H×W×C的矩陣ω（與特征映射的大小相同）來建模的。與普通卷積相比，這樣的計算成本更低。以圖4中的F1流為例，首先使用二維快速傅里葉變換［18］（2D FFT）將特征映射轉換到頻域，得到FFFT;其次，將學習到的矩陣ω與FFFT相乘，以捕捉頻域的依賴關系，得到特征F’FFT；最后，將F’FFT作為來自r2c通道的特征映射的門控信號，執行門控注意力并最終輸出F1。相比于普通卷積［19］，這種方式將計算復雜度從卷積運算的O（N2）降低到元素矩陣乘法的O（N），其中N表示特征映射中的所有像素點。

2.4 多頭交互注意力精煉模塊

任何去噪方法都有可能引入偽影和圖像細節的丟失，特別是當輸入圖像的信噪比較差或模型的復雜性受到明顯約束時。因此，為了恢復因去噪而丟失的精細細節和紋理，并進一步提高去噪效果和精煉特征表示，提出了一種多頭交互注意力精煉模塊（multi-head interaction attention model，MIAM）。MIAM綜合考慮了仍帶有噪聲的圖像、無噪聲的去噪圖像以及經過精煉的上一幀圖像。它將這些圖像結合起來，用于精煉去噪后的特征。該模塊通過整合當前幀的去噪特征和時間維度上的信息（噪聲圖像特征和上一個細化幀的融合特征），旨在增強特征表示并實現更好的時序一致性。使用MIAM模塊的目的是在特征級別上提高去噪效果，同時恢復丟失的細節和紋理。這種方法能夠處理復雜的噪聲情況，并提供更準確的圖像去噪結果。

交互注意力（inteaction attention，IA）中將去噪后的特征作為支持特征FS∈RN×C，攜帶著噪聲特征和細化特征幀的融合特征，作為參考特征FR∈RN×C，其中N表示通道內的像素數。參考特征的查詢QR、支持幀的鍵KS和值VS通過線性層表示為

QR=FRPQ， KS=FSPK， VS=FSPV（1）

式中：PQ、PK、PV∈RC×C是線性層。接下來的IA注意力計算公式為

IA（FR，FS）=SoftmaxQR（KS）TCVS（2）

受多頭自注意力的啟發，將輸入分組，生成多組查詢、鍵、值;然后將多組查詢、鍵、值并行地進行注意力計算，將結果匯聚拼接;最后，經過一個全連接層，最終得到輸出。以這樣的方式交互注意力成為多頭交互注意力（multi-head interaction attention，MIA），這樣網絡可以同時關注輸入的不同部分，從而更好地捕捉輸入特征中的信息。

多頭交互注意力精煉模塊的工作流程表示為式（3），F1表示當前需要細化的特征，F2則是上一個細化幀與噪聲圖像特征的融合結果。MIA（F1，F2）代表了通過對齊操作，利用F2對F1進行多頭交互注意力的處理。Concat表示通道拼接操作，MLP（x）表示多層感知機（multilayer perceptron），而LN（x）表示層歸一化（layer normalization）操作。首先，對F1和F2進行兩次多頭交互注意力計算，將得到的注意力結果分別表示為Y1和Y2。其次，將Y1和Y2進行通道拼接操作，將其輸入到多層感知機中，以進行通道縮減。將多層感知機的輸出結果與F1進行殘差連接，得到特征F3。最后，對F3進行層歸一化操作，將其輸入到另一個多層感知機中，進行進一步的特征轉換。將多層感知機的輸出結果與輸入的F3進行殘差連接，即可獲得經過細化和精煉后的視頻幀Fout。

Y1，Y2=MIA（F1，F2），MIA（F2，F1）

F3=MLP（Concat（Y1，Y2））+F1（3）

Fout=MLP（LN（F3））+F3

通過MIAM，網絡能夠利用融合特征中的噪聲圖像信息，更精細地區分噪聲和有用信號，從而在去噪后的視頻中保留更多的細節和紋理信息，恢復因去噪而模糊或丟失的圖像細節。同時，通過融合特征中上一幀的特征，網絡可以更好地理解幀與幀之間的關系，能夠在保留重要細節的同時，識別并減少去噪過程中引入的不自然偽影。此外，在去噪過程中還能保持視頻的時間連貫性，避免去噪后視頻出現抖動或不自然的過渡。

2.5 損失函數

本小節旨在通過使用峰值信噪比（PSNR）和時間一致性損失作為優化目標，來提高視頻序列中圖像的質量，并確保幀與幀之間的時間連續性和一致性。這不僅有助于減少噪聲，還有效避免對秦腔表演中精細的面部表情和復雜的服飾紋理造成損害，具體描述如下。

2.5.1 峰值信噪比（PSNR）

峰值信噪比（PSNR）是最常用的衡量圖像重建質量的指標之一。它通過比較原始圖像與去噪圖像之間的最大可能像素值差異和實際像素值誤差的比率來評估圖像的質量。PSNR的計算公式為

LPSNR=10 log10I2maxeMSE（4）

式中：I2max表示圖像可能的最大像素值，對于8位圖像，該值通常為255；eMSE（均方誤差）是原始圖像和去噪圖像之間平均誤差的平方。PSNR值越高，表示去噪圖像與原始圖像越接近，圖像質量越好。在本小節中，通過最大化PSNR值來優化圖像的視覺質量，對于秦腔這類傳統藝術形式來說尤為重要，因為它們通常包含豐富的細節和紋理，需要在去噪的同時保留其獨特的藝術特點。

2.5.2 時間一致性損失

在處理秦腔這類傳統戲曲藝術視頻時，除了在單個圖像幀上進行高質量重建之外，視頻去噪還需要考慮幀與幀之間的時間一致性。為此引入了時間一致性損失函數，以確保相鄰幀之間的去噪結果在視覺上保持連續性和一致性。這在秦腔視頻去噪中尤為重要，因為秦腔的表演藝術強調唱、念、做、打的連貫性，任何幀與幀之間的不連貫都可能破壞其藝術表現力。時間一致性損失通過比較連續幀的去噪輸出與原始視頻幀之間的差異來計算，其計算公式為

Ltemp=1N-1∑N-1i=1‖f（di）-f（di+1）-（oi-oi+1）‖2（5）

式中：di和di+1表示連續的去噪幀；oi和oi+1表示對應的原始幀； f（x）表示特征提取函數；N是視頻序列中的總幀數。該損失項旨在鼓勵模型生成的去噪幀在時間上保持一致性，減少視覺抖動。

2.5.3 總損失

首先，采用PSNR來調整每個完整圖像的像素值差異，以提高單幀去噪圖像的質量，并保留圖像中的顏色和紋理特征，這對于秦腔表演中豐富的表情和服飾細節尤為重要。其次，使用時間一致性損失函數聚焦于視頻的時序特征，以確保去噪過程不會引入任何不自然的幀間跳動或抖動，從而保持視頻播放的平滑性和連貫性，這對于秦腔表演的流暢性和整體藝術表現至關重要。總損失函數表示為

Ltotal=αLPSNR+βLtemp（6）

式中：LPSNR和Ltemp分別代表PSNR損失和時間一致性損失；α和β是用于平衡兩種損失貢獻的權重參數。

3 實驗與分析

在提升秦腔視頻的去噪品質中，TGA-TFNet方法凸顯了其卓越性。該方法在確保去噪后視頻序列的時間連貫性方面表現突出，同時避免了偽影的產生，并有效恢復了因過度平滑而損失的細節。為了全面評估TGA-TFNet在秦腔視頻去噪方面的表現，本節將此方法與其他去噪算法在多個數據集上進行了對比分析。實驗涵蓋了詳盡的實驗設置、數據集的選擇、評估指標的確定、對比實驗的執行以及消融實驗的探究。通過這些嚴謹的實驗流程，能夠確保秦腔視頻中的藝術性和細節得到最大程度的保留，同時去除噪聲，使得秦腔的韻味和藝術表現力在數字化處理中得以傳承和發展。

3.1 實驗設置

本實驗使用Python 3.8和PyTorch 1.7，以及NVIDIA 3090顯卡進行訓練。在實驗中，利用DAVIS訓練數據集，該數據集中添加了標準差為［5，50］的高斯噪聲，并構建了帶噪干凈對，作為網絡模型的訓練數據。于每個訓練周期中，提取了128 000個訓練樣本進行訓練，每個訓練樣本是一個96×96的7幀序列塊，批處理大小設置為32。在訓練過程中，使用Adam優化器對網絡參數進行優化。網絡模型總共進行了35個周期的訓練。前15個周期的學習率設置為10-3，接下來的10個周期學習率變為10-4，最后剩余的10個周期的學習率設置為10-6。

3.2 數據集

深度學習任務需要大量的數據樣本來對模型進行訓練。為了獲取豐富的樣本，將使用添加了高斯噪聲的DAVIS［20］數據集作為實驗的訓練集，用于對模型進行訓練。同時，為了驗證所提出的視頻去噪方法的有效性，將使用添加了不同強度噪聲的DAVIS測試數據集以及秦腔戲曲數據集對模型進行測試。接下來，將介紹DAVIS數據集和自建數據集的詳細情況。

DAVIS數據集是專為視頻分析和理解而設計的重要資源，在計算機視覺研究領域得到廣泛應用。該數據集旨在提供一個標準化的平臺，用于評估和比較不同視覺算法在處理動態場景中的性能。DAVIS數據集提供了一系列高質量的視頻，每個視頻都附帶了精細的像素級手工標注，描述了視頻中的主要對象和場景。數據集的設計考慮了多樣性和復雜性，包含了從簡單到復雜的各種場景，以模擬計算機視覺系統在現實世界中可能面臨的挑戰。自首次發布以來，DAVIS數據集經歷了多次更新和擴展，每個新版本在視頻數量、場景復雜度和標注質量方面都有所提升。例如，數據集從最初的單對象跟蹤和分割擴展到了多對象場景，以適應計算機視覺領域的發展需求。DAVIS數據集的一個顯著特點是其高質量的手工標注，為研究人員提供了一個準確的基準來評估他們的算法。這些標注覆蓋了視頻的每一幀，為各種視覺任務（如對象檢測、跟蹤、分割等）提供了實驗基礎。由于其豐富的場景和精確的標注，DAVIS數據集適用于廣泛的計算機視覺任務，包括但不限于視頻分割、對象跟蹤、場景理解和動作識別。它為算法開發者和研究人員提供了一個共同的基準，以驗證和比較他們的技術在真實世界條件下的性能。

秦腔戲曲視頻數據集是通過收集現場演出的視頻、訪問數字檔案和圖書館資源整理而成的，該數據集包含了15個秦腔戲曲視頻。

3.3 消融實驗

為了驗證本文方法的有效性，本小節進行了消融實驗，分別針對時序融合模塊、雙門控注意力模塊以及多頭交互注意力精煉模塊進行了實驗。接下來將詳細介紹這些實驗以及實驗結果。

3.3.1 TFM的消融實驗

時序信息的充分利用可聚焦于視頻幀之間高度相關的內容。相較于單層3×3卷積，TFM能更充分地利用時序上的連續性和冗余信息，以提升去噪性能。為了驗證TFM的有效性，在DAVIS數據集上分別測試了以TFM作為融合模塊的去噪網絡和以單層3×3卷積作為融合模塊的去噪網絡，相關實驗結果如表1所示。從實驗結果中可以明顯觀察到，TFM作為融合模塊的去噪網絡相較于單層3×3卷積，更加專注于視頻幀之間高度相關的內容，從而實現更佳的去噪性能。

3.3.2 TGAM的消融實驗

為了驗證TGAM的有效性，在DAVIS數據集上添加了σ=50的高斯噪聲，并進行了相應的實驗。為了避免冗余卷積，引入了可學習的H×W×C矩陣ω，用以替代傳統的卷積操作。在相同參數數量的情況下，這一改進將PSNR從31.09 dB提高到31.94 dB，實驗結果如表2所示。此外，當在頻域中捕獲兩次遠程依賴關系時，與僅捕獲一次依賴關系相比，在相同參數數量下PSNR進一步提高了0.46 dB，表明雙重相互作用在捕獲遠程依賴關系方面具有優勢。此外，在計算速度方面，由于通過學習矩陣ω對頻域中的依賴性進行建模，成功捕獲兩次遠程依賴關系，將計算時間從169 ms縮短到143 ms。

同時，為了研究通道數對性能的影響，對兩個超參數r1和r2進行了調優。實驗結果如表3所示，當r1=0.5，r2=1時，PSNR達到最佳。而當r1=1和r2=1時，PSNR下降了0.51 dB，說明增加信道數會降低性能，因為不同信道上的特征存在冗余。

3.3.3 MIAM的消融實驗

通過對去噪后的圖像進行細化處理，可以恢復因去噪而被去除的精細細節和紋理。為了驗證MIAM的有效性，在DAVIS數據集上添加了σ=50的高斯噪聲，并進行了相應的實驗。實驗結果如表4所示，在引入MIAM后，PSNR從31.66 dB提高到31.94 dB，SSIM從0.866 1提高到了0.874 9。

3.4 對比實驗

本小節將對TGA-TFNet視頻去噪算法進行了全面的評估。實驗結果表明，TGA-TFNet在DAVIS測試集上對不同強度的高斯噪聲具有卓越的去噪性能。如表5所示，TGA-TFNet在PSNR和SSIM這兩個關鍵客觀評價指標上均優于DVDNet［7］、FastDVDNet［11］和ViDeNN［21］方法。

此外，為了直觀展示TGA-TFNet的性能，隨機選取了DAVIS數據集中兩個視頻序列，并展示了它們經過不同去噪方法處理后的結果（見圖5）。從定性的角度分析，相較于其他去噪方法，TGA-TFNet在保留細節信息和防止圖像過度平滑化方面的優越性。

為了驗證TGA-TFNet在特定領域如秦腔戲曲視頻數據集上的應用效果，對其進行了測試，測試視頻被添加了σ=50的高斯噪聲。測試結果如圖6所示，TGA-TFNet在秦腔視頻的去噪結果上，不僅視覺上更為舒適，而且在色彩保真度上也有出色表現。即便在復雜光照條件下，TGA-TFNet去噪后的秦腔視頻依然能夠保持色彩的鮮艷度和亮度的一致性，沒有出現色彩偏移或明顯的亮度變化。

3.5 實驗結果與分析

本文旨在解決現有視頻去噪算法忽略運動細節和時序連貫性等時序信息的問題，并提出了一種基于門控注意力的視頻去噪算法（TGA-TFNet）。該方法主要由時序融合模塊（TFM）、雙門控注意力去噪網絡（TGADNet）和多頭交互注意力精煉模塊（MIAM）組成，本節對這3個部分的結構和原理進行了詳細的闡述。為了驗證TGA-TFNet方法的有效性，本節對TGA-TFNet方法在DAVIS數據集和秦腔戲曲數據集上進行了實驗對比。實驗結果表明，TGA-TFNet在這些數據集上取得了出色的去噪性能。此外，本節還通過消融實驗驗證了TFM模塊、TGADNet模塊和MIAM模塊對TGA-TFNet方法性能提升的重要作用。

本研究考慮了圖像增強技術和視頻修復技術在處理秦腔視頻時可能產生的效果，這些技術雖然在提升視頻視覺效果方面具有潛力，但它們與去噪算法的主要區別在于，它們更側重于改善視頻的視覺表現或修復物理損傷，而不是減少噪聲。在處理秦腔視頻時，這些技術需要與去噪算法協同工作，以確保在提升視頻質量的同時，不破壞秦腔表演的藝術性和傳統特色。

4 結語

在深入研究視頻去噪技術的基礎上，針對秦腔視頻這一特定類型的視頻材料，本文提出了改進和優化方法。秦腔作為中國西北地區廣為流傳的傳統戲曲藝術形式，其視頻資料的清晰度和流暢度對于傳承和推廣這一非物質文化遺產至關重要。因此，本文提出了一種基于雙門控注意力的時序融合視頻去噪算法（TGA-TFDNet），特別適用于秦腔視頻的去噪處理。該算法利用幀與幀之間的相關性，避免了重復計算，在提高了去噪效率的同時，又保留了去噪結果中的重要細節，這對于秦腔表演中精細的面部表情和復雜的服飾紋理的保留尤為重要。通過采用TFM來利用時序上的連續性和冗余信息，以提升去噪性能，同時引入了TGADNet以實現雙重門控機制，不僅能識別和調節對空間噪聲特征的關注，而且能夠通過MIAM利用幀與幀之間的注意力交互來消除去噪過程中產生的偽影，并恢復因過渡平滑而損失的細節，從而生成高質量的去噪視頻幀序列。實驗結果表明，相較于目前先進的視頻去噪算法，該方法在去噪質量和計算效率上具有強大的競爭力。然而，在極端噪聲或低光照條件下，視頻序列中的有效信息會大大減少，使得去噪過程更加困難。因此，未來將改進現有的雙門控注意力機制，以提高算法在極端噪聲條件下的魯棒性。同時，還計劃擴充秦腔視頻數據集，并繼續進行實驗，以更充分驗證該方法在秦腔視頻去噪任務上的有效性。

參考文獻

［1］周明全，耿國華，武仲科. 文化遺產數字化保護技術及應用［M］.北京：高等教育出版社， 2011.

［2］耿國華，何雪磊，王美麗，等. 文化遺產活化關鍵技術研究進展［J］.中國圖象圖形學報， 2022， 27（6）： 1988-2007.

GENG G H， HE X L， WANG M L， et al. Research progress on key technologies of cultural heritage activation［J］.Journal of Image and Graphics， 2022， 27（6）： 1988-2007.

［3］ TICO M. Multi-frame image denoising and stabilization［C］∥2008 16th European Signal Processing Conference. Lausanne： IEEE， 2008： 1-4.

［4］ LIU X， ZHU Y， LIU L， et al. Feature-suppressed contrast for self-supervised food pre-training［C］∥Proceedings of the 31st ACM International Conference on Multimedia. Ottawa： ACM， 2023： 4359-4367.

［5］ MAGGIONI M， HUANG Y， LI C， et al. Efficient multi-stage video denoising with recurrent spatio-temporal fusion［C］∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual： IEEE， 2021： 3466-3475.

［6］ DAVY A， EHRET T， MOREL J M， et al. A non-local CNN for video denoising［C］∥2019 IEEE International Conference on Image Processing （ICIP）. Taipei： IEEE， 2019： 2409-2413.

［7］ TASSANO M， DELON J， VEIT T. Dvdnet： A fast network for deep video denoising［C］∥2019 IEEE International Conference on Image Processing （ICIP）. Taipei： IEEE， 2019： 1805-1809.

［8］ XUE T， CHEN B， WU J， et al. Video enhancement with task-oriented flow［J］. International Journal of Computer Vision， 2019， 127（8）： 1106-1125.

［9］ WANG C， ZHOU S K， CHENG Z W. First image then video： A two-stage network for spatiotemporal video denoising［EB/OL］.（2020-01-22）［2024-06-20］.https：∥arxiv.org/abs/2001.00346v2.

［10］MEHTA S， KUMAR A， REDA F， et al. Evrnet： Efficient video restoration on edge devices［C］∥Proceedings of the 29th ACM International Conference on Multimedia. Virtual： ACM， 2021： 983-992.

［11］TASSANO M， DELON J， VEIT T. Fastdvdnet： Towards real-time deep video denoising without flow estimation［C］∥2020 IEEE／CVF Conference on Computer Vision and Pattern Recognition. Seattle： IEEE， 2020： 1354-1363.

［12］VAKSMAN G， ELAD M， MILANFAR P. Patch craft： Video denoising by deep modeling and patch matching［C］∥2021 IEEE／CVF International Conference on Computer Vision. Montreal： IEEE， 2021： 2157-2166.

［13］MAGGIONI M， HUANG Y， LI C， et al. Efficient multi-stage video denoising with recurrent spatio-temporal fusion［C］∥2021 IEEE／CVF Conference on Computer Vision and Pattern Recognition. Nashville： IEEE， 2021： 3466-3475.

［14］SONG M， ZHANG Y， AYDIN T O. Tempformer： Temporally consistent transformer for video denoising［C］∥European Conference on Computer Vision. Cham： Springer Nature Switzerland， 2022： 481-496.

［15］LI D， SHI X， ZHANG Y， et al. A simple baseline for video restoration with grouped spatial-temporal shift［C］∥2023 IEEE／CVF Conference on Computer Vision and Pattern Recognition. Vancouver： IEEE， 2023： 9822-9832.

［16］LIANG J， CAO J， FAN Y， et al. Vrt： A video restoration transformer［J］. IEEE Transactions on Image Processing， 2024，33： 2171-2182.

［17］ZAMIR S W， ARORA A， KHAN S， et al. Multi-stage progressive image restoration［C］∥2021 IEEE／CVF Conference on Computer Vision and Pattern Recognition. Nashville： IEEE， 2021： 14821-14831.

［18］COOLEY J W， TUKEY J W. An algorithm for the machine calculation of complex Fourier series［J］. Mathematics of Computation， 1965， 19（90）： 297-301.

［19］LECUN Y， BOSER B， DENKER J S， et al. Backpropagation applied to handwritten zip code recognition［J］. Neural Computation， 1989， 1（4）： 541-551.

［20］PONT-TUSET J， PERAZZI F， CAELLES S， et al. The 2017 DAVIS challenge on video object segmentation［EB/OL］.（2018-03-01）［2024-06-20］.https：∥arxiv.org/abs/1704.00675v3.

［21］CLAUS M， VAN GEMERT J. Videnn： Deep blind video denoising［C］∥2019 IEEE／CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach： IEEE，" 2019： 1843-1852.

（編輯張歡）

基金項目：國家自然科學基金（62271393）；文化和旅游部重點實驗室項目（1222000812，cr2021K01）;西安市社會發展科技創新示范項目（2024JH-CXSF-0014）。

第一作者：師秦高雪，女，從事虛擬現實、圖像處理研究，shiqingaoxue@stumail.nwu.edu.cn。

通信作者：耿國華，女，教授，博士生導師，從事智能信息處理、虛擬現實與可視化研究，ghgeng@nwu.edu.cn。

西北大學學報(自然科學版)2025年1期

西北大學學報(自然科學版)的其它文章: 融合擴散模型技術的文物面部三維模型孔洞修補; 基于多層次瓶頸注意力模塊的顱骨到面皮的生成方法; 基于局部光影感知的書法圖像和諧化算法; 河西走廊文化遺產時空分布特征及自然影響因素分析; 基于孿生級聯空間濾波的中國傳統畫修復; 基于機載激光雷達的復雜環境空間考古調查方法