摘 要:針對現有視頻彩色化方法難以同時保證著色質量和時間一致性的問題,提出一種結合注意力機制和多尺度特征融合的視頻彩色化方法AMVC-GAN。首先,提出以GAN為主體的視頻彩色化網絡模型,通過在GAN的生成器中設計以循環時間網絡為主體的多尺度特征融合模塊,來獲取不同時間頻率的信息;其次,為了有效地考慮相鄰幀之間的關系,將不同時間頻率提取的特征進行融合,加強幀與幀之間的聯系,以此增強彩色化的時間一致性;最后,為了獲取更多的有效信息, 在主網絡的上采樣部分引入了注意力模塊,并通過使用PatchGAN來對結果進行優化訓練,以增強最終的著色效果。在DAVIS和VIDEVO 數據集上與先進的全自動視頻彩色化方法進行對比實驗。結果表明,AMVC-GAN在多項指標上排名第一,具有更好的時間一致性和著色效果。相比于其他方法,AMVC-GAN能夠有效地減少時間閃爍,同時保證著色效果更為真實、自然。
關鍵詞: 生成對抗網絡;多尺度融合;注意力機制;彩色化
中圖分類號: TP391文獻標志碼:A 文章編號: 1001-3695(2024)04-037-1214-07
doi: 10.19734/j.issn.1001-3695.2023.07.0351
Video colorization method combining attention mechanism and multi-scale feature fusion
Zhou Keming Kong Guangqian Deng Zhouhui1c,1d,2
Abstract:To address the issue that existing video colorization methods are complicated to guarantee both coloring quality and temporal consistency, this paper proposed a video colorization method AMVC-GAN combining attention mechanism and multi-scale feature fusion. Firstly, it proposed a GAN-based video colorization network model. It designed a multi-scale feature fusion module in the generator of GAN with a cyclic time network as the main body to obtain information of different time frequencies. Secondly, to effectively consider the relationship between adjacent frames, it used the features extracted from diffe-rent time frequencies to strengthen the connection between frames as a way to enhance the temporal consistency of colorization. Finally, to obtain more helpful information, it introduced an attention module in the upsampling part, and optimally trained the results by utilizing PatchGAN to enhance the final colorization effect. Comparing with the state-of-the-art automatic video colo-rization methods on DAVIS and VIDEVO datasets, the results show that AMVC-GAN ranks first in multiple indicators, with better time consistency and colorization effect. Compared with other methods, AMVC-GAN can effectively reduce time flicker, while ensuring more real and natural colorization effect. Key words:generating adversarial networks; multiscale fusion; attention mechanisms; colorization
0 引言灰度視頻彩色化旨在將黑白視頻轉換為彩色視頻,是一項非常有價值的技術,它可以在歷史數據恢復、舊視頻著色等方面發揮重要作用,并為這些產品增加額外的視覺信息。自19世紀末黑白電影問世以來,這種電影類型一度成為主流,大量的黑白電影上映了。隨著時代的變遷,彩色電影也逐漸走進人們的視野,并漸漸取代了黑白電影的地位,這表明人們更喜歡彩色電影。雖然黑白影像有著獨特的意義,但將其彩色化也能增添另一抹色彩。 將灰度視頻彩色化是一個極具挑戰性的問題,這是因為視頻著色不僅面臨著圖像方面的挑戰,同時還面臨時間一致性等全新的挑戰。在視頻著色的過程中,時間如果不一致就會導致時間閃爍情況的發生。時間閃爍指視頻中相鄰幀之間顏色不連續或不一致的現象,例如,相同的物體在同一視頻中會展現出不同的顏色,影響人們對視頻內容的理解,降低了人們的觀看體驗。因此,視頻著色需要采用一些不同于圖像著色的方法來使生成的視頻幀更自然也更真實。
通常來說,為灰度視頻幀上色是非常昂貴且耗時的過程,需要專家對每個幀單獨著色,所以早期僅在大型項目里才會見到對灰度視頻進行彩色化處理。近年來,隨著人工智能的高速發展,使用計算機來指導著色已逐漸成為了主流。現在主流視頻的著色方法主要可分為基于示例的著色[ 2]、基于任務獨立的著色[3,4]與全自動著色[5~7]三大類。早期的視頻著色方法主要依賴于用戶手工涂鴉[8],通過在視頻幀上涂鴉標注顏色來指導整個視頻序列的著色風格,然而,這種方法存在很大的局限性。一方面,用戶需要花費大量的時間和精力來完成涂鴉標注;另一方面,如果涂鴉不夠充分或者不夠準確,就會導致著色效果不理想。為了解決這些問題,近年來,以深度學習為基礎的基于示例的著色逐漸走進了人們的視野并受到廣泛關注。這些方法利用參考幀提供信息,就可以實現高質量的視頻著色。Zhang等人[1]提出一個框架,將語義對應和顏色傳播的步驟統一起來,通過所提供的參考圖像引導每幀的著色,匹配了輸入幀與參考圖像之間的相似性,減少了累積的傳播誤差。但是當場景切換時,用戶并不能提供足夠的“提示”,導致上色的位置也不夠精準。為了解決該問題,Endo等人[9]提出一種視頻傳播技術,該技術指定一個視頻幀為關鍵幀,通過關鍵幀將信息傳播到目標幀,該方法可以減少對視頻進行著色所需的提示信息量。然而,即使使用該技術也難以對較長的視頻進行著色,因為不同的關鍵幀會存在顏色差異,在切換關鍵幀時會出現顏色不一致。為了減輕選擇適當例子的工作,出現了基于任務獨立的著色,該方法旨在對著色的結果進行后處理,對輸出的結果增加時間相干性。Lai等人[4]提出了一個增強生成視頻時間一致性的框架,通過最小化短期和長期時間損失以及感知損失來訓練所提網絡,并使用光流網絡,縮小了相鄰幀之間的顏色差異。但是這些方法大多數適用于圖像,且連續效果并不好。因此,Lei等人[5]提出了一種能同時生成四種不同顏色結果的多模態全自動彩色化方法,通過K最近鄰算法(KNN)在特征空間中搜索或使用光流來增強相鄰幀的相似性,提高了時間的一致性,但由于主要關注的是時間一致性,所以著色效果難以達到令人滿意的效果。Liu等人[10]提出了一種新的時間一致性框架,該框架使用雙向傳播的方式,通過雙向特征傳播生成連續的相鄰特征,并且通過正則化減少不同時間步長下的預測差異,在保證時間一致性的同時提高了著色質量。然而,當該方法遇到場景變化較大時,著色效果也不是很理想。為了解決時間閃爍和著色質量不佳的問題,本文提出一種新的視頻彩色化方法(AMVC-GAN)。首先,現有視頻彩色化方法對于視頻幀中復雜的色彩變化特征難以有效地捕捉,在這種情況下,本文使用GAN為主體的訓練方式同時訓練生成器與鑒別器,通過相互競爭的方式提高著色質量。其次,由于訓練數據前后幀的差異較大,且幀與幀之間的聯系過少,現有模型對這種變化較為敏感,導致生成結果產生時間閃爍。因此,本文提出一種新的多尺度特征融合模塊,通過融合不同時間頻率的信息與占位特征提取器保留的前一幀特征,加強幀與幀之間的聯系,在保證時間一致性的同時提高視頻的著色質量。最后,由于模型提取的信息不全,不能提取足夠關鍵的信息,導致著色質量不理想。本文在U-Net[11]的上采樣階段引入注意力模塊CBAM[12],以獲取更為有效的信息,從而進一步提高著色的質量。AMVC-GAN的結構由生成器與鑒別器組成。生成器是一個以U-Net為主體的編碼器,其中包含全局特征提取器、占位特征提取器和多尺度特征融合模塊。鑒別器則使用的是PatchGAN。在DAVIS[13]和VIDEVO[4]等視頻數據集上對AMVC-GAN進行訓練和評估。大量的實驗結果表明, AMVC-GAN在減少時間閃爍的同時提高了著色質量,相較于現有的一些視頻著色方法,AMVC-GAN生成的彩色視頻更為自然,效果也更優。
本文的主要貢獻如下:a)提出了一個全新的視頻彩色化方法(AMVC-GAN),通過兩階段的訓練,其中第一階段訓練提取特征的能力,第二階段減少時間閃爍,能有效地為灰度視頻進行著色;
b)提出了一個新的多尺度特征融合模塊,融合不同時間頻率的信息,能有效減少時間閃爍, 并引入注意力機制,提高了著色質量;c)實驗表明,AMVC-GAN在DAVIS與VIDEVO 數據集上擁有更好的時間一致性與著色效果,在定量與定性方面都優于目前的研究成果。
1 相關工作
1)視頻彩色化
在早些時期,人們就試圖利用當時的技術對灰度圖像進行上色,由于技術條件的限制,往往需要依靠大量的人工標注來輔助處理,灰度圖像彩色化[13,14]也就隨之誕生。早期的彩色化方法,主要是通過用戶給定的著色樣本信息來引導著色,基于涂鴉的著色就是其中之一。Levin等人[8]提出了一種交互式的彩色化技術,將顏色從涂鴉傳播到相鄰的相似像素。隨著深度學習的發展,CNN類著色方法[15~17]通過從輸入圖像中提取特征,有效地提高了圖像著色質量。將以上方法應用于視頻中,雖然在單個圖像上會取得令人滿意的結果,但在視頻上測試時會出現較嚴重的時間閃爍。為了解決此問題,出現了適用視頻的彩色化方法。例如,Zhang等人[15]運用參考圖像與輸入幀之間的特征進行匹配,從而引導視頻上色。Jampani等人[2]使用少量的彩色幀作為參考,然后將其傳播到整個視頻中。當彩色樣本幀和灰度幀的場景差異可以被忽略時,圖像著色算法才能獲得良好的著色質量;然而,將它們獨立地使用到每一個視頻幀時往往會出現時間不一致的現象。因此,研究者提出了任務獨立的方法來解決編碼獨立著色幀的時間一致性問題。Bonneel等人[3]通過最小化扭曲幀和下一幀的差異來解決這個問題。然而,由于圖像著色和用于時間一致性的細化網絡是分別訓練的,導致所產生的視頻幀仍然不夠連續。為了解決此問題,出現了全自動視頻彩色化。Kouzouglidis等人[6]通過三維卷積,考慮框架高度、寬度和時間維度,聚合每一幀的多個色度,并將可用信息與亮度相結合,生成一個新的彩色序列。為了進一步自動化視頻著色管道,Thasarathan等人[7]提出了基于生成對抗性網絡的視頻著色方法,通過改進現有圖像到圖像的轉換方法,在生成器與和鑒別器中添加一個額外的條件,創建時間相干性以生成連續的視頻序列。但是,以上方法在時間一致性上并沒有表現出令人滿意的結果。
2)注意力機制
在計算機視覺中,注意力機制的主要思想是:關注相關的信息而忽略不相關的信息,從而提高效率。倘若模型擁有自注意力,它就能直接建立輸入與輸出之間的關聯,提高并行化程度。在計算機視覺方面,2015年Jaderberg等人[18]提出了基于圖像方面的空間注意力。2018年Hu等人[19]提出了SENet,該模塊主要通過學習通道之間的相關性,從而達到篩選出針對通道的注意力,將該模塊加入主網絡中可以保證在不提高模型復雜度的情況下有效提高任務的性能。隨后,Woo等人[12]提出了CBAM模塊,該模塊通過串聯通道注意力與空間注意力,以獲得更多更高層次的特征。在視頻彩色化方面,Yang等人[20]也將兩個CBAM模塊并聯在了編碼器子網絡中,通過聯合CNN與注意力模塊,使得著色效果更為豐滿。3)彩色化的生成對抗網絡
GAN最初由Goodfellow等人[21]提出,以無監督的方式來生成數據。該結構主要包括生成器、判別器。通過生成器與判別器之間的不斷對抗進行訓練,最終生成器生成的數據使判別器難以分辨。Isola等人[22]提出了一個用于幀與幀轉換的通用pix2pix框架。實驗分析表明,對抗性訓練策略有助于保留細節和提高感知質量。文獻[23]提出了pix2pix增強框架pix2pixHD,用于高分辨率圖像。在彩色化方面,對比于CNN,GAN的優勢在于能生成更為生動、真實的圖片或者視頻幀。Cao等人[24]首次通過生成對抗網絡來進行無監督的多樣化著色,并將噪聲通道連接到生成器的前半部分卷積層,以在彩色圖像生成過程中獲得更多的多樣性。Zhao等人[25]通過使用GAN來縮小生成圖像和真實圖像之間的各種差異,提高彩色化的質量。Wang等人[26]通過對GAN框架中每個像素的分配進行不確定性建模,使損失最小,生成的圖像看起來更真實。
2 本文工作視頻彩色化的難點在于,如何生成與真實場景顏色相近的彩色視頻幀,同時減少時間閃爍。生成的彩色視頻幀與真實場景不相似的原因主要是在復雜場景或者邊緣部分,模型難以獲取更為準確的信息;而造成時間閃爍的主要原因是視頻由一系列連續的幀組成,每幀都與前后幀有關聯。如果在彩色化過程中沒有考慮到這種關聯性,可能導致不同幀之間的顏色不一致。并且當視頻中的場景在不同幀之間發生較大變化時,如光照變化、物體移動等,這些變化也會導致顏色一致性結果不佳。基于此,本文設計了一個新的視頻彩色化方法AMVC-GAN,通過以GAN為主體的訓練方式,訓練一個生成器網絡和一個鑒別器網絡進行對抗性訓練,可以有效提高模型提取復雜場景和邊緣信息的能力,生成的視頻幀在外觀、結構上都與真實場景相似;除此之外,本文還提出一個多尺度特征融合模塊,該模塊可以融合不同時間頻率的信息,增強幀與幀之幀之間的關聯性,從而減少時間閃爍。綜上,AMVC-GAN通過探索更多的空間信息與時間信息,能夠在提高視頻著色質量的同時,更有效地減少時間閃爍。本章詳細闡述所提方法的思想。首先,本文構造了一個用于視頻彩色化的著色網絡,通過使用多尺度特征融合模塊來獲取不同維度的時間信息與空間信息,用于加強時間與空間聯系,得到時間閃爍更少的視頻幀;其次,本文還使用占位特征提取器儲存上一幀的信息,進一步加強幀與幀之間的聯系;最后引入注意力機制,并在不消耗大量計算和存儲成本的情況下作出更準確的預測,使生成的視頻幀顏色更為自然和生動,從而有效提高視頻彩色化的效果。1)網絡結構
AMVC-GAN的框架整體結構由生成器與鑒別器組成,生成器如圖1所示。該網絡主要由全局特征提取器、占位特征提取器、多尺度特征融合模塊、主流編碼器-解碼器和鑒別器五個部分組成。前四個部分構成生成器。其中,主流編碼器使用U-Net,在每個編碼器層i和解碼器層n-i之間具有相同分辨率的跳躍連接,其中n是層的總數。通過這種長短的跳躍鏈接,可以在保存低級信息的同時減少梯度消失,加快網絡收斂速度,使網絡擁有更好的性能。全局特征提取器、占位特征提取器與多尺度遞歸網絡模塊都使用在ImageNet[27]數據集上預訓練好的ResNet-50框架。全局特征提取器主要提取全局特征;占位符特征提取器則保留了最后一幀的信息與多尺度特征融合模塊,其共同作用來保證時間的一致性,然后再分別將提取器與多尺度特征融合模塊的特征輸入主流的編碼器進行特征融合。假定輸入的灰度視頻幀序列表示為X={X X2,…,Xn}。彩色化的視頻幀為G={G G2,…,Gn}。真實的彩色視頻幀為T={T T2,…,Tn}。以X1為例,X1分別輸入U-Net、全局特征提取器、占位特征提取器與多尺度特征融合模塊,經過U-Net的下采樣部分提取淺層信息。由于彩色化高度依賴全局特征[16],本文通過全局特征提取器能高效地獲取信息。占位特征提取器用于保存前一幀的信息,確保幀與幀之間的聯系,當主流網絡的輸入ngt;1時,占位特征提取器的輸入轉變為灰度的(δGn-1)。多尺度特征融合模塊用于融合不同時間頻率的信息,加強幀與幀之間的聯系,提高時間一致性。通過融合以上四個部分的特征,使深層和淺層的信息有效融合,隨后經過U-Net上采樣部分獲得彩色的視頻幀。最后,將真實圖片T1與生成的彩色視頻幀G1輸入鑒別器,利用GAN相互競爭的特性,使生成的視頻幀更真實、生動。
鑒別器則使用的是PatchGAN[22],相關網絡如圖2所示,對輸出的通道數為1的矩陣判別是否真實,同時相較于PixelGAN,擁有更少的參數。PatchGAN的輸出維度為×N,將其中的每一個元素x[i][j]看成一個patch,而一個patch對應一個圖像的感受野,通過取每個部位patch的均值進行求和,并將其看成真實圖片的概率進行輸出,有利于關注圖像的細節。
一般來說,每個特征圖的不同位置擁有不同的特征信息。然而,大部分特征信息都是低頻的特征信息,其細節或顏色變化緩慢,無須分配大量計算資源來學習。然而,在圖像中,往往需要重點計算少量重要的高頻細節,如邊緣信息和紋理特征,不加區分地計算高頻和低頻信息不僅會嚴重浪費計算資源,且不能很好地保留有用的高頻信息,從而降低模型的著色能力。因此,本文引入了注意力機制。現有的注意力機制大致可分為空間注意力與通道注意力兩類。具體來說,空間注意力被設計用來探索位置間的依賴關系,它將每個位置信息視為獨立的。通道注意力旨在探索通道間的依賴關系,即將所有的位置信息作為一個整體來處理。而本文使用注意力模塊旨在提高模型的特征提取和關鍵區域的感知能力。在模型的上采樣階段使用該操作,能自適應地提取更為重要的特征,因此彩色化結果將具有準確的顏色與更為清晰的邊界。該模塊的結構如圖3所示。本文將輸入的特征圖定義為F∈
其中:Fn代表最終的特征圖;F代表輸入的特征;AC代表注意力模塊的一維卷積;AS代表空間注意力的二維卷積。該模塊與下文提到的多尺度特征融合模塊結合,本文模型在時間一致性方面表現出良好的性能,并產生高質量的著色結果。
2)兩階段的訓練
為了使網絡擁有更好的性能,本文將訓練分為了兩個階段。在第一個階段,主要目標是訓練ResNet-50,使其擁有更好的特征提取能力,因此,將其在大型的ImageNet數據集上進行訓練。相較于別的數據集,該數據集類別更多、樣本更豐富,可以有效提高模型的泛化能力。并且在該階段,本文使用的損失函數是L1損失和感知損失[27],它們可以衡量圖像之間的相似性,更有利于生成高質量的圖像。在第二個階段,本文交互式地訓練GAN的生成器和鑒別器,并將其訓練為馬爾可夫鏈,目的是為了獲取更為連續的視頻幀。具體做法是:將長度為N的連續視頻幀序列定義為X={X X2,…,XN},并從數據集中隨機抽取連續的五幀視頻幀作為模型輸入。由于本文模型是一種遞歸的模型,并非線性的,前一幀會影響到下一幀的結果,所以對于一些特殊的模塊,輸入也會有所不同。對于第一幀的輸入,全局特征提取器、占位特征提取器與多尺度特征融合模塊皆為X 但從第二幀開始就會有所不同,全局特征提取器與多尺度特征融合模塊的輸入為Xn,占位特征提取器輸入為灰度的(δGn-1)。
3)多尺度特征融合模塊(multi-scale feature fusionmodule)
為了減少時間閃爍,本文設計了一個多尺度特征融合模塊。該模塊的主要目的是對一個時間維度進行下采樣,并且對當前時間維度下的每一視頻幀進行特征集成。為了實現此目標,使用以下分配方法來構建不同時間步的序列:首先將計算得到的特征向量 T 作為特征序列的第一個元素,并將其重命名為H0;然后,將H0中的N個特征向量分別表示為{ J0,J …,J N},如式(2)所示。
其中:| · |表示為均勻降采樣操作。通過重復x次降采樣操作,將得到的特征向量表示為 J ={Jn,n=0, …,N}。與以往針對時間頻率的多尺度特征融合工作不同,本文設計的MFF模塊是為了充分利用不同時間頻率的運動信息,以增強相鄰幀之間的聯系。具體的實現方式是通過嵌套的方式建立起不同時間頻率之間的周期性鏈接,構建一個逐漸加深的層次結構,并通過跳躍連接恢復丟失的信息,克服降采樣過程會導致信息丟失的問題。通過該模塊將更深與更淺層的層次結合,以學習更多特征層次結構的組合,增強幀與幀之間的關系。多尺度特征融合模塊結構如圖4所示,本文采用的插幀方法將連續的五幀視頻幀輸入最上層的平臺,記作{X X2,X3,X4,X5},第二個平臺則以跨幀(間隔一幀)的方式輸入,記作{X X3,X5},最下層的輸入則與主流網絡保持一致。此外,本文方法使用ConvGRU來對特征進行整合。利用GRU能有效解決普通RNN易出現梯度爆炸和梯度消失問題的優勢,并且相較于LSTM網絡,在保持相同精度的前提下,GRU訓練參數更少、訓練速度更快。除此之外,使用ConvGRU還能獲取更多的空間信息,能更好地處理視頻幀的局部特征,獲得更多的邊緣特征,減少著色時的滲色現象。將當前的時間Ht初始化為H0,然后輸入當前的時間狀態Ht與之前的隱藏狀態Ht- 計算得到當前隱藏狀態的HT。
隨后將得到的結果送入下一個平臺作為輸入。通過循環連接來得到不同時間頻率的信息,能有效獲取視頻幀序列中的運動信息,其中較高時間頻率下的信息通過循環連接接受較低頻率下的信息進行完善。最后將得到的特征向量聚合為R,并將其輸入到特征提取器再次提取特征。
其中:T是視頻幀的長度;N是VGG-16的conv4-3層特征;G(i)t代表t時刻生成的彩色化幀;G(i)t-1是G(i)t被光流扭曲的幀。通過Mt→t-1=exp(-αFt-Ft-122)[4]計算光流之間的可見性掩模,M(i)t→t-1表示Ft和Ft-1之間由輸入幀和扭曲的輸入幀的扭曲誤差計算的逐像素非遮擋區域,光流Pt→t-1是Ft和Ft-1的正向流。通過調整比例因子α來調整遮擋區域與非遮擋區域數值上的差異。短期損失主要用來學習相鄰幀之間顏色的相關性,增強時間一致性。但是當連續輸入的幀數大于5幀時,性能就得不到保證。因此,本文通過長期損失來建立生成幀之間的長期聯系,進一步提高性能。對于訓練GAN中生成器和鑒別器的損失分別定義為
3 實驗
1)數據集
在訓練AMVC-GAN的第一個階段,本文使用的數據集是整個ImageNet,該數據集總共包括1 000個類別、1 281 167張圖像。在訓練過程中,本文將圖片的大小調整為256×256。在訓練的第二個階段,使用的數據集是DAVIS和VIDEVO的混合數據集,該數據集總共包括156個短視頻,有29 620張視頻幀。其中DAVIS數據集由90個視頻組成,包括各種移動對象與運動類型,訓練集為60個、測試集30個;VIDEVO則由100 個視頻組成,其中80個訓練集、20個測試集。與ImageNet數據集一樣, 本文在訓練過程中將視頻幀的大小調整為256×256。
2)網絡結構
對于網絡結構,本文在第一個階段訓練三個特征提取器ResNet-50,直至收斂,精度達到最高且穩定。并且,為了獲取更多的特征,本文將ResNet-50的池化層用步長為2的卷積替代。然后在第二個階段,將訓練好的模型權重加載到全局特征提取器、占位特征提取器和多尺度特征融合模塊中。此外,本文的生成器和鑒別器使用的激活函數均是LeakyReLU[29],該激活函數擴大了ReLU的范圍,解決了負輸入狀態下梯度為0的情況,擁有比ReLU函數更好的效果,非常適合用于視頻彩色化方法中。
3)評價指標
在視頻著色質量方面,本文使用PSNR(峰值信噪比)與SSIM(結構相似性指數)[29]來進行評估。PSNR是一種使用較為廣泛的評價圖像質量的指標,通過計算對應像素點之間的誤差(分別計算RGB三個通道的PSNR,隨后取平均值)來評價生成的視頻幀的質量。SSIM則是通過分別計算圖像的亮度、對比度、結構來計算圖像的相似度。 在時間一致性方面,本文使用WarpError[30]通過計算前后幀之間的視差來進行評價。除此之外,本文使用CTBI[31]來評價時間一致性與著色質量之間的平衡關系。具體定義為
其中:N(·)代表著歸一化處理。首先對PSNR與WarpError分別按照(0,30)(0,0.1)進行歸一化。 由于PSNR與SSIM代表著色質量,WarpError代表時間一致性,本文將歸一化的公式定義為μ1+μ2+μ3= 并且μ1、μ2、μ3分別取0.2、0.3、0.5。
4)實驗細節
第一個階段,總共訓練20個周期,初始學習率設置為E-4,衰減周期為10,衰減為原來的一半。在第二個階段,加載第一階段訓練模型的權重,然后總共訓練500個周期,生成器和判別器的初始學習率分別設置為E-5和4E-5,學習率每經過100個周期減半。對于優化器,在兩個階段中均使用Adam進行優化。對于系數L1、Lp、Lst、Llt、LG分別設置為10、10、3、5、1。實驗是在配備兩張DGX-A100GPUS的服務器上進行的,其中第一階段訓練240 h,第二階段訓練72 h。
5)對比于別的先進視頻彩色化方法
在基于視頻的方法中,本文選擇與近幾年較為先進的視頻彩色化方法VCGAN[30]、FAVC[5]、CRVC-GAN[31]進行對比。在基于圖像的方法中,本文則與近幾年較為經典的圖像彩色化方法CIC[17]和ChromaGAN[32]搭配,用于指導時間一致性的算法BTC[4]來進行對比。在對比實驗中,保證了相同的實驗環境,即相同的設備、訓練集與測試集。
6)定量比較
定量結果如表1所示,紅色代表第一,藍色代表第二,綠色代表第三(參見電子版)。基于圖像的方法CIC與Chroma-GAN可以獲得相對不錯的PSNR和SSIM,但在時間一致性方面卻不能達到令人滿意的結果。這主要是因為基于圖像的訓練方法中,時間一致性與彩色化是兩個獨立的訓練過程,所以并不能使生成視頻幀具有較好的連續性。基于視頻的方法FAVC能獲得相較于圖像方面更高的性能,時間一致性也能達到不錯的結果。對于CRVC-GAN,雖在時間一致性方面取得了較為不錯的結果,但在著色質量方面未取得令人滿意的結果。而VCGAN在保證時間一致性的前提下獲得了較好的視頻著色質量,但時間一致性仍有較大的可提升空間。雖然CRVC-GAN、FAVC與VCGAN都能取得不錯的性能,但是相比之下,本文方法的著色效果與時間一致性指標都取得了更好的結果。除此之外,對于衡量時間一致性與著色質量的評價指標CTBI,也取得了較為優秀的結果。
7)定性比較
在VIDEVO和DAVIS兩個測試集上對本文方法和其他基于視頻和圖像的彩色法方法進行了定性比較,如圖5~7所示。對于基于圖像的方法,CIC+BTC可以很明顯地看出在圖5、7中顏色偏黃,并且出現了奇怪的紅色(見電子版)。而ChromaGAN+BTC雖然在著色方面相較于CIC+BTC有了較大的改善,但是圖7也出現了較為奇怪的紅色。對基于視頻的方法,FAVC在圖6并沒有很好地進行著色,而在圖7也出現了略微的紅色。圖5(f)中的飛機被涂成了不應該有的黃色。VCGAN雖然整體較為出色,但是從圖6可以明顯看出著色效果也不如本文方法飽和、自然。
通過以上分析,從評價指標來看,在時間一致性方面,本文通過使用多尺度特征融合模塊融合不同時間頻率的特征,以及在光流網絡的共同作用下,更能充分利用相鄰幀之間的關系。而在著色方面,本文使用的注意模塊能更有效地利用多尺度特征融合模塊與全局的特征,提取更為重要的信息,并且使用GAN的相互博弈特性生成更為真實的視頻幀。通過數據能很明顯地看出,本文方法在DAVIS與VIDEVO數據集上都取得了較好的效果。
8)消融實驗
為了更好地證明本文所使用的多尺度特征融合模塊與注意力模塊帶來的影響,本文在DAVIS與VIDEVO數據集上進行了消融實驗。在本文實驗中分別去除了多尺度特征融合模塊與注意力模塊,結果如表2所示。
從表2可以看出,在加入
多尺度特征融合模塊(MMFM)后,時間一致性得到了較為顯著的提升,WarpError在DAVIS數據集上從0.075 943提升到了0.073 106,且在VIDEVO數據集上從0.037 683提升至0.036 436。這證明本文設計的多尺度特征融合模塊,通過集成不同時間維度的信息達到提高時間一致性、減少時間閃爍的目的是有效的。同時,PSNR與SSIM在DAVIS與VIDEVO數據集上也有了略微的提升,進一步證明了多尺度特征融合模塊的有效性。除此之外,從表2可以看到,加入的注意力機制在DAVIS與VIDEVO數據集中都帶來了較為明顯的性能提升,PSNR與SSIM也得到較大的改善。圖8為不同模塊的消融對比,圖8(a)為輸入的灰度視頻幀,圖8(b)為沒有任何模塊生成的彩色視頻幀,圖8(c)為只加入多尺度特征融合模塊生成的彩色視頻幀,圖8(d)為只加入注意力模塊生成的彩色視頻幀,圖8(e)是本文完整模型生成的彩色視頻幀。可以看出,在僅加入多尺度特征融合模塊時,生成的彩色視頻幀更為真實,看起來也更加連續;在僅加入注意力模塊時,較多尺度特征融合模塊,彩色幀的色彩進一步飽和,但也出現了較為奇怪的顏色,當使用完整的模型時,可以很明顯地看出有著更好的時間一致性與著色性能。
4 結束語
本文提出了一個全新的具有注意力機制和多尺度特征融合的視頻彩色化方法AMVC- GAN。該方法結合了多尺度融合和注意力模塊。其中,多尺度特征融合模塊通過低頻率的信息來豐富高頻率的信息,再加以光流進行輔助,保證了視頻的連續性,從而提高了時間一致性。另外,在上采樣部分引入注意力機制,篩選出更為重要的信息提高了著色質量。實驗結果表明,與近幾年先進的圖像和視頻彩色化方法相比較,本文方法在DAVIS和VIDEVO數據集上都獲得了卓越的性能,比其他方法具有更好的時間一致性與著色效果。
參考文獻:
[1]Zhang Bo,He Mingming,Liao Jing,et al. Deep exemplar-based video colorization [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 8044-8053.
[2]Jampani V,Gadde R,Gehler P V. Video propagation networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 451-461.
[3]Bonneel N,Tompkin J,Sunkavalli K,et al. Blind video temporal consistency[J].ACM Trans on Graphics ,2015, 34 (6): article No. 196.
[4]Lai Weisheng,Huang Jiabin,Wang O,et al. Learning blind video temporal consistency[C]// Proc of European Conference on Computer Vision. Cham: Springer,2018: 170-185.
[5]Lei Chenyang,Chen Qifeng. Fully automatic video colorization with self-regularization and diversity[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3748-3756.
[6]Kouzouglidis P,Sfikas G,Nikou C. Automatic video colorization using 3D conditional generative adversarial networks[M]// George B,Richard B,Bahram P,et al. Advances in Visual Computing. Cham: Springer,2019: 209-218.
[7]Thasarathan H,Nazeri K,Ebrahimi M. Automatic temporally coherent video colorization[C]// Proc of the 16th Conference on Computer and Robot Vision. Piscataway,NJ: IEEE Press,2019: 189-194.
[8]Levin A,Lischinski D,Weiss Y. Colorization using optimization[J].ACM Trans on Graphics ,2004, 23 (3): 689-694.
[9]Endo R,Kawai Y,Mchizuki T. A practical monochrome video colorization framework for broadcast program production[J].IEEE Trans on Broadcasting ,2020, 67 (1): 225-237.
[10]Liu Yihao,Zhao Hengyuan,Kevin C K,et al. Temporally consistent video colorization with deep feature propagation and self-regularization learning[J].Computational Visual Media ,2024, 10 : 375-395.
[11]Ronneberger O,Fischer P,Brox T. U-Net: convolutional networks for biomedical image segmentation[M]// Navab N,Hornegger J,Wells W,et al. Medical Image Computing and Computer-Assisted Intervention. Cham: Springer,2015: 234-241.
[12]Woo S,Park J,Lee J Y,et al. CBAM: convolutional block attention module[C]// Proc of European Conference on
Computer Vision. Cham: Springer,2018: 3-19.
[13]萬園園,王雨青,張曉寧,等. 結合全局語義優化的對抗性灰度圖像彩色化[J]. 液晶與顯示,202 36 (9): 1305-1313. (Wan Yuanyuan,Wang Yuqing,Zhang Xiaoning,et al. Adversarial grayscale image colorization combined with global semantic optimization[J].Chinese Journal of Liquid Crystals and Displays ,202 36 (9): 1305-1313.)
[14]歐博,劉曉倩,林怡彤,等. 基于生成對抗網絡的漸進式夜視圖像彩色化算法[J]. 湖南大學學報: 自然科學版,2023, 50 (8): 23-31. (Ou Bo,Liu Xiaoqian,Lin Yitong,et al. Progressive colorization algorithm of night vision images based on generative adversarial network[J].Journal of Hunan University: Natural Sciences ,2023, 50 (8): 23-31.)
[15]Zhang R,Zhu Junyan,Isola P,et al. Real-time user-guided image colorizationwith learned deep priors [J].ACM Trans on Graphics, 2017, 36 (4):1-11.
[16]Larsson G,Maire M,Shakhnarovich G. Learning representations for automatic colorization[C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer,2016: 577-593.
[17]Zhang R,Isola P,Efros A A. Colorful image colorization[C]// Proc of the14th European Conference on Computer Vision.Cham:Springer,2016: 649-666.
[18]Jaderberg M,Simonyan K,Zisserman A. Spatial transformer networks[J].Advances in Neural Information Processing Systems ,2015, 28 (2): 2017-2025.
[19]Hu Jie,Shen Li,Sun Gang. Squeeze-and-excitation networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 7132-7141.
[20]Yang Ye,Liu Yao,Yuan Hui,et al. Deep colorization: a channel attention-basedCNN for video colorization[C]// Proc the 5thInternational Conference on Image and Graphics Processing. New York: ACM Press,2022: 275-280.
[21]Goodfellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial networks[J].Communications of the ACM ,2020, 63 (11): 139-144.
[22]Isola P,Zhu Junyan,Zhou Tinghui,et al. Image-to-image translation with conditional adversarial networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 1125-1134.
[23]Wang Tingchun,Liu Mingyu,Zhu Junyan,et al. High-resolution imagesynthesis and semantic manipulation with conditional GANs[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 8798-8807.
[24]Cao Yun,Zhou Zhiming,Zhang Weinan,et al. Unsupervised diverse colorization via generative adversarial networks[C]// Proc of Euro-pean Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer,2017: 151-166.
[25]Zhao Yuzhi,Po L M,Cheung K W,et al. SCGAN: saliency map-guided colorization with generative adversarial network[J].IEEE Trans on Circuits and Systems for Video Technology ,2020, 31 (8): 3062-3077.
[26]Wang Yi,Xia Menghan,Qi Lu,et al. PalGAN: image colorization with palette generative adversarial networks[C]// Proc of the 17th European Conference on Computer Vision. Cham: Springer,2022: 271-288.
[27]Johnson J,Alahi A,Li Feifei. Perceptual losses for real-time style transfer and super-resolution[C]// Proc of the 14th European Confe-rence on Computer Vision. Cham: Springer,2016: 694-711.
[28]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[29]Maas A L,Hannun A Y,Ng A Y. Rectifier nonlinearities improve neural network acoustic models[C]// Proc of the 30th International Conference on Machine Learning. 2013: 3-8.
[30]Zhao Yuzhi,Po L M,Yu W Y,et al. VCGAN: video colorization with hybrid generative adversarial network [J].IEEE Trans on Multimedia ,2023, 25 : 3017-3032.
[31]Xiang Lingjie,Kong Guangqian,Duan Xun,et al. CRVC-GAN: combining cross-scale fusion and recursion for video colorization adversarial generative networks[J].Journal of Electronic Imaging ,2022, 31 (6): 063049.
[32]Vitoria P,Raad L,Ballester C. ChromaGAN: adversarial picture colorization with semantic class distribution [C]// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2020: 2434-2443.
[33]Perazzi F,Pont-Tuset J,McWilliams B,et al. A benchmark dataset and evaluation methodology for video object segmentation[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 724-732.
[34]Russakovsky O,Deng J,Su H,et al. ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision ,2015, 115 : 211-252.
收稿日期:2023-07-19;修回日期:2023-09-04 基金項目:國家自然科學基金資助項目(62266011);貴州省基礎研究計劃資助項目(黔科合基礎-ZK[2022]一般119)
作者簡介:周柯明(1998—),男,貴州銅仁人,碩士研究生,主要研究方向為深度學習和視頻彩色化;孔廣黔(1974—),男(通信作者),四川遂寧人,副教授,碩導,博士,CCF會員,主要研究方向為計算機網絡、多媒體通信、深度學習及其應用(gq_kong@163.com);鄧周灰(1978—),男,貴州貴陽人,碩士研究生,主要研究方向為應用數學、超級計算.