999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成模型的視頻圖像重建方法綜述

2022-10-09 12:48:50王延文雷為民張偉孟歡陳新怡葉文慧景慶陽
通信學報 2022年9期
關鍵詞:語義方法模型

王延文,雷為民,張偉,孟歡,陳新怡,葉文慧,景慶陽

(東北大學計算機科學與工程學院,遼寧 沈陽 110169)

0 引言

隨著視頻流量的大幅增長,進一步提升視頻壓縮編碼性能的需求十分迫切。傳統視頻圖像的壓縮編碼算法停留在像素表示階段,僅針對視頻的空間冗余、時間冗余、感知冗余以及信息熵冗余進行處理,無法利用圖像的語義信息和感知圖像的內容相關性,因此基于像素相關性的編碼范式難以進一步提升數據壓縮比,進入了技術瓶頸階段。相較于傳統方案,基于生成模型的語義壓縮編碼方法能夠進一步感知視頻數據間的統計規律,通過將圖像內容轉換為低語義冗余的概念表示,如結構、紋理和語義等,利用圖像間的結構相似性和先驗知識來消除視頻圖像數據間的語義冗余,從而有望極大提升壓縮性能。作為壓縮編碼的重要環節,視頻重建是指解碼端根據接收的碼流信息恢復出原始視頻,是低碼率下視頻質量的重要保證。目前的視頻重建方法可以分為2 種,一種是基于傳統混合編碼框架[1-3]的重建方法,利用幀內預測和幀間預測技術結合編碼殘差來重建視頻幀,或者利用超分辨率技術重建圖像的高頻信息,從而實現質量增強;另一種是基于生成模型[4]和語義分析模型[5-6]的重建方法,根據編碼端發送的圖像特征描述符,即提取圖像的稀疏特征表示或者潛在的特征向量,利用生成模型建立特征空間到像素空間的有效轉換,從而實現圖像重建。

一般來說,生成模型的目標是根據訓練數據學習一個能夠模擬該數據集的概率分布,并生成符合該分布的新的樣本數據。目前,主流的生成方法有3 種,一種是基于變分自編碼器(VAE,variational auto-encoder)[7],通過明確的概率估計來擬合真實的樣本分布;第二種是基于生成對抗網絡(GAN,generative adversarial network)[8],利用生成器與判別器的相互博弈來訓練網絡,使其不斷逼近真實分布;第三種是基于自回歸模型[9]實現圖像生成,包括利用卷積來建模像素概率分布和基于Transformer[10]的網絡架構實現圖像預測。相對于其他2 種方案,GAN 不需要對生成分布建立顯式表達進而避免復雜的計算[11]。此外,通過語義函數來構建損失函數而非基于像素級的相似度量,能夠生成更高質量的視頻圖像,是目前使用最為廣泛的方法。

本文主要針對編碼框架中的重建方法進行綜述,其中重點介紹生成式的重建方法。首先從傳統編碼重建方法出發,分析利用深度學習進行優化的預測方法。其次結合幾種生成模型,總結其可用于視頻圖像重建的相關方法。最后通過分析現有的編碼重建方法存在的相關問題,討論進一步的研究方向。

1 基于傳統編碼框架的視頻圖像重建方法

傳統的視頻編碼框架是由預測編碼和變換編碼組成的混合編碼框架。其中,預測編碼主要包括幀內預測和幀間預測2 種模式,旨在消除視頻數據的空間和時間冗余,變換編碼通過對殘差數據進行變換量化以消除數據的統計冗余。基于這種混合式編碼框架,H.264/AVC(advanced video coding)[1]、H.265/HEVC(high efficiency video coding)[2]、VVC(versatile video coding)[3]編碼方案通過探索像素之間的冗余,實現了非常高效的編碼效率和良好的重建效果。隨著深度學習的不斷發展,許多研究者將深度神經網絡與傳統框架相結合,用于改進其中的某些模塊,如幀內預測、幀間預測、環路濾波等,進一步提高編碼效率和重建質量。本文主要針對幀內預測、幀間預測和超分辨率重建3 個方面展開敘述,并在表1中總結了基于傳統編碼框架的視頻圖像重建的基本原理和主要方法。

表1 基于傳統編碼框架的視頻圖像重建的基本原理和主要方法

1.1 幀內預測

幀內預測旨在根據圖像的空間相關性去除空間冗余,利用相鄰的重建像素預測當前的編碼單元。在傳統編碼標準中,通過計算率失真代價來優化幀內預測模式,并通過不斷精細化劃分編碼單元以及完善預測模式來增強編碼性能。由于傳統編碼的線性預測模式相對簡單,因此對于具有復雜紋理的編碼塊預測效果不佳。而利用深度神經網絡能夠進一步提升預測精度,主要包括利用網絡優化預測模式,對像素值直接預測以及對傳統預測結果的進一步增強。例如,Li 等[12]使用全連接網絡直接產生預測像素,并通過訓練網絡來選擇預測模式。Cui 等[13]利用卷積神經網絡(CNN,convolutional neural network),以相鄰的重建塊和HEVC 的預測單元作為網絡輸入,對預測結果進一步增強,從而減小預測殘差。文獻[14-15]等分別利用循環神經網絡(RNN,recurrent neural network)和GAN 增強預測。總體來說,基于神經網絡的方法能夠更好地利用編碼塊的上下文信息,相比于傳統編碼方法實現了大幅的BD-rate 增益。

1.2 幀間預測

幀間預測旨在利用視頻的時間相關性去除時間冗余,基于運動估計和運動補償技術實現圖像像素值的預測,其主要原理是根據鄰近已編碼的圖像來為當前圖像塊選擇最佳匹配塊,并將其作為預測結果。基于神經網絡的幀間預測主要通過提升參考幀質量和增強運動補償來改善編碼性能。從改善參考幀的角度來看,除了使用重建幀作為參考幀外,主要通過合成新的參考幀來增加多樣性,例如,Zhao 等[16]利用幀速率上轉換算法根據重建的雙向幀生成虛擬幀作為參考幀;Guo 等[17]提出高低時域的分層編碼架構,將低時域的重建幀作為高時域的參考幀。從增強運動補償的角度來看,Zhao 等[18]進行幀間的雙向預測,使用CNN 非線性方式融合預測塊進行雙向運動補償,以提高預測效率;Yan等[19]利用CNN 構建分數像素參考網絡,由與當前編碼幀接近的參考幀生成分數位像素,增強運動矢量估計的準確性。

1.3 超分辨率重建

在低帶寬的情況下,可以通過超分辨率技術來保證視頻重建質量,具體做法為在編碼前對圖像進行下采樣,然后解碼器再上采樣到原始分辨率,其整體框架如圖1 所示。早期研究主要通過基于插值、基于字典學習的方式進行超分辨率重建,隨著基于深度學習的超分辨率算法[20]的不斷成熟,其中一些超分辨率網絡被應用于編碼框架,相關研究主要集中在解碼端的上采樣,如Li 等[21]采用傳統濾波方式對圖像進行下采樣,并設置2 種模式來決策圖像的編碼分辨率,然后在解碼端利用CNN 分別對編碼塊和整個編碼幀執行上采樣,進一步完善邊界處理。Afonso 等[22]通過量化分辨率優化模塊來自適應選擇輸入視頻的最佳空間和時間分辨率,使用VDSR[23]的網絡架構重新訓練后進行上采樣,實現了顯著的編碼增益。另一種基于超分辨率的編碼方案是利用神經網絡同時實現上下采樣,如Jiang 等[24]利用2 個CNN 協同優化分別實現圖像的壓縮表示和解碼重建,保留更多圖像細節。

圖1 基于超分辨率的編碼重建框架

基于神經網絡對傳統編碼框架進行優化的方法具有很大優勢,首先,神經網絡能夠充分利用視頻圖像的先驗知識,以非線性的學習方式推導數據,優于傳統僅依賴于信號處理的模型。其次,神經網絡可以更有效地捕獲不同處理單元間的相關性,增大時間空間的感受野,從而更好地去除視頻的時間空間冗余,提高預測精度。但是在此框架下的編碼效率以及重建質量的提升空間有限,無法進一步滿足不斷增長的用戶和市場需求。

目前,基于生成模型的端到端的編碼與重建框架,能夠以稀疏的圖像表示重建原始圖像,為探究視頻圖像語義編碼開辟了新的思路,下面,圍繞基于生成模型的重建方法展開綜述,并在表2 中對其方法進行分析與比較。

表2 基于生成模型的重建方法的分析與比較

2 基于變分自編碼器的視頻圖像重建方法

變分自編碼器(VAE,variational auto-encoder)[7]是一種無監督式學習的生成模型,基于變分貝葉斯推斷對輸入數據的分布進行建模,其網絡架構如圖2所示。在編碼部分學習隱變量的分布,首先將輸入圖像x編碼為隱變量z,通過學習條件分布q(z|x) 來擬合真實的后驗概率分布p(x|z),為方便計算,通常假設q(z|x) 為正態分布,即學習該分布的2 個參數均值μ和標準差δ;在解碼部分,從隱變量中采樣,根據學習到的條件分布p(x|z)恢復樣本數據。

圖2 變分自編碼器網絡架構

為更有效地控制數據生成,條件變分自編碼器[25]通過對編碼器和解碼器輸入one-hot 向量來表示標簽信息,從而實現監督學習,改善重建質量。基于條件VAE 和條件U-Net 網絡,Esser 等[26]假設圖像可由外觀和姿態兩部分特征來表示,那么圖像生成過程可以大致定義為建立關于這2 個變量的最大后驗估計。首先采用VAE 推斷出圖像外觀,然后利用U-Net網絡根據外觀和姿態信息2個分量重建圖像。與基于pix2pix[27]的邊緣重建方法相比,該方法能使輸出圖像與輸入圖像的邊緣保持更高的一致性。

2.1 基于多層VAE 的重建方式

為更好地近似隱變量的先驗和后驗概率,一些多層VAE 模型將隱變量分組為

同樣假設其為高斯分布,逐層自回歸建模。因此先驗和后驗概率可分別表示為

其中,p(z) 表示潛在變量z的先驗分布,q(z|x) 表示編碼器所學習的近似后驗概率。

結合這種分組自回歸的推理思想,DRAW[28]采用遞歸神經網絡逐步修正隱變量的分布,其網絡結構如圖3 所示。編碼端捕獲輸入圖像的顯著信息,并采樣得到輸入的潛在分布,解碼器根據接收的條件分布和前一時刻的解碼輸出,逐步更新生成數據分布。該算法能夠生成簡單的手寫數字,但對于自然圖像中的數字生成以及大尺度圖像恢復效果有待提升。得益于DRAW 的生成方法,文獻[29]對變分自編碼器的潛在特征進行壓縮,通過優先存儲更高級的抽象表示,實現了圖像的概念壓縮。

圖3 DRAW 網絡結構

為進一步改善深層VAE 的參數優化,LVAE(Ladder VAE)[30]設計了一種階梯網絡結構,利用數據之間的依賴性遞歸修正生成分布,實驗結果表明,該網絡結構相比于其他自底向上[1]的推理模型更容易優化參數,實現了更準確的對數似然預測和更嚴格的對數似然界限。在LVAE 的基礎上,BIVA[31]構建了雙向推理變分自編碼器,通過在生成模型中添加明確的自上而下的路徑和在推理模型中添加自下而上的隨機推理路徑,從而避免了變量崩潰。為進一步提高圖像生成質量,NVAE[32]借助文獻[33]的統計模型,設計了深度分層的多尺度網絡結構,編碼器自底向上提取輸入表示并自頂向下推斷潛在向量,解碼器自上而下進行解碼,有效捕捉數據的長時相關性。其次提出近似后驗殘差參數化方法,并為每一層卷積層添加譜正則化保持訓練穩定性,首次實現了VAE 在大的自然圖像上的高質量生成。

2.2 基于codebook 的重建方式

基于codebook 的重建方式是指為輸入圖像構建由多個編碼潛在向量組成的向量碼本,并對其索引實現離散化表示,重建過程即對索引值的預測。VQ-VAE[34]是首個進行離散化表征的VAE 模型,如圖4 所示,編碼器將輸入圖像編碼為潛在表征同時網絡初始構造包含k個嵌入向量的編碼表,通過共享嵌入空間,利用最近鄰查找算法找到與當前潛在變量z距離最近的嵌入向量ei,取其索引值作為當前向量的離散表征,最后經解碼器映射回碼本中的向量重建圖像。這種離散化的數據表示進一步提高了壓縮性能和編碼效率,為圖像重建開創了新范式。同樣基于有損壓縮的思想,Deepmind 在二代VQ-VAE[35]中引入層次結構,根據不同大小的潛在空間分別建模圖像的局部信息和全局信息,有效提升了圖像生成的分辨率。

圖4 VQ-VAE 示意

變分自編碼器的重建方法具有更明確的數學理論,可以將數據建模為顯式的概率分布,有助于編碼器在潛在空間對圖像進行壓縮表征。但由于VAE 依靠假設的損失函數和KL 散度來優化重建圖像,當這兩項優化失衡時可能會導致后驗坍塌,即解碼器過于強大,編碼器無法提供有效的隱變量表示。此外,對于更復雜的自然圖像可能會導致生成樣本模糊。

3 基于生成對抗網絡的視頻圖像重建方法

GAN[8]作為一種新的無監督網絡框架備受關注。如圖5 所示,GAN 包含2 個模型,生成器模型G與判別器模型D,生成器根據隨機變量生成虛假圖片,通過不斷學習訓練集中真實數據的概率分布,盡可能地提高生成樣本與輸入圖像的相似度;判別器對生成圖片與真實圖片進行辨別,若輸入是真實圖片則輸出高概率,否則輸出低概率,同時將輸出反饋給生成器從而指導G的訓練。二者以博弈的訓練方式來分別提升各自性能,使其最終達到納什均衡,網絡損失函數表示為

圖5 生成對抗網絡示意

其中,pdata(x)為數據的真實分布為輸入噪聲的向量分布,G(z)為生成器根據噪聲z生成的假樣本。式(3)中第一項表示判別器識別數據為真實數據,第二項表示判別器識別出數據為生成器生成的虛假數據。當優化判別器D時,需固定生成器,使真實數據的判別概率趨近于1,生成圖片的判別概率趨近于0,因此對應最大化式(3);當優化生成器G時,需固定訓練好的判別器,使生成樣本接近于真實樣本,因此對應最小化第二項。

由于GAN 生成圖像過于隨機,缺乏一定限制,無法準確反映訓練數據的分布變化,為解決該問題,條件GAN[36]通過對生成器和鑒別器添加約束條件從而有效指導數據生成,其中條件信息可以是類標簽、文本等多模態數據,其損失函數如式(4)所示,y表示輸入條件。相比原始GAN,條件GAN輸出更可控,因此更適用于視頻圖像重建任務。

得益于GAN 強大的生成能力,一些基于GAN改進的生成方法層出不窮,成為當前視頻圖像生成效果最為突出的主流方法。例如,pix2pix[27]是最具有代表性的基于GAN 的圖像生成方案之一,文中提出了一個圖像轉換的統一框架,該框架以輸入圖像作為條件,利用條件GAN 生成對應圖像。生成器采用了“U-Net”的網絡架構,加入殘差連接更有效地傳遞信息;判別器為“PatchGAN”,將圖像分塊判別,有效建模高頻信息。Pix2pixHD[37]在此基礎上做進一步改進,通過嵌入多級生成器提升生成圖像的分辨率,并采用3 個作用于不同圖像尺度的判別器,分別捕獲圖像的更大感受野以及精細細節。得益于強大的圖像生成能力,這2 種網絡被廣泛應用在圖像解碼重建中,實現了高質量的重建效果。

目前,基于GAN 的編碼重建框架為在編碼端提取表征圖像語義特征的輔助信息,實現語義壓縮,發送方只需傳輸少量的關鍵幀和輔助信息;解碼端根據輔助信息,使用相關基于GAN 改進的生成模型恢復圖像。根據輔助信息不同,可分為基于邊緣、關鍵點特征以及語義分割圖的視頻圖像重建方法,下面針對3 種重建方法分別展開討論。

3.1 基于邊緣的視頻圖像重建

基于邊緣的重建借鑒了一部分圖像分層的概念,認為結構和紋理是圖像中2 個重要的組成部分,而最常見的幾何結構就是邊緣。所以一般來說從視覺上可以將圖像分為兩層:邊緣和紋理。按照這種劃分思想,就產生了基于圖像邊緣的重建方式[38-41]。

Hu 等[38]以在編碼端提取的邊緣和色彩為依據,利用pix2pix 網絡[27]在解碼端將二者映射回原始的像素進行圖像重建,具體如圖6 所示。在邊緣特征提取上,采用基于結構化森林的快速邊緣檢測[42]來檢測邊緣的映射,將邊緣映射進行二值化,繼而將二值化邊緣圖轉換為矢量化表示,從而利用生成模型根據矢量化的邊緣圖進行重建。該方法在保持高壓縮比的同時能夠支持機器和人類視覺任務。Kim 等[39]同樣以邊緣為重建依據,實現了視頻重建,不同的是該研究采用“軟邊緣”,即邊緣檢測器提取的是帶有顏色信息的多級邊緣圖,而非二進制邊緣圖。

圖6 基于邊緣的編碼重建框架

結合結構和紋理的分層壓縮重建方案能夠進一步提高圖像的保真度。例如,Chang 等[40-41]將視覺數據表示為邊緣結構和紋理信息,結合VAE 和GAN 這2 個生成模型實現圖像重建。在編碼端,利用邊緣檢測(HED,holistically-nested edge detection)[43]來提取保留圖像主要結構信息的邊緣圖,借助VAE 提取圖像中紋理信息的潛在語義編碼。對于重建部分,文獻[40]使用最小二乘GAN 結合獲得的低維紋理信息和上采樣的邊緣圖來合成原始圖像,其整體網絡架構如圖7 所示。文獻[41]設計了一個分層融合的GAN,以殘差塊為基本單元,通過跳躍連接和分層融合技術逐步提高合成特征圖的分辨率。這樣的重建方式擁有更好的感知質量,并且保留了原始圖像的大部分紋理信息。

圖7 層間感知的圖像壓縮和重建網絡架構

用邊緣作為緊湊的視覺表征進行編碼重建,能夠建立視頻對象的長時相關性,對圖像內容具有更靈活的控制,可極大降低碼流。而基于邊緣信息的重建方法適用的處理對象和處理任務也更加廣泛,包括自然圖像合成、人物圖像合成等。由于邊緣提取效果是保證重建質量的關鍵,因此對邊緣提取算法具有較高要求。目前,以邊緣為輔助信息的方法主要集中在圖像的壓縮重建,對于視頻場景,實驗的視頻分辨率較低,距離實際1080P、4K 等視頻還有很大差距,其次重建的視頻幀可能伴隨閃爍效應,因此在消除視頻時間冗余的同時還需考慮重建視頻的完整性與連貫性。盡管目前的視頻重建質量仍有待提高,但也為未來視頻編碼技術提供了新的編碼框架。

3.2 基于關鍵點特征的視頻圖像重建

關鍵點特征作為一種常用的人臉結構以及人體姿態表示方法,具有高度抽象且稀疏的特點,盡管缺乏顏色和紋理信息,但能夠描述人物的關鍵結構,也可表示特征域的運動信息,用于輔助視頻圖像重建,對視頻圖像壓縮編碼具有重要意義。使用關鍵點作為輔助信息的重建方法根據其驅動方式的不同可分為2 種:一種是使用人臉關鍵點作為驅動信息,即在面部五官周圍設置特定的參考點,使用面部重演技術[44-46]重建人臉圖像;另一種是使用關鍵點表示主體的運動信息,從驅動視頻中提取運動特征,利用talking-head 任務、圖像動畫、動作遷移等技術重建人物圖像。

3.2.1 以人臉特征點為驅動的重建方法

以人臉特征點為驅動的重建方法是指通過面部特征點表示運動信息,利用生成對抗網絡結合關鍵幀以及面部關鍵點進行重建,從而大幅降低視頻通話帶寬,其網絡架構如圖8 所示。Feng 等[47]基于面部重演FSGAN[48]架構實現重建,選取1~10 張圖像為關鍵幀傳遞人臉整體外貌特征和背景特征,提取其他幀的面部關鍵點用于改變人臉的姿態和表情,并對非關鍵幀區分出敏感區域加強重建質量。為進一步節省碼流,考慮視頻內容的長時相關性,可將關鍵幀編碼的碼流上傳云端或者提前保存本地從而節約實時的傳輸碼流。該方法實現了1 kbit/s 的良好性能,相比VVC 編碼,可節省75%碼率。文獻[49]通過傳輸扭曲面部分割圖,并利用SPADE[50]改善面部重要區域,實現了移動端低帶寬的視頻通話。進一步地,Hong 等[51]利用深度圖來輔助人臉關鍵點檢測,并學習跨模態注意力指導運動場的學習,使之生成更自然的視頻。

圖8 基于面部關鍵點的視頻重建網絡架構

3.2.2 以視頻為驅動的重建方法

以視頻為驅動的重建方法是指將視頻分為源視頻與驅動視頻,分別提供人物的身份信息與運動信息,根據運動信息驅動源視頻實現重建。Monkey-Net[52]第一個以自監督方式預測關鍵點來建模姿態信息,在此基礎上,FOMM(first order motion model)[53]根據相鄰關鍵點的局部仿射變換來表征物體運動,并對遮擋部分進行建模實現視頻重建。其基本思想都是通過少量的關鍵點表征不同視頻幀之間的運動信息,例如,Wang 等[54]利用talking-head 模型實現重建,不同于之前的人臉關鍵點特征表示方式,該模型所提取的關鍵點是以三維空間分布的形式表征人臉的姿勢與表情。整體框架如圖9 所示,首先提取源圖像的外觀特征,然后通過一階近似計算驅動關鍵點相對于源圖像關鍵點的光流,組合多個光流產生最終的光流場用于扭曲三維源特征,最后將扭曲后的特征送入生成器重建圖像。由于編碼端只需傳輸關鍵點,因此在很大程度上節約了傳輸碼流,相比商業H.264 標準,該方法可以節約90%的帶寬。基于類似思想,Konuko等[55]同樣根據關鍵點運動信息扭曲參考幀實現重建,并提出了自適應選取參考幀方案,避免由于其他幀與參考幀的時間距離太遠導致相關性降低,從而影響重建質量。相較于HEVC 方案,該方案能夠節約80%的碼率。

圖9 基于關鍵點的talking-head 視頻合成整體框架

此外,Few-vid2vid[56]突破了單純的人臉重建,實現了人體姿態、talking-head 等高質量視頻合成。Chan 等[57]完成了2 個不同人物視頻的動作遷移。Xia 等[58]通過學習關鍵點的稀疏運動軌跡進行重建,實現了一種可伸縮的聯合壓縮方法。文獻[59]通過傳輸人體姿態和人臉網格信息,利用基于骨骼的動畫系統實現重建,最終以動畫木偶的形式顯示在接收端。Wu 等[60]在重建方法上做出了改進,根據CovLSTM[61]對(GoP,group of picture)內部的幀間時空相關性進行建模,通過回憶注意力建立特征與關鍵點之間聯系,并將注意力模塊的輸出作為重建視頻的輸入條件,基于pix2pixHD[37]網絡來實現重建。但由于該網絡對視頻序列循環提取抽象特征,適用于非實時視頻壓縮場景。

相比于使用邊緣作為描述圖像的低級語義特征,關鍵點特征能夠實現更高的壓縮比和更低的傳輸碼流,但由于關鍵點只表征了位置和方向,無法表征更多的語義信息,因此對動作主體要求比較嚴格,同時適用的視頻場景也相對單一,如只能用于以人物為主體的視頻,對于人物姿勢變化較大以及背景復雜的視頻重建效果欠佳。在網絡擁塞導致帶寬極低的情況下,借助關鍵點重建視頻的方法對構建高質量實時視頻會議、移動端實時視頻通話以及流媒體直播具有重要意義,能夠進一步節約網絡傳輸資源。

3.3 基于語義分割圖的視頻圖像重建

語義分割作為圖像分析的關鍵步驟,是指對圖像中所有像素進行分類,并將同一類別像素用相同顏色表示,從而形成語義分割圖,因此語義分割圖在一定程度上建立了圖像的語義和結構表示,通常也作為視頻圖像生成的一種輔助條件。例如,Vid2vid[62]根據語義分割圖組成的視頻來生成視頻,將視頻到視頻合成問題轉換為分布匹配問題,通過訓練學習使生成視頻的條件分布盡可能地與真實視頻相接近,以歷史圖片和語義分割圖作為生成器輸入合成高清圖片。該文實現了合成約30 s 的2K街景視頻的超高水平,并且涵蓋了視頻生成的大部分應用場景。Pan 等[63]采用分治策略實現了基于單一語義標簽的視頻生成。在語義圖像合成中,由于在生成網絡中使用歸一化層,所以直接將語義分割圖送入網絡處理會使語義標簽激活后變為零,導致語義消失。為解決此問題,Park 等[50]提出了空間自適應歸一化,通過自適應學習的參數來調節激活值,保證語義信息的有效性。在此基礎上,Zhu 等[64]提出了語義區域自適應歸一化,為每個語義區域創建歸一化參數,實現對每個語義區域樣式的單獨控制,進一步提升合成的圖像質量和對細節的控制。

基于語義分割圖的視頻圖像合成的應用,文獻[65]提出了語義壓縮框架,利用GAN 技術結合壓縮的圖像表示和語義圖重建圖像,實現了優于傳統圖像壓縮方法的重建質量,但由于語義圖無損壓縮進行傳輸,無疑增加了額外的傳輸碼流。針對此問題,EDMS(encoder-decoder matched semantic segmentation)[66]在編碼端與解碼端分別進行語義分割,只傳輸語義重建圖像與原圖像的殘差和圖像壓縮表示的下采樣版本,解碼端重新得到語義分割圖,并結合殘差重建圖像,在保證重建圖像質量的同時避免了傳輸語義圖耗費碼流。雖然這2 種方法均以語義圖為引導重建圖像,但主要數據處理還是面向信號級別。為實現面向高層語義的分析處理,Chang等[67]提出了一種新的對語義先驗建模的超低比特率的圖像壓縮編碼方法,如圖10 所示,將輸入圖像分為結構層和紋理層2 種視覺特征,結構層用語義分割圖表示,紋理層經過卷積得到高級特征表示,在語義圖的指導下,為每個語義區域聚合相應潛在向量作為語義先驗,并通過跨通道熵模型建立向量的內部依賴關系,解碼端以語義圖作為條件,利用生成對抗模型建立語義圖與先驗之間的分布映射來重建圖像,采用感知損失和特征匹配損失保證視覺重建質量,實現了0.02~0.03 bpp 極低比特率下的感知重建。

圖10 基于語義先驗建模的圖像壓縮和重建架構

本節介紹的利用語義分割圖的視頻生成模型達到了目前先進的視頻合成水平,且涵蓋應用場景廣泛,包括人物姿態轉換、視頻風格遷移、視頻預測、視頻語義屬性編輯等。語義分割圖建立了每個像素的類別表示,在語義概念層面對圖像進行分析,可以進一步增強圖像重建質量,適用的場景更為廣泛。但相比于之前的邊緣和關鍵點作為重建輔助信息,傳輸語義圖會消耗更多碼流。

4 基于自回歸像素建模的視頻圖像重建方法

從概率建模的角度看待視頻圖像重建,即假設圖像x由n個像素點隨機組合形成,那么整幅圖像的預測概率可分解為各像素點的預測概率,假設各像素預測概率之間相互獨立,則圖像x預測概率可表示為

其中,p(x) 代表圖像x的概率分布,符號右邊表示預測各像素點的條件概率,重建圖像時需按一定順序逐像素生成。如圖11 所示,每一個像素點的預測都取決于所有之前的像素點,當預測第i個像素概率時,則需以前i-1 個像素作為輸入條件。

圖11 像素概率預測示意

為提高圖像預測準確性,一些研究[68-69]使用深度學習對像素條件概率進行建模,并以最小化圖像似然作為損失函數來指導網絡訓練,其計算式為

Deepmind[68]提出了像素循環神經網絡(PixelRNN,pixel recurrent neural network)來實現像素概率建模,其中包括采用2 種長短期記憶(LSTM,long short-term memory)模型來學習圖像分布——行LSTM 和對角LSTM,前者以一維卷積形式預測該行的像素,而后者以對角線方式掃描圖像從而捕捉更多相關信息。但由于LSTM 運行速度緩慢,導致預測速度減慢。文中的另一個網絡PixelCNN 利用卷積神經網絡來建模各像素間的關系,分別沿2 個方向維度生成像素,并采用特殊的掩碼卷積來保證推理順序。該方法在訓練速度上有所提升,但由于利用像素信息有限,生成效果不理想。

除了直接對像素建模實現預測之外,還可以通過先驗信息來指導圖像生成,如文獻[69]中的門控PixelCNN。

其中,h為先驗信息,如生成圖像的種類、圖像高維表征等。

原始的自回歸方式是逐通道預測的,忽略了像素之間的相關性。換言之,其將像素預測作為256 個分類問題,即使預測為相鄰的像素也會導致非常大的損失。為解決此問題,PixelCNN++[70]提出了離散邏輯混合似然法,而非基于256 個通道的回歸預測,并通過下采樣減少計算量,引入殘差連接縮短訓練時長。此外,PixelSNAIL[71]將自注意力與因果卷積二者相結合,從而增強對遠距離數據的有效建模。為進一步將自回歸模型擴展到大圖像,文獻[72]提出了子尺度像素網絡(SPN,subscale pixel network)進行數據變換,包括圖像大小和深度的尺度處理。(VPN,video pixel network)[73]進一步將像素建模的思想應用于視頻編碼和重建中。將視頻表示為關于時間維度、空間坐標以及通道信息的四維張量,同樣根據鏈式法則來預測像素值,為視頻生成任務提供了一種通用方案。

此種自回歸像素建模的方法在捕捉圖像局部細節信息具有一定優勢,但仍存在一些不足,主要表現在三方面:其一,由于當前的預測總是取決于之前的信息,因此會導致誤差累積;其二,上下文信息過大,需要更為有效的存儲和編碼方案;其三,對于圖像冗余處理仍停留在像素層面,且生成過程需按照固定順序逐像素生成,無法并行計算,對于處理視頻圖像等高維數據,速度較慢且計算成本較高。針對這些固有缺陷,可以將其與其他模型結合進行改進,如此前介紹的VQ-VAE[34]利用先降維量化再自回歸的方案來減少數據量,以及利用Transfomer 增強自回歸的全局感知。

5 基于Transformer 的視頻圖像重建方法

Transformer[10]是一個基于自注意力機制的學習模型,最早用于自然語言處理中。整體保持編碼器和解碼器的結構,其中編碼器由6 個相同的模塊組成,每個模塊包含多頭自注意力和前饋神經網絡2 個子層,并在子層之間加入殘差連接以及層歸一化;解碼器采取類似的結構,不同的是增加了掩碼多層注意力,用于掩蔽未預測的信號。編碼器根據一系列注意層獲取輸入上下文的語義表示;解碼器基于前一時刻的解碼輸出以及編碼表征生成輸出序列。在之前的重建任務中,主要以卷積的方式實現圖像特征提取和重建。相比于卷積的局部感知,Transformer 具有更強的全局感知能力和通用的建模能力。相比于RNN,Transformer 具有更高效的并行計算,自2017 年被提出就在視頻圖像生成中取得了顯著效果。

5.1 基于兩階段的重建方式

基于Transformer 的視頻圖像生成方法采取與自然語言處理類似的思想,以序列的形式處理圖像。Parmar 等[74]首次將Transformer 應用于圖像生成任務,該模型將圖像的聯合分布轉換為像素的條件分布。在編碼端,將像素強度表示為256 個d維向量;在解碼端,使用局部自注意力建模之前像素與當前像素之間的關系實現各像素點的生成。相比于PixelCNN[68],該模型具有對圖像長期關系建模和增大感受野的優點。由于此種對像素直接建模難以保證生成圖像的分辨率,因此大部分方法還是基于VQ-VAE[34]構建的兩階段生成方式:第一階段將圖像特征映射為離散標記,第二階段采用自回歸的方式預測標記,將其映射回像素空間。目前,基于Transformer 的重建方法主要不同表現在對第二階段的處理方式上,其中 VQGAN[75]將 CNN 與Transformer 相結合,CNN 用于學習codebook,Transformer 用于自回歸建模,并引入基于塊的判別器,利用對抗訓練方式保證對于圖像局部質量的捕捉,可生成高達百萬級像素圖像。受自然語言中無監督表征學習的啟發,文獻[76]證明了 GPT(generative pretraining)模型在圖像生成任務中的有效性。VideoGPT[77]通過3D 卷積和軸向注意力學習視頻的離散表征,然后將GPT 的架構應用于視頻的自回歸建模。LVT[78]將視頻劃分為多個不重疊的切片,按照光柵掃描順序實現自回歸預測。文獻[79]提出的多模態預訓練模型,利用Transformer 編解碼框架為語言、圖像和視頻定義了一個統一的三維表征,實現了文本到圖像、文本到視頻以及視頻預測等多種視覺合成任務。但這些基于量化的生成模型通常會導致較長的離散序列,為在保證圖像率失真性能的同時減小自回歸成本,RQ-VAE[80]提出了殘差量化的思想,不同于VQ-VAE[34]的可變大小碼本,RQ-VAE 使用固定大小碼本,以殘差的方式逐漸逼近特征圖,解碼端使用Transformer 分別對空間和深度信息進行回歸。實驗結果表明,在生成高分辨率圖像上比之前的自回歸模型計算更有效。

5.2 基于掩碼建模的重建方式

為了緩解對訓練數據的依賴,Bao 等[81]將掩碼思想引入圖像處理中,基于離散視覺標記重建圖像。隨后,He 等[82]提出的(MAE,masked autoencoder)證明了掩碼在圖像表征學習上的有效性,首先對輸入圖像塊隨機采樣并掩碼其余圖像塊,編碼器僅編碼未掩碼的圖像塊,然后解碼器根據編碼的潛在表示以及掩碼標記對缺失像素進行重建,其較高的掩碼率消除了圖像的大部分冗余,從而減少了編碼參數。Xie 等[83]提出的SimMIM 同樣使用掩碼圖像建模來進行自監督學習,與文獻[82]不同的是,SimMIM 編碼所有的標記不是僅編碼未掩碼的部分,解碼端使用線性層預測像素值。實驗結果表明,僅重建掩碼區域可獲得更高重建質量,且掩碼圖像塊越小對應的重建質量越高。結合掩碼的建模思想和兩階段重建架構,MaskGIT[84]提出了一種雙向Transformer 的圖像合成新范式,利用雙向自注意力從多個方向生成標記,且掩碼部分標記用于下一步的迭代預測,直至生成所有標記。此種雙向生成和并行解碼的方式極大地提升了回歸速度,相比VQGAN[75]加速了30~64 倍,同時證明了這種掩碼方式在圖像重建的有效性,僅需較少標記即可重建出圖像的整體信息。由此可見基于掩碼的圖像建模方式能夠高效地利用數據,對于圖像表征學習與圖像重建具有重要意義,同時選擇合適的掩碼率有助于節約模型的訓練時間與內存消耗。未來,可將其用于視頻圖像的語義編碼中以進一步降低碼率。

5.3 基于Transformer 構建GAN 的重建方式

上述模型都是以自回歸的形式重建圖像,這意味著在提高重建時間上有所限制。最近的一些工作[85-88]嘗試將Transformer 與GAN 相結合,其中文獻[85]首次僅利用Transformer 構建GAN 實現圖像生成。生成器由多個Transformer 塊組成,用以漸進式地提高生成圖像分辨率,并通過級聯不同大小的圖像塊實現多尺度鑒別,以防細節信息丟失,但無法生成高分辨率圖像,原因在于高分辨率圖像的生成序列像素過大,自注意機制處理受限。為了提升生成圖像的分辨率,Zhao 等[86]分兩步來生成圖像,第一步通過多軸自注意力捕獲全局信息來解碼空間特征,第二步用多層感知機替代自注意力來減少計算復雜度。此外,文獻[87-88]進一步在網絡結構上進行改進,力求生成更高分辨率的圖像。目前,基于Transformer 構建的GAN 成為一大研究熱點,但相較于基于CNN 構建的GAN 會帶來更多計算成本,因此需要尋求更為有效的自注意力形式,從而在性能上進一步提升。

基于Transformer 的視頻圖像生成方法依托離散化的處理方式,實現了數據的高效表示。采用自然語言處理的方法實現重建,更好地建立特征的上下文關系,為一些由文本生成視頻圖像任務建立了有效機制,進而將其應用于跨模態的視頻編碼與重建。但此類方法計算成本高,難以訓練,對于實時視頻的應用還有待進一步研究。

6 存在的問題及研究方向

盡管近年來一些生成模型在視頻圖像重建上取得了顯著效果,但現階段仍存在以下問題亟須解決。

1) 視頻長時相關性

視頻長時相關性是指不同圖像序列之間內容存在較大關聯,主要體現在兩方面,一是同一視頻的長時相關性,其不僅局限于一個GoP 內的視頻幀處理;二是不同時間下視頻內容的相似性,如大致相同背景、不同背景下相同人物的視頻通話。目前的重建方法集中在消除同一視頻的時間相關性上,但對于時間跨度較大的視頻幀,僅依據關鍵幀和邊緣、特征點等輔助信息,有時無法保證重建質量。

針對同一視頻的長時相關性,可以通過提升輔助信息的提取質量來改善長時視頻幀的重建質量,如優化邊緣、特征點提取算法,其次針對視頻的特定場景來進一步完善重建模型。對于不同時間、不同內容的視頻之間存在的重復性內容,則需進一步探究視頻圖像的語義表征,對內容實現高層概念認知來消除語義冗余,例如,通過對卷積后的高級特征空間進行處理,在編碼端和解碼端形成語義庫,根據特征辨識只傳輸細節變化的內容,從而大幅度降低傳輸碼率。

2) 高昂的計算成本和時間成本

基于深度生成模型輔助的編碼重建框架是以高昂的計算成本為代價來換取編碼效率和重建質量。先進的生成模型如VQ-VAE、GAN 等能夠實現清晰的視頻圖像重建,但這種大型模型的弊端除了消耗巨大的計算和存儲資源外,還需要根據大量數據集花費大量時間訓練網絡模型。

此前,掩碼建模方法證明了自監督學習圖像表征以及重建的有效性。因此針對此問題,可以將基于掩碼視覺標記的方法進一步擴展于視頻編碼重建中,結合視頻的幀間相關性完善掩碼學習策略,在一定周期內保證較高的掩碼率,并在訓練學習時有針對性地跳過掩碼區域來減少訓練時間和資源。此外,還可以借助小樣本學習方法減少數據依賴,借助模型剪枝等壓縮方法減小模型參數。

3) 適用場景單一

盡管現有生成模型在視頻圖像生成任務取得了巨大成功,但將其應用在視頻圖像編碼框架中的研究方法相對較少,且大部分面向圖像壓縮編碼,對于視頻的場景還有待進一步開發。其次,基于特征的重建主要集中在以人物為主的視頻場景,無法適用于大部分視頻場景,且重建視頻的連貫性以及與原視頻的一致性還有待提升。此外,目前模型依托大量數據集進行離線訓練,并不適用于視頻通話等實時業務。

針對此問題,則需尋求更有效的語義表征,設計更先進的重建算法。一方面可以利用圖神經網絡,基于邊和節點的方式刻畫物體表征,形成結構化的概念表示,從而實現對復雜物體更靈活通用的建模,同時也更符合人類的視覺感知。另一方面可以加強特征空間的探索,在編碼端形成層次特征,根據重建難度選擇特征傳輸等級。對于實時視頻業務,可以設計高效的重建算法,利用前幾幀視頻作為訓練樣本,結合離線訓練模型進行微調,從而完成后續視頻幀的重建。

7 結束語

近年來,深度生成模型在視頻圖像補全、動作遷移、視頻圖像合成等多個領域取得巨大成功,為視頻圖像壓縮領域的重建模塊提供了新的解決方案。本文主要總結了5 種現有視頻圖像重建的相關方法,包括傳統重建方法及其優化以及4 種基于生成模型的重建方法,其中重點介紹了生成式的重建方法,根據視頻圖像數據不同類型的語義表征對模型進行分類、梳理和闡述,最后總結了現有重建方法在視頻長時相關性、計算成本和適用場景等方面所存在的問題,探索了相應的解決方案以及進一步的研究方向。

猜你喜歡
語義方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
主站蜘蛛池模板: 1769国产精品视频免费观看| 欧美a√在线| 99精品视频九九精品| 国产v精品成人免费视频71pao| 日韩小视频网站hq| 欧美精品高清| 欧美久久网| 99在线观看免费视频| 国产一级视频在线观看网站| 91福利片| 亚洲91精品视频| 国产在线一区视频| 亚洲中久无码永久在线观看软件 | 亚洲不卡无码av中文字幕| 制服丝袜国产精品| 国产亚洲欧美在线视频| 精品国产美女福到在线不卡f| 日韩国产一区二区三区无码| 国产00高中生在线播放| 国产一区二区三区免费观看| 一级毛片免费观看不卡视频| 香港一级毛片免费看| 欧美一级黄片一区2区| 欧美不卡视频在线观看| 亚洲国产成人久久精品软件| www中文字幕在线观看| 国产又爽又黄无遮挡免费观看| 青青国产成人免费精品视频| 波多野结衣在线一区二区| 不卡视频国产| 国产综合亚洲欧洲区精品无码| 国产自产视频一区二区三区| 亚洲成在人线av品善网好看| 婷婷成人综合| 国产在线第二页| 青青操国产视频| 国产91av在线| 无码'专区第一页| 国产黄网永久免费| 日韩高清中文字幕| 成色7777精品在线| 久久久亚洲色| 在线a视频免费观看| 国产精品久久久久久久久| 欧美精品一区在线看| 亚洲国产理论片在线播放| 国产裸舞福利在线视频合集| 国产精品手机视频| 久久久91人妻无码精品蜜桃HD| 人妻少妇久久久久久97人妻| 欧美一区二区精品久久久| 亚洲自偷自拍另类小说| 欧美成人精品欧美一级乱黄| 亚洲日本中文字幕乱码中文 | 国产免费观看av大片的网站| 亚洲精品国产综合99| 四虎综合网| 久操线在视频在线观看| 国产成人精品在线1区| 日韩欧美国产另类| 在线看AV天堂| 欧美午夜精品| 国产主播在线观看| 国产视频自拍一区| 免费女人18毛片a级毛片视频| 国产在线精品99一区不卡| 99视频在线看| 日韩天堂视频| 精品亚洲麻豆1区2区3区| a在线亚洲男人的天堂试看| 亚洲国语自产一区第二页| 亚洲欧洲自拍拍偷午夜色无码| 日本午夜三级| 国产一级裸网站| 毛片网站观看| 无码日韩人妻精品久久蜜桃| 69免费在线视频| 国产一区二区三区夜色| 国模视频一区二区| 国产精品美女网站| 在线看AV天堂| 国产在线精品香蕉麻豆|