王崇宇,毛琪,金立標
(中國傳媒大學媒體融合與傳播國家重點實驗室,北京 100024)
近年來,以5G為代表的多媒體通信的革新與以深度學習為代表的人工智能技術的發展,催生出以移動終端為支撐的視頻分享和通訊平臺,其涵蓋了視頻直播、短視頻、社交視頻、視頻通話、視頻會議等眾多多媒體應用.此外智能安防、智慧交通、智慧城市為導向的監控視頻、自動駕駛、數字視網膜等新型多媒體應用也開始出現在大眾的視野。圖像/視頻數據正呈現井噴式增長。圖像/視頻編碼是多媒體應用處理的核心技術,旨在高效、緊湊地表達數據,同時最大程度降低編碼失真,節省傳輸與存儲成本。自1948年香農建立信息論與編碼理論開始,圖像視頻編碼技術便開始蓬勃發展,表1所示。如圖1所示,經典圖像編碼標準JPEG、JPEG2000、BPG和經典視頻編碼標準H.26X、MPEG、AVS等均基于塊的“預測-變換-熵編碼”混合編碼框架,包括塊分割、預測、變換(離散余弦變換(DCT)、離散小波變換(DWT)等)、量化、熵編碼、環路濾波等模塊,框架中的每個模塊均需要通過人工設計。盡管以VVC、AVS3為代表的新一代視頻編碼標準在性能上與上一代編碼標準相比取得了約50%的提升,但由于框架本身的束縛,經過幾十年的演進發展,這些模塊的設計、實現成本和復雜度越來越高,經典編碼框架正面臨壓縮性能進一步提升的瓶頸。

表1 國內外主要視頻編碼標準發展歷程

圖1 經典基于塊的混合圖像編碼框架
面向實際的應用場景,例如移動端的視頻通話、視頻直播、視頻會議等,當同時在線大量用戶或者網絡環境不理想等帶寬受限的情況下,經典編碼框架在低碼率下解碼的視頻效果主觀質量非常差。它們在低碼率(比特數<0.1bpp)和極低碼率(比特數<0.01bpp)下編碼會丟失大量的高頻信息,出現量化失真導致的模糊、塊效應、顏色失真等難以接受的解碼視頻。因此,如何提升極低碼率下的主觀感知質量和編碼效率,是目前視頻編碼應用的難點和瓶頸。隨著數據的海量化和計算機視覺技術的發展,越來越多的機器參與到智能處理圖像視頻信息中。然而,經典編碼框架是面向人類視覺的像素級優化,無法很好地支持各式各樣的機器視覺需求。
隨著人工智能特別是深度學習的興起與發展,研究人員嘗試將神經網絡加入到圖像視頻編碼中,利用其數據驅動、機器視覺友好等特點,實現更加智能,更加高效的圖像視頻編碼。當前基于人工智能的圖像視頻編碼主要集中在混合神經網絡編碼與全神經網絡編碼的研究。針對全神經網絡編碼,生成模型特別是生成對抗網絡在極低碼率下能夠較好地彌補高頻紋理細節,甚至可以直接利用緊湊的特征生成高感知的圖像/視頻,為突破極低碼率下的編碼效率另辟蹊徑,開始受到工業界和學術界的關注。
為了更好地梳理基于生成對抗網絡的圖像視頻編碼的發展歷程,突出其技術重點和難點,探究未來編碼工作可能的改進方向。本文對基于生成對抗網絡的圖像視頻編碼進行綜述。本文第2章對基于全神經網絡的端到端編碼的研究現狀進行分析,第3章概括生成對抗網絡的技術發展路線,第4章詳細介紹基于生成對抗網絡的圖像視頻編碼,最后第5章梳理展望基于生成對抗網絡的圖像視頻編碼目前面臨的挑戰以及未來研究方向。
近五年來,研究者們嘗試將深度學習應用到視頻編碼中,其研究思路主要分為兩類:
(1)混合神經網絡編碼:通過將經典混合編碼框架中的某些模塊諸如預測和環路濾波替換成通過離線訓練之后的深度學習模塊來獲得更好的編碼性能;
(2)全神經網絡編碼:如圖2所示,探索完全基于神經網絡的端到端編碼框架。

圖2 基于全神經網絡的端到端編碼
典型的全神經網絡的編碼器使用自動編碼器,針對香農的率失真(Rate-Distortion)權衡進行端到端的優化,目標是盡可能降低所需的比特率,并提升解碼圖像的質量。

其中,R是由熵估計模型估計出的潛在碼的熵,D表示原始圖像與壓縮圖像之間的差異,它們以端到端的方式最小化率失真目標函數。λ表示拉格朗日因子,實現碼率和失真的權衡(Trade-off)。自動編碼器由編碼器E和解碼器D構成,編碼器將圖像x映射到潛在特征y=E(x),解碼器用于重建圖像x'=G(y)。d(x,x')是壓縮圖像產生的失真,一般使用均方誤差(MSE)或多尺度結構相似性(MS-SSIM)度量。對y的概率模型P(y)使用熵編碼算法可以無損地存儲其比特流,得到r(y)=?log(P(y))。將E、D和P的參數視為CNN,就可以使用最小化率失真權衡的方式進行訓練。當λ設定較小時,圖像的壓縮比較高,重建圖像的感知質量變差:

早期研究人員發現,由于神經網絡模型的訓練需要依賴反向傳播和隨機梯度下降算法,因此損失函數的參數需要處處可微。但量化模塊會導致幾乎為零的梯度信息,極大影響神經網絡模型參數的更新。為了解決這個問題,谷歌研究團隊Balle等人[1]首次在訓練時引入一種均勻噪聲來近似量化誤差,使得端到端優化成為可能。模型通過對碼率的估計來優化神經網絡的率失真函數,提出一種變分逼近壓縮框架,通過參數化的概率分布族與交叉熵損失函數,對信息熵的上界進行估計。此外,該團隊還提出了廣義分歧歸一化模塊(Generalized Divisive Normalization,GDN)[2],適合于圖像重建問題,可以更好的捕捉圖像的統計特性。隨后,為了更好地捕獲特征圖之間的空域冗余,該團隊在2018年為其并入超先驗建模[3],這種優先的邊信息是經典編碼中通用的技術,但是在自編碼器中還未得到開發。超先驗的網絡結構通過與編碼器一起端到端優化,實現了網絡模型中間碼字基于內容的自適應概率估計。該模型也因此成為全神經網絡估計碼率的通用工具。在此基礎上,北大研究團隊[6]提出了由粗到細的層次化的超先驗建模,以進一步消除空間冗余。然而超先驗其感知上下文能力有限,仍然有可能忽略一些相關性。后續研究者們[4,5]還嘗試從上下文概率估計模型的方向設計更準確的熵估計模型,并獲得了超過HEVC幀內編碼的壓縮性能。但上下文概率估計模型是根據相鄰的m個元素進行概率取值,因此無法建模長期依賴。Cheng等人[7]在2020年使用離散的高斯混合似然來對分布進行參數化,從而消除了特征圖中存在未捕獲的結構冗余特征,實現了更準確的熵模型,所需的編碼位數更少,在網絡結構中還采用了注意力模塊關注復雜區域以提高性能。
然而,這些研究工作僅局限于獨立訓練固定碼率模型,后續研究者的工作開始思考如何更好地適配不同的碼率,提出了一些單一模型下的可變碼率方案:例如,Choi等人[8]引入拉格朗日乘數和量化步長作為碼率控制參數,通過改變拉格朗日乘數,能夠對目標碼率進行粗碼率配準,而通過調整量化步長,能夠更精細化地調整碼率。在此基礎上,Song等人[9]又提出了一種基于空間特征變換的可變碼率壓縮框架。
在消除時域冗余方面,研究者們也提出了一些更高效的編碼框架。例如:中科大的Chen等人[10]將像素級別的運動估計模塊加入到端到端的視頻編碼框架中。上海交大研究團隊的Lu等人[11]利用光流來對運動估計進行建模,并加入了預測殘差編碼的環節,以進一步去除時域冗余。谷歌研究團隊[12]則提出了偏置場(Displacement Field)的概念來代替光流對運動進行建模,并提出基于不同尺度的變換操作來實現視頻幀的重建。微軟亞洲研究團隊[13]提出深度的上下文視頻壓縮框架,實現從殘差編碼到條件編碼的范式轉變。
盡管目前全神經網絡視頻編碼取得了不錯進展,但是由于其優化目標主要以基于像素級別的MSE或MS-SSIM作為失真度量,在低碼率上得到的重建圖像質量主觀感知效果較差,此外其碼率無法很好地壓縮至極低碼率(<0.01bpp)。
生成對抗網絡是一種通過對抗性訓練學習生成新數據的深度生成模型,由于其無監督、生成質量高的特點,被廣泛應用于圖像任務中。它由生成器G和鑒別器D兩個神經網絡組成,如圖3所示,生成器通過對抗損失函數不斷地從采樣信號中生成樣本數據,期望得到與真實樣本相似的虛假樣本,判別器期望區分真實樣本和來自生成器的虛假樣本。兩個神經網絡通過對抗的方式進行訓練,不斷提升自己的生成和鑒別水平,最終達到一個納什均衡的狀態,得到逼真的高分辨率生成圖像。

圖3 生成對抗網絡框架
生成對抗網絡這一學習范式最早提出于2014年,Goodfellow[14]使用兩個MLP搭建對抗網絡,通過KL散度來度量真實數據與生成數據之間的差異。近五年來,對生成對抗網絡的研究取得了驚人和長足的發展。表2梳理了生成對抗網絡模型的主要研究脈絡。

表2 生成對抗網絡研究脈絡概述
在損失函數方面,研究人員主要解決GAN訓練不穩定的問題。WGAN,WGAN-GP[15,16]使用EM距離,具有優越的平滑特性,在訓練初兩個數據分布重疊較少時也能夠較為準確地刻畫彼此之間的距離,改善了梯度消失問題。LSGAN[17]使用均方誤差,對距離決策邊界較遠的圖像進行約束,提高了圖片的生成質量。MSGAN[18]提出了模式尋找的正則項來緩解GAN模型在訓練中的模式坍塌問題,通過最大化生成圖像與相應的潛在空間的比率,實現增加生成次要模式樣本的機會,提升生成圖像的質量和多樣性。
在模型結構方面,最具有代表性的模型是Style-GAN系列模型[26,29],通過可學習的映射網絡將高斯噪聲分布映射到新的分布,并將其作為可以控制風格的輸入,利用自適應實例正則化層(Adaptive Instance Normalization,AdaIN)[30]或解調-調制層加入到生成網絡中,以生成更加豐富的紋理細節。最近,研究者們將GAN與Transformer模型結合實現更高分辨率和高逼真度的圖像生成:在VQ-VAE模型的基礎上,VQ-GAN[25]模型將圖像特征利用矢量量化得到序列特征,并利用Transformer對碼本的索引進行預測,通過增加感知損失和對抗損失來增強VQ-VAE訓練,最終生成逼真的高分辨率圖像。
在應用發展層面,最經典的任務是利用GAN進行圖像轉換(Image-to-Image Translation,I2I),通過替換目標圖像的風格特征并保留源圖像的結構特征,能夠實現源圖像到目標圖像域的風格轉換。Huang等人[31]和Lee等人[32]首次利用這個思想實現了不同圖像域的圖像的內容特征和風格/屬性特征的分層建模。最近,Mao等人[33]提出了一種有符號屬性向量,能夠在不同域的不同映射路徑上進行連續轉換,實現了跨圖像域的連續圖像轉換。此外,目前GAN模型已被廣泛應用于圖像/視頻重建任務包括超分辨率、圖像去噪、圖像復原、去模糊等以生成逼真的高頻紋理信息。Ledig等人[28]首次提出將生成對抗網絡應用于超分辨率任務,使用基于VGG的內容損失得到具有豐富紋理效果的生成圖像,開啟了基于感知質量驅動的圖像/視頻重建的時代。Mao等人[34]針對解碼圖像增強重建,提出基于邊緣保持的生成對抗網絡,在保持邊緣的基礎上進一步提升了紋理的豐富性,有效提升了解碼圖像的人類視覺感知質量。
通過將真實的圖像映射到GAN預訓練模型的隱空間中,GAN反演(Inversion)任務可以很好地搭建真實圖像域與潛在特征空間域之間靈活映射的橋梁,能夠直接實現對真實圖像編輯。早期的工作直接利用優化的方式來針對每一張真實的圖像尋找最佳的隱向量,然而這種方式需要對每一幅圖像單獨做處理。因此,Richardson等人[23]提出使用特征金字塔提取出三個層次的語義特征,通過映射網絡將特征映射到W+潛在空間中,然后輸入至StyleGAN的不同分辨率的合成網絡中。這樣的架構可以較好地捕捉原始圖像的各種細節,使得重建質量有較大提升。
綜上,生成對抗網絡在學習大量數據先驗的情況下既可以生成高頻紋理細節,又可以利用不同模態的信息直接生成圖像/視頻,還可以直接利用預訓練GAN反演實現真實圖像的編輯,在圖像視頻編碼方向展現出非常大的潛力。
近年來基于生成對抗網絡的圖像視頻編碼研究取得了不錯的進展。生成對抗網絡在圖像視頻編碼任務中主要用來幫助恢復生成圖像視頻的內容特征、紋理細節、減少塊效應。目前研究表明,引入生成對抗網絡能夠使圖像視頻重建效果顯著,在低碼率和極低碼率下能得到比經典視頻編碼標準視覺主觀感知更好的解碼性能。
基于生成對抗網絡的圖像視頻編碼的研究主要有兩種典型的思路:第一種是直接利用對抗損失引導優化端到端全神經網絡編碼,以重建高頻紋理細節;第二種是利用生成式驅動實現極低碼率的編碼,被稱為生成式編碼,即在編碼端將圖像表示成更緊湊的特征表示,利用生成模型在解碼端直接生成出紋理豐富的圖像/視頻。下面分別對這兩種方法進行介紹和比較。
目前主流的全神經網絡壓縮系統使用以像素保真的損失函數(例如均方誤差)作為失真度量,缺少對紋理以及全局結構的刻畫。這會導致在低碼率下,盡管峰值信噪比(PSNR)和MS-SSIM這些經典失真度量效果較好,但是圖像內容視覺效果比較模糊,主觀感知并不理想。如圖4所示,為了更好地建模紋理細節,研究人員在目標函數中加入對抗損失,利用生成器生成視覺上吸引人的高主觀質量的圖像。

圖4 作為失真損失項引導端到端編碼
引導編碼的失真損失項使用條件生成對抗網絡的對抗損失,它對生成器和鑒別器添加邊信息s,學習樣本y的條件分布pX∣s。生成器在邊信息s的約束下,將樣本y的分布pY映射到pX∣s。鑒別器輸入(x,s),判別(x,s)是來自pX∣s還是來自pY。訓練目標是讓D將來自生成器的樣本判別為真,損失函數選用非飽和損失函數,能夠在訓練早期提供較大梯度。

早期的工作,研究人員主要是在已有端到端編碼框架中加入對抗損失作為失真來優化編碼,達到在較低碼率上通過生成以假亂真的紋理來補充高頻信息。Rippel等人[35]首次提出了一種基于GAN的有損圖像壓縮方法,在一個具有金字塔分析、自適應編碼模塊和預期碼長正則化的自動編碼器的基礎上,采用啟發式對抗訓練方式,在低碼率下重建具有豐富紋理細節解碼圖像。Agustsson[36]等人同樣提出使用生成壓縮(GC)的優化方法代替之前對經典目標(如MS-SSIM和MSE)的優化方法,顯著節省了比特流,防止了壓縮偽影,在低比特率下取得了令人信服的視覺重建效果。
近兩年的工作,研究人員主要側重于提出新的訓練方法以解決引入對抗損失導致的模型訓練不穩定的問題。Mentzer[37]等人充分探究了標準化層、生成器和鑒別器架構、訓練策略與感知損失。在標準化層方面,使用ChannelNorm代替InstanceNorm緩解生成圖片的暗化偽影。在生成器和鑒別器架構方面,將編碼器量化后的輸出用最鄰近上采樣進行放大,作為鑒別器的條件生成對抗網絡的約束信息,實現了在較低的比特率下高分辨率圖像的重建。Lee[38]等人提出一種提高重建感知質量的圖像壓縮網絡訓練方法,在引入對抗損失之前,模型首先預訓練一個集圖像壓縮與質量增強為一體的網絡結構(EIC-E2E-B),在之后通過對抗性訓練獲得邊緣更清晰,紋理更豐富,更加適應復雜的人類視覺系統感知的圖像。與這種兩階段訓練方式相似,Iwai[39]等人先通過優化率失真函數來訓練編解碼器,再單獨使用GAN來微調解碼器,使得模型訓練更加穩定。
本研究工具有四個。第一,自編調查問卷:分閉合式和開放式。閉合式題目采用五級量表形式,用因子分析、主成分分析法和Cronbach alpha系數檢驗問卷的信效度。以此測量學生的學習策略、學習需求、動機、情感策略、對課程的期望以及自我評價。第二,口語測試卷:每學期期末口語考試題和CET-SET4,用來測評學生的口語成績和水平。第三,聽力測試卷:每學期期末試卷和CET4聽力試卷,用來測評學生的聽力成績和水平。第四,聽說實踐作業展示:內容主要為時政焦點訪談、文化展示、商務會談等切合實際交際場景的主題,用來測評學生的語言綜合應用能力,尤其是口語表達能力。
生成式編碼利用生成對抗網絡模型對緊湊的特征直接在解碼端生成出高逼真圖像/視頻的編碼框架,其最初提出的思路是期望在帶寬受限的情況下,網絡根據信息優先度進行排序并優先存儲更高級別的表示,達到用極少的碼率來存儲信息最緊湊的特征。重建時保持該緊湊特征語義不變的情況下,其余部分直接通過生成模型“想象”填充。
目前學術界正處于“百家爭鳴”的態勢,不同研究團隊提出不同的編碼框架。早期的生成式編碼工作,主要側重于編碼緊湊性特征,實現極低碼率壓縮。研究者們對如何進行緊湊表示給出了各自的解決方案。Wu等人[40]利用遮罩器訓練網絡來指導比特分配,他們將圖像壓縮后的比特流通過一個卷積神經網絡輸出重要性矩陣,遮罩通過遮蔽掉非重要區域,督促網絡為重要區域分配更多的比特。Santurkar等人[41]將GAN的生成器與變分自編碼器的解碼器共享參數,通過變分自編碼器得到圖像到隱空間向量的表示,然后利用GAN合成圖像。盡管該工作能夠實現極低碼率下恢復出滿足原始圖像語義的圖像,然而由于早期的生成模型技術受限,該方法生成圖像的感知質量和分辨率非常受限。在上述模型結合變分自動編碼器和生成對抗網絡的優點的基礎上,為了更好地對圖像進行緊湊特征的表示,Chang等人[42]首次將圖像表示為基于邊緣圖的結構特征以及低維的紋理特征向量,訓練一個端到端的VAE-GAN網絡,VAE選用KL損失,GAN選用最小二乘損失,并加入?1損失和?Latent損失分別約束原始圖像、潛碼、生成圖像三者之間的差距。在編碼端,圖像被壓縮為兩層比特流,分別為由變分自動編碼器編碼出紋理特征的比特流和由邊緣圖像映射的結構比特流。在解碼端,生成器基于紋理特征和重構的邊緣圖映射直接生成解碼圖像。在上述工作的基礎上,Chang等人[43]提出了一種分層融合GAN(Hierarchical Fusion GAN,HF-GAN)來學習由“粗到精”的學習范式,在重建紋理表示和結構映射后,將紋理層和結構層逐分辨率合成到生成圖像中,使得解碼的圖像生成質量和分辨率都得到進一步提升。此外,為了將碼率約束加入到編碼框架中進行聯合優化,實現端到端的編碼。Chang等人[44]利用語義分割圖作為結構指導,在每個單獨的語義區域內提取基于語義的紋理特征,并利用語義相關性進行更精確的熵估計,實現紋理特征的碼率估計。綜上,如圖5所示,這三個工作均可以視為基于分層特征表示的生成式編碼。

圖5 Chang等人提出的基于分層特征表示的生成式編碼
在視頻方面,英偉達的研究團隊[45]首次嘗試將基于人臉的生成模型應用于視頻會議編碼傳輸中:傳輸時只傳輸單一關鍵幀,并通過提取相應的3D人臉關鍵點、姿態估計以及表情變形估計來建模人臉的姿態、表情的運動,在解碼端直接通過生成網絡對其他人臉視頻幀進行合成。與視頻編碼標準H.264相比,其帶寬能夠節省90%。Wang等人[46]提出在編碼端將視頻分解為人體關鍵點結構特征與紋理特征,并利用人體關鍵點得到運動特征;解碼效果如圖6所示,在解碼端,利用生成模型GAN實現高質量視頻重建。此外該框架利用對比學習監督實現同一視頻的相鄰視頻幀共享單一紋理特征,因此該框架在典型數據集下與最新視頻編碼標準VVC相比,可以實現主觀質量較好的極低碼率壓縮效果。

圖6 英偉達研究團隊提出的基于人臉生成編碼效果圖
由于生成模型本身的特性,可以根據不同的輸入信息面向不同的任務需求,生成重建成不同質量的圖像/視頻。因此,Hu等人[47]首次提出一種面向人類視覺和機器視覺的可伸縮的圖像編碼框架,首次嘗試將機器視頻編碼和基于可伸縮特征的圖像編碼相結合,在人眼視覺質量和機器視覺任務方面都取得優異的效果。將圖像表示為邊緣和顏色信息,結構特征表示為矢量化的邊緣映射,顏色特征表示為從結構特征位置附近采集的稀疏顏色參考像素,利用GAN實現對人臉圖像的重建,并利用重構的人臉圖像進行機器分析。在此基礎上,Yang等人[48]在編碼階段構建更具可伸縮性的顏色特征表示和解碼階段的圖像控制效果兩個方面對模型加以改進,使得模型可伸縮性進一步增強。如圖7所示,對于參考像素的選擇,通過解碼器D的反饋確定刪除像素的優先級,并根據SSIM對像素排序的結果刪除彼此距離較遠的多個像素。對于極端的訓練方式,通過引入對色彩的權衡(Trade-off),在訓練時使用遮罩隨機遮掉一部分參考像素來模擬不同數量的顏色線索,并在解碼端加入AdaIN層來影響生成圖像的細節與紋理。

圖7 Yang等人提出的面向機器視覺和人類視覺的可伸縮編碼
此外,Li等 人[49]首次提出跨模態語義壓縮(CMC),通過率失真優化將高度冗余的圖像或視頻轉換為一個緊湊的文本描述特征,再使用生成對抗網絡從文本域重建圖像,由此證明跨模態語義編碼的可行性。如圖8所示,由于文本信息的高效性該方法重建圖像只能實現語義上的一致性,與原始圖像的主觀質量仍具有較大差別。

圖8 跨模態語義壓縮(CMC)框架
隨著深度學習和生成對抗網絡近幾年的快速發展,給圖像視頻編碼注入了新的研究活力。本文首先對基于全神經網絡的端到端編碼進行介紹,然后梳理了生成對抗網絡的主要研究脈絡,最后對基于生成對抗網絡的圖像視頻編碼方法進行了分析和總結,包括作為失真損失項引導端到端編碼和生成式編碼?;谏蓪咕W絡的圖像視頻編碼方法具有廣闊的應用前景,包括但不限于極低碼率下的視頻會議傳輸系統、極低碼率下的直播系統與極低碼率下的短視頻平臺分享等。
目前,生成式編碼方法在極低碼率下生成高感知的圖像視頻具有較大的優勢,其在編碼效率、提取特征可編輯、人機協同、多模態可支持性、質量評價等方面仍具有較大的研究空間。未來,基于生成對抗網絡的圖像視頻編碼的探索方向如下:
(1)緊湊性:圖像、視頻數據攜帶大量冗余信息,未來編碼器在帶寬允許的范圍內能夠選擇最高級別、最有價值的信息進行存儲,實現表示的緊湊性,提高系統效率。
(2)可擴展性:不同的應用場景對比特率的限制和圖像質量的要求各不相同。未來的生成式編碼框架能夠根據信息的需要靈活地支持各種類型的任務。當比特率約束很緊時,能夠強制壓縮特征的緊湊性;當帶寬充足時,能夠忠實地提供高質量重建圖像。
(3)多功能性:未來的生成式編碼框架能夠同時滿足機器視覺和人類視覺的雙重需求。機器視覺任務具有多樣性,編碼框架應全面地覆蓋不同應用場景和不同用戶需求的變化。
(4)泛化性:未來的生成式編碼框架不僅僅只局限于特定領域,即使是在語義信息差距大的圖像視頻數據集中,它也能夠保持紋理和語義信息的一致性。泛化性要求生成式編碼框架努力實現信息在跨模態意義上的統一。
(5)新的質量評價模型:由于基于生成對抗網絡的編碼框架的失真與傳統編碼和基于像素級別優化的壓縮失真在視覺感知上具有較大差距,因此未來亟需研究面向生成式視覺特性的有效質量評價模型,由此設計率失真優化方法進一步優化基于生成對抗網絡的編解碼框架。