999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多分支網絡的深度圖幀內編碼單元快速劃分算法

2022-12-28 07:54:10賈克斌劉鵬宇
電子與信息學報 2022年12期
關鍵詞:深度模型

劉 暢 賈克斌 劉鵬宇

(北京工業大學信息學部 北京 100124)

(先進信息網絡北京實驗室 北京 100124)

(計算智能與智能系統北京市重點實驗室 北京 100124)

1 引言

隨著多媒體信息技術的飛速發展,視頻電視也在不斷更新。一方面,視頻電視由標清向高清甚至全高清發展,可支持的像素個數越來越多;另一方面,視頻電視由平面2維向3維甚至自由視點發展,可支持的視點個數越來越多。從標清到全高清、從平面到立體,視頻技術歷經數次革新,已闊步邁向超高清時代。伴隨新一代信息通信技術的升級,獨具大帶寬、廣連接、低時延的第5代移動通信技術(5th Generation mobile communication technology, 5G)[1]無疑為視頻應用搭建起“高速車道”。

在這一背景下,傳統的2維(Two Dimensional,2D)[2]視頻已難以滿足新時代人民群眾對美好視聽的新需求,具備大視角、高畫質以及畫面包圍感的沉浸式視頻應用而生,其主要包括立體視頻、多視點視頻[3]、360°平面視頻、虛擬現實 (Virtual Reality, VR)以及增強現實(Augmented Reality, AR)等。其中,作為多媒體信息產業的熱點之一,多視點視頻依托視頻技術的全面突破,集“交互性”和“臨場感”特質于一身,顛覆了傳統視覺體驗,成為學術界和工業界關注的新焦點。然而,多視點視頻的出現是一把雙刃劍,它在為人們帶來更具感染力和沉浸感的視覺盛宴的同時,也使得數據量呈指數級增長,帶寬開銷激增。一直以來,尋求帶寬成本與高品質視覺體驗的平衡是視頻編碼技術的永恒主題。為降低因視點個數增多帶來的數據量的增加,需采用更有效的視頻編碼方案。

面對視頻編碼技術的新要求,3維高效視頻編碼(Three Dimensional-High Efficiency Video Coding, 3D-HEVC)[4]標準應運而生。它的發展歷程主要有兩個關鍵時間點。第一,2012年7月,運動圖片專家組(Motion Picture Expert Group, MPEG)和視頻編碼專家組(Video Coding Expert Group,VCEG)合作組成3維視頻聯合編碼組(Joint Collaborative Team on Three dimensional Video,JCT-3V),共同開發下一代3維視頻編碼標準。第二,2015年2月,3D-HEVC國際標準正式發布。截至目前,3D-HEVC是最新的3維(Three Dimensional, 3D)視頻編碼標準。3D-HEVC采用的視頻編碼格式是多視點紋理加深度(Multiview Video plus Depth, MVD)[5]。MVD由2~3個視點的紋理圖及其對應的深度圖組成,其采用基于深度圖像的繪制(Depth Image-Based Rendering, DIBR)[6]技術實現任意虛擬視點的合成,通過減少視點數量來降低待編碼視頻的數據量。MVD視頻格式的出現緩解了因視點數增加導致數據量激增的問題,是目前最為有效的3D視頻編碼格式。

與高效視頻編碼(High Efficiency Video Coding, HEVC)[7]標準相比,3D-HEVC引入了深度圖。與紋理圖不同,深度圖表示物體與相機的距離。為區別于紋理圖的特征,3D-HEVC提供了眾多復雜的深度圖編碼技術,導致3D-HEVC編碼復雜度提升,深度圖編碼復雜度可達紋理圖的3~4倍。其中,深度圖編碼單元(Coding Unit,CU)劃分的復雜度占深度圖編碼復雜度的90%以上,這成為阻礙3D-HEVC在實際應用領域推廣使用的一個關鍵問題。因此,面對新形勢、新挑戰,為解決上述問題,眾多國內外學者從加快深度圖編碼方面展開研究。

目前,針對深度圖的快速編碼可分為3類,分別為基于啟發式的方法[8–10]、基于機器學習的方法[11–13]以及基于深度學習的方法[14–16]。其中,基于啟發式的方法大多是基于閾值、率失真代價(Rate Distortion cost, RD-cost)或時間/空間/視點間相關性提出的。但該類方法依賴人為制定決策規則,對于各具特點的視頻序列,單一或不全面的特征提取方法導致算法魯棒性差。進一步,有學者利用機器學習方法來加速深度圖編碼,早期研究方法主要是基于決策樹,通過構建靜態決策樹,利用數據挖掘提取視頻特征。但該類方法依賴手工提取特征,獲取的是底層簡單的物理特征,特征表征能力較差。近年來,隨著深度學習技術的進步和普及,一些學者將其應用到不同的視頻編碼領域中,包括前一代視頻編碼標準H E V C,新一代視頻編碼標準VVC(Versatile Video Coding)以及HEVC的擴展標準3D-HEVC。針對3D-HEVC而言,文獻[17]利用整體嵌套的邊緣檢測(Holistically nested Edge Detection, HED)網絡檢測深度圖的邊緣,通過基于深度學習網絡的邊緣檢測對3D-HEVC深度圖進行幀內快速預測編碼,然而文獻[17]采用的HED網絡是基于復雜網絡結構的視覺幾何群網絡(Visual Geometry Group network, VGG-16)[18],算法性能對硬件依賴性較強,并且這種利用網絡實現預測編碼方法的本質是對四叉樹進行剪枝操作,仍需進行傳統的率失真優化(Rate Distortion Optimization,RDO)計算。

針對上述方法存在的不足,本文基于網絡的深度特征表達與學習,提出一種基于深度學習的CU劃分結構快速預測方案,通過直接預測深度圖幀內編碼模式下CU的劃分結構來降低CU劃分的復雜度,進而降低3D-HEVC的編碼復雜度,對比實驗結果證明了本文算法的有效性。

2 3D-HEVC編碼結構及CU劃分結構

2.1 3D-HEVC編碼結構

一個完整的3D-HEVC測試序列包含3個視點,鑒于3個視點取自同一時刻、不同位置,故不同位置的視點因視角差異而具有輕微的內容差異性。圖1以Kendo測試序列[19]為例,展示了3D-HEVC的編碼結構。圖1的3個視點分別為視點0、視點1和視點2。其中視點0為獨立視點,其余兩個視點為非獨立視點。與HEVC不同,3D-HEVC的編碼結構包含紋理圖及其對應的深度圖。如圖1所示,每個視點都包含紋理圖及其對應的深度圖。

圖1 3D-HEVC編碼結構

區別于紋理圖,深度圖具有大面積的平滑區域和顯著的邊緣。為準確地編碼深度圖的邊緣,3DHEVC引入了深度圖編碼技術,但新技術的引入也帶來編碼復雜度的增加。圖2展示了6個標準測試序列的編碼時間統計結果。如圖2所示,深度圖的編碼時間占總編碼時間的80%以上。因此,有必要降低3D-HEVC中深度圖的編碼時間。

圖2 6個標準測試序列的編碼時間統計

2.2 CU劃分結構

在3D-HEVC深度圖中,每幀圖像會被分割成若干個非重疊的編碼樹單元(Coding Tree Unit, CTU),每個CTU既可以包含單個CU,也可以依據四叉樹結構迭代劃分為幾個較小尺寸的CU。CU的尺寸可以為64×64, 32×32, 16×16, 8×8,對應的CTU深度分別為0, 1, 2, 3。圖3展示了深度圖中的CTU及其對應的四叉樹劃分結構。值得注意的是,通過迭代計算才能獲得CTU的最佳劃分結構。而CTU的四叉樹劃分不僅包括自上而下的RD-cost計算過程,還包括自下而上的RD-cost比較過程。針對自上而下的計算過程而言,如圖3所示,按照“深度=0、深度=1、深度=2、深度=3”的順序依次計算當前深度下所有編碼單元的RD-cost。基于此,再進行自下而上的比較過程。若“RD-cost(深度=n)> RD-cost(深度=n+1), n=0, 1, 2”,則“深度=n”的編碼單元需要劃分,反之,則不需要劃分。

圖3 深度圖中CTU的四叉樹劃分過程

據統計,深度圖編碼單元劃分的復雜度占深度圖編碼復雜度的90%以上[20]。對于一個64×64大小的CTU,采用全遍歷模式,完成編碼共需要進行85次CU運算,1935次殘差變換絕對值和(Sum of Absolute Transformed Difference, SATD)代價運算和至少2623次RD-cost運算。因此,有必要降低3D-HEVC中深度圖編碼單元劃分的復雜度。

3 深度圖幀內編碼單元快速劃分方案

3.1 研究動機

圖4展示了編碼后深度圖中CTU的劃分結構以及編碼單元紋理復雜度和編碼單元深度之間的關系。從圖4可看出,在簡單、光滑的紋理區域,編碼深度通常為0和1;在復雜、粗糙的紋理區域,編碼深度通常為2和3。

圖4 編碼單元紋理復雜度和編碼單元深度之間的關系

此外,本文還進一步統計了編碼單元劃分深度和量化參數(Quantization Parameter, QP)之間的關系。如表1所示,初步實驗結果表明,采用較小QP值編碼后的視頻序列傾向于使用大深度、小尺寸CU,采用較大QP值編碼后的視頻序列傾向于使用小深度、大尺寸CU。其中,QP可以反映編碼壓縮的情況,QP與量化步長Qstep之間的關系如式(1)所示

表1 編碼單元深度和QP的關系(%)

QP越大,Qstep的值越大,量化程度越粗糙,圖像失真的情況越嚴重。相反,QP越小,Qstep的值越小,量化程度越細膩,圖像失真的情況越輕微。

基于上述分析發現,如果能直接預測編碼單元的劃分結構,合理跳過或提前終止某些非必要深度下的率失真代價計算過程,即通過紋理分析直接確定當前深度圖CTU的劃分結構,可以有效地降低編碼時間。因此,如何將深度學習與3D-HEVC編碼框架結合,通過網絡自動分析CU的紋理復雜度,確定當前編碼單元的劃分結構,對于解決CU劃分復雜度過高這一問題具有重要的參考意義。

3.2 數據集構建

數據驅動深度模型,數據集的種類和數量會對深度模型的性能產生巨大影響。考慮到目前不存在由深度圖構成的數據集,為保證實驗的準確性,本文從標準測試視頻序列中選擇了6個不同內容的視頻序列,用于構建數據集。其中,包含3個分辨率為1024×768的視頻序列以及3個分辨率為1920×1088的視頻序列。此外,鑒于不同位置的視點具有內容差異性,本文選擇獨立視點對應的深度圖來構建數據集。

表2展示了本文構建的數據集。如表2所示,訓練集由視頻序列Kendo的前300幀以及GT_Fly的前250幀組成;驗證集由視頻序列Balloons的后10幀以及Poznan_Hall2的后10幀組成;測試集由視頻序列Newspaper的后20幀以及Undo_Dancer的后20幀組成。然后,所有的視頻幀均在3D-HEVC的測試平臺HTM16.0[21]下進行編碼。編碼后,可獲得所有編碼單元的劃分結構和劃分深度。將每個編碼單元及其對應的劃分深度(0~3)作為一個訓練樣本。在本文構建的數據集中,共包含206160個樣本。表3給出了一個樣本的具體組成形式。

表2 本文構建的數據集

3.3 基于多分支網絡的深度模型構建

為直接預測深度圖中編碼單元的劃分結構,本文構建了如圖5所示的基于多分支網絡的深度模型(Multi Branch CNN, MB-CNN)。該模型包含3個通道,自上向下依次對應“深度=0”(尺寸為64×64),“深度=1”(尺寸為32×32),“深度=2”(尺寸為16×16)。模型的輸入為獨立視點對應深度圖中的CTU,尺寸為64×64。模型的輸出表示當前深度CU向下劃分的概率值。此外,該模型中,小深度、大尺寸CU的劃分與否直接決定下一深度CU的劃分。下面對模型的結構進行詳細介紹。

圖5 MB-CNN模型架構圖

MB-CNN模型由3個預處理模塊、3組卷積層、4個合并層以及3組全連接層組成。具體而言,為了讓模型的輸出形式與表3的最終劃分結構相一致,需要對輸入模型的編碼單元進行預處理操作。模塊A、模塊B和模塊C均為模型的預處理模塊,經3個預處理模塊處理后的編碼單元大小分別為16×16,32×32和64×64,輸入模型的CTU按照模塊A、模塊B和模塊C的順序逐通道進行預處理。此外,為減少特征維度和干擾信息,模型的預處理模塊均采用了平均池化。為從預處理后的CTU中提取邊緣特征,卷積層采用的激活函數是線性整流函數(Rectified Linear Unit, ReLU),可用式(2)來表示

表3 訓練樣本的組成形式

其中,Cm表示預處理模塊后的卷積層,M為卷積層的總層數,m表示當前處理的是第幾層,n表示當前處理的是第幾個CTU,Wm為 權值矩陣,Bm為偏置量。

模型中預處理模塊后的卷積操作只是對預處理后的CTU進行逐層特征變換,自動學習各個通道的層次化特征,但其并未考慮到通道間及卷積層間特征的相關性。鑒于此,第2組卷積層和第3組卷積層處理后的特征會先送入到合并層,再經全連接層來學習不同通道、不同層級特征之間的相關性。通過3.1節的表1可看出,QP對CU深度的選擇具有重要影響,因此,本文在模型的第2組全連接層中引入QP這一外部特征。此外,考慮到模型的輸出是二分類問題,即用0和1表示CU是否劃分。因此,模型最后一層采用的激活函數是sigmoid。

在訓練MB-CNN時,考慮到其是一個端到端的模型,故可對模型中的各個模塊進行聯合訓練。為了更好地訓練MB-CNN,通過整合預測CU是否劃分的先驗信息以及模型輸出的二值化信息,考慮到二值交叉熵損失函數常用于分類問題中,而本文所提模型本質上就是一個二分類問題,故本文將二值交叉熵損失函數作為MB-CNN模型的損失函數,用于本文MB-CNN模型的協同訓練。損失函數L定義為

3.4 深度圖幀內編碼單元快速劃分算法

圖6展示了本文提出的基于多分支網絡的深度圖幀內編碼單元快速劃分算法流程圖。首先,讀取待編碼視頻序列,并在編碼獨立視點對應的深度圖時調用MB-CNN模型;其次,讀取待編碼CTU,并利用MB-CNN模型預測CTU的劃分結構;最后,獲得最優的CTU劃分結構。值得注意的是,在編碼過程中,MB-CNN模型的運行只占用了0.5%的編碼時間,進一步證明了利用MB-CNN實現CTU劃分結構快速預測的可行性。

圖6 深度圖幀內編碼單元快速劃分流程圖

4 實驗與結果討論

4.1 訓練環境與編碼配置

4.1.1 訓練環境

為了驗證所提MB-CNN模型的性能,需要先訓練提出的MB-CNN模型。模型的訓練對實驗環境要求較高,需要較強的數據處理能力以提升訓練速度。本文訓練模型使用的硬件環境及軟件環境如表4所示。

表4 實驗環境

在模型的訓練過程中,原始輸入CTU的尺寸為64×64,“深度=0”、“深度=1”、“深度=2”通道預處理后CTU的尺寸分別為64×64, 32×32,16×16。批尺寸設為64,迭代次數設為10000,初始學習率設為0.01。值得注意的是,固定的學習率顯得笨拙,太小的學習率收斂速度慢,學習率太大可能得不到最優解。因此,在MB-CNN模型的訓練中,選擇動態設置學習率,即初始學習率設為0.01,隨著學習次數的增加,每4000次迭代,學習率以0.1的速度衰減。

4.1.2 編碼配置

為了驗證提出的基于多分支網絡的深度圖幀內編碼單元快速劃分算法的性能,采用全幀內(All Intra-frame, AI)編碼模式在3D-HEVC測試平臺HTM16.0上進行測試。編譯軟件為Visual Studio 2010,配置文件為baseCfg_3view+depth_AllIntra。具體編碼配置如表5所示。

表5 編碼參數配置

本文實驗采用的標準測試序列及其具體參數如表6所示。值得注意的是,MB-CNN模型的訓練集來自標準測試序列Kendo和GT_Fly,與本文實驗的標準測試序列并無交叉。

表6 標準測試序列及其參數

本文實驗以3D-HEVC測試模型HTM16.0為基準,通過式(4)對編碼時間的節省情況進行度量

4.2 結果分析與討論

4.2.1 訓練性能評價

模型的訓練性能直接決定了本文所提基于多分支網絡的深度圖幀內編碼單元快速劃分算法的可行性。圖8展示了MB-CNN模型在訓練集下預測CU尺寸的準確率。可以看出,隨著迭代次數的增加,CU尺寸的預測準確率逐漸增高,并在迭代次數為5000時趨于穩定。此外,從圖8可以發現,MB-CNN模型對尺寸為64×64(“深度=0”)的CU有較高的預測準確率,最高時可達到92.18%。這是由于在模型設計過程中,小深度、大尺寸CU的劃分與否直接決定了下一深度CU的劃分,所以模型更加關注小深度、大尺寸CU的劃分預測。但也正是由于其深度小,對于表征矢量的長度需求低,因此預測難度較小,預測準確率就會高。模型較高的預測準確率也使得本文提出的算法在率失真性能上有較好的表現。

圖8 不同迭代次數下不同尺寸CU的預測準確率

4.2.2 客觀性能評價

與HTM16.0相比,在AI配置下,本文提出的基于多分支網絡的深度圖幀內編碼單元快速劃分算法的編碼復雜度與率失真性能分別如表7、表8所示。同時,表7也給出了參考文獻[10]中的算法、參考文獻[12]中的算法、參考文獻[16]中的算法與HTM16.0的性能比較結果。所有實驗結果均在本文實驗環境以及編碼參數配置下得出。

為了證明本文算法的普適性,采用了4個沒有出現在訓練集中的序列進行測試。如表7和表8所示,與HTM16.0相比,本文算法可以在BDBR(synth PSNR /total bitrate)僅增加5.9%的情況下,平均節省37.4%的編碼時間。特別是,對于背景基本不變、前景變化緩慢的序列而言,如Newspaper視頻序列,會節省更多的編碼時間,Newspaper序列的時間節省率達到了45.3%。

表7 本文算法、參考文獻算法與HTM16.0的時間節省比較(%)

表8 本文算法與HTM16.0的率失真性能比較(%)

為了進一步評估本文算法的性能,分別與文獻[10,12,16]進行對比實驗。在率失真性能損失較小的情況下,本文算法較參考文獻[10,12,16]分別節省了11.9%, 12.1%和2.4%的編碼時間。

4.2.3 主觀質量評價

為證明本文所提算法能在降低編碼復雜度的同時,保證編碼后的合成視點質量基本不變。圖9以Poznan_Hall2視頻序列為例,展示了本文算法與原始HTM16.0方法在編碼后合成視點主觀質量上的對比。

從圖9可看出,與HTM16.0相比,本文算法在主觀上并不會造成合成視點質量的明顯下降,進一步證明本文算法能在保證合成視點質量基本不變的前提下,降低3D-HEVC的編碼復雜度。

圖7 合成視點PSNR的計算過程示意圖

圖9 Poznan_Hall2視頻序列在合成視點0.25上的主觀質量對比

5 結束語

本文針對3D-HEVC中深度圖幀內編碼單元的四叉樹劃分復雜度過高的問題,提出一種基于多分支網絡的深度圖幀內編碼單元快速劃分算法,以降低3D-HEVC的編碼復雜度,節省編碼時間。通過分析編碼單元紋理復雜度和編碼單元深度之間的關系,本文所提算法嘗試在不進行率失真代價計算的前提下直接預測CTU的劃分結構。首先,構建了由獨立視點對應深度圖中的CTU組成的數據集。其次,提出MB-CNN模型,利用構建的數據集對其進行訓練,以實現原始輸入CTU的自動分析,直接預測CTU的劃分結構。最后,將MB-CNN模型嵌入到3D-HEVC的測試平臺HTM16.0中,以確定深度圖中最優的CTU劃分結構。當利用本文提出算法替代耗時的RDO全遍歷搜索時,該算法成功克服了已有算法中依賴人工統計信息來預測編碼單元劃分深度的缺陷。實驗結果表明,與HTM16.0相比,本文所提算法可在BDBR僅增加5.9%、合成視點質量基本不變的前提下,平均降低37.4%的編碼復雜度。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 不卡视频国产| 日韩精品欧美国产在线| 欧美 亚洲 日韩 国产| 在线国产你懂的| 一级不卡毛片| 欧美成人二区| 亚洲有码在线播放| 国产精品冒白浆免费视频| 欧美19综合中文字幕| 亚洲国产一区在线观看| 亚洲精品久综合蜜| 91久久精品国产| 午夜欧美在线| 少妇露出福利视频| 日本道综合一本久久久88| www.av男人.com| 伊人久久福利中文字幕| 亚洲区视频在线观看| 大香伊人久久| 夜夜高潮夜夜爽国产伦精品| 色婷婷色丁香| 国产91蝌蚪窝| 色婷婷色丁香| 天天综合色网| 人妻中文久热无码丝袜| 999国产精品永久免费视频精品久久| 在线精品欧美日韩| 秋霞国产在线| 视频二区亚洲精品| 日本欧美成人免费| 99久久精品免费观看国产| 亚洲v日韩v欧美在线观看| 亚洲性日韩精品一区二区| 亚洲精品在线影院| 亚洲视频免| 久久亚洲综合伊人| 婷婷综合在线观看丁香| 亚洲综合天堂网| 丝袜国产一区| 国内精品久久人妻无码大片高| 国产精品久久久久久搜索| 久久99这里精品8国产| 亚洲午夜福利在线| 四虎亚洲精品| 国产国模一区二区三区四区| 精品福利国产| 日韩欧美中文| 欧美综合区自拍亚洲综合绿色 | 中文字幕乱码中文乱码51精品| 日日拍夜夜嗷嗷叫国产| 日韩黄色大片免费看| 欧美日韩国产在线播放| 中文国产成人精品久久一| 国产91丝袜在线播放动漫| 国产精品密蕾丝视频| 精品少妇人妻av无码久久| 中文字幕资源站| 日本国产精品| 久久国产V一级毛多内射| 国外欧美一区另类中文字幕| 91小视频在线观看免费版高清| 2020最新国产精品视频| 国产99热| 色窝窝免费一区二区三区| 午夜不卡福利| 亚洲综合极品香蕉久久网| 欧美日本中文| 91免费国产高清观看| 婷婷色狠狠干| www.亚洲色图.com| 91亚洲免费视频| 无码综合天天久久综合网| 色噜噜综合网| 午夜三级在线| 欧美成人看片一区二区三区 | 久久五月天综合| 精品国产自在现线看久久| 波多野结衣久久高清免费| 国产亚洲欧美在线专区| 久久久受www免费人成| 欧美a在线| 久久天天躁狠狠躁夜夜2020一|