唐琳, 孫葉, 周鵬, 張玉豹
(國網德州供電公司, 山東,德州 253000)
隨著數字技術、流媒體技術、無線通信和視頻監控的應用范圍擴大,出現了海量的多媒體視頻[1-2]。存儲和傳輸海量媒體視頻會占用大量的存儲空間,傳輸耗時長,給多媒體視頻后續處理帶來了巨大壓力。對多媒體視頻進行壓縮,可以減少多媒體視頻的存儲空間,節約存儲成本,在相同信道條件下,多媒體視頻傳輸錯誤率大幅度降低,因此對多媒體視頻壓縮進行研究,構建理想的多媒體視頻壓縮方法具有十分重要的意義[3]。
多媒體視頻壓縮技術是根據人類視覺原理,結合多媒體視頻信息冗余量大特點,采用一定的方法消除多媒體視頻信息之間的空間、時間冗余,大幅減少多媒體視頻存儲空間。幾十年來,國內外許多專家對多媒體視頻壓縮進行了深入研究。當前多媒體視頻壓縮方法可以劃分為2類:一類是基于硬件技術的多媒體視頻壓縮方法,另一類是基于軟件技術的多媒體視頻壓縮方法[4-6]?;谟布夹g的多媒體視壓縮率高,壓縮速度快,但是存在壓縮成本高,對操作人員的專業知識要求高,無法大范圍進行推廣?;谲浖夹g的多媒體視頻壓縮成本低、而且易實現,因此成為當前多媒體視頻壓縮的主要研究方向[7-9]?;谲浖夹g的多媒體視頻壓縮方法又劃分為2類:有損壓縮方法和無損壓縮方法,其中有損壓壓縮方法主要包括霍夫曼編碼的多媒體視頻壓縮方法、游程編碼的多媒體視頻壓縮方法;無損壓縮方法主要包括離散余弦變換的多媒體視頻壓縮方法、小波變換的多媒體視頻壓縮方法、基于預測編碼的多媒體視頻壓縮方法。這些方法均存在各自的實際應用范圍,同時存在一定的不足,如無法有效去除多媒體視頻冗余信息,多媒體視頻壓縮率小等[10]。
近年來,隨著人工神經網絡的發展和研究深入,出現了深度學習網絡,其中卷積神經網絡是一種性能優異的深度學習網絡,相對于傳統人工神經網絡,卷積神經網絡的學習能力更優,具有更高精度的擬合效果[11]。為了提高多媒體視頻壓縮率,去除信息之間的冗余,本文設計了基于卷積神經網絡的多媒體視頻壓縮方法,并且通過了具體媒體視頻壓縮測試,實驗分析這種方法的性能。
20世紀中期,有學者對貓的神經系統進行研究,并且發現神經元具有單向傳輸特性,同時具有局部敏感特征,因此模擬神經元該特點在傳統人工神經網絡的基礎上,提出了卷積神經網絡。相對傳統人工神經網絡,卷積神經網絡降低了權重數目,采用端對端的訓練方式,將特征獲取嵌入到卷積結構中,使得同一層可以進行大量卷積操作,具有并行學習能力,這樣卷積神經網絡的學習速度更快[14-15]。卷積神經網絡的結構如圖1所示。從圖1可以看出,卷積神經網絡主要包括卷積層、激活層、池化層。

圖1 卷積神經網絡的結構
由于多媒體視頻的關鍵幀圖像具有局部不變性,再結合卷積神經網絡的局部敏感特征,設計了基于卷積神經網絡的多媒體視頻壓縮方法,具體工作原理如圖2所示。

圖2 卷積神經網絡的多媒體視頻壓縮原理
基于卷積神經網絡的多媒體視頻壓縮原理具體描述如下。首先對多媒體視頻進行分幀預處理,提取關鍵幀圖像,并將關鍵幀圖像輸入到卷積神經網絡進行學習,然后通過卷積神經網絡降低多媒體視頻關鍵幀圖像的空間尺度和特征數目,并且為顯著性高的點分配相對多的碼字,最后對關鍵幀圖像特征進行量化處理,去降對關鍵幀圖像影響微弱的信息,并對關鍵幀圖像的統計冗余進行去除,從而實現關鍵幀圖像的信息進行有效壓縮,并通過卷積神經網絡恢復圖像的尺度,得到壓縮后的關鍵幀圖像,重組得到壓縮后的多媒體視頻。
(1) 多媒體視頻關鍵幀圖像的顯著性。顯著性是多媒體視頻關鍵幀圖像的重要特征,對不同的用戶,對關鍵幀圖像感覺興趣區域不同,這樣對不同的對象,只提取關鍵幀圖像感覺興趣區域,實現可以基于顯著性的關鍵幀圖像壓縮。本文采用基于高級特征的關鍵幀圖像顯著性檢測方法。對于一幅關鍵幀圖像,具體如圖3(a)所示。提取的顯著性圖如圖3(b)所示。從圖3可以看出,顯著性較高的區域包含更多的信息,顯著性較低的區域包含更少的信息。

(a) 關鍵幀圖像

(b) 顯著性圖
(2) 損失函數設計。基于顯著性圖的損失函數具體由式(1)給出,
(1)
式中,γ表示權重系數,ld和ld分別表示失真損失和損失率,它們具體由式(2)、式(3)算出,
(2)
(3)
式中,E(x)表示特征圖,S(x)表示顯著性圖,D(E(x))表示解壓縮圖,sij表示像素(i,j)的顯著性,xij表示像素(i,j)的值,r表示某一壓縮率的顯著度和。
為了測試基于卷積神經網絡的多媒體視頻壓縮方法性能,采用4類多媒體視頻作為測試目標,它們的關鍵幀如圖4所示,采用Java編程實現多媒體視頻壓縮程序,選擇霍夫曼編碼的多媒體視頻壓縮方法、離散余弦變換的多媒體視頻壓縮方法、小波變換的多媒體視頻壓縮方法進行對照測試。

(a) 蝴蝶

(c) 交通
多媒體視頻壓縮效果通常采用關鍵幀圖像壓縮前后的相似度進行衡量,本文選擇峰值信噪比、結構相似度和壓縮率作為評價標準,峰值信噪比、結構相似度分別定義式(4)、式(5):
(4)
(5)
式中,MSE表示均方誤差,具體為式(6):
(6)
式中,M和N分別表示關鍵帖圖像的長與寬。
4種方法對4類多媒體視頻的峰值信噪比、結構相似度和壓縮率分別如表1—表3所示。對表1—表3的峰值信噪比、結構相似度和壓縮率進行分析可以發現,相對于對照方法,卷積神經網絡的峰值信噪比、結構相似度和壓縮率均得到了明顯的改善,在不破壞多媒體視頻信息的條件下可以更大幅度的對多媒體視頻進行了壓縮,可以節約多媒體視頻存儲空間,提高多媒體視頻傳輸速度。

表1 4種方法的多媒體視頻壓縮率比較 單位:%

表2 4種方法的多媒體視頻峰值信噪比

表3 4種方法的多媒體視頻結構相似度
多媒體視頻信息量大,相對圖像、文字能更好表達目標的內容,針對當前多媒體視頻壓縮存在的不足,以提升多媒體視頻壓縮率,設計了提出基于卷積神經網絡的多媒體視頻壓縮方法,并與其它多媒體視頻壓縮方法進行對比測試,結果表明,卷積神經網絡可以高精度描述多媒體視頻關鍵幀之間的關系,獲得較高的多媒體視頻壓縮率,為多媒體視頻后續提供了基礎,具有十分廣泛的應用前景。