□ 文 /周迪 徐愛華
視頻編解碼是視頻圖像處理技術的基本內容之一。經過多年發展,視頻圖像分辨率從最初的D1標清圖像,到目前主流的1080P,向4K高清、8K超清時代前進。圖像清晰度提升的同時,其巨大的數據量也給視頻傳輸帶寬和后端存儲空間帶來了巨大的壓力,用戶需要投入更多的設備和資金。因此,編解碼技術的改進無疑成為了圖像處理技術發展的焦點。
視頻編碼通過特定的壓縮技術將某個視頻格式的大文件轉換成另一種視頻格式的小文件。視頻數據包括信息和冗余數據。信息是有用的基本數據,而冗余數據有許多種,如空間冗余、時間冗余、視覺冗余、編碼冗余等。視頻壓縮編碼的實質是減少圖像中的冗余,主要相關技術包括預測編碼、變換編碼、量化和熵編碼技術。

所謂預測就是利用已知信息猜測未知信息,預測編碼的思路就是編碼實際值與預測值之間的差別。考慮到圖像的特點,預測通常是以塊為單位進行,按照約定的規則將圖像分割成規則大小的塊,按照約定的順序對各個塊進行預測編碼。
預測編碼一般分為幀間預測編碼和幀內預測編碼。幀間預測編碼利用視頻時間冗余,即基于塊的運動估計和運動補償,利用之前編碼過的圖像來預測現在要編碼的圖像;幀內預測編碼則利用了視頻的空間冗余,即利用當前塊的相鄰像素直接對每個像素做預測。視頻的時間冗余一般大于空間冗余,所以幀間預測的壓縮率會大于幀內預測。

變換編碼指對信號的樣本值進行某種形式的函數變換,從一種空間變換到另一種空間,然后根據信號在另一個空間域的特征對信號進行編碼壓縮。例如時域與頻域的變換。
空域中,視頻信號的幅度隨著時間周期性地變換,每個幅度出現的概率較為均勻,很難進行壓縮。頻域中的圖片,低頻頻譜的幅度分布均勻,高頻頻譜的幅度通常是大比例的低幅度和稀少的高幅度,分布不均勻。由此,可對視頻的低頻分量和高頻分量分別處理,獲得高效壓縮。圖像頻率反映了像素灰度在空間中變化的情況,是灰度在平面空間上的梯度。一般來說,圖像的低頻部分描述了圖像的整體形狀,圖像的高頻部分描述了圖像的細節。常見的變換編碼算法有K-L變換、離散余弦變換(DCT)、離散傅里葉變換、小波變換等。
量化編碼分為標量量化和矢量量化。標量量化是最基本的有損編碼,通過將信源映射成碼字表中的碼字來達到壓縮目的;標量量化又分為均勻量化、非均勻量化和自適應量化。矢量量化是一次量化多個樣本點的量化方法,即將輸入數據幾個一組地分成許多組,成組的進行量化編碼。
熵編碼即編碼過程中按熵原理不丟失任何信息的編碼。信息熵為信源的平均信息量(不確定性的度量)。常見的熵編碼有:香農(Shannon)編碼、哈夫曼(Huffman)編碼和算術編碼(arithmetic coding)。在視頻編碼中,熵編碼把一系列用來表示視頻序列的元素符號轉變為一個用來傳輸或是存儲的壓縮碼流。
當前主流視頻編解碼標準有:MJPEG、MPEG-4、H.264、SVAC、H.265。
視頻畫面中,有些區域不會被特別關注,例如天空、墻壁、草地等。對整個區域進行視頻編碼并傳輸,會給網絡帶寬和視頻存儲帶來巨大壓力。ROI(Region of Interest)感興趣區域編碼可以通過智能或人工的選擇畫面中感興趣的區域,重點進行高質量甚至無損地編碼,而對其他區域降低其碼率和圖像質量,進行標準清晰度的視頻壓縮,甚至不傳輸該部分區域的視頻,從而達到節省網絡帶寬的占用和視頻的存儲空間。目前,ROI智能視頻編碼技術包括:固定區域和動態跟蹤兩類。
用戶可以用鼠標在監控畫面中選擇多個ROI感興趣區域進行智能編碼。如在H.265網絡攝像機中設置若干個ROI感興趣區域,ROI編碼率可調。
智能網絡攝像機支持臉部等目標識別,通過動態跟蹤目標,對該動態ROI區域進行重點編碼。很多情況下,感興趣區域就是人眼所關注的區域。人眼具有從一張圖像中快速定位顯著性區域,并過濾掉次要的信息,提取有用信息并傳輸給大腦進行處理的能力機制,這一機制被稱為人眼視覺注意機制。
人類的視覺系統對周圍環境的感知機制分為兩種:一是自底向上的視覺注意機制,這種機制受視覺刺激,與任務無關;二是自頂向下的視覺注意機制,這種機制受意識驅動,與任務相關 。人眼視覺注意機制的研究方向包括圖像顯著性區域檢測和目標檢測等 ,其中圖像的顯著性區域檢測就是模擬實現上述兩種視覺注意機制。圖像的顯著性區域檢測包括圖像壓縮 、圖像分割 、圖像檢索等圖像處理任務。
圖像顯著性區域檢測方法大多依據自底向上的人眼視覺注意機制,該機制主要受到圖像的低級對比特征的刺激作用產生。簡而言之,如果圖像中某一位置在亮度和色彩等方面與其周圍區域存在較大的差別,則這一區域最有可能引起人眼的視覺注意 。根據這一事實,傳統顯著性檢測模型采用各種數學建模方法建立數學模型,對圖像的所在位置與其周圍區域進行數據對比計算,將各種對比結果數據(差異性)進行整合處理,得到最終的顯著圖。
這些年自頂向下的注意機制成為了研究熱點,該機制是受到圖像中的語義特征對人的意識驅動作用產生。圖像中的文字、人臉、動植物等富含語義信息的目標通常會引起人們的視覺注意,這些語義目標便是自頂向下的視覺注意機制的具體體現。近些年,先進的圖像顯著性區域檢測模型開始模擬實現自頂向下的人眼視覺注意模型,使用各種高級特征用于顯著性區域檢測,例如在其檢測模型中加入了人臉、文本、動物和汽車等目標的高級特征。然而圖像中的這些富含語義的目標特征提取和識別是一個復雜而困難的問題,目前基于自頂向下的視覺注意機制的檢測模型大多是簡單地加入某類目標識別的具體特定的知識特征,用于識別特定的目標從而輔助圖像的顯著性區域的檢測,未能充分實現統一的自頂向下的視覺注意機制。
近些年,深度學習的人工神經網絡模型在大規模的圖像分類等圖像處理任務中展現出了很好的效果。隨著深度學習相關理論和實踐的不斷發展,開始有學者和研究人員將深度學習方法引入圖像顯著性區域問題的研究。例如利用3 層的稀疏編碼器以無監督的學習方式從圖像中提取更高的特征用于圖像的顯著性區域檢測;或采用一組通過k-means 算法訓練學習到的卷積濾波器提取低級和中級特征,之后利用中央-周邊差值方法計算局部對比度。
雖然深度神經網絡模型表現出了很好的效果和優秀的潛力,依舊不算完善。例如上述的兩種方法,前者只關注了高級頂層特征的提取而忽略了低級特征,而后者則忽略了高級特征。
為追求低碼率,視頻編碼會盡力壓縮視頻,從而導致圖像細節信息的丟失。基于有損視頻編碼文件而解碼后的視頻圖像自然就存在圖像的損傷。為了修復這類損傷,甚至為了追求更好的圖像效果,產生了圖像超分辨率重建技術。圖像分辨率是一組用于評估圖像中蘊含細節信息豐富程度的性能參數,包括時間分辨率、空間分辨率及色階分辨率等,體現了成像系統實際所能反映物體細節信息的能力。高分辨率圖像通常包含了更大的像素密度、更豐富的紋理細節及更高的可信賴度。
編碼后的實時視頻或歷史視頻,相對原始場景,其圖像通常會帶來各類損傷。受采集設備與環境、網絡傳輸介質與帶寬、圖像退化模型本身等諸多因素的約束,通常無法直接得到具有邊緣銳化、無成塊模糊的理想高分辨率圖像。利用圖像超分辨率重建技術,我們可以依據數字圖像處理、計算機視覺等領域的相關知識,借由特定的算法和處理流程,從給定的低分辨率圖像中復原出高分辨率的圖像。
圖像超分辨率重建在國計民生的多個領域均具有重要的應用意義。在視頻監控、電視會議等需要進行廣域視頻傳輸的場合,傳輸前對視頻圖像進行有損壓縮,接收端解碼后再通過超分辨率重建技術復原出原始圖像序列,從而極大地減少傳輸的帶寬需求和存儲的空間需求。在醫學圖像、遙感成像、公共安全、消費電子等領域,改造圖像采集設備成本高昂,超分辨率重建技術可以在不增加圖像視頻采集成本的基礎上復原出的清晰的影像,有助于提升醫學診斷、遙感探測、目標識別、觀賞體驗的效果。
視頻圖像的成像過程受到很多退化因素的影響,其中最主要的三個因素是:運動變換,通常由運動、平移等因素造成;模糊作用,通常由環境或成像系統本身引起;降采樣,通常由成像系統的分辨率決定。此外,還有加性噪聲,通常來自于成像環境或成像過程。衡量重建算法的優劣通常基于重建后圖像的評估。重建圖像的評價方式分為兩大類:主觀評價和客觀評價。主觀評價以人為評價主體,對圖像的視覺效果做出主觀和定性的評估;為保證一定的統計意義,需要選擇足夠多的評價主體,并保證評價主體中未受訓練的普通人和受過訓練的專業人員數量大致均衡。客觀評價通常采用峰值信噪比(Peak signal-to-noise ratio ,PSNR)和結構相似性(Structural Similarity, SSIM)兩種圖像質量評估指標;PSRN通過比較兩幅圖像對應像素點的灰度值差異來評估圖像的好壞,SSIM則從亮度、對比度和結構三個方面評估兩幅圖像的相似性。
根據分類準則的不同,圖像超分辨率重建技術可以劃分為不同的類別。從輸入的低分辨率圖像數量看,可分為單幀圖像的超分辨率重建和多幀圖像(視頻)的超分辨率重建;從變換空間角度看,可分為頻域超分辨率重建、時域超分辨率重建、色階超分辨率重建等;從重建算法角度看,可分為基于插值的重建、基于重構的重建和基于學習的超分辨率重建。
基于插值的方法對超分辨率圖像的估計可視作利用已知像素信息為未知像素信息進行的擬合過程,通常由一個預定義的變換函數或者插值核完成。基于插值的方法計算簡單、易于理解,但也存在著明顯的缺陷:首先,它假設像素灰度值的變化是一個連續的、平滑的過程,實際上該假設并不完全成立;其次,重建過程僅根據一個事先定義的轉換函數計算超分辨率圖像,不考慮圖像的降質退化模型,會導致復原出的圖像出現模糊、鋸齒等現象。
基于重構的方法從圖像的降質退化模型出發,假定高分辨率圖像經過了適當的運動變換、模糊及噪聲才得到低分辨率圖像,通過提取低分辨率圖像中的關鍵信息,并結合對未知的超分辨率圖像的先驗知識來約束超分辨率圖像的生成。
基于學習的方法利用大量的訓練數據,從中學習低分辨率圖像和高分辨率圖像之間某種對應關系,然后根據學習到的映射關系來預測低分辨率圖像所對應的高分辨率圖像,從而實現圖像的超分辨率重建過程。最重要的方法是深度學習。
深度學習則是機器學習中最主要的一個算法,其旨在通過多層非線性變換,提取數據的高層抽象特征,學習數據潛在的分布規律,從而對新數據做出合理的判斷或者預測。基于深度學習的圖像超分辨率技術的重建流程包括以下幾個主要步驟:
特征提取:首先對輸入的低分辨率圖像進行去噪、上采樣等預處理,然后將處理后的圖像送入神經網絡,擬合圖像中的非線性特征,提取代表圖像細節的高頻信息;
設計網絡結構及損失函數:組合卷積神經網絡及多個殘差塊,搭建網絡模型,并根據先驗知識設計損失函數;
訓練模型:確定優化器及學習參數,使用反向傳播算法更新網絡參數,通過最小化損失函數提升模型的學習能力;
驗證模型:根據訓練后的模型在驗證集上的表現,對現有網絡模型做出評估,并據此對模型做出相應的調整。
深度學習在圖像超分辨率重建領域展現出了巨大的潛力,極大地推動了該領域的蓬勃發展。但距離重建出既保留原始圖像各種細節信息、又符合人的主觀評價的高分辨率圖像的目標,仍有很長的路要走。主要存在著以下幾個問題:
深度學習需要海量訓練數據、高計算性能的處理器以及過深的網絡容易導致過擬合等問題。
深度學習預先假定測試樣本與訓練樣本來自同一分布,但現實中二者的分布并不一定相同,甚至可能沒有相交的部分。
盡管當前基于深度學習的重建技術使得重建圖像在主觀評價指標上取得了優異的成績,但重建后的圖像通常過于平滑,丟失了高頻細節信息。
基于人眼視覺關注點的感興趣區域編碼和圖像超分辨率重建兩大技術可以大幅降低視頻傳輸所需的帶寬和視頻存儲所需的空間,同時保證優秀的圖像質量和良好的觀看效果。但是,如何精準地識別關注目標,以及精確地還原圖像原始信息,依舊有很長一段路要走。這中間,深度學習扮演了關鍵的角色,我們期待不斷完善的學習機制和神經網絡的出現。