黨乙棋
西南交通大學,四川 成都 611756
視頻轉碼分析探討
黨乙棋
西南交通大學,四川 成都 611756
隨著網絡帶寬技術的急速發展,人們對于多媒體文件的需求越來越大,越來越廣,為了適應不同格式、不同終端對多媒體文件的需求,視頻轉碼技術日益完善,不斷發展,從MPEG-2到H.264,再到HEVC,性能逐步提高,好的轉碼方法是伴隨著計算性能提示的同時在編碼質量和轉碼速度上得到一個非常好的均衡。從視頻轉碼的原理、關鍵技術以及視頻轉碼的進展方面作了研究探討。
視頻轉碼;多媒體;視頻編碼
隨著網絡帶寬技術的急速發展,信息化聚集程度越來越高,多媒體文件由于其所帶來的視覺、聽覺上無與倫比的體驗,市場應用度越來越高,如視頻點播、直播、遠程教育、視頻會議等。正是由于不同的市場需求以及多樣的網絡接入對于多媒體文件的存儲、傳輸、適配也產生了各式各樣的標準。為了讓多媒體文件在不同的標準,不同的條件下向用戶傳輸,多媒體文件必須根據用戶環境做出相應的調整,視頻轉碼技術(Video transcoding)[1]正好可以滿足上述的需求。一般來講,視頻轉碼技術就是把一種視頻編碼方式轉換為另外一種編碼方式的過程。為了適應不同帶寬,異構終端不同的處理能力,視頻轉碼的范圍包含十分廣泛,涉及到視頻的壓縮、分辨率、碼率、幀率、存儲格式等轉換。
為了便于傳播和滿足多業務需求,標準化組織提出并制定了多種視頻編碼標準,如H.26x系列,MPEG-x系列,HEVC,同等視頻感官質量下,大幅度節約了碼率。視頻編碼技術不斷的推陳出新,極大的促進了多媒體技術和通信產業的發展,如何將不同格式標準的編碼向用戶適配條件轉碼成了研究的熱點之一。
對于數字視頻流而言,其數據量是巨大的,含有大量的信息冗余,產生信息冗余的原因和類型是多方面的,當圖像相鄰像素之間具備較強相關性時存在空間上的冗余,在相鄰時間內傳送的數據會產生時間冗余,而對于具備相似紋理結構時也會產生結構上的冗余。因而,基于高信息熵,去冗余的基本思路,對視頻碼流進行壓縮編碼處理,其目的為在保證視頻質量的前提下,用盡可能少的比特量對信息視頻信息加以描述,以便于信息的傳輸、處理、存儲。
為了不斷適應各式各樣場合以及不斷升級的硬件,不同的組織也不斷推出了適應需求的國際視頻編碼標準,所采用的最廣泛的編碼框架為基于塊的混合視頻編碼框架,除MPEG-4基于內容之外均有采用,圖1為基于塊的混合編碼基本框架。

圖1 基于塊的編碼框架
混合視頻編碼中在塊的劃分下綜合使用了離散的余弦變換(DCT)[2-3]或者整數余弦變換(ICT)[4-6]以及基于運動補償的預測編碼技術,不同的處理技術對于消除冗余的作用是不同的,在視頻圖像序列中幀與幀間的運動關系存在時間上的冗余,可由幀間預測加以去除,同樣,在幀內相鄰像素間存在相似性存在空間冗余,可用幀內預測加以處理,由于數據出現的概率不同,具備編碼冗余,此外,人眼對于圖像顯著性區域信息的敏感,可以通過變換和量化編碼對視覺冗余做處理等。
以H.264標準為例,H.264編碼的基本處理單元是一個宏塊,最大的宏塊為16X16,而每個宏塊可以繼續劃分為不同的子塊,有四種劃分,通過對劃分后的宏塊進行進一步劃分,可得到宏塊最小為4X4[7]。視頻處理中,每個宏塊或者亞宏塊會進行獨立的運動補償,那么在碼流中,需要對運動矢量和所選擇的分割加以編碼和傳輸才會獲得正確的解碼。在圖像平坦的區域,我們選擇大的宏塊分割,相應的在多細節的區域的宏塊尺寸較小,采用小的子塊。
H.264功能分為網絡提取層和視頻編碼層兩層,在視頻編碼的數據進行傳輸或者存儲的時候,先要被映射或者封裝進網絡提取的數據單元中,由網絡提取層包含其序列負荷和頭信息,增加網絡傳輸的親和性。
2.1 視頻轉碼器
為了適應異構網絡、不同的接入設備、不同的多媒體視頻數據格式間的數據傳輸,需要對壓縮后的碼流進行端到端的轉換,使壓縮后的視頻碼流更能適應傳輸的信道和接受端的環境,執行這種操作的設備,稱之為視頻轉碼器。針對視頻轉碼的原因歸結起來如下:
(1)不同的應用領域視頻編碼標準應用不同;
(2)網絡急速的發展,網絡結構復雜,多種接入帶寬并存;
(3)多樣化的接收端,對于視頻播放的有不同的需求,如有的需求高清、有的需求解碼速度、有的則都有需求而不同的接收端其緩存,性能有差異,此外對于所支持的視頻格式也可能有所不同。
對以上原因進行分類后,視頻轉碼可以分為同一視頻標準下進行轉碼和不同標準間進行轉碼,前一類操作比較簡單,算法度低,后一類算法比較復雜,其轉碼器的設計也比較復雜[8]。最簡單的視頻轉碼器為直連結構,也就是編碼器解碼器的級聯如圖2。

圖2 直連轉碼器
正如前文所言,為了應對動態多樣的環境對視頻的不同需求,如圖像質量、帶寬、轉碼速度等,對轉碼器進行不斷改進,按照其結構和作用做出不同的分類,設計上有開環轉碼結構,閉環轉碼結構;和開環結構低復雜度不同的是,閉環結構具備漂移誤差的補償反饋電路,反饋電路的存在,降低幀間編碼中漂移誤差對的累計擴散對 P幀的影響,提高了轉碼后的圖像質量。因此,現在所采用的轉碼器基本都是采取閉環結構而衍生,作用上有空域轉碼結構,頻域轉碼結構等。
2.2 視頻轉碼技術
針對不同的需求設計其轉碼算法也有很多選擇。對于同類標準的視頻轉碼,算法主要有碼率變換、空域分辨率、時域分辨率變換,對于不同類的轉換則要根據其壓縮碼流和輸出標準的特點進行選取,如H.264到現在最流行的HEVC的轉換,可以基于統計分析,可以基于區域特征,也可以基于人眼顯著性進行分析,此外有效的利用運動矢量也是優化轉碼的一種方式。
在相同類型的視頻轉碼中,主要實現對圖像尺寸的變換以及根據傳輸環境進行碼率控制,其算法上主要有碼率轉碼,結合對運動矢量的重用的空間分辨率轉碼。在進行數據傳輸中,由于網絡帶寬的不同,視頻轉碼器根據信道帶寬限制,對傳輸視頻碼率進行碼率變換,其設計為解碼器和編碼器的直連,外部框架如圖3-1,可依據圖像質量、傳輸碼率、轉碼速度根據不同的需求劃分優先級,對全解全編的結構進行簡化,在簡化結構中可考慮將輸入的碼流信息在解碼后再編碼時復用,在碼率變換中,保證圖像質量的一定前提下,有效的解決再量化誤差和漂移誤差,降低運算的復雜度,是這類轉碼器所要研究的重點。
空間分辨率的轉碼是為了讓視頻流可以滿足在低分辨率頻幕上顯示。由于輸入碼流中包含如幀類型、運動矢量、量化步長、模式等信息,我們在下一步解碼的時候可以通過變長解碼、反量化、反 DCT以及進行運動補償提取出之前的有用信息交付與新的編碼器使用,從而將殘差數據編碼輸出。據統計,將輸入碼流的運動矢量信息在編碼端重用與完全運動估計方法相比可以節約60%~70%的運算量,如何高效的利用運動矢量信息是,減少計算量,提高畫質是研究的熱點。
對于不同標準之間的轉換,為各種各樣的網絡提供了一個中轉,當其壓縮算法比較相近的時候轉換比較容易,由于標準的不同,大多數情況下源圖像中所包含的信息不能直接使用,這就要求不同標準間在設計轉碼器的時候對兩種標準的相似度,壓縮碼的性質進行比對,如幀間運動補償,幀內變換算法,幀圖像的所對應的區域特性,在變換域特性相同的時候可使用頻域轉碼結構,特性有差異的時候經行個別的研究,但其整體思路為分析標準的不同,采用同一標準下的轉碼基礎框架結構,提取出在轉碼中對提高轉碼質量、效率有用的信息通過不同變換變換域系數[9]轉換達到目的,此外還要對不同標準間語義信息進行比對。
在視頻轉碼中,除了特性的比對外,有效的重用運動矢量對于優化轉碼效率起到非常好的作用。由于H.264的高效性,其他格式向 H.264 轉碼,或者是H.264適應不同的適應帶寬、分辨率也是研究的熱點,轉碼的算法思路可通過視覺特性對一些頻率特性進行壓制,或通過對區域根據其特征進行有效的劃分,提前預測出分割單元的預測類型,減少搜索運動矢量的復雜度,優化運動估計,在這一塊的算法主要對特征進行聚類分析[10],達到信息重用,快速搜索減少匹配此處,也可以使用 PSO進行塊的快速搜索。對于基于塊的區域特征轉碼可先進行區域對應,然后進行區域聚類分析,由此,可根據區域復雜度評級決定搜索的深度和范圍,降低全搜索運算量,文獻[11]中通過聚類分析對運動矢量經行重用,其不足為沒有評比各種聚類分析算法在此設計中的優劣性。對于步入到云計算后,云計算所帶來的視頻轉碼大大提升了視頻轉碼的速度,新的結構帶來了新的問題,對于計算機性能差別,碼塊差別分布式匹配問題需要進一步研究,文獻[11]對在 MapReduce模型下發明了一種依據轉碼節點性能差異進行轉碼耗時優化的算法,文獻[12]對基于分塊差異性及節點轉碼性能匹配做了分析,其不足是只對不同視頻大小下分片大小的標準做了分析,沒有分析基于同類型和不同類型下轉碼耗耗時的優化。
在流媒體發展越來越火的今天,視頻轉碼作為一項解決場景兼容的存在是不可缺少的,當然隨著網絡的復雜化,云平臺、數據量巨大化,數據接收方要求快速、高質量碼流、資源有效的調度方法等多樣的問題依然是所要研究的熱點。
[1]Vetro A.,Christopoulos C.,Huifang Sun et al.Video transcoding architectures and techniq ues:an overview[J].IEEE Signal Processing Magazi ne,2003,20(2):18-29.
[2]Ahmed N,Natarajan T,Rao K R.Discrete cosine transform [J].IEEE Transactions on Computers,1974,C-23(1):90-93.
[3]Chen W,Smith C H,Fralick S C.Fast computation nal algorithm for the discrete cosine transform[J].IEEE Transactions on Conmmunications,1997,COM-25(9):1004-1009.
[4]張曉晨.DCT算法分析與結構設計[D].上海:上海交通大學,2010.
[5]張璐.整數余弦變換域上的感興趣區域識別方法研究[D].上海:上海交通大學,2006.
[6]杜耀剛,蔡安妮.DCT域視頻轉碼技術綜述[J].電子學報,2005,33(9):1644-1650.
[7]畢厚杰.新一代視頻壓縮編碼標準——H.264/AVC,第一版[M].北京:人民郵電出版社,2005.
[8]XIN Jun,Improved Standard-Conforming Video Transcoding Techniques[D].Seattle:The Universit y of Washington,2002.
[9]M R Hashemi,L Winger,S panchanathan.Compres sed Domain Motion Vector Resampling for Downsca ling of MEPEGVideo[C]//International.Conf.On Image Processing,Kobe Japan:IEEE.1999.276- 279.
[10]蔣煒.H.264到HEVC視頻轉碼技術研究[D].杭州:浙江大學,2013.
[11]西安交通大學.基于 Map-Reduce的視頻轉碼任務調度方法:CN201410386706.6[P].2014-11-19.
[12]畢莎莎,陳清華,高煜紅.基于 Hadoop視頻轉碼的任務調度算法[J].無線電通信技術,2014(2):63-66.
Video Transcoding Analysis
Dang Yiqi
Southwest Jiaotong University, Sichuan Chengdu 611756
With the rapid development of networking broadband technology, the demand for multimedia files is becoming increasingly larger and wider.In order to satisfy the requirements of different formats and terminals for multimedia files, video transcoding technology is ever-improved and continuously developing, whose performance keeps making progress, from MPEG-2to H.264, and to HEVC, a good transcoding method will balance the encoding quality and transcoding speed in a proper way accompanying by the computational performance tips.In this paper, the principle,key technology and the development of video transcoding are studied.
Video transcoding; multimedia; video coding
TN919.81
A
1009-6434(2017)3-0154-03
黨乙棋(1991—),男,漢族,甘肅省隴南市人,碩士,西南交通大學,研究方向為信息與通信系統。