余曉忠
視音頻信號的數字化壓縮技術要點簡述
余曉忠
(作者單位:新疆新聞出版廣電局安全監測中心)
本文介紹了視音頻信號的數字化過程,對視音頻信號數字化的編碼方式、取樣格式和壓縮編碼技術要點進行分析。
視音頻信號;數字化;壓縮技術
數字電視由于有著圖像傳輸質量好、頻譜利用率高、節省發射功率、易于實現信號存儲和處理等優點,自誕生后迅速取代模擬電視得到了廣泛應用。
模擬視音頻信號實現數字化需完成取樣、量化、編碼三個過程,稱為脈沖編碼調制PCM(Pulse Code Modulation)。
取樣,是指在時間(或空間)上用有限個取樣點來代替連續無限的坐標位置。根據奈奎斯特取樣定理,取樣頻率必須大于等于2倍模擬信號的最高頻率,在接收端通過低通濾波器恢復離散的模擬樣值序列。
量化,是對取樣得到的樣值序列的幅度進行離散化處理,將連續變化的無窮多個樣值的幅度用有限的近似樣值的幅度來表示,把離散脈沖的幅度進行舍零取整的過程。量化的級數的多少取決于量化比特數的多少,量化比特數越多,量化級越多,產生的量化誤差越小,解碼后恢復的模擬信號失真也越小。一般每增加或減少1 bit,就使量化信噪比增加或減少6 dB。對于音頻和視頻信號,通常采用非均勻量化,小信號時量化間隔小些,大信號時量化間隔隨之大一些,使信噪比趨于一致。
編碼是指用一組組二進制數依次表示一個個量化后的脈沖幅度值,并把它們排列起來組成數據信息流的過程。
2.1視頻信號的編碼方式
視頻信號的編碼分為復合編碼與分量編碼兩種。
復合編碼是將復合彩色全電視信號直接進行數字化,編碼成PCM信號。由于取樣頻率與副載波頻率間的差拍造成的干擾影響圖像質量,復合編碼已經淘汰。
分量編碼是對三基色信號R、G、B分量或者是對亮度信號Y和兩個色差信號R-Y和B-Y分別進行數字化,編碼成二進制的脈沖編碼調制PCM信號,然后以時分復用的方式混合在一起,構成PCM分量編碼信號。其優點是編碼與電視制式無關,便于電視制式轉換和統一;由于對分量分別編碼,采用時分復用方式混合在一起,從而有效地避免了亮/色互相串擾,可獲得高質量的圖像。
2.2視頻信號的取樣格式
視頻信號數字化時分為625行/50場制式和525行/60場制式。一副完整的圖像都是通過兩場隔行掃描完成的,一幅圖像既有水平掃描又有垂直掃描。取樣點通常采用正交結構,為了滿足正交結構,要求取樣頻率必須是行頻率的整數倍。為了實現兩種掃描制式的兼容,采用同一種取樣頻率,即625行頻和525行頻的整數倍,同時還要滿足奈奎斯特取樣定理,確定亮度信號取樣頻率為13.5MHz。
由于色差信號的帶寬比亮度信號的帶寬窄的多,為了降低碼率,在分量編碼時兩個色差信號的取樣頻率可以低一些。為了滿足不同應用場合對圖像質量的要求,亮度和色差信號的取樣頻率可以有不同的比例組合,即不同的取樣格式。通常將3.375 MHz作為最低的基準頻率。
4∶4∶4格 式, 即Y∶(B-Y)∶ (R-Y)=13.5 MHz∶ 13.5 MHz∶ 13.5 MHz,適用于高質量圖像信號源;
4∶2∶2格 式, 即Y∶(B-Y)∶(R-Y)=13.5MHz∶6.75MHz∶6.75MHz,適用于標準清晰度電視(SDTV)演播室中;
4∶2∶0格式,即Y∶(B-Y) ∶(RY)=13.5 MHz∶3.375 MHz∶3.375 MHz,其實質上為4∶1∶1格式,適用于SDTV信源編碼中。
2.3數字電視信號的碼率
國際電信聯盟的無線電委員會(稱為ITU-R)數字演播室標準CCIR-601,確定了以分量編碼4∶2∶2標準作為演播室彩色電視信號數字編碼的國際標準,對彩色電視信號的編碼方式、取樣頻率、取樣結構等都做了明確的規定。625行/50場和525行/60兩種制式的亮度信號每行取樣點分別為864個和858個,有效取樣點數均為720個,取樣頻率為13.5MHz,行逆程取樣點數分別為144個138個。兩個色差信號每行分別取樣432和429行,有效取樣點均為360個,取樣頻率為6.75 MHz,行逆程取樣點分別為72個和69個。
標準清晰度數字電視(SDTV)的碼率=亮度信號的碼率+2個色差信號的碼率 =13.5 MHz×10 bit+2×6.75 MHz×10 bit=270 Mbit/s(取10 bit量化)
高清晰度數字電視(HDTV)的碼率=亮度信號的碼率+2個色差信號的碼率=1485 Mbit/s(亮度信號取樣頻率為74.25 MHz,取10 bit量化)
2.4音頻信號的數字化
音頻信號都是復合信號,基本參數有頻率、幅度和帶寬。頻率決定音調高低,幅度決定聲音的大小或強弱,帶寬決定音頻信號的頻率范圍。人耳能聽到的最大頻率范圍是10 Hz~20kHz。衡量音頻信號數字化有三個指標:取樣頻率的大小、量化比特數、聲道的多少。取樣頻率通常為11.05kHz、20.05kHz、44.1kHz、48 kHz等,常采用8比特和16比特量化;聲道數可分為單聲道、雙聲道(立體聲)、環繞立體聲(5聲道)。
數字音頻存儲量=取樣頻率×量化比特數×聲道數/8bit(字節)
壓縮編碼技術就是在發送端對數字信號進行變換處理的一種方法,其目的是去掉數字信號中冗余信息(數據),盡可能地降低信號的數碼率,形成一個傳輸效率更高的數字信號。數字信號首先進入預測編碼器,消除數據中的統計相關冗余,包括空間相關與時間相關冗余,再經過變換編碼,把時域信號變換為空間域(頻域)信號,實現碼率的壓縮。之后再通過量化編碼、熵編碼及緩沖器進一步壓縮數碼率,并保證數碼率以平穩的速率達到與信道容量相匹配。緩沖器輸出的信號再通過多工時分復用器與伴音、同步及其他輔助數據信號組成復合信號,最后送入信道編碼器。
預測編碼:又稱差分脈沖調制編碼(Differential Pulse Code Modulation,DPCM)。利用某種數學模式和已經傳輸的像素值(數據)進行預測,預測出一個與當前傳輸的像素值相接近的估計值,進而把當前要傳輸的像素值減去預測值,得到一個誤差值,將誤差值編碼后傳輸出去。在接收端將收到的誤差值解碼后,再與預測值相加,即可得到當前要傳輸的像素值。
變換編碼:基本思想是不直接對空間域圖像數據進行編碼,而是首先將原來空間域上的圖像數據變換到另一個正交向量空間(變換域或頻域)中,得到相應的一組變換系統,然后對這些變換系數進行量化、編碼和傳輸,又稱為正交變換編碼。常用的變換編碼有離散傅立葉變換和離散余弦變換DCT(Discrete Cosine Transform)。為了避免傅立葉變換的復數運算,常采用DCT變換,將一幅圖像分為多個8×8個像素樣值的子像塊,即64個點的離散信號,通過DCT輸出64個正交基信號,每個正交基信號的幅值稱為DCT系數。由于高頻分量DCT系數經常為0,僅對低頻分量系數進行量化編碼,大大壓縮了數據量。
熵編碼:又稱統計編碼,是一種無損編碼。常用的有霍夫曼編碼,先把信源符號按出現的概率由大到小順序排列,然后按相反的順序分配碼字的長度。缺點是要求事先知道各信源符號出現的概率,否則效率會明顯下降。
數字視頻的運動補償編碼:是一種幀間預測編碼,具有較大的數碼壓縮率,是運動圖像視頻編碼國際標準(H.261、MPEG-1、MPEG-2)采用的關鍵技術之一。幀間預測編碼基本原理是選擇前一幀作為預測參考幀,在傳輸前一幀的基礎上,只要傳輸前幀與后一幀對應像素的差值信號,在接收端只要將前一幀與差值相“加”,同樣能得到后一幀。
運動補償編碼主要解決兩個問題,即運動估計和運動補償。運動估計就是對運動物體從前一幀到后一幀位移的方向和像素數做出估計,也就是求出運動矢量。運動補償就是對運動物體的位移量進行補償。
[1]吳恩學.數字電視實用技術[M].北京:教育科學出版社,2009.
[2]車晴,王京玲.衛星廣播技術[M].北京:中國傳媒大學出版社,2015.