劉貴臣
(沂水縣融媒體中心,山東 臨沂 276400)
隨著數(shù)字技術(shù)的發(fā)展,數(shù)字音頻技術(shù)在廣播電視系統(tǒng)中的應用日益廣泛。相較于傳統(tǒng)模擬音頻技術(shù),數(shù)字音頻技術(shù)具有抗干擾能力強、質(zhì)量損失小、編解碼方便以及傳輸容量大等顯著優(yōu)勢,能夠提供更高的音質(zhì)和更強大的處理能力。由于廣播電視傳輸系統(tǒng)結(jié)構(gòu)復雜,數(shù)字音頻信號在傳輸過程中容易受到信道失真、時延誤差等影響,導致音頻質(zhì)量下降,嚴重時可能出現(xiàn)音畫不同步、雜音及失真等問題[1]。對此,本文以數(shù)字音頻在廣播電視工程中的同步傳輸與控制技術(shù)為研究對象,分析數(shù)字音頻信號的同步傳輸方法、質(zhì)量控制技術(shù)手段以及系統(tǒng)傳輸控制方式,為數(shù)字音頻技術(shù)在廣播電視工程領(lǐng)域的應用與發(fā)展提供理論支撐。
1.1.1 數(shù)字音頻的概念與特征
數(shù)字音頻是指利用數(shù)字信號處理技術(shù)對聲音進行取樣、量化、編碼、存儲、處理和轉(zhuǎn)換的過程,使用二進制數(shù)字代碼而非模擬電信號來表示聲音信息。數(shù)字音頻通過模數(shù)轉(zhuǎn)換器(Analogto-Digital Converter,ADC)將模擬音頻信號轉(zhuǎn)換成數(shù)字脈沖編碼,再通過數(shù)模轉(zhuǎn)換器(Digital-to-Analog Converter,DAC)將數(shù)字信號轉(zhuǎn)換回模擬信號。數(shù)字音頻可以通過提高取樣頻率(48 kHz 或更高)和采用高分辨率量化(16 bits 或24 bits)來獲取更多的聲音細節(jié)特征,頻率響應范圍更寬(可超過20 kHz),信噪比高(可達90 dB 以上)[2],因而可以實現(xiàn)高保真的音質(zhì),逼真地再現(xiàn)聲音的質(zhì)感,利用數(shù)字信號處理技術(shù)進行各種音頻效果的合成,如回聲、混響、均衡等,實現(xiàn)傳統(tǒng)模擬音頻難以達到的強大音頻處理能力。
1.1.2 數(shù)字音頻的編碼標準
數(shù)字音頻在傳輸和存儲過程中需要進行編碼壓縮以減少數(shù)據(jù)量。當前應用較廣泛的數(shù)字音頻編碼標準主要包括以下幾種。
(1)MP3(MPEG-1 音頻層Ⅲ),使用psychoacoustic 模型進行有損壓縮,通過過濾人耳難以聽見的聲音成分,實現(xiàn)11 ∶1 的高壓縮率,是互聯(lián)網(wǎng)使用最普遍的編碼格式。
(2)AAC 是在MPEG-2 和MPEG-4 中使用的專業(yè)級編碼標準,其壓縮效率優(yōu)于MP3,支持多聲道、更多比特率選項,應用在數(shù)字電視和數(shù)字音樂播放中。
(3)AC-3,也稱Dolby Digital,是杜比實驗室研發(fā)的綜合多聲道數(shù)字音頻格式,包含1 ~6 個聲道,采樣率為48 kHz,應用在DVD、藍光影碟及數(shù)字電視等產(chǎn)品中。
(4)WMA 是微軟公司的音頻壓縮格式,可在與MP3 相媲美的音質(zhì)下獲得更小的文件體積,是Windows Media Player 軟件默認的編碼標準。
(5)FLAC 是一種無損編碼方式,可減小50%~60%的存儲空間而不損失音質(zhì),適用于對音質(zhì)要求極高的場合。
1.2.1 數(shù)字電視音頻廣播
數(shù)字電視可以提供CD 級別的高保真音質(zhì),支持立體聲以及AC-3、Dolby Digital 等多聲道環(huán)繞音效,遠高于模擬電視的單聲道音質(zhì),針對不同節(jié)目提供多語言音軌、視障解說等音頻服務,還可實現(xiàn)交互娛樂節(jié)目中的環(huán)繞音效,觀眾可以自由選擇所需的音頻通道。
1.2.2 數(shù)字有線電視音頻
數(shù)字有線電視通過有線網(wǎng)絡采用數(shù)字編碼技術(shù)傳輸視頻與音頻信號,可提供CD 級別音質(zhì)的數(shù)字立體聲,支持杜比AC-3、DTS 等多聲道環(huán)繞音效,同時采用正交振幅調(diào)制(Quadrature Amplitude Modulation,QAM)、編碼正交頻分復用(Coded Orthogonal Frequency Division Multiplexing,COFDM)等數(shù)字調(diào)制技術(shù),可有效抵抗傳輸鏈路中的各種隨機噪聲和相鄰信道干擾,保證音頻信號的完整性[3]。
1.2.3 網(wǎng)絡在線音視頻
網(wǎng)絡在線音視頻服務的廣泛應用,主要建立在數(shù)字音頻技術(shù)基礎(chǔ)上。網(wǎng)絡在線音視頻需要使用數(shù)字音頻編碼技術(shù)對音頻信號進行壓縮,常用的編碼標準有MP3、AAC、WMA 等,可以顯著降低音頻數(shù)據(jù)流量,滿足網(wǎng)絡傳輸?shù)男枨蟆=?jīng)過編碼壓縮后的數(shù)字音頻信號與視頻信號多路復用,打包成流媒體格式,通過傳輸控制協(xié)議/網(wǎng)際協(xié)議(Transmission Control Protocol/Internet Protocol,TCP/IP)網(wǎng)絡進行傳輸,支持用戶點播需求。
基于時間戳是數(shù)字音頻同步的一種常用技術(shù)手段,其基本原理是在對數(shù)字音頻信號進行編碼和封包過程中,在每個音頻數(shù)據(jù)包的首部添加表示采樣時間或發(fā)送時間的時間戳信息。解碼端接收到數(shù)據(jù)包后,根據(jù)數(shù)據(jù)包中的時間戳,設(shè)置定時器,將音頻數(shù)據(jù)預存入緩沖區(qū)。當定時器時間與時間戳一致,從緩沖區(qū)取出對應音頻數(shù)據(jù)進行播放。采用時間戳同步的優(yōu)點有:直接依賴時間信息同步,無須解析音頻內(nèi)容,實現(xiàn)簡單;只需要編碼端加入時間戳,無須改變網(wǎng)絡傳輸機制;同步精度高,誤差可控制在幾毫秒以內(nèi);可適用于各種網(wǎng)絡條件,抗網(wǎng)絡抖動能力強。
流媒體協(xié)議同步是數(shù)字音頻同步傳輸?shù)牧硪环N重要方式,主要過程如下:
(1)在對數(shù)字音頻流進行封裝處理時采用實時流媒體協(xié)議,如RTSP、實時傳輸協(xié)議(Real-time Transport Protocol,RTP)等,在協(xié)議消息頭中插入表示時間信息的時間戳;
(2)在接收端,根據(jù)流媒體協(xié)議中的時間戳對音頻數(shù)據(jù)包進行重排序和緩存,緩存過長的數(shù)據(jù)包可以棄用;
(3)解碼器根據(jù)流媒體消息中的時間戳,在時間一致時從緩存中取出相應的音頻數(shù)據(jù)包進行解碼和播放。
評估數(shù)字音頻傳輸質(zhì)量的主要技術(shù)指標有:
(1)誤碼率,用于表示數(shù)字傳輸系統(tǒng)在傳輸過程中發(fā)生比特誤碼的比率,數(shù)字音頻傳輸?shù)恼`碼率越低,傳輸誤差就越少,音質(zhì)的損失也越小;
(2)抖動和丟包率,抖動是數(shù)據(jù)包到達間隔時間的變化,丟包率是傳輸中未能成功到達的包的比率,音頻傳輸?shù)亩秳雍蛠G包率越低,音頻延遲變化和中斷就越少;
(3)客觀的聽覺質(zhì)量模型評估,通過仿真信號傳輸和分析模型,如語音質(zhì)量感知評估(Perceptual Evaluation of Speech Quality,PESQ)、音頻質(zhì)量感知評估(Perceptual Evaluation of Audio Quality,PEAQ)等,來評估編碼和網(wǎng)絡傳輸對音質(zhì)的影響;
(4)主觀聽覺質(zhì)量評估,需要專業(yè)評委進行耳機監(jiān)聽,判斷數(shù)字處理對音質(zhì)的損害程度。
3.2.1 前饋控制
數(shù)字音頻傳輸?shù)那梆伩刂剖且环N重要的控制策略,主要技術(shù)流程如下:
(1)進行數(shù)字音頻編碼和傳輸之前,通過模型預測等方式,實時獲取網(wǎng)絡當前的狀態(tài)參數(shù),如帶寬、時延抖動等;
(2)根據(jù)這些預測結(jié)果,對數(shù)字音頻編碼器的控制參數(shù)如編碼比特率、丟包補償能力等進行智能優(yōu)化,配置編碼器使用適應當前網(wǎng)絡狀態(tài)的編碼參數(shù);
(3)采用經(jīng)優(yōu)化配置的編碼器對音頻數(shù)據(jù)進行編碼后傳輸?shù)浇邮斩耍瑥亩畲笙薅鹊剡m應網(wǎng)絡狀態(tài),提高數(shù)字音頻的傳輸質(zhì)量;
(4)通過從接收端反饋獲得的實際網(wǎng)絡狀態(tài)和服務質(zhì)量(Quality of Service,QoS)數(shù)據(jù)實現(xiàn)閉環(huán)控制,持續(xù)校正和優(yōu)化編碼器的參數(shù)。
采用前饋控制策略的優(yōu)點在于可以動態(tài)調(diào)整編碼參數(shù)以適應網(wǎng)絡變化。主動控制策略可以快速反應網(wǎng)絡狀態(tài),簡化接收端處理,可以根據(jù)不同指標進行多目標的聯(lián)合控制。
3.2.2 反饋控制
數(shù)字音頻傳輸?shù)姆答伩刂剖腔陂]環(huán)控制理論的另一種重要控制策略,主要技術(shù)流程包括:
(1)在數(shù)字音頻接收端實時監(jiān)測網(wǎng)絡傳輸狀態(tài)和音頻播放質(zhì)量參數(shù),如傳輸延遲、丟包率及抖動等,將這些監(jiān)測結(jié)果即網(wǎng)絡狀態(tài)反饋傳回發(fā)送端的數(shù)字音頻編碼器控制器;
(2)控制器根據(jù)反饋回來的實際網(wǎng)絡狀態(tài),動態(tài)調(diào)整數(shù)字音頻編碼的參數(shù),如編碼比特率、丟包容錯能力等,經(jīng)編碼器調(diào)控輸出的數(shù)字音頻數(shù)據(jù),可以更好地適應當前的網(wǎng)絡傳輸狀況,保證接收端播放質(zhì)量;
(3)通過該閉環(huán)反饋的控制方式,持續(xù)優(yōu)化數(shù)字音頻編碼的控制效果[4]。
反饋控制策略的主要優(yōu)點在于可以根據(jù)真實網(wǎng)絡來調(diào)控編碼器,可配合其他控制手段實現(xiàn)多目標控制,對網(wǎng)絡動態(tài)變化有很強的適應能力。通過反饋環(huán)路可以有效應對網(wǎng)絡動態(tài)變化,但其控制效率還取決于反饋通道的實時性能[5]。
數(shù)字音頻技術(shù)的發(fā)展為廣播電視業(yè)提供了實現(xiàn)高保真音質(zhì)傳輸?shù)目赡苄浴O嚓P(guān)技術(shù)的持續(xù)創(chuàng)新與改進,將促進數(shù)字音頻在抗干擾、精確同步等方面的性能不斷提升,并與視頻和數(shù)據(jù)技術(shù)實現(xiàn)深度融合,支持廣播電視系統(tǒng)實現(xiàn)更具互動性和智能化的音頻服務,為觀眾提供更優(yōu)質(zhì)的視聽體驗。數(shù)字音頻技術(shù)具有廣闊的應用前景,將在廣播電視工程領(lǐng)域得到進一步的應用與發(fā)展,在保證音質(zhì)的同時實現(xiàn)傳輸?shù)目煽啃浴㈧`活性與智能化,拓展廣播電視的新功能與應用空間。