侯書婷,楊宇,徐品
(中國傳媒大學信息工程學院,北京100024)
AES/EBU數字音頻傳輸標準的研究初衷是為了滿足專業級設備與家用設備的連接。AES/EBU數字音頻傳輸標準是聲頻工程協會 (Audio Engineering Society)和歐洲廣播聯盟 (European Broadcasting Union)一起開發的一個數字音頻傳輸標準,即AES/EBU標準(AES3-1992、ANSI S4.40-1992、IEC-958或AES3-2003)。它是傳輸和接收數字音頻信號的數字設備接口協議。我國的廣播電影電視相關標準為GY/T158-2000。
AES/EBU數字音頻信號編碼流程圖如圖1所示[1],該標準允許使用平衡或非平衡方式通過電纜傳輸,亦支持光纜傳輸。在進行A/D轉換之前,為避免混疊失真,保證取樣頻率fs大于等于畫面最高頻率的二倍,先要將模擬信號進行低通濾波,使聲音信號的最高頻率下降至取樣頻率的一半以下。A/D轉換器將模擬音頻信號進行取樣,量化,編碼。AES/EBU系統取樣頻率支持32kHz至192kHz,量化比特數為16到24bit,當前演播室最常用的取樣頻率為48kHz取樣,即每秒傳輸48000個音頻幀,量化比特數常為20bit或24bit量化。產生的并行數字字節通過串行器轉換為串行傳輸,此時輸出的信號為NRZ碼。AES/EBU編碼器將信號轉變為AES/EBU格式,對于不同比特量化的數據,AES/EBU音頻幀結構不同(具體在數字音頻幀結構部分闡述)。在串行傳輸并行字節時先傳輸最低有效位(LSB),因此必須加入字節時鐘標志以表明每一個樣值的開始。最后為保證信號傳輸質量,數據流最終需進行雙相標志碼編碼(Bi-phase-mark)。
每一個AES/EBU數字音頻幀分為兩個子幀,每個子幀32比特量化。每192個音頻幀構成一個塊。對于48KHz的系統,一個音頻幀的時間是20.83μs,則一個音頻塊的時間為192×20.83μs=4000μs。AES/EBU數字音頻幀結構如圖2所示。20bit及20bit以下量化的音頻幀的每個子幀含有4bit首標(同步數據),4bit附加數據,20bit音頻數據,1bitV(有效比特),1bitU(用戶比特),1bitC(通道比特),1bitP(奇偶校驗比特)[1][2]。

圖1 AES/EBU數字音頻編碼流程圖

圖2 AES/EBU數字音頻幀結構
24bit量化的音頻幀的每個子幀包含24bit 音頻數據,占用了本用于傳輸輔助字的4個比特,其余部分的結構與20bit及20bit以下量化的音頻幀結構相同。
(1)AES/EBU數字音頻編碼
①前置同步字
每一個子幀的最開頭處為前置同步字,同步字的編碼根據該子幀所在塊的位置而定。同步字共分X、Y、Z三種,如圖2中所示。同步數據為4bit量化,Z表示該子幀為每個音頻塊的第一幀的子幀1;X表示塊內其余幀的子幀1;Y表示每個幀的子幀2[1]。傳輸時,AES/EBU數據除同步數據外,都需使用BPM(雙向標志碼)編碼。此時,同步數據將以8比特編碼序列的形式傳輸,其具體編碼如表1所示[1][2]。
②輔助字(Auxiliarysample bits)
輔助字可作為輔助聲道傳送其他音頻信息,如制作人員的通話或演播室之間的音頻交流。每個音頻子幀可傳送一個輔助聲道的信息,每一個輔助聲道在4ms(即一個音頻塊)內可傳送4bit×192=768bit附加數據,可組成64個12bit分辨率的音頻字節[6]。每個4ms提供64個樣值,相當于16kHz的抽樣頻率。在24bit量化的AES/EBU數字音頻系統中,輔助字被音頻數據占用,即此時的音頻數據有24bit,音頻幀里沒有輔助字。
③有效樣值(V——Validity bit)
如果樣值數據是音頻且可以進行D/A轉換,則此比特值為0。否則,接收設備將有問題的樣值輸出靜音。該比特位并不被所有音頻設備產品支持[1][5]。
④用戶比特(U——User databit)
用戶比特可以以任何的形式被用戶所用,這有利于AES/EBU數字音頻傳輸的靈活性發展。在默認情況下,用戶比特值為0[1][5]。
⑤通道比特(C——Channel status bit)
提供通道狀態信息。由于AES/EBU數字音頻支持單通道和雙通道(子幀1和子幀2各為不同通道)兩種傳輸模式。對于雙通道立體聲音頻,子幀1和子幀2的通道比特可以根據自己所攜帶的音頻數據不同而不同。通道狀態信息包含:音頻取樣字長度、音頻通道數量、取樣頻率、時間碼、源與目標的字母數字顯示編碼信息、再次強調信息[7]。
由于AES/EBU數字音頻塊包含192個幀,即包含192個子幀1和192個子幀2兩個通道,每個子幀包含通道比特1bit,那么一個音頻塊的每一個通道就可提供192bit的通道狀態塊。一個通道狀態塊(Channel status bit block)包含24個字,每個字8bit量化。其格式如表2所示[2][4]。
⑥奇偶校驗比特(P——Parity bit)
提供該子幀比特位從4至31(如圖2)的奇偶校驗位。該值的設置可令4至31比特位中共有偶數個“0”和偶數個“1”。
(2)AES/EBU 數據特性
抽樣頻率為48kHz時總數據率為32×2×48000=3.072Mbps。在雙相標志碼編碼后,數據傳輸率提高到兩倍,即為6.144Mbps[8]。雙相標志碼的頻譜能量在6.144MHz的倍頻處為0。

表2 通道狀態數據格式

續表

續表
同步字包括三個低單元和隨之而來的三個連續的高單元。在AES/EBU信號頻譜中占據一個低的基頻,3.072/3=1.024MHz。
每個音頻幀包括64bit,每20.83μs發出一幀。幀中的一個數據比特持續時間為325.5ns,一個雙相標志碼比特單元時間為163ns。這樣,由一些數據流比特疊加產生的眼圖眼寬時間為163ns[8]。
(3)AES/EBU接口的電特性
AES/EBU專業格式接口包括XLR、光纖接口和BNC接口[3],其中最常使用的XLR接口電特性示于表3。

表3 AES/EBU專業格式XLR接口特性
XLR又叫卡儂頭,接口如圖3(a)所示。

(a)XLR卡儂頭 (b)F05 光纖傳輸 (c)BNC圖3 AES/EBU專業音頻接口
AES/EBU消費級格式接口的特性示于表4,這種消費級格式用于CD和具有數字輸入和輸出接口的R-DAT中。

(a)RCA蓮花頭(b)TS插頭/大二芯(c)TRS插頭/大三芯圖4 AES/EBU消費級接口
(4)數字音頻信號的傳送接口電路
原AES3-1992標準定義了在雙絞線音頻電纜上傳輸AES/EBU信號的規格。AES3-3id-1996文件和ANSI/SMPTE 276M-1995標準文件定義和采納了其他一些傳送格式。這些標準都定義了在不平衡同軸電纜上AES3格式化數據的傳輸。

表4 AES/EBU消費格式RCA接口的特性
① 110Ω雙絞線電纜傳輸電路
AES3-1992建議的傳輸線路示于圖5。
②75Ω同軸電纜傳送電路
開發此標準是為了克服雙絞線傳送時的電纜長度、XLR接插件大小和費用帶來的限制,但更重要的是可以用不箝位的模擬視頻分配放大器和路由器來傳送數字音頻信號[5]。但是,絕大多數音頻設備都使用卡儂(XLR)接插件,因此必須考慮到需要與BNC端子(圖3c)的轉接。此外,由于最少需要12MHz帶寬來傳輸雙相標志碼編碼的AES/EBU信號,所以有些模擬傳送放大器的帶寬可能不夠。
(a)75Ω同軸電纜傳送接口的特性

圖5 AES3-1992傳送連接電路
75Ω同軸電纜傳送接口的特性列于表5。

表5 75Ω同軸電纜傳送接口的特性
(b)AES-3id建議
AES-3id建議的傳送線路示于圖6[1]。該建議還包括關于電纜性能、電纜均衡器特性的信息。
(c)實際的線路連接
在錄音室中應使用平衡電纜饋送可避免接地環路問題。在現有的錄音室中已安裝的模擬電纜可用于數字音頻分配,但電纜長度一般限于100米,具體視電纜類型而定,高質量的雙絞線電纜可達到250米。一個數字音頻設備輸出只能連接一個接收端。
③其它接口協議
除AES/EBU協議外,還有三種接口格式廣泛使用:MADI(多聲道音頻數字接口),SDIF-2(Sony數字接口互連)和SPDIF(Sony Philips數字接口)。
(a)MADI格式
MADI格式在AES 10-1991標準文件和AES-10id-1995中定義,它可以容納最多56路遵從AES3-1992標準的32bit信號。MADI最早用于點到點的系統,如多軌錄音機和數字音頻組件以及處理器間的互連,數字路由系統和錄音室到錄音室的互連。MADI信號很容易轉換成AES/EBU子幀,只有最初4bit 與AES/EBU子幀不同。支持抽樣頻率為32kHz到48kHz,可變化±12.5%,以支持錄音機的變速操作。數據傳輸率固定為125Mbps,對編碼數據流提供足夠帶寬(56路×40bits×48kHz×1.125=121Mbps)。
傳輸介質可以是寬帶寬的同軸電纜(最多50米)或光纖(超過50米)。AES-10id-1995文件給出了光纖接口的說明。

圖6 AES3id-1996傳送連接
(b)SDIF-2格式
這種格式由Sony開發,用于專業級控制和記錄,單聲道44.1kHz和48kHz信號的互連,由32bit長度的音頻字節組成。前20比特保留作為音頻樣值,接下來的9比特用來創建控制字,剩下的3比特為同步信息。控制字中包括有關預加重、正常音頻還是非音頻數據、拷貝禁止、每256音頻字節中SDIF音頻塊同步信息以及用戶數據等聲道信息[3]。
傳輸介質是工作在TTL電平上的75Ω同軸電纜,數據率為1.54Mbps。它是一個點對點的互連系統,需要三根同軸電纜來傳輸左、右聲道數據和字節時鐘信號。
(c)SPDIF格式
此格式是AES/EBU(AES3-1992)格式協議的消費級版本。為了在專業設備和家用設備間傳輸數字音頻數據開發此標準,在AES3專業設備和AES3家用設備之間需要進行格式轉換(數據和電平轉換)。
在演播室內,對來自不同音頻源的數字音頻信號進行混合、插入或組合時,需要將樣值與一個基準信號源在相位和頻率上同步。同一錄音室內的兩臺設備在各自的輸出端可能會產生定時上的緩慢漂移,和視頻一樣,也需要一個時鐘發生器產生基準信號或是從一臺設備提供基準給另外一臺。
(1)數字音頻信號間的同步
不同的數字音頻源的同步需要考慮以下兩點:
抽樣時鐘的時間校準或頻率同步;
音頻信號的幀校準,即相位同步。
AES11-1991建議規定,在錄音室環境中數字音頻設備的頻率同步和相位同步應采用專門的時鐘發生器提供基準信號進行頻率同步,所有的制作設備都鎖定于主基準發生器;小的錄音室可使用一臺設備的輸出作為基準。
圖7示出一個數字音頻樣值與一個AES/EBU數字音頻基準信號(DARS)對準的狀態。AES-11規定數字音頻樣值必須與一個基準信號同相,在發送器輸出端一個音頻幀的同步容差為±5%,在接收器端一個音頻幀的同步容差是±25%。定時基準點是X或Z同步字的第一個邊沿。

圖7 AES/EBU數字音頻信號與基準信號的同步
當兩個數字音頻信號抽樣率不同或無法將信號鎖定在一起時,可使用抽樣率轉換和同步器。抽樣率鎖定且保持整數關系即為同步轉換。
(2)數字音頻和視頻信號間的同步
在電視系統中,數字音頻基準信號必須與視頻基準信號鎖定以使音頻和視頻信號同步,這樣可進行無縫的音頻和視頻切換[9][10]。表6對三種不同的視頻幀速率示出對應的三種不同抽樣率每個視頻幀內所含的音頻樣值數,數值表示單位數量的視頻幀傳輸的音頻幀數量。
625行和525行標準的視頻抽樣頻率和48kHz音頻抽樣頻率之間的關系為:
數字分量視頻抽樣頻率13.5MHz,FH=15.625kHz,FV=25Hz 時,

表6 每個視頻幀對應的音頻樣值數
48kHz =13.5MHz / 864 / 625×1920
FH=15.734kHz,FV=29.97Hz 時,
48kHz=13.5MHz /858 /525 ×8008/5
在625/25系統中,每一視頻幀有確定數目的音頻樣值(48kHz抽樣時有1920個音頻樣值),音頻和視頻信號間的相位關系很容易保持,見圖8(EBU R83-1996建議)。AES3音頻可與從625行基準視頻信號中分離出的48kHz基準信號進行鑒相,實現音頻與視頻信號的鎖定。

圖8 625行電視系統中的數字音視頻同步
在525/60系統中,每一視頻幀對應的音頻樣值數不是整數,而是個小數,按下式可計算得出:33366.67μs/20.8333μs=1601.6。這里,33366.67μs是一個視頻幀的時間,20.8333μs是一個音頻幀的時間。在5個視頻幀后,可獲得音頻樣值的整數(1601.6×5=8008),可利用數字音頻幀與視頻幀這種關系進行音頻與視頻信號的鎖定。
[1]Michael Robin.The AES/EBU Digital Audio Signal Distribution Standard[S].2004.
[2]Revised AES standard for digital audio — Digital input-output interfacing — Serial transmission format for twochannel linearly represented digital audio data[Z].Audio Engineering Society,Inc,2003.
[3]John Emmett.Engineering Guidelines The EBU/AES Digital Audio Interface[Z].1995.
[4]Specification of The Digital Audio Interface,EBU[Z].2004.
[5]NTI Audio.AES3,AES/EBU,application note[Z].2012.
[6]王偉.數字視音頻復用技術[J].電視工程,2007,(3):41-45.
[7]劉越,章文輝.HDTV嵌人數字音頻分析軟件設計[J].電視技術,2012,(2):12-14.
[8]盧志國.數字音頻信號接口技術[J].數字技術與應用,2013,(04).
[9]鄭劍虹.嵌入音頻[J].音響技術,2006,(04):48-53.
[10]張琪.數字電視制播技術[M].北京:中國廣播電視出版社,2003.