尚 科 臣
(安徽師范大學音樂學院,安徽 蕪湖 241000)
3D(3-Dimension)音頻技術,即三維音頻技術,它是指與傳統單聲道、立體聲、環繞聲技術相對,以聽音者為中心,在其所感知的雙耳前后(縱深)、左右(水平)、上下(高度)三個維度上均可感知到聲音信息的技術.在不考慮房間因素影響的條件下,傳統的單聲道技術的職能可以歸為聽音者可感知正前方的聲音信息;傳統的立體聲技術職能則歸結為位于聽音者前方60°范圍內的錐形空間(即揚聲器系統)或者180°范圍內(即耳機系統)的聲音信息;環繞聲技術則覆蓋聽音者水平環繞360°范圍空間內的聲音信息.而3D音頻技術的出現比較深刻地改變了聽音效果,它與上述三種技術最大的區別是加入了高維度信息,使傳統覆蓋聽音者水平360°的聽音區域擴展至聽音者所在的整個三維空間,令聽音者沉浸在整個虛擬3D聲場中,帶來無與倫比的逼真享受.
人耳對空間內聲源位置的感知,主要是由雙耳效應、哈斯效應、德·波埃效應等決定的.簡單來講,對于某一固定聲源發出的聲音,在自由場內的聽音者,人耳對其方位的感知主要受雙耳間的時間差(ITD Inter Aural Time Delay)、強度差(IAD Inter Aural Amplitude Difference)及音色差幾個因素的影響[1].人類雙耳之間的間距大約為17cm.當聲源處在人頭正前方或者正后方時,雙耳至聲源的物理距離一致,因而時間差大致為0;當聲源偏離上述位置,左右耳至聲源距離產生變化,雙耳間信號存在時間差.同時,當聲源偏離正前方、正后方時,一只人耳在聲源偏向的一側,另一只人耳處在人頭遮擋區域內,處在遮擋區域內的人耳聽到的聲音與聲源偏向一側的相比,就存在一定的聽音強度差.在人頭部的遮擋產生強度差IAD的同時,耳廓的遮擋也會產生一定的強度差.不僅如此,人頭、耳廓的遮擋也會對聲音信號的特定頻段的傳送和聽音產生影響,造成人的雙耳間信號存在音色差異.
不論聲源處在空間內什么位置,當人耳接收來自聲源的聲音信號時,雙耳間信號的時間差ITD、強度差IAD、音色差異共同作用于人腦聽覺中樞,讓聽音者感知到聲源所處的物理方位.而立體聲、環繞聲、3D音頻技術等均在還音時讓聽音者產生上述三個因素中的一種或幾種,這些因素作用于聽音者聽覺中樞,能讓聽音者感知到聲源所處的位置.但實際在日常生活中,人耳對聲源的定位遠非前文所述受幾個因素影響那么簡單,實際的空間特性、聲源特性,介質特性、視覺補充等等眾多因素,都會影響實際人對聲源方位的感知,人類聽覺系統是一種復雜而精密的感受系統,直到今天,在人類聽覺方面仍然有許多未知的領域.
因此,從還音原理的角度出發對各種音頻技術加以整理和分類,能夠幫助人們更加深入地認識音頻技術的優缺點,有利于人們根據不同的場合按照需要選取音頻技術,也有利于從業人員能夠針對性地優化和改進現有音頻技術,達到技術上的進步和完善.由于目前市面上存在著多聲道、多維度的新興音頻技術市場,也有名目繁多、良莠不齊的現象,本文特別針對這種情況,從還音原理的角度出發,對3D音頻技術進行了分析和歸類.
還音是指通過各種技術和設備手段,把收錄在各種光碟和磁帶等介質里的聲音信號,由數字信號或電磁模擬信號再還原為聲音的過程,它是一個技術性較強的過程.目前市面上常見的技術名目雖然繁多,根據其還音特性,均可歸納為以下三大類:基于聲道及聲道群的3D音頻技術、基于波場合成的3D音頻技術和基于人頭相關傳遞函數的3D音頻技術.
基于聲道及聲道群的3D音頻技術是目前應用最多、最為普及以及上下變換兼容性最好的一種技術,其還音原理是基于傳統的聲道概念,同時會在現場增加更多不同高度的揚聲器.還音時,單個揚聲器可以作為一個聲道或由多個揚聲器共同組成一個聲道,聲音素材可以在某個聲道中回放,或在不同聲道間自由運動.這些都將取決于聲音設計師的實際需求.常見的技術如Dolby Atmos全景聲、NHK22.2、Auro3D、及我國具有自主知識產權的WANOS全景聲技術[2].
Dolby Atmos全景聲技術在傳統5.1聲道影院布局的基礎上,增加了觀眾頭頂上方的揚聲器組,并且增加環繞聲揚聲器及低音揚聲器的數量. 在聲道方面杜比提出“聲音對象(Object)”及“音床(Bed)”的概念.在原理上,“聲音對象”可以在任何單個揚聲器之處出現,“音床”則是可以由多個揚聲器組合,進行聲音回放.其本質還是基于傳統聲道及聲道的組合,即聲道群.在聲音設計時,諸如快速移動的聲音素材,可以通過“聲音對象”的方式將素材自由分配到相關揚聲器并在它們之間移動,形成精確的聲像定位.比如影片中快速飛過觀眾頭頂的飛機轟鳴聲、子彈穿梭的聲音等等.那些諸如氛圍性音效、音樂等聲音素材,可以通過“音床”的方式,實現多個揚聲器組合成聲道群回放,增加包容感與氛圍感.
Dolby Atmos 全景聲技術是目前相對普及率最高的3D 音頻技術,有顯著的優點,圖1 是Dolby Atmos全景聲揚聲器系統布局的俯視圖[3].它是傳統影院式5.1系統的升級,這就為現有環繞聲系統改造提供了便利.同時Dolby Atmos 全景聲系統也可兼容回放傳統環繞聲格式音頻,為不同還音格式提供了很好的兼容性.但是目前Dolby Atmos全景聲技術的專利仍然在美國的Dolby公司,不論新建這樣的影院,還是影片采用此標準制作,均需交納一定的專利使用費,因此Dolby Atmos全景聲技術在我國三線以下城市的普及度并不是很高,大量的小影院依然采用的是傳統的環繞聲技術.

圖1 Dolby Atmos全景聲揚聲器系統布局俯視圖
基于波場合成(WFS Wave Field Synthesis)的3D音頻技術目前的應用還處于探索階段,波場合成是指利用大量的揚聲器單元,依據波動基礎理論的惠更斯原理來還原原始聲場的技術.惠更斯原理是1678年由物理學家惠更斯提出的,即波從一個給定的波陣面向前傳播,該波陣面上每一個點都是同相位的,每一個點都可以看成是發出新的次波的波源,這些次波在任何位置處的新的波面的包絡就可以看成是新的波前.因此,可認為音波是由原始聲源傳播出來的或者是由分布在波前的二次聲源傳播出來的[4].
要還原一個原始音波場,勢必需要大量分布在空間內、按照特定算法設計安裝的揚聲器陣列,同時需要嚴格控制每個揚聲器的輻射特性及頻率響應特性,以保證多個揚聲器的聲音在空間內傳播時避免出現相互的干擾現象.而揚聲器陣列的設置需要符合空間奈奎斯特定理的要求,也就是說,假設若要精確還原某一頻率的聲音,揚聲器之間的間距應該小于這個頻率對應的波長的一半.根據這個定理計算,若要還原人耳聽力上限20kHz的音頻信號,需要的揚聲器的中心軸間距大約為8.5mm,若要實現這樣小的一個揚聲器中心軸間距,以現有揚聲器制造技術還非常難以達到.若想減少揚聲器數量或增大揚聲器間距,就會使得在超過空間奈奎斯特定理的頻率信號處產生失真.這就使得真正能夠應用這一原理的技術非常稀少.
目前大多數技術還停留在實驗室階段,如2007年德國柏林工業大學為H0104演講大廳安裝的由832只揚聲器構成的揚聲器陣列,但是仍然不能滿足空間奈奎斯特定理的要求.同時,在構建由大量揚聲器組成的揚聲器陣列時,多個揚聲器輸入信號的傳輸與路由分配也是一個巨大而復雜的工程[5].
現今出現在市場上的常見的波場合成技術是由德國IOSONO公司提出,并與上海費迪曼遜四維公司的合作下推廣的“四維全息聲”技術.圖2是費迪曼遜四維公司實驗室示意圖.該技術系統大致由水平、側上及頂部三層揚聲器組成,旨在還原原始音波場.共用了125只揚聲器,在水平一層的揚聲器排布較為緊密,在側上及頂部揚聲器的排布非常稀疏.即便是在水平平面,這樣的揚聲器間距也與奈奎斯特空間定理相差很多.因此對于高頻的聲場重建,該系統也無能為力,但這并不代表該系統沒有實際應用價值.在日常的聲源中,較高頻段(10kHz-20kHz)更多的是泛音成分,在針對沒有很多高頻成分的聲源的還原時,該系統還是能夠產生較為滿意的效果.若考慮實際應用價值,這樣一個由大量揚聲器構成的系統,無論在造價、系統維護、適用場景等因素與其他技術相比,其競爭力還是較小,因而在實際采用的案例依然十分稀少.

圖2 費迪曼遜四維公司實驗室
人頭相關傳遞函數(HRTF Head Related Transfer Function)是指從自由場中聲源到聽眾人耳道內部位置之間的聲學傳遞函數,它不但對這一傳輸過程進行了函數的描述,而且在耳機或揚聲器回放中創建沉浸式虛擬聲學環境.綜合人頭部三維形狀、耳廓形狀等對原始聲音的影響,人頭相關傳遞函數HRTF與人頭部的大小形狀、雙耳間距大小形態等因素息息相關.因而HRTF的特性與不同人頭部特征有明顯關聯.若要重現聽音者對自然聲場內聲源的感知特性,只要能夠采集到聽音者的特性HRTF,就可以重現這一聲音.現有常見的使用耳機來還音的3D音頻技術,絕大多數都是基于HRTF的技術.若使用揚聲器系統還原基于HRTF技術的3D音頻,當揚聲器重放的信號到達聽音者時會重復疊加HRTF,同時揚聲器間的聲道信號存在串擾,也會對重放產生不利影響,因而HRTF 3D 音頻更多采用耳機來還音.現有技術一般是采集人頭相關脈沖響應HRIR(Head Related Impulse Response),HRIR是HRTF的時域表示,不同高度、不同距離、不同方位的信號均需分別采集,形成一定數量的HRIR 庫.在還音時,調用對應的HRIR 采用卷積的方式,還原經HRTF 運算后的信號.但這個技術也存在一定缺陷,如前文所述,HRTF 是一個高度個性化的系列參數,不同性別、種族、年齡的人之間的HRTF相差甚遠.因此,現有的技術一般只能采集有限數量的人群,而無法做到針對性很強的個性化.同時,目前已有的HRTF數據庫大多是針對特定型號的人頭模型進行采集,也無法針對聽音者進行個別優化.
目前常見的基于人頭相關傳遞函數HRTF的3D音頻技術有聲靈多媒體科技(上海)有限公司開發的Smyth SVS虛擬仿真多聲道音頻技術、美國WAVES公司開發的NX虛擬環繞聲技術.
Smyth SVS技術利用空間內任意位置最多16個揚聲器分別回放掃頻信號,經放置在聽音者耳道內的傳聲器拾取聽音者由自身HRTF渲染后的信號,經反卷積后得到HRIR.在耳機回放時,處理系統只需調用對應聲道的HRIR,經卷積運算后輸出,便得到逼真的虛擬聲場.該系統的優點是可以采集個性HRTF,而且原始多聲道的揚聲器位置可任意擺放,經耳機還原后定位與聲場空間感效果極佳.不過,它的缺點也十分明顯,它不能定位生成非原始揚聲器所在位置的聲源,且原始聲源的最多數量為16個.HRIR必須由先前固定擺放的揚聲器回放掃頻信號后得到.
WAVES的NX技術與Smyth SVS技術類似,只不過虛擬聲道數量有限,為預置的常見單聲道、立體聲、5.1和7.1聲道及Ambisonics虛擬聲場幾種.虛擬揚聲器位置可以在水平方向自由調節,也可以搭配頭部運動追蹤器,實現模擬人頭部運動時耳機內聲場的同步變化,效果逼真.同時還預置了耳機型號,可以針對特定耳機進行頻響曲線修正,也具有房間空間感的調節選項.圖3是Waves NX 插件界面示意圖.在HRTF 庫的運用方面,用戶可以測量頭圍大小,輸入系統,系統以匹配最佳HRTF,做到了有限的個性化.在聽感方面,虛擬環繞聲聲道的定位較為準確,總體聽感較好.它的缺點和Smyth SVS技術類似,無法做到生成一個可以還原任意位置及數量聲源的虛擬聲場,有虛擬聲源可選位置及數量的局限.略有不同的是,Ambisonics 格式信號的處理,必須事先由支持Ambisonics技術的特殊傳聲器錄制,而后經由對應的揚聲器進行回放或使用耳機回放NX技術虛擬的聲場,本質上是一種對原始空間內物理聲源的錄制和回放重塑的過程,但其局限性在于它無法直接構建一個特定聲場,并將所需聲源定義在任意位置上.

圖3 Waves NX插件界面
本文對目前常見的3D音頻技術從還音原理上進行了總結和歸類,將其劃分為三大類,即基于聲道及聲道群的3D音頻技術、基于波場合成的3D音頻技術和基于人頭相關傳遞函數的3D音頻技術.這三類音頻技術各有其鮮明的優缺點,主要體現在以下三方面:
1)從還音效果上講,波場合成技術是從物理學角度出發,依據惠更斯原理,理論上其還音效果最接近原始聲場.聽音者的聽音區域不受限制,在不同聽音位置接收到的聽感均不相同,最接近原始聲場內的聽音狀態.其缺點是,在實際應用中難以實現大量近距離揚聲器的陣列組合,對于高頻還音效果不佳,制造成本高昂,普及難度大,目前還停留在實驗室研究階段.
2)基于聲道及聲道群的3D音頻技術是原有立體聲、環繞聲系統的擴展,兼容性佳、實現容易、成本可控,是目前應用最為廣泛的技術.但是,在實現精確聲像定位方面與波場合成技術相比略有欠缺.此技術系統由多層揚聲器組成,一般適用于影劇院、戶外演出等大型場合,個人用戶實現成本較高.
3)基于人頭相關傳遞函數的3D音頻技術使用耳機還音,成本低,終端易于實現,還音效果好,十分適用于個人用戶.但其相關技術還有待發展,相對應的處理軟硬件系統有待普及.目前,它是很有發展前景的3D音頻技術.