(中國傳媒大學音樂與錄音藝術學院,北京 100024)

隨著視聽媒介的快速發展,人們在圖像和聲音的三維化道路上已經進行了多年的探索和實踐。對于聲音的空間感究竟是如何產生,抑或到目前為止空間音頻技術又發展到什么程度,這不僅是音頻領域專業人士關注的熱點,更是眾多音頻發燒友所感興趣的話題。本文將以聲音和空間為主題,淺析與此相關的理論和技術。
聽覺是人類最重要的感觀之一,甚至從胎兒時期起就對人的感知產生重要影響。研究表明,在人的所有感覺中,視聽感知占據了絕大部分的比例。但不同于視覺的是,我們可以通過閉上眼睛來關閉視覺的作用,而無法關閉我們的耳朵。基于聽覺的特殊性,我們無時無刻不沉浸在一個連續變化的聲音世界之中。這些自幼積累的聽音經驗,也逐漸成為我們認知事物的重要手段,讓我們可以通過聲音來判斷聲源的方位、通過混響來辨別房間的聲學特點等。
聲音是通過發聲源振動產生的。振動的能量通過介質傳遞,如最常見的空氣,并且在傳遞過程中可能會遇到介質的變化、界面的反射等因素,導致聲音性質發生改變,最終到達人耳。在這個過程中聲音的構成主要可以概括為兩個部分:第一是聲源信號;第二是環境的空間信息。進一步來說,我們從后者中能獲取的信息又可以分為直達聲的位置信息和反射波的環境信息,正是這些信息為我們帶來了聲音的空間感。
根據心理聲學的研究,聽覺對聲源的水平定位主要源于雙耳效應:第一,聲波到達雙耳的時間不同而產生的雙耳時間差(interaural time difference,縮寫為ITD);第二,聲波到達雙耳的強度不同而產生的雙耳強度差(interaural intensity difference,縮寫為IID)。通常來說,對于來自不同方向的低頻信號,到達兩邊耳朵的時間不同,故具有一定的聲程差,進而引入了左右耳信號的相位差異,通過該差異我們能辨別低頻信號的方位。而對于波長相對較短的高頻信號來說,人的頭部以及耳廓形成了一定的遮蔽作用,使得到達左右耳的信號強度有所改變,產生了強度差和音色差,進而幫助我們判斷高頻信號的方位。而雙耳信號的相位差對于高于一定頻率的信號來說會超過180°,從而產生混淆,因此不易通過相位差來判斷高頻方位。而人耳對于高度信息的判斷通常也是通過譜因素帶來的音色差異來判斷,包括幅度差和相位差。
反射波的環境信息主要包括聲源在空間中所激發的早期反射聲和混響聲。其中前者帶有明確的聲波方向性和聲場能量分布的不均勻性,后者則呈現出聲波的方向隨機性和聲場能量分布的均勻性。通常來說,早期反射聲對聲源的定位、空間幾何形狀的感知和空間聲場的親切感、包圍感等屬性有著重要影響。混響則是空間中聲音均勻擴散的結果,它會影響聲學空間感知上的豐滿度和活躍度等屬性——當中高頻的混響不足時,將會感知到缺乏共鳴或活躍度差;當高頻不足時,則感知到聲音不明亮;當低頻不足時,則感知到缺乏低頻沖擊感及聲音不溫暖的現象。
不同于以二維平面形式存在的圖像,聲音在現實世界中向來都是以三維的形式存在。但自1877年愛迪生發明了留聲機以后,聲音也可以以二維的數據形式存儲下來——唱片表面描述聲波振動的刻痕。人們通過讀取二維的聲音數據,再經過重放設備放大就可以還原聲音的三維形態。
最初的留聲機只能記錄一條聲音通道,也就是單聲道信號。在聽音重放的時候,人們可以通過聲音信息中樂器的電平、音色差異感受聲源距離的遠近,但卻感受不到聲源的方向,而現實中的樂器演奏顯然不可能只在某個方向的一條直線上進行。這種情況因后來的雙聲道技術的出現得到了極大的改善。雙聲道錄音和重放使得聲音信號帶有了聲源的空間分布感,聲音有了分布和方向,這才真正變得立體起來,并且成為了聲音制作領域的主流制式之一。為了追求聲音重放以實現更為真實的空間感,隨后出現的四方聲、X.1環繞聲,提供了具有一定空間信息的環繞聲道,使聽眾能夠得到來自身側和身后的聲音。三維環繞聲則進一步引入了不同高度層的聲音信息,使得立體聲技術更加地“立體”。
通常人們提到的立體聲其實指的是狹義的雙聲道立體聲(Stereo)。從聲源的錄音、制作、重放三個流程來看,基于雙聲道的音頻技術已經相當成熟和穩定。
立體聲拾音技術按照層級關系,從高到低為“立體聲方法”“立體聲拾音方法”“傳聲器方法(拾音制式)”三種。立體聲方法主要分為“房間立體聲”和“人頭立體聲”兩種原則,它決定了立體聲信號的拾取和重放原則。立體聲拾音方法可以分為“時間差拾音方法”“強度差拾音方法”“混合拾音方法”。傳聲器方法則指的是“拾音制式”,代表了各種具體的傳聲器使用設置方案。以上“立體聲”方案都是基于上文所提到的雙耳效應來設計的,目的就是模擬到達雙耳信號存在時間差、強度差、相位差和音色差的信息。值得一提的是,人頭立體聲中所使用的人工頭拾音方案其實已經體現了三維聲的空間感,但由于人工頭模型與實際聽音者的頭部并不能夠完全吻合,有時候也會帶來聲源定位的畸變。
雙聲道立體聲的制作則主要通過硬件或者軟件調音臺實現。制作者可以在調音臺上對聲音信號進行音色處理、添加效果,并進行最重要的聲像電位器(Pan Pot)和電平推子的控制。但傳統的聲像電位器往往只是對分配到左右母線的電平進行調整,使得左右聲道產生強度差。雖然在使用立體聲錄音制式的情況下,該方案能還原相應錄音制式的聲音原貌,但對于單聲道音軌來說,僅僅對其分配電平差難免會導致聲源定位不符合真實情況的現象——如低頻有相位差、高頻有音色差。這種弊端在雙聲道制作中并不顯著,因為不論是制作端還是接收端,人們都已經習慣了該制作模式帶來的聽感。但進入三維聲的領域后,傳統的Panning方案會帶來明顯的聲像定位誤差,從而導致空間感不真實,重放質量較差。因此,更適宜的聲像分配方案應該是引入雙耳相位差的雙耳Panning,比如Logic Pro 10 軟件中就可以選擇Binaural(雙耳)Pan的模式。
從重放的角度來看,基于聲場立體聲原理制作的節目比較適合立體聲音箱重放,而基于人頭立體聲原理制作的節目則更適合耳機重放。其原因在于人頭錄音采集到的信號是人耳耳道入口的聲音,這個聲音已經帶有了經過人頭和上身的反射、衍射引入的聲染色信息,直接通過耳機重放能更加接近地還原錄音時的聽音狀態,但通過音箱重放則會引入聽音者頭部的二次聲染色,從而帶來聲音偏差。而音箱制作節目則類似,由于缺少自然狀態下頭部帶來的聲染色,聽上去聲音狀態并不真實,“頭中定位”效應嚴重。當然,我們可以通過相應的DSP濾波器進行信號轉換,以適應不同立體聲重放之間的相互兼容。
立體聲技術的發展,催生了各式各樣的環繞聲音頻技術。為了還原真實聽音環境中的狀態,水平環繞聲的后置聲道通常會加入以空間信息為主的反射聲、混響等信息。實現的方法可以是錄制的時候就采取環繞聲錄音制式,使用環境聲話筒拾取環境聲,并且盡量避開直達聲的輻射區域,這樣在制作階段將環境聲分配到環繞聲道來提高重放聲音的臨場感和包圍感;亦或在制作階段通過信號處理方式為直達聲生成空間信號送入環繞聲道。以這種方式制作的節目要格外注意環繞聲道和主聲道之間的關系,盡量降低二者之間的相關性,否則很容易引入主聲道和環繞聲道之間的不良聲源定位,帶來聲像的漂移。另外,由于揚聲器的布置需要遵循嚴格的數量和方位,因此會出現聽音甜點區較小的問題。
空間音頻是近年來的熱門話題。其實在水平環繞聲發展階段,三維聲就已經有了雛形。延續了水平環繞聲的制作理念,人們在錄音階段添置上層的拾音器矩陣,制作階段將其分配到上層揚聲器,形成了最基礎的三維環繞聲。而后的發展中,人們所說的3D 音頻、沉浸式音頻、空間音頻等概念從本質上來說描述的都是一件事情:即進一步還原真實的三維聲場。但空間音頻的制作在發展的過程中出現了與傳統立體聲制作完全不同的思路。
從基本實現原理來說,人們可以通過兩種方式來構建聲場。
第一種是物理建模的方式,例如通過波動方程來仿真聲場,對所有聲音元素建立聲壓標量和振速矢量模型,其中最具代表性的是波場合成技術(WFS)。惠更斯原理認為,每個聲源發出的球形波面上的一點都是新的次級球面波的子波源。于是我們可以通過對各揚聲器處的聲音波動進行模擬,將其當作子波源,最終合成聲波在空間中的分布狀態——波場。如徐真德等人就對上海大劇院中的長廊進行了建模,并采用了聲音渲染引擎CORE 對聲音對象實時渲染,在60米長、7米寬的長廊里進行了現場演出以及音樂節目的制作和展出,為聽眾帶來了沉浸式的聽音體驗。呂小詩則是采用了DMS邊界采樣錄音原理,通過傳聲器陣列對交響音樂會進行拾音,直接記錄了演出現場的波場信息。但WFS方法實現成本很高,龐大的音軌數目需要對應數量的揚聲器陣列以及復雜的算法來支持運算和重放。且真實的聲源輻射特性和揚聲器指向性并不一致,因此還需要在數學計算上的近似和簡化,故容易引入誤差,實際效果可能與理想狀態有所出入。
第二種方法則是根據心理聲學的原理,以近似地模擬聽音情況為目標,而不是重建完整的真實聲場,實現運算量減小,進而優化實現成本。也就是說我們只需要根據人耳聽音的習慣,塑造符合聽音期望的聲音效果就能很大程度地提升空間音頻體驗。大多數已經使用的空間音頻技術也都是基于該方法來實現的,以下討論的內容也主要以第二種為主。
從制作技術的角度來說,其可以分為三種方案:基于聲道的方案、基于對象的方案、基于場景的方案,以下對三種方式進行簡要的介紹。
4.2.1 基于聲道的方案
基于聲道的方案在理念上與上述傳統環繞聲類似,制作時根據心理聲學中雙耳的時間差、強度差等原理對聲音進行渲染并分配至各個重放聲道,從而模擬不同方位的聲音聽感。其中具有代表性的技術如Auro-3D,在錄制和重放時采取了上、中、下三層傳聲器和揚聲器陣列。另外日本NHK 所推行的22.2聲道更是將基于聲道的節目制作推向了更復雜的階段。由于聲道數目進一步提高,揚聲器的布局范圍也更大,觀眾能夠更準確地感受三維空間各個方向的聲源,有效聽音范圍也有所擴大。但該種方案的劣勢在于,隨著聲道數目的上升,制作復雜度也大大提高,如NHK 在2006年紅白歌會所進行的22.2節目制作,錄音棚預混輸出信號和現場信號總計152通路,如此龐大的通道數對制作人員提出了極大的挑戰。另外聲道制作完成后就固定下來,如果要實現更多或更少聲道重放的上、下變換則需要額外的渲染算法,聲音質量和效果必然會折損。
4.2.2 基于對象的方案
基于對象的沉浸式音頻打破了傳統的聲道概念,構建了一個虛擬的聲音空間。聲源是每一個聲音對象或者事件,例如在現實生活中的一輛車、一只鳥、一群交談的人等。每個對象保存著各自的元數據,其中記錄了聲音對象的類型、空間位置、聲壓級、運動軌跡、起始和釋放等信息。在制作軟件的三維空間圖示中可以直觀地改變聲源對象和聽音者所在的空間位置,渲染時再根據實際重放設備的設置情況,將每個聲音對象渲染至各聲道。從而得到更為靈活的聲音控制、更為明確的空間信息以及更為自由的聽音條件。其中最具代表性的是杜比全景聲(Dolby Atmos)技術,其音頻內容的主要構成包括音床和聲音對象兩個部分。音床采用聲道的方式構建,形成虛擬聲場的整體鋪墊,而各種聲音對象則脫離聲道的束縛單獨封裝。不論是專業影院、家庭影院、個人工作室還是移動設備,都能通過杜比專用的渲染器和算法進行重放。但對基于對象的數據進行實時解碼需要消耗不菲的運算資源,這對于大多數場合來說并不是件容易的事。
4.2.3 基于場景的方案
基于場景的沉浸式音頻是直接構建一個完整的三維聲場空間。其中最具代表性的是Ambisonics 技術。Ambisonics 編解碼本質上是對球形聲場求解球諧函數——隨角度變化的函數,并根據揚聲器布置情況求解饋送信號的過程。以最簡單的一階Ambisonics 為例,采用四個相互獨立的指向性麥克風構成球形陣列,采集球形聲場信息得到A 格式數據,經過編碼后得到B 格式數據(Ambisonics 信號)W、X、Y、Z。其中W 表示聲場整體強度,X、Y、Z則為三維空間的三個正交方向。重放時則根據重放設備的設置,將四個音軌渲染為對應聲道的信號。代表性產品如森海塞爾的AMBEO 系列,為錄音、制作到重放提供了配套的完整解決方案。但低階信號分量較少,空間分辨率有限,會出現還原聲場精細度不足的問題,導致出現定位模糊的現象。而高階Ambisonics 編碼能提供更好的音質、更精準的空間分辨率、更高的頻率上限,但需要采集更多的信號,消耗更多傳輸和運算成本。Ambisonics 作為三維聲場一體成型的方案在空間音頻領域有著得天獨厚的優勢,但與基于對象的方法相比,難以對聲音元素進行靈活地再創造。另外,饒丹也指出Ambisonics 對于近場點聲源的編碼和重放,由于揚聲器特性不匹配而容易在低頻產生很大的誤差。
虛擬現實可謂是空間音頻技術最具代表性的應用領域。雖然虛擬現實的起源可以追溯到1968年,但直到2014 年Facebook 收購虛擬現實技術廠商Oculus VR,虛擬現實技術的發展才呈現迅猛發展起來。目前VR 領域比較有代表性的產品有HTC VIVE、Oculus Rift、Play Station VR 等。在VR聲音制作中,音樂和對白等元素往往基于聲道制作,氛圍、背景聲等穩定聲源會進行基于場景的制作,而對于音效等變化豐富的元素則基于對象來處理。通常來說VR 系統以耳機作為聲音的重放設備,要實現三維音頻到雙耳聽音的轉換往往需要使用頭部相關傳遞函數(HRTF)或者雙耳房間脈沖響應(BRIR)來對聲音信號進行雙耳渲染,以模擬聲源傳輸到達聽音者雙耳的過程。Google Resonance SDK 就是比較有代表性的VR 聲音開發工具包之一,它可以與3D 游戲引擎如Unity、音頻引擎如Wwise、數字音頻工作站結合在一起,幫助開發者創作三維聲內容。
在電影領域,以Dolby、DTS 為代表的廠商們,也已經在專業影院、家庭影院、筆記本電腦外置揚聲器、耳機等終端提供了相應的空間音頻解決方案,使得在有限的設備上也能獲取較好的三維聲效果。2020年蘋果公司也為Airpods pro 耳機推出了適配杜比全景聲的更新,用戶的頭部運動可以通過耳機陀螺儀進行跟蹤,從而產生聲音信號的聽音視角變化。
SoundBar 是另一種實現家庭環繞聲的解決方案,索尼、雅馬哈、JBL、森海塞爾等多個知名廠商都有推出相應的產品。SoundBar 需要利用天花板、墻面的聲反射實現聲音的包圍感,這相比于傳統的環繞聲系統大大降低了硬件成本,也更方便布置。但對于反射聲的依賴也對聽音環境的反射特性有較高要求,且甜點區較小。
虛擬環繞聲方面,以Ambidio 公司為代表,則致力于實現在任何立體聲設備上創造連續的聲場,為聽眾帶來沉浸式聲音體驗。虛擬環繞聲與上述技術的不同點在于,該技術的節目源并不存在多個聲道,而是通過算法渲染的手段將立體聲節目在聽感上進行拓展,以實現近似的三維聲效果。
由ISO/IEC提出的MPEG-H 3D Audio為空間音頻的制作、傳輸、重放提供了包括基于聲道、基于對象、基于場景的完整音頻標準。而基于對象進行制作的Sony 360 Reality Audio技術正是順應了以音頻流為核心的MPEG-H 標準,與多個音樂流媒體平臺達成了合作,讓聽眾通過耳機就能享受沉浸式的音樂體驗,這也為藝術家的創作提供了更多的可能性。值得一提的是,索尼耳機的用戶可以對耳部照片進行上傳,通過算法分析為用戶提供個性化的HRTF,以解決HRTF 不匹配導致的定位失效等問題。
目前開源的空間音頻制作工具數量不少。如向海燕等人在面向多平臺的節目制作中,使用了阿爾托大學聲學實驗室(the Acoustics Lab at Aalto University)開發并開源的Spatial Audio Real-time Applications(SPARTA)套件,對現場節目錄制中的LDK-Cube 話筒編組、點話筒編組的Ambisonics 混響、觀效話筒編組的信號編碼至高階的Ambisonics,再根據需求在重放端解碼,以適應多平臺分發三維聲錄制節目的需求。類似的插件還有電子音樂與聲學學院(Institute of Electronic Music and Acoustics)研究人員開發的IEM Plug-in Suite,同樣能實現基于Ambisonics 的各種效果處理,并根據需求渲染至揚聲器或者耳機。另外,Franck等人提出的BST(雙耳合成工具包)同時提供基于對象的動態HRIR 合成、基于HOA(高階Ambisonics)的合成、虛擬聲學環境的揚聲器合成三種模式,并且可以實現聲音對象到Ambisonics 的數據轉換。以上提到的工具中,都可以配合頭顯設備進行視角跟蹤,且SPARTA 和BST 可以輸入個性化的HRIR或BRIR 文件進行雙耳渲染。
Flux公司的SpatRevolution 是商業領域具有代表性的空間音頻制作軟件,輸入源可以兼容聲道、Ambisonics、MS、Binaural(雙耳)、Transaural(雙耳轉揚聲器)、UHJ格式。該軟件最大的特點在于可以創建多個“Room”同時進行多節目的制作,為每個Room 設置不同的聲源擺位、空間效果處理、輸出渲染方式等,從而同時輸出多種節目流。另外,Spat Revolution 現在也正準備引入波場合成技術來為現場演出帶來沉浸式的體驗,通過控制電平、相位、延時和濾波等手段,在較小的擴聲揚聲器陣列上得到更為寬闊的有效聽音范圍。
此外,很多音樂制作插件也引入了空間音頻的理念,如Waves的Abbey Road Studio 3對錄音棚進行了HRTF 建模并加入頭部跟蹤,以佩戴耳機的方式模擬混錄棚的聽覺體驗。Inspired Acoustics發布的沉浸式混響工作站軟件Inspirata,基于廣泛的真實空間聲學測量結果,讓用戶可以將聲源和聽音點作為對象布置在空間中的任意位置,通過脈沖響應進行渲染,且支持實時的位置移動和聲學空間改變。
本文從聽覺感知出發,討論了聲音的空間屬性以及人對聲音空間感與生俱來的感知特點,并根據立體聲到空間音頻技術的演變過程,對聲音制作的技術手段進行了論述,分析了各種技術的優缺點。
總的來說,空間音頻技術正在走向成熟,并且從專業領域下探至民用領域,但從實踐的角度來說依然存在不少的問題。例如聽音環境的不同、聽者的HRTF 相異、重放設備的限制等因素,都將明顯影響聲音空間的重現質量。而Reardon 等人也通過實驗表明,渲染算法在處理不同節目類型時的效果優劣并不相同,這也對空間音頻技術的普適性提出了極大挑戰。除此之外,根據筆者的體驗來看,雙耳渲染的效果對比揚聲器重放來說差異還是十分明顯,這可能是今后空間音頻技術需要突破的重點之一。
另外,人的視覺對空間的感知同樣重要。正如Salmon等人所說,眾多對三維聲視聽交互的研究表明,在聲源定位、距離感知、聲音外化感等方面,視覺因素都起到了很明顯的引導作用,并且對聲環境空間感的感知也有一定的影響。所以在實踐中,對空間聲場近似還原的目標很多時候也是通過視覺因素配合來實現的,例如在聲畫同步、內容對應的時候,聲音的沉浸感就進一步加強了。因此我們可以借助如頭顯設備、頭部跟蹤、人機交互等手段來進一步提高空間音頻的感知質量。
而在未來的發展中,借由微軟交互3D 技術團隊開發的Holoportation 技術帶來的靈感,筆者認為空間音頻技術在全息視頻領域也可以有所應用。Holoportation 通過房間中布置的多組傳感器掃描使用者人體影像,而對方則可以通過增強現實眼鏡看到房間里的使用者虛擬人影像。若將該技術中的環境信息和聲源空間定位信息傳輸到空間音頻軟件之中,也許能為全息視頻音樂會的實現帶來新的契機和理念。
隨著空間音頻的研究和實踐不斷深入,以及通信技術、計算機技術的進一步發展,在未來各類媒介中聲音元素的存在價值會越來越大,并且越來越接近真實的聲場狀況。同時也可以看到未來空間音頻實現的成本將越來越低,設備更加趨于便攜化和大眾化,現在的三維聲雙耳渲染算法就是一個很好的例子。