徐子凡
(北京電影學院聲音學院,北京 100088)
上世紀七十年代,在對環(huán)繞聲系統(tǒng)的研究浪潮中,Gerzon等人開發(fā)了利用球諧函數(shù)記錄三維聲場的Ambisonics技術,并設計了相關的錄音、傳輸和還放設備,以期能夠將Ambisonics應用到環(huán)繞聲格式廣播電視節(jié)目的制作中。但是,在5.1系統(tǒng)成為占據(jù)絕對主導地位的環(huán)繞聲格式后,Ambisonics便淡出了商業(yè)市場的視野,在很長一段時間里只有少數(shù)從事理論研究的工程師對這一領域進行了研究,取得的進展也較為有限,直到虛擬現(xiàn)實 (Virtual Reality,VR)技術的發(fā)展與成熟打破了這種狀況。VR 技術所提供的三維視覺空間吸引了許多電影、游戲等領域的藝術家利用這種全新的畫面形式進行創(chuàng)作,而為電影銀幕等“畫框”設計的5.1環(huán)繞聲系統(tǒng)不再能與靈活度空前巨大的VR 畫面相匹配。于是創(chuàng)作者和工程師們再度將目光投向了Ambisonics技術,因為它最大的特點正是能夠無差別地編碼空間中所有方向上的聲音,并且能夠輕松對整個聲場進行三維旋轉而不使信號失真,這與VR畫面的特點不謀而合。另外,Ambisonic信號的編碼、中間運算和解碼重放這三個過程在數(shù)學上互相獨立,使得Ambisonics具有能夠適應多種不同的工作流程、多種重放場地的潛能,這也契合了在使用VR 頭顯時通常需要佩戴耳機聆聽聲場的需求。
然而,Ambisonics系統(tǒng)的一個關鍵難點在于其音質極大地受制于編碼階數(shù)的高低,而提高編碼階數(shù)又使得需要的信號通道數(shù)量呈幾何式增長。主觀聽覺測試表明,在低階編碼時,Ambisonic信號會有較為明顯的染色、定位模糊、缺乏包圍感等問題;當階數(shù)超過三階后,這些問題會得到較明顯的改觀,但是此時所需要的信號通道數(shù)也達到了至少16個通道。與此相比,杜比Atmos系統(tǒng)在消費領域采取的5.1 with JOC (Joint Object Coding)編碼格式能夠在少量增加傳統(tǒng)5.1信號碼率的基礎上實現(xiàn)對聲床以及16個對象的編碼,這種帶寬上的巨大劣勢使Ambisonics縱然有許多優(yōu)點但在應用與消費領域中前進的腳步依然倍受限制。在這樣的背景下,參量化Ambisonics解碼技術應運而生。傳統(tǒng)的線性解碼算法作用在將Ambisonic諧波信號轉變?yōu)槲锢硪粝渖系男盘柣蚴嵌鷻C信號的過程中,這類解碼器的設計根據(jù)是諧波信號的數(shù)學性質,而與被編碼的具體聲音信號的特性無關,因此不會改變已編碼信號的特性;而參量化解碼算法則建立在對空間音頻信號特性的建模和分析上,在解碼過程中利用Ambisonic諧波信號提取對應的特征參數(shù),并嘗試利用這些特征來一定程度上恢復在編碼時丟失的空間細節(jié),以達到超越編碼階數(shù)的解碼效果。利用這種方式便可通過低階編碼傳輸信號,隨后在解碼端恢復一定的空間精度,以達到減少帶寬需求的效果。與杜比Atmos系統(tǒng)類似,由于使用了一些信號處理技巧來大幅壓縮原始信號所占據(jù)帶寬,處理器并不能保證最終的效果與原始母帶的一致性,創(chuàng)作者必須在對處理方式有足夠了解的情況下才能正確地使用這些算法,因此在下文中將介紹這些算法的核心思想與實現(xiàn)原理。


式(1)中g=[g,g,g,...,g]為各個音箱的增益大小。這個過程實際上是將各個諧波信號按一定系數(shù)線性疊加來計算音箱信號,整個過程與信號具體內容無關,因此可以統(tǒng)稱為線性解碼。解碼矩陣D的計算則有多種不同方式,并且在實踐中通常會根據(jù)頻率段不同使用不同的解碼矩陣。有較大應用價值的幾種算法有模式匹配解碼 (Mode Matching Decoding,MMD)、能量保持解碼(Energy Preserving Ambisonic Decoding,EPAD)以及全方向解碼 (All-Round Ambisonic Decoding,AllRAD)。這些算法有各自的優(yōu)缺點,根據(jù)不同場合和需求可以選擇對應的解碼算法。盡管求解解碼矩陣需要一定的計算量,然而對于一個特定的重放設施,一旦解碼矩陣計算完畢,就可以通過一個簡單的線性運算來還原記錄下來的聲場。
線性解碼雖然過程簡單,但極大受限于信號階數(shù)。在階數(shù)較低(小于三階)時,諧波信號的空間精度較差,此時回放的信號定位能力較差,且在信號為混響聲場時難以復現(xiàn)原聲場的空間感。這主要是由于在一個擴散聲場中各個方向上傳來的不相干的聲音信號在低精度的空間編碼分辨率下變得相關度(Correlation)較高,從而喪失了擴散聲場應有的聽覺特性。雖然將編碼階數(shù)提高能夠大大改善這個問題,但是隨之而來的是呈幾何規(guī)律增長的聲道數(shù)量,這在實際應用中是難以接受的。而下文將要介紹的參量化解碼,正是為了在較低編碼階數(shù)的情況下以更高分辨率重建聲場應有的特性而設計的。
為了從編碼的聲場中重建高分辨率的揚聲器(或雙耳立體聲)信號,解碼過程就需要提取被編碼聲場的空間特性,進而利用這些特性進行后續(xù)聲場重建。這就需要提前選擇一些對于聽者感知聲場來說最為重要的特征作為被提取的參數(shù)。大部分的參量解碼算法都對被編碼聲場做了如下的假設:聲場中存在一個或多個主要聲源,例如聲場中的直達聲以及具有較大能量的初次反射聲;除了較為明確的主要聲源外,剩余的能量則組成了擴散聲場,這部分能量在各個方向上呈現(xiàn)高度不相關的特點。在這個假設下,解碼算法會嘗試識別出主要聲源的波達方向(Direction of Arrival,Do A),并將這些聲源從整個信號中分離出來,形成直達信號流 (Direct Stream)以及擴散信號流(Diffuse Stream)這兩部分信號流。隨后,在聲場重建的過程中根據(jù)Do A 信息直接合成直達信號部分,而擴散聲場部分則會通過一定的去相關(Decorrelation)處理后再被還原。
盡管大多數(shù)算法都是基于上述的基本假設,然而要準確地識別并分離直達聲源和擴散聲場并不是一個簡單的工作,且這樣的信號處理也極易在最終結果中引入可聞瑕疵。在早期的研究中,算法僅能從一階Ambisonic信號中識別出一個主要聲源,并假設剩下的擴散聲場是各向同性的 (Isotropic)。這些算法僅能在聲場較為簡單的情況下才能比較好地還原原聲場,并不能在更加復雜的場景中運用。隨著數(shù)字技術的快速發(fā)展,在實際情景中傳輸并處理二階甚至三階信號成為可能,因此在后續(xù)研究中參量化解碼通過將高于一階的Ambisonic信號作為輸入,實現(xiàn)了從信號中識別出多個聲源以及一個各向異性的擴散聲場的效果。下文將介紹兩種高階參量化解碼算法。
HO-Dir AC是在其一階版本Dir AC的基礎上改進的,這里首先介紹Dir AC 的工作原理。Dir AC使用一階Ambisonic信號,即B-format信號來進行聲場分析。在進行分析前,算法先將信號通過一組濾波器分成多個時間窗口和多個頻段,例如64段或128段分頻,使得每個頻段的帶寬近似于人耳能分辨的最小帶寬。隨后每個時間窗內的頻段都將被單獨分析。在B-format中,全指向的W 信號代表了原點上總體聲壓值,而通過X、Y 和Z信號可以計算出原點上質點振動速度向量u:

式(2)中c為聲速,ρ為空氣密度。通過總聲壓p以及振速u,可以計算出以下幾個聲場特征:


式(3)中R[]代表取實部操作,上標H 代表共軛轉置,i為原點處有功聲強向量,所指向的相反方向即為直達聲源波達方向Do A,E 為原點處能量密度,ψ 為直達信號與擴散信號的比例。當ψ取1時,代表聲場完全擴散,取0時則代表聲場中只有一列平面波。這時,利用B-format信號合成一指向入射方向的“虛擬話筒”,并根據(jù)ψ 值提取虛擬話筒所拾取的直達聲源信號,W 作為整體聲壓則被看為擴散聲場信號。直達部分隨后利用基于向量的幅值聲像器 (Vector-Based Amplitude Panning,VBAP)直接在揚聲器上進行還放,而擴散信號則經過解相關處理后在所有的揚聲器上進行還原。




隨后可以用類似一階版本的方式對區(qū)域內的能量、聲源波達方向以及擴散度進行計算。通過這樣的區(qū)域分割,HO-Dir AC 實現(xiàn)了對多個直達聲源的識別并一定程度上保留了擴散聲場的在各個方向上的不均勻性。
在合成階段,不同于一階版本中使用的“虛擬麥克風”,HO-Dir AC 采用了一種較為復雜方式來更自然地合成聲場。通過之前分析步驟中計算出的各個區(qū)域內特征參數(shù)u、E和ψ,可以構造出一個理想的最終揚聲器信號之間的協(xié)方差矩陣 (Covariance Matrix)C,其定義為:



另外,算法的開發(fā)者考慮到如果被處理的Ambisonic信號是由實際麥克風陣列 (如Eigen Mike)捕捉再被編碼而成的情況下,存在一個空間混疊極限頻率,超過這個頻率的聲音信號的空間特性不再能被麥克風陣列正確捕捉。此時一個特殊的高頻分析算法被用于計算聲場特性參數(shù),有關的內容本文限于篇幅不進行介紹,有興趣的讀者可以自行查閱原文獻。
COMPASS算法在目標上與HO-Dir AC 類似,都可以從高階Ambisonic信號中識別多個聲源,然而它不再像HO-Dir AC那樣對聲場進行空間分割,而是基于近年來在信號處理領域非常重要的陣列信號處理、波束形成等理論設計的,因此比HO-Dir AC 具有更廣泛的適應性。COMPASS算法也假設被編碼的Ambisonic信號中包含了直達聲源部分和一個各向異性的環(huán)境聲部分,但是不同點在于環(huán)境聲部分包括了沒有明確方向性的環(huán)境背景聲音、一些分散在各個方向上的具有不相干信號的雜散聲源,以及晚期混響能量,而非一個簡單的擴散聲場。另外,COMPASS在時間窗與頻率段之間也加入了可以調節(jié)的平滑處理,因此使用時可以根據(jù)信號特點做出一定的調整。下面對COMPASS的核心理念進行簡單介紹。
在陣列信號處理中,信號的空間特征信息與陣列信號協(xié)方差矩陣的特征值分解 (Eigenvalue Decomposition)緊密相關,這被稱為子空間理論(Subspace Principle),COMPASS就是根據(jù)這一理論來探測聲源的方向以及能量。對于某一時間窗、某一頻段的Ambisonic信號a(t,f),可以假設這是由直達聲源部分a(t,f)以及環(huán)境聲部分a(t,f)疊加而成的。若假設兩部分信號之間完全不相關,則整體信號的協(xié)方差矩陣也是由兩個部分各自的協(xié)方差矩陣疊加而成:

式(10)中E· []為統(tǒng)計期望值。對于有M個諧波信號的Ambisonics系統(tǒng)來說,對其協(xié)方差矩陣進行特征值分解后將得到M 個從大到小排列的特征值λ以及M 個特征向量v:

式(11)中,前K 個較大的特征值對應的是K個直達信號的子空間,而后M-K 個較小的特征值則對應了環(huán)境信號的子空間。對于直達聲源數(shù)量K的判斷,COMPASS使用了特征值二階統(tǒng)計量方法(Second Order Statistic of Eigenvalues,SORTE),這一方法通過對相鄰特征值的差值進行統(tǒng)計學分析來劃分對應聲源的特征值,從而避免了使用人為設定的閾值。下一步是確定直達聲源的波達方向Do A,這里使用的是子空間理論中的經典方法,多聲源分類算法(Multiple Signal Classification,MUSIC)。其大致原理是構造一個覆蓋整個球面的密集的方向向量集=[γ,γ,...,γ]以及其在諧波域相應的采樣Y=[y(γ),y(γ),...,y(γ)],以及由M-K 個最小特征值對應的特征向量構成的環(huán)境聲子空間V。在該子空間內,每個方向上的能量為:

由于這是環(huán)境聲子空間,因此取得K 個最小值的方向即為直達信號的入射方向。于是,只需構造出指向這K 個方向的波束即可從Ambisonic信號中提取出直達信號,再從原信號中去除這些信號 (或者說構造指向環(huán)境聲的波束)就得到了環(huán)境聲部分。最后在重建聲場時,雖然可以通過直接將直達信號利用VBAP等方法送到對應的空間位置上,但是為了減少瑕疵的產生,通常采取將線性解碼結果與直接VBAP的結果之差最小化的方法來實現(xiàn)更加平滑的重建效果。環(huán)境聲部分則可以直接通過線性解碼重建,或是在需要加強擴散聽感的情況下,對線性解碼后每路揚聲器信號進行一定的去相關處理。上述過程便完成了從聲源識別到聲場重建的全過程。
如文章開頭所述,參量化解碼算法的初衷是為了提升低階編碼的Ambisonic信號的回放質量以達到減少帶寬需求的目的而設計的,但是這一功能必須建立在對整個Ambisonics系統(tǒng)的信號格式、編解碼算法的統(tǒng)一上。由于Ambisonics本身是一種開放的音頻技術,真正統(tǒng)一的標準尚未確立,因此在研究的過程中參量化解碼的功能定位就逐步由原先的信號還放后處理算法轉移到在制作過程中為Ambisonic信號提供更多處理的可能性上。目前,阿爾托大學 (Aalto University)的研究人員根據(jù)HODir AC算法和COMPASS 算法理論編寫了相應的VST 插件,包括在一套完整的高階Ambisonics處理插件包SPARTA (Spatial Audio Real-Time Applications)中,而這套插件中所提供給創(chuàng)作者的功能也超出了僅僅提高低階信號空間分辨率的范疇。
在電影制作中,環(huán)境聲素材的錄制一直都是一個重要的環(huán)節(jié),由于近年來沉浸聲概念的快速發(fā)展,5.1等環(huán)繞聲格式已經成為數(shù)字電影的基本要求,而許多商業(yè)電影都在向沉浸聲格式上發(fā)展,這使得越來越多的錄音師開始探索Ambisonic錄音的可能性。盡管獲取環(huán)繞聲格式的聲音素材有多種方式,但是這些錄音方法需要的器材比較復雜,并且錄音時就已經將聽眾的朝向固定下來,在使用時不免帶來一定的局限性。而Ambisonics錄音既能夠捕捉完整的空間聲場,又可以在后期方便地解碼為立體聲、5.1乃至7.1.4等電影常用的通道制式,這就極大地方便了素材的采集工作,尤其是對于制作時間緊張的項目或是個人工作者來說更是一種非常便捷的選擇。而對于VR 電影來說,在需要真正沉浸式的聲音素材時,Ambisonic錄音就是唯一的選擇。然而,受限于Ambisonics理論的復雜性,Ambisonic錄音的獲取,尤其是高階Ambisonic錄音的獲取是十分復雜的,不僅需要諸如Eigen Mike等特殊的錄音設備,在編碼過程中也需要對一些參數(shù)進行調整才能獲得可靠的結果。相反,一階Ambisonics信號可以輕松地使用基于A-format格式設計的話筒獲取,其體積較為便攜,且可以提供相當良好的音質,因此目前運用最為廣泛的就是一階Ambisonic話筒。
然而,由于Ambisonics是強度差錄音技術,一階話筒受限于較低的空間分辨率無法提供AB 式或ORTF這樣的錄音技術所具有的寬闊聽感,同時也難以直接融合到高階Ambisonics制作流程中。此時就可以通過參量化解碼算法將一階錄音經處理后再解碼到目標聲道格式上,或是在提升了空間精度后重新用高階諧波對信號進行編碼,從而獲得更高質量的聽感。同時,為了適應目前VR 視頻制作等項目中普遍使用耳機進行雙耳 (Binaural)回放的情形,本文介紹的兩個算法都針對雙耳立體聲回放推出了專門優(yōu)化的算法及插件,降低了處理延遲并增加了對頭部運動的追蹤功能。本文作者對雙耳回放插件的效果進行了簡單試聽,材料包括使用Calrec Soundfield Mk IV麥克風錄制的交響樂、室內樂等音樂以及使用Soundfield ST250 錄制的一些環(huán)境、音效。結果發(fā)現(xiàn)在音樂材料的回放上,相比于直接進行雙耳解碼,通過參量化處理的錄音的音色更加均衡,同時錄制環(huán)境的混響也更加豐滿,空間感有非常顯著的提升。在聲源定位上,雖然使用一階信號作為輸入時,理論上不能同時追蹤多個聲源,但在分頻處理的幫助下,實際變化很明顯,區(qū)別主要在于各個聲源的分離感有較大增強,定位變得更加尖銳,當然這個變化是否等同于音質的提升則要看具體情況。在環(huán)境音的解碼測試中,由于聲場中缺乏明顯占主導地位的聲源,在完全參量化解碼的情形下還是產生了處理的痕跡,推測這應該是由于過強的解相關處理造成的。通過調整解相關強度以及參量化解碼和線性解碼信號之間的比例,就可以將瑕疵減小到基本不可聞的水平。聽感上的變化則沒有音樂錄音那么巨大,但是在煙花表演等空間感較強的場景中,還是能感受到周圍回聲帶來的包圍感有所增強。通過對聲場能量的可視化可以看出,原本集中在某個方向上的能量被分散到了整個聲場中,這也印證了包圍感增強的聽感??傮w來說,參量化解碼對一階Ambisonics錄音的空間質量提升是非常顯著的。
將單聲道或立體聲錄音中的聲源分離,或是去除錄音中包含的混響場是一件非常困難的工作,傳統(tǒng)算法對混響的識別和抑制能力比較有限且當混響很強時容易產生處理瑕疵,近幾年在音頻領域興起的神經網絡類算法則需要很大的計算開銷,因此還沒有成為主流算法。而對于Ambisonic錄音來說,由于錄音中包含了聲場的完整空間信息,對這種空間信息加以利用就可以實現(xiàn)對不同聲音元素的辨別與分離。參量化解碼正是在這種機制下工作的,因此稍作改動,就可以用于聲源的分離重組這樣的工作。例如,如果我們對錄音中混響成分的比例不滿意,那么在進行參量化解碼時只需調整擴散信號流與直達信號流的比例,就可以更改混響量的大小,獲得更干的錄音,或是加大空間距離感。由于這種調整是建立在對整個空間信息的理解上實現(xiàn)的,產生的聽感變化相較傳統(tǒng)算法實現(xiàn)的去混響效果聽起來更加自然。
對于聲源分離的問題,神經網絡算法目前更多是用在分離音樂中特定的樂器,并不能直接分離未知特征的聲源,這就帶來了比較大局限性。而由于COMPASS算法是建立在波束形成技術上的,因此具有利用波束分離各個聲源的潛力。在SPARTA套件中Tracker插件就實現(xiàn)了對靜態(tài)或者移動聲源的實時跟蹤,并將追蹤到的聲源從整體聲場中分離出來的功能。而另一個插件Spat Edit則更進一步,允許用戶在將聲源分離出來之后分別對單聲道的聲源和剩余的Ambisonic環(huán)境聲場分別進行任意的效果處理,隨后再將兩者利用COMPASS算法重新合并。這種分離空間元素的能力使得創(chuàng)作者在面對Ambisonic素材時擁有了巨大的處理空間,甚至可以利用Ambisonic錄音完成一些傳統(tǒng)錄音技術無法做到的工作。例如在目前電影聲音領域非常流行的聲景 (Soundscape)采集工作中,Ambisonic錄音已經有較多的應用,但是錄制下來的素材是一個無法分割的整體,如果對其中個別元素的響度、動態(tài)等特性不滿意,或是想要將錄音中一個極具特點的聲源單獨作為一個素材,傳統(tǒng)的處理方法是束手無策的。而通過COMPASS的分離聲源算法,創(chuàng)作者就能將聲場拆散,對感興趣的元素進行分離、調整、再重組,充分利用Ambisonics技術的空間記錄能力為創(chuàng)作需求服務。
參量化Ambisonics解碼算法起源于對降低信號傳輸帶寬的需求,但是在Ambisonics格式尚未成為沉浸式音頻解決方案標準的今天,對這項技術的應用側重于為音頻制作階段提供更多靈活的選擇。隨著虛擬現(xiàn)實技術與增強現(xiàn)實技術的發(fā)展與成熟,參量化Ambisonics解碼技術為Ambisonics音頻格式在或將興起的VR 電影中的應用提供了音質上的保證;而在當下仍占主流的傳統(tǒng)電影電視制作領域,參量化Ambisonics解碼技術所帶來的高度靈活性也使得利用Ambisonics錄音獲取素材成為了一種具有獨特優(yōu)勢的方式。參量化解碼技術通過解決Ambisonics音頻空間質量受編碼階數(shù)高低影響這個關鍵性問題,使得Ambisonics音頻技術獲得了更加廣泛的應用價值。