王薇娜
(中國電影科學技術研究所,北京100086)
專業電影聲音體驗隨著技術革新越來越受到廣泛關注。發展到今天,從5.1還音系統、7.1還音系統,直到最新的沉浸式聲音系統,不斷刷新著用戶觀影體驗。DCI也已經出具了基于對象的數字電影音頻技術格式規范。沉浸式音頻處理主要包括以下幾種方式:基于通道 (channel-based audio)、基于對象音頻 (object-base audio)以及三維聲場景音頻 (Ambisonic scene-base audio)。不同方式的技術背后從音頻制作、編解碼、打包以及渲染等整套技術方案都不盡相同,但這些制式的音頻文件在還音方式上基本都依賴揚聲器陣列并對還音場所有較高的要求。而對于現在的移動通信設備來說,通過多聲道還音設備獲取環繞聲效果與其移動端應用的便利性及碎片化的使用需求來說,無疑是相背離的。
隨著移動互聯網的飛速發展,大量用戶使用移動設備,并通過耳機來體驗音頻內容。我們需要通過虛擬環繞聲技術來產生這樣的音頻素材。對于耳機還音來說,最直接的沉浸式音頻制作方式是利用人頭錄音技術直接生成音頻素材。然而目前大范圍的影片母版并未采取此方法制作。因此,各種多通道的影片內容,都需要通過下混的方式來轉成立體聲格式來適配移動端的雙通道播放。特別是針對耳機的立體聲格式變換,與揚聲器立體聲還音的自由場條件不同,耳機還音沒有經過人頭和耳廓的影響,為區分這種特殊的變換需要,我們稱之為雙耳化變換。經過雙耳化變換的音頻素材才能更好地形成虛擬環繞聲效果。
聲音其實是有聲源振動產生的一種機械波,它通過彈性介質傳播,例如空氣等,經過人的耳廓、耳道,引起耳膜的振動,牽動聽覺神經,由大腦加工處理后,產生聽覺。
人耳對聲音的定位由三個維度確定:水平方位角、垂直方位角、距離。雙耳效應是解決這一問題的關鍵,這就不得不提到兩個概念,雙耳時間差與雙耳聲級差。
雙耳時間差 (Interaural time difference),指的是聲音到達左右兩耳的時間差,通過這個時間差大腦就能夠分辨聲源所在的方向。例如,聲音從一側傳來,則信號到達遠耳的距離要遠于近耳。這種路徑長度的差異導致聲音到達耳朵會產生時間差,大腦通過時間差來識別聲源的方向。對于低頻聲音,波長較長,人耳可以根據時間差引起的相位差辨別位置,當頻率升高,相位差超過360°,則不能根據相位差定位。根據人耳的生理特點,由同一聲源到達兩耳的直達聲的最大時間差為0.44~0.5ms,因此20~200 Hz的聲音能夠依靠相位差定位。
雙耳聲級差 (Interaural level difference),較高頻率的聲源,當聲源位于一側時,由于頭部對聲波的陰影效應和散射作用,在遠端的耳朵感受到的聲壓會衰減,形成雙耳聲級差。較高頻率的聲音人耳通過聲級差來判定。

圖1 聲音傳播陰影效應
早在1949年,在H.Wallach、E.Newman和M.Rosenzweig的著作 《聲音定位中的優先效應》中首次討論了 “優先效應”。兩年之后,1951 年,哈斯研究了在單一連貫的聲音反射下,人耳的聲音感知是如何受到影響的。
因此當相鄰的反射聲之間的時間間隔小于50ms,人耳分不出到底有幾種反射聲,只覺得聲音變得厚實、豐滿、渾厚。通過適當的延時能夠去除信號的相關性。
影響人耳定位特性的因素還有很多,當聲音空間中某一點傳到聽者耳中時,頭部、耳廓、耳道的大小和形狀、頭部密度、鼻腔和口腔的大小和形狀都會改變聲音,生成或者減弱一些頻率的聲音,影響人們對聲音的感知。根據人的固有經驗,通過這些影響變化,就能夠確定聲源的位置。可以通過從聲源位置和到人耳鼓膜位置的脈沖響應體現這一影響。這個脈沖響應被稱為頭相關脈沖響應 (headrelated impulse response,HRIR)。任意聲源信號與某一HRIR 的卷積會將聲音轉換為原始播放環境中聲音所經歷變化后被人耳接收到的聲音。虛擬環繞聲的產生正是利用這一原理,將音源信號與不同方位的HRIR 進行卷積,獲得虛擬的臨場感。
HRTF 頭 相 關 函 數 (head-related transform function)是HRIR 的傅里葉變換。聲音在傳播中的變化可以看作是經過某種濾波器的響應,這個濾波器的特性函數就是HRTF。
一個典型的5.1系統,有左聲道 (L)、右聲道(R)、中置聲道 (C)、左環繞 (LS)、右環繞 (RS)和低頻通道。低頻通道的位置與中置聲道位置近似重合,后文中都合并考慮。角度分別為―30°、30°、0°、―110°和110°。

圖2 5.1系統揚聲器位置圖
典型的下混方法是通過簡單的矩陣運算

其中,·為 相 乘處 理,x(t )和x(t )分 別為矩陣下混處理后的左聲道和右聲道音頻信號,c和c為5.1聲道音頻映射到輸出左右聲道音頻對應的參數。

例如ITU-R BS.775―3中詳細規定了如何將多通道音頻下混為立體聲的方法。即:左環繞與中置聲道分別衰減3dB,并于左聲道相加饋給雙通道立體聲的左通道;右環繞與中置分別衰減3dB,與右聲道相加作為雙通道立體聲的右通道,公式如下:
過失殺人的理由也是不存在的。苔絲在殺人后,對克萊爾坦白“我太生氣了,就殺了他”。這就表明,苔絲殺人行為是故意的,并非是無故意的誤殺。這點,學者吳笛已經關注到了。他在《哈代新論》中也惋惜地寫道“苔絲的行為已經說明過失殺人或是防衛過當的行為都是不存在的”。



圖3 5.1音頻轉立體聲線路圖
在此規范中,

杜比公司也提出了一種類似ITU 的轉換方法,它提出的轉換矩陣參數為:

它將后兩個環繞通道信號相加再對和值衰減3dB,給輸出立體聲的右聲道添加此信號,輸出立體聲的左聲道減去此信號。
這幾種做法有效保留了音質,然而也存在一定問題。下混后的立體聲通道,左聲道中完全不存在原5.1系統中右前聲道的內容,右聲道亦然。這與實際人耳聽聲的情況有差別。在5.1 還音系統中,雖然人耳接收到異側的聲音較弱,但仍然是存在的,這對空間定位、音源移動會起到積極作用。因此此種矩陣參數轉換方法對空間聲的渲染存在偏差,尤其是當內容有移動音源時,空間方位存在不連續現象。
利用耳機還音的過程中,有一個明顯的特征就是頭中效應。這是由于耳機直貼耳道,缺失了自然狀態下,人頭、耳廓等對聲音的影響。同時,也缺失了原始聽音環境下的混響特征。因此我們采用另一種更為近似的建模方法。
將5.1聲道轉成雙耳信號,通常我們會使用頭部脈沖響應HRIR。HRIR 處理后的音頻為:

其中,*為卷積處理,x_(t )和x_(t )分別為HRIR處理后的左聲道和右聲道音頻信號,x(t )為輸入音頻信號。

其中,x_(t)、x_(t)、x_(t)、x_s(t)以及x_rs (t)分別為左聲道、右聲道、中置聲道、左環繞以及右環繞音頻信號。
h(t)和h(t)為5.1聲道對應的 HRIR 中的左耳和右耳的時域響應。

具體實現示意圖,如圖4所示。

圖4 基于HRTF的虛擬環繞聲立體聲線路圖
在計算機處理過程中,卷積算法通常會通過頻域相乘來實現。HRIR 所代表的時域響應經過快速傅里葉變換,得到頭傳函數HRTF。輸入音頻信號也通過快速傅里葉變換,由時域轉為頻域。再與HRTF相乘,獲得輸出結果。
考慮到人耳對后方的音源定位并不敏感,為了獲得更好的聲音包圍感,對于左右環繞的頭傳函數:H (Rs,L)、H (Ls,L)與 H (Rs,R)、H(Ls,R),其中每一個傳遞函數都表示為頭傳函數組,這一個頭傳函數組中可以由為不同仰俯角的頭傳函數組合。這樣會使得環繞聲聲像被拉寬,形成更好聲音包容感。
我們選擇了一段5.1聲道的音頻文件,該音頻文件內容是一段單純的5.1揚聲器系統依次發聲的樂聲示例。這樣更方便我們對比下混后的定位效果。內容依次由左前、中、右前、右環、左環整體環繞的樂聲組成,其中左環是鼓點聲。畫面示意圖如圖5所示。聽音者的虛擬位置應該在中間沙發處。源音頻格式為:6 通道,48Khz 采樣率,32bit位深度。

圖5 示例音頻畫面
圖6 (a)采用某商業DAW 軟件由5.1轉至立體聲文件,圖6 (b)為使用本文所述的基于HRTF方法進行的虛擬環繞聲生成的音頻波形圖。對比如圖6。
從時域波形圖上能夠直觀看出,圖6 (a)中圈起的地方可以看到,在下混時,輸入聲音只混到同側輸出,對側完全沒有。而圖6 (b)中會有少量異側分散。從圖7的語譜圖也能夠看出 (a)的頻譜能量在左前、右前、左環、右環單獨發聲時,輸出信號能量也都集中在單側。

圖6

圖7
從主觀聽感上,也能夠明顯分辨出圖7 (a)的音頻聲像停留在正左、正右的方位,且較難區分同側的前與后聲像位置。而圖7 (b)的音頻聲像將左前、右前的聲像位置都還原得較為準確。
需要注意的是基于HRTF的虛擬環繞聲算法只適應于利用耳機還音的情況,如果用揚聲器重放雙耳信號,可能會產生串音問題。
采用HRTF算法處理后的音頻,高頻可能會有所損失,音頻的質量可能會發生變化。如果將這種算法與矩陣運算方法相結合,設計一個混合權重值,可能會將兩種算法的優勢互補。基本思路為利用PCA 主成分分析法,計算多通道信號的協方差矩陣,并做特征分解。根據最大特征值的比重來判斷是否是一個主成分突出的音頻。如果是,則偏向使用HRTF算法處理,如果不是則偏向使用矩陣算法處理。
由于智能移動影院系統在實際應用中要考慮發行、存儲效率等問題,發行版中的音頻需要經過壓縮編碼。目前使用的AAC 編碼,這種編碼是有損壓縮的,為確保獲得良好的虛擬環繞聲效果,因此需要制定恰當的音頻編碼參數。后續工作還需通過一系列主觀評價測試來確定合適的編碼碼率。
基于HRTF運算形成的虛擬環繞聲由于已經模擬了從揚聲器到人耳的音頻傳輸路徑,因此只適合應用耳機還音。這也是我們項目之初考慮到移動影院應用大多數使用場景而設計的解決目標。但在應用當中,無法強制限制用戶的還音方式。例如,當用戶使用移動應用連接藍牙揚聲器設備時,還音體驗會有所下降,因此后續在播放器應用中添加了對立體聲揚聲器輸出適用的串音消除濾波器,來提高揚聲器的還音體驗,并獲得較好的外置聲音包容感,可供用戶選擇開啟。