董強國
(中央宣傳部電影技術質量檢測所,北京100086)
2012年杜比推出了用于數字影院的基于對象的DolbyAtmos全景聲系統,創造出更自然的聲場,不僅從各個角度環繞觀眾,還可滿足人耳反射聲與頭頂的聲音,這是5.1與7.1聲道系統望塵莫及的。隨后DTS和Auro3D 等公司推出自己的沉浸式音頻還音系統。近幾年,沉浸式音頻還音系統在國內有了較為快速的增長,國內音頻生產企業也紛紛推出了自有的沉浸聲還音系統,如中國多維聲(13.1)、WANOS 全景聲系統、音王22.5.8 全景聲系統、飛達六面聲和Holosound全息聲等。但這些系統的實現方案各不相同,因缺乏數字電影沉浸式音頻還音系統還音質量的評價標準,造成數字電影沉浸聲還音質量參差不齊,單對系統硬件的現有客觀技術指標分析難以判斷沉浸式音頻還音系統整體性能好壞,影院在配置沉浸式音頻還音系統時難以抉擇,且市場上存在虛假宣傳和惡性競爭等現象,使得國產沉浸式音頻還音系統難以在影院大范圍推廣,阻礙了我國沉浸式還音技術國產化的進程。
隨著SMPTE2098系列沉浸式音頻相關標準的發布,國際主要音頻設備廠商的加入,數字電影沉浸式音頻系統將成為未來數字影院的典型配置,沉浸式音頻制版的相對統一,系統間的互操作和還音效果的一致性將是未來專業影院沉浸式音頻技術發展的主要趨勢。為了能夠給觀眾帶來更加逼真、震撼的沉浸式音頻還音效果,促進行業技術發展,規范市場,本文擬提出一套數字電影沉浸式音頻還音系統還音效果評測方法,希望能夠為沉浸式音頻還音系統的研發和影院沉浸式音頻還音系統選型提供技術保障,旨在推動沉浸式音頻還音系統的還音效果向標準化發展。
數字電影沉浸式音頻通道應由基礎層和高度層組成。基礎層為用于5.1和7.1聲場配置的揚聲器系統的水平層。放置在基礎層之上的揚聲器系統為高度層,通常放置在影院天花處。。
沉浸式音頻還音系統由沉浸式音頻信號播放模塊、沉浸式音頻處理系統、聲頻功率放大器、揚聲器系統和放映環境組成。沉浸式音頻播放服務器播放沉浸式音頻文件,沉浸式音頻處理器接收到來自沉浸式音頻播放服務器傳輸的碼流信息進行解碼,通過渲染系統將元數據分配到相應的沉浸聲通道。,經過均衡和延時調節,通過揚聲器系統將沉浸聲還原到影廳,沉浸式音頻還音流程如圖1所示。

圖1 沉浸式音頻還音系統
沉浸式音頻渲染是將與畫面相關的聲道、聲床、對象和元數據適當地渲染到可用的揚聲器上,使得聲音和相關的視覺元素在空間上匹配。數字電影沉浸式音頻渲染技術主要有基于對象、基于場景和基于聲道的渲染。
基于聲道的渲染是根據各聲道對應揚聲器系統在影廳安裝的位置信息進行渲染的方式。在傳統5.1或7.1系統上,通過添加高度層 (如天花)揚聲器系統聲道配置來呈現沉浸聲效果,如Auro3D(11.1)(在7.1聲道的基礎上添加4個高度層揚聲器系統)。
基于對象的渲染不同于傳統5.1或7.1系統所采用的基于錄音聲道的渲染方式,它是一種根據不同聲音對象與運動軌跡實時渲染到所創建的聲場中,通常采用以聲床作為基礎,對象為輔助的多聲道實現方式,利用元數據從制作到放映的所有環節,在影院端完成實時渲染,來呈現創作意圖。對象音頻的核心就是元數據,通過位置、音量、運動特性等信息來描述對象音頻,元數據進行編碼壓縮后傳輸到渲染端,進行對象音頻的還原。對象音頻的渲染一般是基于Panning,即為對象音頻如何通過幅度和相位的關系,通過揚聲器系統在影廳還原出帶有方向感的對象音頻。
基于場景的渲染是指通過重建聲源所需場景的聲場來進行的渲染方式。其描述聲場的數學模型稱為球面調和函數,用球面上的聲源產生的聲場來擬合原來聲源產生的聲場。其核心的底層算法是HigherOrderAmbisonic(HOA),將音頻信號進行空間編碼,是用一個球面上的音源去擬合球內的聲場。
因各廠家生產的沉浸式還音系統的實現方案各不相同,導致國內上映的商業影片的聲音格式均會制作多個沉浸聲版本,如杜比全景聲、Auro3D、中國多維聲、WANOS全景聲和Holosound全息聲等,還音系統的安裝方式也各不相同,使得沉浸聲還音系統難以在相同的環境下進行還音效果的評測。影廳的建聲特性和電聲響應特性直接影響影片還音效果呈現,為了降低影廳建聲環境和電聲響應特性對評測結果的影響,進行沉浸聲還音系統評測時,評測房間的建聲環境和電聲響應特性應控制在合理的范圍內。
良好的聽音環境應確保傳輸頻率特性平滑、無可覺察的聲染色、不應出現回聲、顫動回聲、聲聚焦和共振等聲學缺陷。混響時間 (500Hz)和混響時間頻率特性要求應符合GY/T311―2017 《電影院視聽環境技術要求和測量方法》中的相關規定。當放映系統設備、電聲系統設備、空調等所有必要工作設備開啟時,聽音員位置處噪聲級的限值不宜超過噪聲評價曲線NR25值的規定。室內空氣應滿足GB/T18883―2002 《室內空氣質量標準》規定的標準,環境空氣污染物的濃度限值應不高于GB 3095―2012 《環境空氣質量標準》中規定的二級限值標準。
數字電影沉浸式音頻技術通常是通過控制音頻信號的幅值和相位來還原出具有方位感和運功軌跡的聲音場景,為了降低還音系統的聲壓級和頻率特性對沉浸式還音效果的影響,應確保各沉浸式還音系統具有較為一致的聲壓級和頻率響應特性,需對沉浸聲還音系統進行B環調試。除次低通道外,每通道的基礎調試聲壓級應為85dB (C),次低通道基礎調試聲壓級應為91dB (C),電聲響應頻率特性應符合標準GY/T312―2017 《電影 錄音控制室、室內影廳B環電聲響應規范和測量》中的相關規定。
人耳對不同頻段聲音的方向感是不同的,低頻段不敏感,高頻段較為敏感,因此,沉浸聲還音效果評價時,應選擇涵蓋不同頻段、不同發聲特點的聲源作為評價測試源。沉浸式音頻技術的核心特征是使得聲音和相關的視覺元素在空間上匹配,沉浸聲還音需要在有限的揚聲器通道上通過沉浸聲渲染技術擬合出虛擬的聲場的效果,為了評判沉浸聲還音效果是否能夠真實反映創作者的意圖,需要對沉浸聲還音場景進行描述,所制作的聲音場景應能夠反應沉浸式音頻技術的主要特征。
為了能夠真實反應沉浸式音頻系統對各種聲音還原性能的能力,沉浸式音頻音質主觀評價測試源應至少包括語言聲、聲樂、器樂、景觀聲等序列。
語言聲選取用漢語普通話和英語標準語速朗讀的男、女語言聲;聲樂應選取無伴奏男低音、女高音或合唱,有傳統樂器伴奏的代表性戲曲唱腔一段;器樂選取應涵蓋民樂、交響樂、電子樂、流行音樂等;景觀聲選取自然聲或人類活動所造成的聲音,可選用蟲鳥鳴叫聲、雷聲、雨聲、機車通過的聲音、槍炮聲、玻璃破碎聲等。
制作沉浸式音頻文件所選取的評價素材的頻譜應豐富多變、音質清晰。制作的沉浸聲音頻文件應包含豐富的靜態對象和動態對象信息,如特定位置的蟲鳥鳴叫聲、雷鳴和雨聲;動態運動的飛機頭頂飛過、汽車側面駛過的聲音。
沉浸式還音系統生產廠家因采用的沉浸式音頻技術各不相同,制作的沉浸式音頻文件無統一的技術規范,制作方式多樣,無法使用統一的沉浸式音頻文件進行還音效果評測。為了降級制版環節給評價結果帶來的誤差,需要為評測廠家提供詳細和明確的聲音設計場景描述信息,以便沉浸聲評價文件的制作。
沉浸聲場景設計應盡量涵蓋影片中常用的聲音表現形式,重點考察聲音對象定位的準確性和運動軌跡的一致性。一套完整的沉浸聲評價場景和描述信息至少應包含以下場景:靜止對象的空間定位是否準確 (炸彈距離聽音者正前方1m 處爆炸);運動對象從觀眾正前方劃過 (飛機從銀幕最左側向最右側勻速飛行,聲音由弱變強然后變弱);運動對象從上向下墜落 (飛機在100m 的高空針對聽音者投彈,正向下快速的墜落,聲音由弱到強);運動對象從聽音者側邊駛過 (汽車從影廳最前方向最后方距離聽音者5m 快速駛過,聲音由弱變強然后變弱);運動對象在上空勻速盤旋 (飛機在距離聽音者高度50m處的上空,圍繞半徑為100m 的圓進行飛行,聲音大小一致)。
沉浸式音頻還音技術的目的是盡可能地還原聲音場景,還原影片更多的聲音細節,滿足聽者對聲音的需求。數字影院沉浸式音頻還音質量,要保證清晰度、聲像準確度、聲音層次感和音畫信息一致性等。沉浸式音頻還音系統音質主觀評價的目的是獲得被評價設備的某個音質屬性在聽覺心理上的尺度,評價的基本要求是設計成可控的統計試驗。評價尺度由評價數據的統計處理得到。
雖然音質主觀評價本質上是主觀的,為了確保對各種渲染技術的客觀評估,可以通過創建特征測試指標以保持測試參數的客觀性,評價內容至少應包含解碼后的音質、靜態對象、動態對象等特性。
(1)音質
音質主要判斷聲音原始素材經過編碼、解碼、渲染通過還音系統進行還音帶來的音質損傷程度。評價內容主要包括音品屬性和環境聲質量。如,音質的豐滿度、清晰度、明亮度、柔和度、力度和平衡度和真實度等。
(2)靜態對象
靜態對象主要判別被測系統是否能夠準確地按照靜態對象的描述信息構建出沉浸聲的聲場。評價內容主要包括目標物體出現位置的重合度。評價素材應包含來自不同方向的目標對象,如,來自聽音者前、后、左、右、上、下的目標對象。評價介詞易選取目標對象的定位準確性、響度的一致性和臨場感等。
(3)動態對象
動態對象主要判別被測系統是否能夠準確地按照動態對象的描述信息構建出沉浸聲的聲場。主要的目標是評估運動的平滑度和線性度。評價內容主要包括目標物體運動軌跡匯的重合度和目標物體持續變化的重合度。評價素材應至少包含水平運動、垂直運動和中間運動,位置更新率根據測試項目的持續時間 (大約10秒)和移動方式的長度 (建議大約一半的房間)進行相應的選擇。評價介詞易選取目標對象運動軌跡的準確性、大小變化持續性、響度準確性、臨場感、沉浸感等。
(4)對象增益
對象增益主要考察被測系統對目標對象響度大小的控制能力。此指標可以通過測量獲得。如,使用電平為―20dBFs、頻率為1000Hz的正弦波信號作為測試信號,使用渲染功能電平值從0dB~35dB,步進為0.5dB改變,在音頻處理器輸出端使用音頻分析儀測量各通道輸出電平值。
音質主觀評價可以根據具體的評價任務設計不同的評分方法。沉浸聲音質進行評價時,建議采用“帶隱藏參考的雙盲三刺激法”,每次只有一位評價員從三個刺激中自行選擇,根據等級評價素材的描述信息進行評價。即評價素材中包含一個隱藏參考、一個已知參考,兩個錨點,剩余評價素材為被測對象。錨點設計時建議通過對原始音頻信號進行低通濾波的方式設計錨點 (如,原始信號經過截止頻率為3.5kHz的低通濾波為低質量錨,經過截止頻率為7.0kHz的低通濾波為中等質量錨)。
沉浸式音頻還音系統對靜態對象和動態對象表現性能評價時,由于無法制作參考源,建議采用“等級評價法”,判斷被測對象與文字描述信息的一致性。等級評定法適用于對多個同類設備的音質進行綜合評價的場合。這是一種具有分級意義的評價方法,需要對被評價設備的音質水平做出具有一致性的等級劃分。評價素材中包含兩個錨點和被測信號,參考源為目標對象的描述信息。靜態對象評測時,建議通過修改揚聲器系統各通道的延時的方式設計錨點 (選取任意三組所使用的揚聲器系統,延時增加50ms為低質量錨,延時增加20ms為中等質量錨)。動態對象評測時,建議通過修改渲染對象的運動軌跡和位置更新率等方式設計錨點 (如,對被測對象運動軌跡準確性評價時,可調整渲染系統的位置更新速率為1.5Hz作為低質量錨,位置更新速率為1Hz作為中等質量錨)。
沉浸聲音質評價時要求評價員按照連續五級損傷標度,分別評價隱藏參考和被測對象相對于已知參考的損傷程度。五級損傷標度如圖2所示。

圖2 五級損傷評價標度

表1 靜態對象五級評分等級標度

20聲像定位與描述的定位信息差異可察覺,令人非常不悅;目標對象響度的控制與描述的定位信息差異可察覺,令人非常不悅。
沉浸式音頻還音系統對靜態對象和動態對象表現性能評價時,等級的設定建議采用奇數個等級,通常設立五個等級,靜態對象的評分等級標度如表1所示,動態對象的評分等級標度如表2所示。

表2 動態對象五級評分等級標度
沉浸式音頻還音系統音質主觀評價時,受聲學環境和揚聲器頻率響應特性的影響較大,為了能夠使得各被測系統間的評測結果具有可比性,本文針對沉浸式音頻還音系統的特點對建聲環境和B環電聲響應特性進行了規定,通過對沉浸式音頻技術特點的分析,提出了沉浸式音頻還音系統評價素材制作、評價指標、評價方法和評價尺度的基本要求。希望能夠為沉浸式音頻還音系統的評測提供一種具有通用性、可比性和公平性的評價手段,為沉浸式音頻還音系統的研發和設備選型提供技術保障,旨在推動沉浸式音頻還音系統的還音效果向一致化和標準化發展。