馬士超
(雷歐尼斯(北京)信息技術有限公司,北京 100190)
與傳統的音頻系統不同,沉浸式音頻(Immersive Audio)系統側重于沉浸式屬性(Immersive Property),也就是突出其可以從三維空間中的任何角度對聲音進行渲染和還原。為了能有效地對沉浸式音頻系統進行評價,提出一種沉浸式音頻的主觀和客觀評價方案,構建衡量沉浸式屬性(三維空間任意渲染)的沉浸式指數,其他屬性延續傳統音頻系統的評價方法。
聲音經歷了無聲(Silence)、單聲道(Mono)、立體聲(Stereo)、5.1/7.1等發展過程,筆者將這個過程抽象為從空(Empty)、到點(Point)、到線(Line)、到面(Plane)的歷程,如圖1所示。近年來,聲音研究者開始突破平面的限制,將聲音的錄制(Recording),渲染(Render)與還原(Restore)進行三維處理[1]。

圖1 聲音的發展歷程
一種顯而易見的方式是增加聲道數,即基于聲道(Channel-Based Sound)的技術方案,除了在雙耳橫切面進行揚聲器平面布局外,分別在頭頂(Top)與腳下(Bottom)進行部署,從而形成三維的空間布局,如圖2所示,如9.1,11.1,13.1,15.1以及22.2。將這種布局的表示歸納三種方式:(1)x.y,x表示主揚聲器與環繞揚聲器聲道總數,y表示次低頻揚聲器LFE;(2)x.y.z,z表示頂環揚聲器聲道總數,x表示主揚聲器與平面環繞揚聲器聲道總數;(3)x.y.z.n,n表示底環揚聲器聲道總數,z表示頂環揚聲器聲道總數,x表示主揚聲器與平面環繞揚聲器聲道總數。
但是,這種技術具有先天的局限性。隨著聲道數的增多,后期錄制和處理的工作會呈幾何級數增加,稱之為多聲道技術的超級復雜性(Super Complexity)。同時由于沒有任何一個播放環境與制作節目的后期混音棚是一致的,因此,沒有多聲道技術實際播放的環境能如實展現創作者的意圖,稱之為多聲道技術的完全不一致性(Total Inconsistency)。

圖2 一種16通道揚聲器的布局

圖3 基于對象的HOLOSOUND后期制作流程

圖4 5階聲場HOA技術示意圖

圖5 HOLOSOUND系統框架(制作端與放映端)
因此,基于對象(Object-based Sound)的技術方案應運而生,其描述的是聲音軌跡,如圖3所示。一個聲音對象包含如下元素:信號本身s,隱含的時間信息t,以及其在三維世界的三維坐標{x,y,z}和其他輔助屬性,o={s,t,{x,y,z},aux parameter}。混音師無需花費大量的時間來處理每個揚聲器的具體輸出信號,只需要將主要精力放在藝術創作上即可。上面提到的多聲道技術的超級復雜性與完全不一致性都被解決了。
基于聲場(Scene-based Sound)的技術方案適合描述沒有軌跡屬性的聲音,主要是重建空間中聲場的分布,如圖4所示。聲場和大家比較了解的光場類似,是對以特定位置為中心的整個聲音信號場的信號描述,典型的分解描述是采用高階Ambisonic技術,比較有效的方法是使用傳聲器陣列錄制后進行矩陣轉換。其善于處理環境聲場效果,是對象技術的有益補充。
因此,當下的沉浸式音頻系統采取融合聲道、對象與聲場三種技術的方案,具體實現就是,聲道作為基礎,對象技術實現聲音在三維空間的連續運動,聲場技術用來描述沒有運動軌跡的元素,營造周邊環境或烘托氛圍。Dolby ATMOS主要采用了聲道+對象的技術方案。HOLOSOUND在聲道+對象的基礎上,將聲場技術融合進來,采用高階立體音頻HOA(High Order Ambisonics)算法,可以對整個聲音空間之中的某一點對象的聲音進行錄制,記錄每一點聲效的坐標位置、聲像大小與位移時間等重要信息的元數據。為每一個聲音指定運動軌跡,通過音頻處理器的實時運算渲染,把運算后的聲音對象分配到相應的一個或多個揚聲器中,音頻處理設備具有自動房間聲場校正系統,從而實現聲音對象在三維空間中的運動。HOLOSOUND系統框架如圖5所示,分為制作端與放映端,各部分的技術實現方案見圖6。其中,制作端音頻技術工作流(Workflow)如圖7所示,放映端音頻技術工作流如圖8所示。

圖6 HOLOSOUND制作端與放映端的技術實現方案

圖7 HOLOSOUND制作端技術工作流

圖8 HOLOSOUND放映端技術工作流

圖9 盲測對比內容與設備切換拓撲
2018年10月11日,中國電影發行放映協會(CFDEA)協同中國電影科研所(CRIFST)組織了幾十名業內專家對于沉浸式音頻HOLOSOUND與Dolby ATMOS進行了盲測。之所以選擇HOLOSOUND與ATMOS,因為兩種技術符合DCI/SMPTE標準[2-5]。參與評測的專家分別來自于中國電影科研所、中宣部電影數字節目管理中心、中國電影集團、華夏電影、北京電影學院、中國電影數字制作基地、中國傳媒大學中國中央電視臺等,具有專業性與代表性。
為避免一些先入為主的認知,評測采取盲測的方式,共用同一個影廳、同一個影廳的揚聲器以及相應的功放,評測的內容及設備切換的拓撲圖見圖9。由于ATMOS與HOLOSOUND都采用對象技術,并且都做到了點聲源,因此,可以共用一套播放系統,采用的播放組合如表1所示。
該盲測的結論主要有兩點:
(1)HOLOSOUND與ATMOS系統是兼容的,也就是ATMOS播放系統可以播放HOLOSOUND素材,HOLOSOUND播放系統也可以播放ATMOS素材;
(2)HOLOSOUND與ATMOS系統效果是一致的,效果的評價點包括:音質、總體還音效果、聲像定位、聲音層次、響度均勻性、聲音連續性等。

表1 HOLOSOUND與Dolby ATMOS盲測播放組合
傳聲器陣列(Microphone Array)作為一門現代聲學的重點課題,在過去的10年內取得了突飛猛進的發展,圖10是一種典型的傳聲器陣列。利用傳聲器功能可以實現定位(Location)功能,可以通過判定目標位置(Target Position)與測量位置(Measured Position),來判斷沉浸式播放系統是否能達到設計的沉浸式效果。

圖10 一種典型的傳聲器陣列

圖11 AII獲取所采用的可能的傳聲器陣列
由于在國內外還未發現關于沉浸式音頻的評價方法,筆者及所在團隊基于人工智能技術,結合傳聲器陣列/人工頭分析儀,采用特殊的算法,形成了沉浸式音頻指數AII(Audio Immersive Index)評價方法,目前已被SMPTE與AES等相關的國際標準組織所采納。其目的是用于沉浸式音頻與沉浸式音頻、沉浸式音頻與傳統音頻之間的技術對比,區分出什么是沉浸式音頻技術。相比人工盲測的主觀評測方式,更加客觀、準確,為評價沉浸式音頻系統的效果提供了有力的技術依據。
下面給出沉浸式音頻指數AII的評價方法,圖11是AII獲取技術所采用的可能的傳聲器陣列圖,圖12是數字影院基于揚聲器的AII系統流程圖。具體的評價方法和計算過程(采用球坐標形式表示信號的坐標)[6]。
(1)構造目標位置信息
構造X個點對象,每個對象的三維位置可以用來表示(1≤i≤X),這些點對象通過各種不同的Render系統進行還原,依據Render的能力在特定的揚聲器布局中進行展現。
(2)獲取測試位置信息
假設傳聲器陣列有M個傳聲器,采集所述音頻對象信號后獲得信號數據;
將所獲得的信號數據轉換成N階HOA數據,由于N階HOA數據實際上有(N+1)2路數據,需要一個專門的M×(N+1)2維度的矩陣。
構造的等角度差的虛擬揚聲器陣列,每個揚聲器包括一個空間坐標,揚聲器個數為N;
根據構造的等角度差的虛擬揚聲器陣列對所述N階HOA數據通過一個(N+1)2×W維度的矩陣進行處理,獲得W個揚聲器輸入信號,其中,W個揚聲器輸入信號中最大的輸入信號對應的揚聲器的空間坐標為測試位置信息 ,(1≤i≤X)。

圖12 數字影院基于揚聲器的AII系統流程圖
(3)計算AII

其中,AII表示沉浸式指數,X表示靜態對象源的個數,使用很多不同位置的靜態對象源,表示構造的目標位置信息,表示測試位置信息。
采用上述方法和計算,在數字影院對國際上常見的ATMOS、DTS-X和HOLOSOUND三種基于對象的沉浸式音頻系統進行測量。選取參與測試的影院,包括蘇州金逸吉尼斯記錄影廳、中影基地ATMOS/HOLOSOUND混音棚、上海百老匯影城、中器影廳,盡可能地在達到同等條件下進行測試。其中一個廳的配置如表2所示,相應的音頻點位圖如圖13所示。AII的測量結果如圖14所示。

表2 沉浸式音頻影廳配置清單

圖13 沉浸式音頻點位圖

圖14 幾種沉浸式音頻技術在數字影院的AII測量結果
數字電視沉浸式音頻評價體系與數字電影沒有本質上的區別。數字電影采用的揚聲器數量較多,例如,ATMOS在影院系統最多可以達到64通道,HOLOSOUND最多可以達到256通道。
而以電視為核心的家庭娛樂系統一般采用5.1.2/5.1.4/7.1.2/7.1.4的設置,甚至有的時候采用SoundBar形式的虛擬揚聲器。但本質上是一樣的,都是通過揚聲器來還原對象的解析。
實際測試結果顯示,無論是5.1.2/5.1.4還是7.1.2/7.1.4,沉浸式指數AII遠遠小于數字影院中小廳的音頻沉浸式指數AII。這一測試結果也與實際情況相符,因為,一方面與數字影院相比,以數字電視作為核心的家庭影院一般環境都受限;另一方面在建聲上也與數字影院專業的聲學環境有差距;再有在揚聲器布局上,實際上至多也就是12路點聲源,而即使中小影院基本上沒有低于32路點聲源配置的。
另外一個重要的結論是,采用SoundBar的音頻系統,音頻沉浸式指數AII遠不如直接采用真實揚聲器配置的AII。

圖15 3D空間音頻效果與立體聲比較

圖16 雙耳聲學基于人工頭分析儀的AII系統原理圖

圖17 雙耳聲學基于人工頭分析儀的AII系統流程圖
HOLOSOUND基于雙耳聲學的HoloSound Spatial Audio (HSA)技術,主要應用于汽車影院和個人消費性電子領域。雙耳聲學主要研究的是基于已知位置對信號進行處理,與數字電影以及數字電視方案有本質上的區別,如圖15所示。
對雙耳聲學的效果進行評價則需要已知處理過的信號,來判斷其來自哪個位置?;谌斯ゎ^分析儀的雙耳聲學評測AII系統原理及流程如圖16、圖17所示。
在這一評價體系中,人工頭分析儀具體用于:
(1)采集所述音頻對象信號s后獲得第一左耳信號數據s*FIR-L-X和第一右耳信號數據s*FIR-R-X,將所述第一左耳信號數據s*FIR-L-X和第一右耳信號數據s*FIR-R-X進行去信號處理,獲得第二左耳信號數據FIRL-X和第二右耳信號數據FIR-R-X,從而得到目標位置信息(如圖18所示);

圖18 人工頭分析儀與對象位置

表3 不同分類的音頻技術與其典型代表

表4 不同技術層級與其技術解決方案
(2)根據所述第二左耳信號數據FIR-L-X和第二右耳信號數據FIR-R-X,再經過插值加密過的HRTF數據庫進行檢索,獲得測試位置信息。
需要說明的是,一般HRTF數據庫是[θ,φ, FIR-L-θ-φ,FIR-R-θ-φ]的四元組;一般的應用是已知θ,φ,抽取FIR-L-θ-φ, FIR-R-θ-φ。而在這里是已知FIR-L-θ-φ, FIR-R-θ-φ去查找對應的[θ,φ],因此也可以稱為反向HRTF,即R-HRTF。
通過對幾種沉浸式音頻系統的主客觀評價方法的探索,可歸納出以下幾方面的成效。
(1)獲得了沉浸式音頻技術與傳統的各類音頻技術比較的方法。如比較表3中不同分類的音頻技術,其優勢排序為:聲道+對象+聲場 > 聲道+對象 > 多聲道(聲道數>8) > 5.1/7.1 > 2.1 > Mono > None
(2)為評測同種技術之間的效果提供了方法,如表4所示,不含聲場的HOLOSOUND技術與ATMOS技術的比較,15.1的LEONIS IAE與DTS:X技術的比較,7.1的LEONIS IA與Dolby CP750的比較[7-11]。
主觀評測方法相對客觀評價系統容易操作,但是無法排除個體主觀差異的干擾,具有一定的主觀性,很難完全復現。而客觀評價系統利用大量的復雜信號處理與科學的算法,結論客觀,可以隨時隨地地進行復現,并有效節省人力物力。