一種非中心點處聲場重建方法

2020-12-14 09:13:42王松張聰

計算機應用與軟件 2020年12期

關鍵詞：方法

王松張聰

(武漢輕工大學數學與計算機學院湖北武漢 430048)

0 引言

隨著首部3D電影的熱播，3D影視技術受到大家的熱捧，截至2017年，我國3D影院基本達到全覆蓋。隨著3D影音技術的飛速發展，3D音頻技術已經成為多媒體領域的研究熱點。當前三維音頻技術包括Ambisonics[1-5]，波場合成(Wave Field Synthesis，WFS)[6-10]，頭相關傳輸函數(Head Related Transfer Function，HRTF)[11-14]，矢量基幅廢平移(Vector Based Amplitude Panning，VBAP)[15-16]等。其中，VBAP是一種重要的三維音頻技術。

VBAP利用向量的觀點，使用兩個或三個揚聲器合成一個虛擬聲源，以達到聲音定位的目的。在三維VBAP中，虛擬聲源通過三個揚聲器利用向量合成的原則合成虛擬聲源[15-16]。VBAP具有計算效率和聲像重建精度較高的優點。相較于Ambisonics，VBAP中的揚聲器可以自由擺放，不必均勻擺放；相較于WFS，VBAP使用揚聲器的數目較少，應用成本較低；相較于利用HRTF的三維定位方法，VBAP的計算效率較高。

2009年，Ando等[17]提出一種基于聲壓向量的三維平移方法，其核心思想是：虛擬聲源在接收點處產生的聲壓向量與三個揚聲器在接收點處產生的聲壓向量相等。該方法要求虛擬聲源對應向量的方向位于三個揚聲器構成球面三角形的內部。當三個揚聲器和虛擬聲源位于同一球面時，該方法得到的結果與VBAP的結果一樣。

2011年，Ando[18]提出了一種基于聲壓和質點速度的三維平移方法。該方法使用三個揚聲器合成一個虛擬聲源，三個揚聲器和虛擬聲源位于同一個球面上，合成的原則是虛擬聲源在接收點處產生的聲壓和質點速度的方向與三個揚聲器在接收點處產生的聲壓和質點速度的方向相等，從而計算得到三個揚聲器的分配系數。該方法為VBAP提供了物理基礎。

2013年至2014年間，針對揚聲器數目多于三個時揚聲器需要分組的問題，文獻[19-20]提出一次使用五個或者四個揚聲器合成一個虛擬聲源的方法，進一步推廣了VBAP技術。

文獻[15-20]都是以中心聽音點為接收點，所有揚聲器與虛擬聲源都位于同一球面上，中心聽音點處的三維聲場重建效果最好。中心聽音點被稱為“甜點”或者“皇帝位”。其原理都是保證中心聽音點處的聲音物理性質不變，而忽略了非中心聽音點處聲音物理性質的保持，導致非中心聽音點處聲場重建效果較差。在實際應用場景中，聽音者也可能處在或者運動到非中心聽音點處，因此非中心聽音點處三維聲場的重建質量的保持具有現實意義。當前已有一些非中心聽音點處或非中心區域的三維聲場重建技術如同區域壓力匹配技術[21](Pressure Matching in a Same Zone，PMSZ)和同區域質點速度匹配技術[22](Particle Velocity Matching in a Same Zone，PVMSZ)。PMSZ在原始系統與重建系統的同一區域內部匹配聲壓，PVMSZ在原始系統與重建系統的同一區域內部匹配質點速度。從理論上講，它們均可用于非中心區域聲場重建。但是已有一些實驗結果表明，在非中心區域聲場重建時，PMSZ與PVMSZ的重建誤差較大，因此需要研究更好的非中心點或者非中心區域聲場重建方法。

針對已有技術存在的問題，本文提出一種將非中心聽音點中心化的方法，通過揚聲器信號的二次分配在局部范圍內使用三個揚聲器合成一個虛擬聲源，不斷重復這一過程實現10個揚聲器重建原始22聲道系統，同時提高非中心聽音點處重建三維聲場的質量。本文主要貢獻如下：(1)傳統方法重建聲場時如VBAP和文獻[18]方法等，中心聽音點處重建效果最好，但非中心聽音點處重建效果較差。本文以非中心點為中心，構建虛擬揚聲器陣列，通過虛擬揚聲器陣列恢復非中心點處的聲場。通過保證虛擬揚聲器和實際揚聲器在非中心點處產生的質點速度不變，將虛擬揚聲器信號轉換成實際揚聲器信號，最終通過實際揚聲器信號重建非中心點處的聲場。(2)實現了利用10聲道系統在非中心點處重建原始22聲道系統的聲場。實驗結果表明，10聲道系統重建精度較高。

1 聲壓與質點速度的概念

假設單個揚聲器(單個揚聲器可視作虛擬聲源或者點聲源)所在的位置為ξ=(ξx,ξy,ξz)T，接收點(也即聽音點)所在位置為η=(x,y,z)T，則單個揚聲器在接收點處產生的聲壓為：

(1)

式中：i為虛數單位；k=2πf/c為波數；f為聲音信號的頻率；c表示聲音的傳播速度；s(ω)為揚聲器輸入信號的傅里葉變換；G表示距離揚聲器單位距離處的聲壓與揚聲器信號之間的比例系數。

單個揚聲器在接收點處產生的質點速度為：

(2)

2 文獻[18]方法

如圖1所示，假設一個虛擬聲源和三個揚聲器位于同一個球面上，虛擬聲源位于三個揚聲器構成球面三角形的內部，接收點位于中心點O(0,0,0)處。虛擬聲源的坐標為vs(vsx,vsy,vsz)，三個揚聲器的坐標為ξ1=(ξ1x,ξ1y,ξ1z)T，ξ2=(ξ2x,ξ2y,ξ2z)T，ξ3=(ξ3x,ξ3y,ξ3z)T，它們的極坐標表示分別為：(ρ0,θ0,φ0)、(ρ1,θ1,φ1)、(ρ2,θ2,φ2)、(ρ3,θ3,φ3)。

圖1 揚聲器擺放、虛擬聲源位置圖

虛擬聲源在接收點處產生的質點速度為：

(3)

式中：λ表示空氣密度。虛擬聲源在接收點處產生的聲壓為：

(4)

三個揚聲器在接收點處產生的質點速度為：

(5)

式中：

W=(w1,w2,w3)T為三個揚聲器的信號分配系數。三個揚聲器在接收點處產生的聲壓為：

(6)

由下式：

(7)

通過近似求解可以得到三個揚聲器的分配系數[21]為：

(8)

式中：

D=D1+D2+D3

D1=sin(θ3-θ2)cosφ3cosφ2sinφ0+[sin(θ0-θ3)·

cosφ3sinφ2-sin(θ0-θ2)cosφ2sinφ3]cosφ0

D2=sin(θ1-θ3)cosφ1cosφ3sinφ0+[sin(θ0-θ1)·

cosφ1sinφ3-sin(θ0-θ3)cosφ3sinφ1]cosφ0

D3=sin(θ2-θ1)cosφ2cosφ1sinφ0+[sin(θ0-θ2)·

cosφ2sinφ1-sin(θ0-θ1)cosφ1sinφ2]cosφ0

3 方法設計

本文提出方法的整體流程如圖2所示。

圖2 提出方法整體流程圖

圖3 實際揚聲器、虛擬揚聲器擺放以及虛擬聲源位置圖

(9)

(10)

當以點O′為中心時，v1、v2、v3的極坐標分別為(ρv1,θv1,φv1)、(ρv2,θv2,φv2)、(ρv3,θv3,φv3)，它們的計算公式為：

(11)

式中：

當以為O中心點時，O′為非中心點，此時點v1、v2、v3的直角坐標分別為：

(13)

然后利用v1、v2、v3處虛擬揚聲器信號求解ξ1、ξ2、ξ3處實際揚聲器信號。當O為坐標原點時，點vj(j=1,2,3)處虛擬揚聲器在點O′處產生的質子速度為：

(14)

vj處虛擬揚聲器對應的ξj處實際揚聲器在點O′處產生的質子速度為：

(15)

(16)

可以得到：

(17)

式中：I為單位矩陣；λ為規則化因子。

不斷重復上述過程，將原始聲場中的每個虛擬聲源使用重建系統的三個揚聲器逐漸全部替換掉，每次求得三個揚聲器的分配系數，它們乘以被替換虛擬聲源的信號即可求出三個揚聲器的信號，最后將重建系統中揚聲器的信號進行疊加，得到最終重建系統中揚聲器的信號。

4 仿真實驗

4.1 實驗結果

本文通過計算機模擬實驗比較本文方法和Ando、PMSZ、PVMSZ傳統方法在非中心點處三維聲場重建的效果。本文使用10聲道系統重建NHK22.2多聲道系統，兩個低音效果聲道不作處理。原始系統與重建系統的揚聲器擺放位置結構圖參見圖4，這些揚聲器擺放位置都是NHK研究人員設計出來用于聽音測試的。原始系統與重建系統的揚聲器分別位于以坐標原點O(0,0,0)為中心，2 m為半徑的球面上，非中心點所在位置為O′(0.5,0.5,0)(直角坐標表示)，黑色實心點表示揚聲器所在的位置。聲音速度為340 m/s，人頭半徑為0.085 m。仿真實驗采用原始聲源的信號為900 Hz進行實驗。

(a)原始22聲道系統

當虛擬聲源信號頻率f=900 Hz時，原始22聲道系統產生聲場與重建10聲道系統產生聲場的對比圖如圖5所示?？梢钥闯觯噍^于傳統方法，本文提出方法在非中心點O′周圍產生的聲場更加接近于原始系統聲源在非中心點處產生的聲場。

(a)原始系統產生的聲場圖

相對均方誤差(Relative Mean Square Error，RMSE)被用來衡量重建聲場相對于原始聲場的誤差大小。它的定義表達式為：

(18)

式中：S表示以O′為球心的球體；球體半徑為r；Po表示原始聲源在球體S內部產生的聲壓；Pr表示重建系統中聲源在球體S內部產生的聲壓。傳統方法和提出方法產生的相對均方誤差對比參見圖6。

圖6 相對均方誤差對比圖

可以看出，在以非中心點O′為球心的球體內部，當球體半徑逐漸增大時，本文方法的相對均方誤差整體上是逐漸增大的。在球體半徑r的所有可能的取值范圍內，本文方法產生的相對均方誤差比文獻[18]和文獻[21]方法產生的相對均方誤差都低；當球體半徑r取值范圍是[0.085,0.51]m和[1.105,1.275]m時，本文方法產生的相對均方誤差比文獻[22]方法低；當球體半徑r取值范圍是[0.595,1.020]m時，本文方法產生的相對均方誤差比文獻[22]方法略高，但是不超過5%。特別地，當球面半徑r=0.085 m即人頭半徑大小時，如表1所示。本文方法產生的相對均方誤差為1.27%(<4%，可以滿足實際應用需求[23])，比文獻[18]、文獻[21]和文獻[22]方法分別低30.64、60和30.55個百分點。這表明在單個人頭半徑內，即一個聽音者進行聽音時，本文方法顯著優于所有傳統方法。當球體半徑大于0.51 m時(即大于6個人頭半徑大小)，本文方法產生的相對均方誤差仍然低于文獻[18]和文獻[21]方法，但是與文獻[22]方法相差不大。

表1 當r=0.085 m時，相對均方誤差比較 %

時間平均聲音強度的定義為：

(19)

式中：“*”表示復共軛；“Re”表示復數的虛部。時間平均聲音強度可用于分析聲音強度流，它表示一段時間之內的平均瞬時強度。強度流表示時間平均聲音強度的方向，其數學表達式為：

(20)

強度流誤差的定義為：

(21)

式中：IFod(O′,ω)表示原始聲場的強度流；IFrd(O′,ω)表示重建聲場的強度流。

不同方法的強度流誤差比較如圖7所示。黑色圓圈的半徑為0.085 m，表示以人頭半徑為半徑的區域?？梢钥闯鲈诤谏珗A圈范圍內，文獻[21]方法產生的強度流誤差低于文獻[18]方法和文獻[22]方法，而本文方法產生的強度流誤差低于所有傳統方法。

(a)文獻[18]方法 (b)文獻[21]方法

在以O′(0.5,0.5,0)為中心點，人頭半徑0.085 m為半徑的非中心區域內部，當聲音信號頻率變化范圍為[50,900]Hz時，不同方法產生的相對均方誤差如圖8所示。

圖8 相對均方誤差與信號頻率之間的關系對比圖

可以看出，隨著信號頻率的變化，本文方法產生的相對均方誤差最低，其變化范圍是[0,1.77%]；而文獻[18]方法產生的相對均方誤差變化范圍是[0,789.28%]，文獻[21]方法產生的相對均方誤差變化范圍是[0,815.92%]，文獻[22]方法產生的相對均方誤差變化范圍是[0.67%,626.73%]。該實驗表明當信號頻率從50 Hz變化到900 Hz時，本文方法在單個人頭區域范圍內重建聲場的質量比傳統方法穩定。

平均相對均方誤差(RMSE)是指所有與中心點(也即坐標原點)之間距離相等的非中心區域聲場產生的相對均方誤差的平均值，不同方法產生的平均相對均方誤差的對比圖參見圖9。其中原始信號頻率為900 Hz，非中心區域與中心點之間的距離變化范圍是[0.085,0.935]m，非中心區域聲場的半徑為0.085 m?？梢钥闯觯S著非中心區域與中心點之間距離的逐漸變化，文獻[18]方法產生的平均相對均方誤差變化范圍是[0.45%,288.17%],文獻[21]方法產生的平均相對均方誤差變化范圍是[2.00%,299.14%],文獻[22]方法產生的平均相對均方誤差變化范圍是[12.38%,220.16%],然而本文方法產生的平均相對均方誤差變化范圍是[0.17%,43.36%]，低于傳統方法產生的平均相對均方誤差。實驗表明，當非中心區域所在位置發生變化時，本文方法重建聲場的平均質量優于傳統方法。

圖9 平均相對均方誤差與非中心區域和中心點之間距離的關系對比圖

4.2 實驗分析

上述非中心聽音點處實驗表明，本文方法優于傳統的三種對比方法。其原因是：文獻[18]方法只是關注中心聽音點處聲場得到最優恢復，不關注非中心聽音點處聲場的恢復情況，因此在非中心點處重建效果不好；文獻[21]方法重建目標聲場需要揚聲器陣列均勻擺放[25]。然而當進行非中心點聲場重建時，文獻[21]方法中揚聲器陣列相對于非中心點的擺放位置是不均的，因此在非中心點處的重建效果不佳；文獻[22]方法雖然克服了揚聲器陣列需要均勻擺放的問題，但是它在進行指定區域聲場重建時，需要在使用同等數量揚聲器的條件下同時恢復多個點處的聲音物理性質，導致重建效果不如本文方法。

傳統VBAP或者文獻[18]方法的核心思想是當虛擬聲源與揚聲器位于同一個球面時，球體中心點處(也即中心聽音點)的聲場可以得到最佳恢復。本文的方法聚焦于非中心聽音點處的聲場恢復，借鑒傳統方法的思想，以非中心點O′作為中心，以虛擬聲源和非中心點之間距離作為半徑構建虛擬球面。然后將實際揚聲器映射到虛擬球面上得到虛擬揚聲器的位置，此時虛擬聲源和虛擬揚聲器位于同一個虛擬球面上，非中心點O′變成了虛擬聲源和虛擬揚聲器的中心點。依據文獻[18]方法的原理，O′處的聲場可以得到最佳恢復，并可以由虛擬聲源的信號求得虛擬揚聲器的信號。再通過保證實際揚聲器和虛擬揚聲器在O′處產生的質子速度相等，由虛擬揚聲器的信號求得實際揚聲器的信號。通過這種聲音信號的兩次等價轉換可以保證非中心點O′處的聲場得到較為準確的恢復，所以重建效果優于傳統方法。

5 結語

針對目前已有三維聲場重建方法存在非中心點處聲場重建誤差較大的問題，本文提出了一種非中心點處聲場重建方法。借鑒了傳統方法中中心點處聲場最優恢復的思想，通過構建虛擬揚聲器陣列和虛擬揚聲器的信號與實際揚聲器信號之間的轉化，實現非中心點處聲場重建，拓寬了已有方法的適用場景和使用范圍。仿真實驗結果表明：在單個人頭區域內，本文方法在非中心點周圍的聲場重建、相對均方誤差、強度流誤差、平均相對均方誤差這些比較指標上均優于傳統方法。本文方法適用于單個聽音者在非中心點處進行聽音，證實了其有效性。