黃婉秋, 曾向陽 , 王蕾
(西北工業大學 航海學院, 陜西 西安 710072)
頭相關傳遞函數(head-related transfer function,HRTF)是實現聽覺空間虛擬的關鍵函數,在室內聲場建模、聽覺虛擬現實、3D立體聲等領域都具有重要的應用價值,也是聲學、多媒體等學科的熱門話題。頭相關傳遞函數描述了聲波從聲源到雙耳的傳遞過程,時域為頭相關脈沖響應(head-related impulse response,HRIR)。它體現了人的生理結構(如頭、耳廓以及軀干等)對聲波的綜合濾波效應,包含了有關聲源的位置信息[1],是具有明顯個人特征的物理量。在虛擬聽覺重放的應用中,采用傾聽者本人的HRTF將會得到較好效果,而采用其他HRTF的效果就取決于該數據與傾聽者HRTF的相似性。HRTF的測量是一項非常耗時并且復雜的工作,因此,如何快速有效地獲得與任意聽者生理參數相對應的HRTF數據(HRTF個人化)已成為制約空間虛擬聽覺技術的關鍵問題[2]。
國外已公布了一些人工頭和真人測試數據,但一方面是公布的數據信息不夠完整,另一方面考慮人種之間的差異,這些研究數據多數不適合中國人的生理特征,故而需要通過實驗測量或理論計算來獲取真實有效的HRTF數據。理論計算著重于求解,目前常用的理論計算方法有頭部剛球模型[3]、雪人模型計算方法[4]以及HRTF數值計算方法如邊界元法[5]。實驗測量是獲得HRTF最重要且最準確的手段,常采用封閉耳道測量方法。由于理論計算方法的計算量大,實驗測量需要一系列專用的設備,且測量結果不穩定易受影響,因此單一的理論計算方法或實驗測量方法目前還不足以同時滿足高計算速度、寬頻帶和個人化的要求。
近年來,研究者試圖采用近似方法建立個人化HRTF的快速獲取方法,提出了生理參數匹配法[6]、頻率標度變換法[7]、生理參數線性回歸法[8]和結構模型法[9]、結合感知特性改善HRTF建模精度[10]和基于主成分分析法的個人化HRTF的獲取[11]等方法。由于參數匹配法考慮的生理參數有限,還沒有完全確定與HRTF密切相關的生理參數。
本文以53名成年中國人的多維實測生理參數和HRTF數據庫(53個真人對象的723個方位)作為數據基礎,首先利用主成分分析法和相關性分析法優選出用于匹配的生理參數,再利用數據庫匹配實現頭相關傳遞函數的個人化,最后利用譜失真和主觀聽覺實驗檢驗該方法的有效性。
HRTF是頭部、軀干、耳廓等生理結構對聲波綜合作用的結果,即HRTF與生理參數存在相關性,因此,如果能設法獲得那些相關性最強的獨立參數,便可能通過建立模型近似估計或預測出受試者的HRTF。基于此,本文實現HRTF個人化的研究方案如圖1所示。首先對實測53個真人數據庫的HRTF時域測量值(即頭相關脈沖響應,HRIR)進行預處理,然后提取HRTF的主成分,同時將50維未經處理的生理參數進行自相關分析,初選若干參數,將其與HRTF的主成分進行互相關分析,從而得到用于匹配的關鍵生理參數,最后用這些生理參數進行數據庫匹配得到受試者的近似HRTF。再利用干信號與其構造虛擬聲信號,組織相應的受試者進行主觀聽覺實驗,對算法的有效性加以驗證。

圖1 HRTF個人化流程圖
在選取生理參數的組合時,本文首先對實測的53人數據庫中各個俯仰角、方位角的HRIR進行了預處理。由于虛擬聽覺重放時主觀音色會有改變,故需對HRTF進行均衡處理。利用信號源解卷積反變換后的結果與測試信號解卷積后的結果進行卷積得到了最終的HRIR,為后續HRTF的主成分分析和相關性分析提供了數據基礎。針對每個受試者測量的50維生理參數,首先利用自相關分析選取獨立的參數,相關系數小于0.5認為不相關,對于相關系數取模后將小于0.5的相關系數歸零得到自相關的灰度圖(見圖2)。首先選取獨立的生理參數,如圖2中參數2容貌面長、參數21額最小寬等。再選取線性相關的一組中對HRTF影響更大且更易測量的參數[12]。例如參數27兩耳屏間寬和參數9鼻尖枕突距相關,考慮到耳部參數對HRTF的影響更明顯,故剔除參數9鼻尖枕突距,留下參數27兩耳屏間寬。按此方法初步優選了29維生理參數,如圖4所示。

圖2 50個生理參數的自相關分析
采用主成分分析對HRTF數據庫各俯仰角的數據進行分析。步驟如下:
1) 根據已知的M個空間方向的DTF(每個方向N個頻率點),構造N×M矩陣HΔN×M
HΔN×M=[HΔ,0(f)HΔ,1(f) …HΔ,M-1(f)]=
HΔ(θ0,f0)HΔ(θ1,f0)…HΔ(θM-1,f0)HΔ(θ0,f1)HΔ(θ1,f1)…HΔ(θ0,fN-1)??…?
HΔ(θ1,fN-1)HΔ(θM-1,f1)…HΔ(θM-1,fN-1)
(1)
2) 求出該矩陣自協方差矩陣R,并按對應的本征值由大到小排序u1,u2,…,uN,取前Q個本征矢量u1,u2,…,uQ作為Q個譜形狀矢量,則Q個譜形狀矢量組成的矩陣為:
DN×Q=[u1u2…uQ]
(2)
3) 利用譜形狀基矢量對HΔ進行分解,利用u1,u2,…,uQ的正交性,可以求出與空間方向有關,但與頻率無關的Q×M權重系數矩陣:
WQ×M=DQ×NHΔN×M
(3)
4) 最后,將M個空間方向的HRTF近似用Q個譜形狀基矢量表示:
ΔN×M=DN×QHΔQ×M
(4)
進而有:
i(f)=(θi,f)=∑Qq=1wqidq(f)+Hav(f)=∑Qq=0wqidq(f)
(5)
因而H(θi,f)可分解為與方向無關的Hav(f)以及Q個譜形狀基矢量的權重和,與譜形狀基矢量對應的權重系數wqi的集合也稱為主成分或空間特性函數,它決定了譜形狀基矢量對不同方向HRTF的貢獻。
前Q個本征矢量u1,u2,…,uQ是正交的,但并不是完備的,Q取得越大(譜形狀基矢量數目越多),近似程度越高,但數據越復雜。由于各譜形狀基矢量對HΔ的貢獻以u1最大,u2次之,依次遞減,因此,當Q一定時,取N×N矩陣R的前Q個本征矢量作為譜形狀基矢量,就相當于取相對貢獻最大的Q個譜形狀基矢量進行分解,所帶來的平方誤差最小[1]。
由各俯仰角的主成分分析的結果,統計分析得各個方位角的前29個主成分的貢獻率都高于80%,故根據上述方法分別取各俯仰角的前29個主成分,將其與29維生理參數分別進行互相關分析,對相關系數取模并將小于0.5的相關系數歸零后得圖3,最后對各俯仰角互相關分析的結果進行統計和優選。
綜合考慮各俯仰角、各參數間的相關關系,最終優選了12維對HRTF影響顯著的生理參數(見圖4)。

圖3 基于主成分分析的相關性分析圖(俯仰角φ=00)

圖4 多維生理參數的優選
本文的數據庫匹配采用基于最小距離準則的數據庫匹配算法,利用優選的12維生理參數進行數據庫匹配。進行初步驗證時,從數據庫選取5名受試者,當選取其中一名受試者時,數據庫中其他52名作為待匹配對象,根據匹配結果,確定與待預測聽者最接近的已測HRTF的聽者,認為二者的HRTF是近似相同。
對于某個空間方向,受試者個性化HRTF和用生理參數匹配法獲取的近似HRTF之間的差異可采用譜失真SD表示。SD在離散頻率域的定義為
SD=1N∑fk20lg|H(fk)||H′(fk)|2
(6)
式中,H′(fk)為新受試者個性化HRTF在N個離散頻率點fk的采樣值,H(fk)為通過匹配獲得的近似HRTF在N個頻率點fk的采樣值。SD值越小,說明匹配獲得的HRTF與個性化HRTF偏離越小。
對比受試者和其匹配對象在各方位的結果,從曲線對比和譜失真兩方面對匹配結果進行誤差分析。圖5為俯仰角為0°,方位角為45°匹配對象的HRTF與受試者的HRTF。可以看出,2條曲線整體趨勢吻合,波峰波谷也大部分吻合,有些頻率雖然幅值有差異,但趨勢相同,顯示匹配結果具有較好的準確性。

圖5 受試者與匹配對象HRTF對比圖

圖6 各俯仰角譜失真
為進一步驗證匹配法的有效性,用含有方位信息的HRIR與干信號卷積得到具有方位信息的虛擬聲信號,再進行主觀方位感知實驗。當匹配所得的HRTF與受試者的HRTF越相似時,虛擬聲的方位信息與受試者本身的方位信息越相似,則受試者的主觀聽覺定位效果應越好。
分別利用53人數據庫以及人工頭HRTF合成虛擬聲信號。實驗時,先測量另選的20名受試者的12維對HRTF影響顯著的參數,并利用基于最小距離準則的數據庫匹配算法進行匹配,找到數據庫中與受試者生理參數最匹配的HRTF作為受試者的HRTF。主觀聽音測試時受試者分別傾聽匹配對象和人工頭合成的聲信號。
對個人化主觀聽音結果進行總結整理,個人化和人工頭的各方位定位結果如圖7所示,圖7a),c),e)表示俯仰角φ分別為-40°,0°,40°的個人化HRTF定位結果。b),d),f)表示俯仰角φ分別為-40°,0°,40°的人工頭HRTF定位結果。方塊大小表示受試者判斷的結果落在該方位的人數占總人數的百分比。斜率為1的線表示預測方位與實際方位一致。斜率為-1的線上則表示前后混淆的結果。

圖7 各俯仰角定位結果
對比個人化和人工頭的定位效果,根據各俯仰角定位錯誤率和前后混淆率作圖8和圖9。

圖8 各俯仰角定位錯誤率

圖9 各俯仰角前后混淆率
對比人工頭和個人化HRTF對應的主觀實驗結果發現:
1)基于實測生理參數獲得的個人化HRTF數據的平均定位錯誤率和前后混淆率均低于人工頭的HRTF數據定位結果,說明基于多維生理參數的頭相關傳遞函數個人化方法能夠有效地降低前后混淆率,提高定位的精度。
2)測試者對位于左右的聲音要比前后的聲音感知正確率高,測試者對位于上方的聲音要比下方的聲音感知正確率高,各俯仰角的定位精度由高到低,依次為0°,±20°,±40°,60°,80°。
本文將主成分分析法和相關分析法相結合,應用于多維生理參數的優選,實現了生理參數的降維,又利用數據庫匹配法實現了頭相關傳遞函數的個人化預測,分別通過譜失真和主觀聽覺實驗對預測HRTF的有效性進行了驗證。結果顯示,通過個人化處理,能提高定位準確率4.6%,降低前后混淆率2.2% 。
⑨Ahmed Elgammal;Bingchen Liu;Mohamed Elhoseiny;Marian Mazzone,CAN:Creative Adversarial Networks Generating“Art”by Learning About Styles and Deviating from Style Norms,eprint arXiv:1706.07068.06/2017.
參考文獻:
[1] 謝菠蓀. 頭相關傳輸函數與虛擬聽覺[M].北京:國防工業出版社,2008: 100-101
Xie Bosun. Head Related Transfer Function and Virtual Auditory[M]. Beijing, National Defense Industry Press, 2008: 100-101 (in Chinese)
[2] 曾向陽. 頭相關傳遞函數的個人化方法[J]. 電聲技術, 2007, 31(8): 41-46
Zeng Xiangyang. Head-Related Transfer Function Personalization[J]. Electroacoustic Technology, 2007, 31(8): 41-46 (in Chinese)
[3] Cooper D H. Calculator Program for Head-Related Transfer Functions[J]. Audio Eng Soc, 1982, 30:34-38
[4] Algazi V R, Duda R O, Duraiswami R, et al. Approximating the Head-Related Transfer Function using Simple Geometric Models of the Head and Torso[J]. Acoust Soc Am, 2002, 112(5): 2053-2064
[5] Kahana Y, Nelson P A, Petyt M. Boundary Element Simulation of HRTFs and Sound Fields Produced by Virtual Sound Imaging System[C]∥AES 105 Convention, San Francisco, CA, USA, 1998, Preprint:4817
[6] Jin C, Leong P, Leung J, et al. Enabling Individualized Virtual Auditory Space Using Morphological Measurements[C]∥Proceedings of the First IEEE Pacific-Rim Conference on Multimedia, 2000, 235-238
[7] Guillon P, Guignard T, Nicol R. Head-Related Transfer Function Customization by Frequency Scaling and Rotation Shift Based on a New Morphological Matching Method[C]∥AES 125th Convention, 2008
[8] Zotkin D N, Duraiswami R, Grassi E, et al. Fast Head-Related Transfer Function Measurement via Reciprocity[J]. Acoust Soc Am, 2006, 120(4): 2202-2215
[9] Brown C P, Duda R O. A Structural Model for Binaural Sound Synthesis[J]. IEEE Trans on Speech and Audio Processing, 1998, 6(5): 476-488
[10] Breebaart J. Effect of Perceptually Irrelevant Variance in Head-Related Transfer Functions on Principal Component Analysis[J]. Journal of the Acoustical Society of America, 2013,133(1):EL1-EL6
[11] Xie B S. Recoverry of Individual Head-Related Transfer Functions from a Small Set of Measurements[J]. Journal of the Acoustical Society of America, 2012, 132(1): 282-294
[12] 王曙光. 基于數據庫匹配的HRTF個人化方法[D]. 西安: 西北工業大學, 2010
Wang Shuguang. HRTF Personalization Method Based on Database Matching[D]. Xi′an, Northwestern Polytechnical University, 2010 (in Chinese)