摘要:個性化的頭相關(guān)傳輸函數(shù)(head-related transfer function,HRTF)可以有效改善空間音頻質(zhì)量。針對個性化HRTF難以精確獲得的問題,提出了一種基于層級集成的個性化空間音頻生成方法。該方法通過三個模型逐層建立個性化HRTF中的定位信息。首先,采用高斯混合模型建立用戶無關(guān)的共用模型。然后,采用自編碼器獲得與用戶有關(guān)的HRTF的隱表示,利用深度神經(jīng)網(wǎng)絡(luò)在人體生理參數(shù)與HRTF的隱表示之間建立非線性映射,得到用戶有關(guān)的個性化模型。為了盡可能恢復(fù)個性化HRTF細(xì)節(jié)信息,對上述模型降維過程中的殘差進(jìn)行線性建模,得到殘差模型。對于目標(biāo)用戶,任意空間位置處的個性化的HRTF可以通過集成三個層次下的模型獲得,用于生成三維空間音頻。最終,實(shí)驗(yàn)結(jié)果表明,提出的算法可以有效降低HRTF頻譜損失,提升對個性化HRTF的預(yù)測性能。
關(guān)鍵詞:頭相關(guān)傳輸函數(shù);個性化;定位感知;自編碼器;空間音頻
中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2022)04-020-1075-05
doi:10.19734/j.issn.1001-3695.2021.09.0375
Hierarchical integration-based individualized spatial audio technique
Lu Jinyan1,Qi Xiaoke2
(1.School of Electrical Information Engineering,Henan University of Engineering,Zhengzhou 451191,China;2.School of Information Management for Law,China University of Political Science amp; Law,Beijing 102249,China)
Abstract:The individualized head-related transfer function(HRTF) can effectively improve the quality of spatial audio.Aiming at the problem of the difficulty of acquiring individualized HRTFs accurately,this paper proposed an individualized spatial audio generation method based on hierarchical integration.The method utilized three models to obtain the location information of individualized HRTFs layer by layer.Firstly,the method built a user-independent common model using the Gaussian mixture model.Secondly,it trained the AutoEncoder to generate the latent representation of user-dependent HRTFs.Then,it used a deep neural network to build the nonlinear mapping between human anthropometric parameters and the latent representation of HRTFs,resulting in a user-dependent individualized HRTF model.In order to recover the spectrum details of the individualized HRTFs as much as possible,it modeled the residual in the process of dimension reduction linearly to obtain the residual model.For target users,the individualized HRTFs at any spatial location could be obtained by integrating the three models and then used to generate the spatial audio.Finally,the experimental results show that the proposed method can reduce the spectrum loss of HRTFs effectively,and improve the predictive performance of individualized HRTF.
Key words:head-related transfer function;individualization;localization perception;AutoEncoder;spatial audio
0引言
近年來,虛擬現(xiàn)實(shí)(virtual reality,VR)技術(shù)受到越來越多的關(guān)注。VR技術(shù)包含虛擬視覺、虛擬聽覺、虛擬觸覺、虛擬味覺等。其中,虛擬聽覺技術(shù)產(chǎn)生與位置相關(guān)的三維空間音頻,使用戶體驗(yàn)到和物理世界相同的聽覺感受,重點(diǎn)是使用戶感知到與自然聽覺相同的空間位置信息。
人類的聽覺過程通常可視為聲源—信道—接收模型,其中信道包含聲源經(jīng)過人體不同部位的衍射、干擾,最終到達(dá)鼓膜的過程,可看做一個空間數(shù)字濾波器,稱為頭相關(guān)傳輸函數(shù)(head-related transfer function,HRTF),它包含了聲波與身體部位之間的交互引起的所有譜特征[1]。由于每個人的生理結(jié)構(gòu)不盡相同,HRTF譜特征是極其個性化的,所以使用個性化的HRTF可以改善用戶在虛擬場景下的定位準(zhǔn)確度,是提高空間音頻質(zhì)量的重要手段。最理想的個性化HRTF獲取方法是在消聲室中直接測量每個用戶連續(xù)三維空間的HRTF[2]。然而,這種方法較為耗時、成本較高且難以進(jìn)行擴(kuò)展。考慮到HRTF與人體生理參數(shù)的依賴關(guān)系,研究人員采用基于人體生理參數(shù)的回歸方法來預(yù)測個性化HRTF。
這類方法采用數(shù)據(jù)庫中已知用戶的人體生理參數(shù)建立目標(biāo)用戶人體生理參數(shù)的生成模型,基于已知用戶的HRTF模型參數(shù)生成個性化HRTF。文獻(xiàn)[3]假設(shè)目標(biāo)用戶的HRTF能夠用與人體生理參數(shù)相同的線性模型表示,直接利用已知用戶與目標(biāo)用戶的人體生理參數(shù)之間的權(quán)重并加權(quán)已知用戶的HRTF來獲得目標(biāo)用戶的個性化HRTF。文獻(xiàn)[4]調(diào)研了不同的數(shù)據(jù)預(yù)處理與后處理方法,結(jié)果表明處理過程能夠改善HRTF個性化的性能。文獻(xiàn)[5]針對文獻(xiàn)[3]的相同模型權(quán)重假設(shè),分別建立用戶之間的人體生理參數(shù)模型與HRTF模型,并在兩個模型之間建立映射,從而獲得目標(biāo)用戶的HRTF。然而這些方法中,大多采用線性模型,而多個用戶之間的人體生理參數(shù)與HRTF存在非線性關(guān)系。
另一類方法是先對HRTF降維,然后在人體生理參數(shù)與降維后的HRTF之間建立映射關(guān)系,根據(jù)目標(biāo)用戶的人體生理參數(shù)獲得降維后的個性化HRTF后,再重建完整HRTF。文獻(xiàn)[6]采用獨(dú)立成分分析(independent component analysis,ICA)技術(shù)對HRTF進(jìn)行降維,然后采用支持向量回歸技術(shù)建立個性化HRTF預(yù)測模型;文獻(xiàn)[7~10]采用主成分分析(principal component analysis,PCA)、流形學(xué)習(xí)、壓縮感知等方法對HRTF降維,通過人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN) 在人體生理參數(shù)與降維后的HRTF之間建立模型;文獻(xiàn)[11]采用自編碼器方法提取HRTF的隱表示,然后在人體生理參數(shù)與HRTF隱表示之間建立模型;文獻(xiàn)[12]采用編碼器將信號映射到頻率空間,通過解碼器映射回波形域,從而獲得空間音頻。這類方法中,降維及重建過程會損失HRTF的細(xì)節(jié)信息,這些細(xì)節(jié)信息往往與三維空間內(nèi)的定位線索有關(guān),進(jìn)而影響空間音頻的質(zhì)量。
針對上述問題,本文提出一種基于層級集成的個性化空間音頻生成方法,該方法分別建立與用戶無關(guān)的共用模型、用戶有關(guān)的個性化模型及殘差模型來恢復(fù)個性化HRTF中的定位信息。首先,采用高斯混合模型(Gaussian mixed model,GMM) 得到用戶無關(guān)的共用模型。然后,采用深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)在與用戶有關(guān)的HRTF與人體生理參數(shù)之間建立映射,得到個性化模型。為了盡可能恢復(fù)個性化HRTF細(xì)節(jié)信息,對上述模型降維過程中的殘差進(jìn)行線性建模。集成三個層次下的模型,獲得個性化的HRTF。最終,可利用個性化HRTF生成三維空間音頻。
1基于層級集成的個性化空間音頻生成方法
本文提出的基于層級集成的個性化空間音頻生成方法框圖如圖1所示。整個過程分成訓(xùn)練和音頻生成兩個階段。在訓(xùn)練階段,基于數(shù)據(jù)庫中用戶的人體生理參數(shù)與相應(yīng)的HRTF建立與用戶無關(guān)的共用模型、基于DNN的個性化模型與線性殘差模型。在音頻生成階段,首先根據(jù)目標(biāo)用戶的人體生理參數(shù)與已訓(xùn)練的個性化HRTF模型,獲得目標(biāo)用戶的個性化HRTF預(yù)測。然后與共用模型、殘差模型一起重建完整的HRTF。最后,HRTF與給定的單通道音頻一起生成個性化的空間音頻。
1.1預(yù)處理
基于層級集成的個性化空間音頻生成方法在建模前需要對HRTF和人體生理參數(shù)進(jìn)行預(yù)處理。
1.1.1HRTF預(yù)處理
由于在定位感知中,人類對HRTF的相位譜的細(xì)節(jié)不敏感[13],所以雙耳的最小相位HRTF與雙耳時間延遲(interaural time delay,ITD)可以較好地估計(jì)HRTF[14],則對空間位置d、頻率點(diǎn)f處的左耳或右耳HRTF可表示為
Hd,f=Hmd,f×eφd,f(1)
其中:Hd,f表示左耳或右耳的HRTF,d=1,2,…,Nd,Nd為測量HRTF的空間位置數(shù)目;f=1,2,…,Nf,Nf為每個HRTF譜的頻率點(diǎn)數(shù)目。假設(shè)Hmd,f和φd,f分別表示空間位置d處、頻率點(diǎn)f的最小相位的HRTF幅度譜和相位。
Hmd,f=|Hd,f|(2)
φd,f=-1π∫+∞-∞ln|Hmd,f|f-ξdξ(3)
文獻(xiàn)[15]驗(yàn)證表明HRTF的對數(shù)幅度譜更接近人的聽覺感知,因此,在本文中選用HRTF的對數(shù)幅度譜建模HRTF,表示為
md,f=20 lg Hmd,f(4)
在模型訓(xùn)練前,采用標(biāo)準(zhǔn)歸一化方式對HRTF進(jìn)行預(yù)處理,得到訓(xùn)練樣本的均值為0、方差為1,表示為
Hpd,f=md,f-μfσf(5)
其中:μf和σf分別為所有空間位置的HRTF對數(shù)幅度譜在頻率點(diǎn)f處的均值和標(biāo)準(zhǔn)差;Hpd,f表示左耳或右耳經(jīng)預(yù)處理后的HRTF。假設(shè)左耳和右耳預(yù)處理后的HRTF分別表示為Hp,Ld,f和Hp,Rd,f,可分別基于左耳和右耳的HRTF經(jīng)式(1)~(5)計(jì)算獲得。預(yù)處理后的HRTF表示為Hp=[Hp,LHp,R]∈Nd×2Nf,其中,Hp,X={Hp,Xd,f}∈Nd×Nf,X為L或R。
1.1.2人體生理參數(shù)預(yù)處理
由于人體生理參數(shù)的值均為正數(shù),為了保留這一特性,預(yù)處理時將參數(shù)值歸一化為0~1的數(shù)。對于數(shù)據(jù)庫中第s個用戶的第n個人體生理特征as,n,預(yù)處理過程可表示為
s,n=as,n-mnMn-mn(6)
其中:mn和Mn分別為所有用戶在第n個人體生理特征處的最小值和最大值;s=1,2,…,Ns,Ns為數(shù)據(jù)庫中已有的用戶數(shù)目;n=1,2,…,Na,Na為每個用戶測量的人體生理參數(shù)數(shù)目。
1.2基于GMM的用戶無關(guān)的共用模型
本文提出的基于GMM的共用模型用于獲得與用戶無關(guān)的HRTF,訓(xùn)練數(shù)據(jù)為數(shù)據(jù)庫中所有用戶的HRTF。GMM指多個高斯分布函數(shù)的線性組合,理論上可以擬合出任意類型的分布。因此,共用模型假定HRTF與用戶無關(guān)的分量可用K個高斯分量來表示,則對共用模型的求解問題可表示為
minλHp-∑Kk=1αkpk(Hp)(7)
其中:Hp∈Nd×2Nf為預(yù)處理后的HRTF矩陣;λ={αk,μk,Σk},k=1,2,…,K是GMM中的模型參數(shù),αk是模型中第k個高斯分量的權(quán)重,且有
∑Kk=1αk=1,0≤αk≤1(8)
pk(Hp)是模型中的第k個高斯分量的概率密度分布,表示為
pk(Hp)=1(2π)DΣke-(x-μk)′Σ-1k(x-μk)2(9)
其中:μk和Σk分別為第k個高斯分量的均值和協(xié)方差。本文將采用最大期望算法(expectation-maximization algorithm,EM) 進(jìn)行模型參數(shù)的學(xué)習(xí)。通過學(xué)習(xí)到的參數(shù)混合多個高斯,可得到與用戶無關(guān)的共用HRTF:
Hc=∑Kk=1αkpk(Hp)(10)
1.3基于DNN的個性化模型
如圖2所示,基于DNN的個性化模型在人體生理參數(shù)與去除共用分量之后的個性化HRTF之間建立映射關(guān)系。整個過程分為三步:
a)采用自編碼器對HRTF降維。自編碼器是一種無監(jiān)督的學(xué)習(xí)方法,由編碼器網(wǎng)絡(luò)Enc(·)和解碼器網(wǎng)絡(luò)Dec(·)兩個子網(wǎng)絡(luò)構(gòu)成。自編碼器的輸入和輸出相同,為去除用戶無關(guān)的共用HRTF后的個性化譜,表示為
Hi=Hp-Hc(11)
其中:Hc為2.2節(jié)中的用戶無關(guān)的共用模型獲得的HRTF。
編碼器網(wǎng)絡(luò)學(xué)習(xí)到輸入HRTF的壓縮表示,即隱表示Hz,解碼器網(wǎng)絡(luò)對HRTF的隱表示進(jìn)行解碼,得到HRTF的估計(jì)H⌒i,這一過程表示為
Hz=Enc(Hi)(12)
H⌒i=Dec(Hz)=Dec(Enc(Hi))(13)
b)采用DNN方法在人體生理參數(shù)與HRTF隱表示之間建立非線性映射。模型訓(xùn)練時,輸入為數(shù)據(jù)庫中已知用戶的人體生理參數(shù)預(yù)處理后的值={s,n}及位置d處的方位信息,包含方位角、仰角,則輸入向量可表示為I=[,d]。輸出為對應(yīng)位置d處的HRTF的隱表示Hz,即Hz=Fθ(I),其中,θ為與模型相關(guān)的參數(shù)集合。
訓(xùn)練自編碼器及DNN時,需要使用損失函數(shù)衡量模型的準(zhǔn)確性,本文根據(jù)人類定位感知設(shè)計(jì)了損失函數(shù)。考慮到HRTF對數(shù)幅度譜中包含了大部分定位信息,因此設(shè)計(jì)損失函數(shù)為加權(quán)對數(shù)譜損失(log-spectral distortion,LSD)的均方誤差函數(shù),可表示為
L(θ)=1NdNf∑Ndd=1∑Nff=1[σf(H⌒zd,f-Hzd,f)]2(14)
其中:H⌒zd,f為基于DNN的個性化模型估計(jì)的位置d頻率點(diǎn)f處的HRTF的隱表示。選擇標(biāo)準(zhǔn)差σf作為權(quán)重來補(bǔ)償HRTF預(yù)處理的影響。DNN通過最小化損失函數(shù)L(θ)來最大化客觀性能,得到最優(yōu)模型參數(shù)θ*,表示為
θ*=minθL(θ)(15)
因此,個性化模型的實(shí)際輸出可表示為H⌒z=Fθ*(I)。
c)在預(yù)測階段,給定目標(biāo)用戶的人體生理參數(shù)At,At∈Na,按照式(6)預(yù)處理后,分別經(jīng)訓(xùn)練好的DNN及解碼器網(wǎng)絡(luò)的前向計(jì)算,可得到目標(biāo)用戶在任意位置d處的個性化HRTF的估計(jì)H⌒i,t,表示為
H⌒i,t=Dec(Fθ*([t,d]))(16)
其中:t為預(yù)處理后的人體生理參數(shù)矢量。
1.4線性殘差模型
殘差分量為HRTF中除用戶無關(guān)的共用模型和個性化模型輸出之外的內(nèi)容,表示為
He=Hp-Hc-H⌒i(17)
其中:H⌒i為1.3節(jié)訓(xùn)練的個性化模型的輸出,如式(13)所示。
殘差分量中包含了模型誤差、降維及重建過程中的譜損失等,與HRTF的個性化特征有關(guān)。為了提高準(zhǔn)確度,采用線性回歸模型學(xué)習(xí)個性化HRTF到殘差分量的映射關(guān)系。線性殘差模型的建模問題可表示為
ω*s=minωs(He-∑Nss=1ωsH⌒i(s))(18)
其中:H⌒i(s)表示第s個用戶經(jīng)1.2節(jié)中的個性化模型得到的HRTF估計(jì);ωs表示模型權(quán)重,通過線性回歸模型學(xué)習(xí)后,可得到最優(yōu)模型權(quán)重ω*s。
因此,殘差分量可估計(jì)為
H⌒e,t=∑Nss=1ω*sH⌒i(s)(19)
1.5空間音頻的生成
空間音頻可以通過對單通道音頻與個性化HRTF卷積生成。因此,首先需要獲得個性化HRTF函數(shù)。根據(jù)1.2~1.4節(jié),目標(biāo)用戶的個性化HRTF可基于目標(biāo)用戶的個體生理參數(shù)At,集成三個層次的模型,即共用模型、個性化模型及殘差模型得到,表示為
H⌒p,t=Hc+H⌒i,t+H⌒e,t(20)
其中:H⌒p,t為估計(jì)的預(yù)處理后的HRTF;Hc為共用模型輸出的用戶無關(guān)的結(jié)果;H⌒i,t為式(15)得到的用戶相關(guān)的個性化部分;H⌒e,t為模型殘差估計(jì)。
將H⌒p,t進(jìn)行預(yù)處理過程的逆變換,即根據(jù)式(4)(5)的反向處理,得到目標(biāo)用戶的最小相位HRTFH⌒m,t。加入由路徑傳輸導(dǎo)致的時延,可以得到空間位置d、頻率點(diǎn)f的完整的HRTF為
H⌒td,f=H⌒m,td,fe-j2πfL⌒d/c(21)
其中:L⌒d為要生成的空間音頻所在的位置d與目標(biāo)用戶左耳或右耳之間的距離;c為聲波在空氣中傳輸?shù)乃俣取R虼耍笥叶鶫RTF可表示為H⌒td=[H⌒t,LH⌒t,R]={H⌒td,f}∈Nd×2Nf,其中,左耳和右耳的HRTF分別為H⌒td的前半部分和后半部分,即H⌒t,L∈Nd×Nf,H⌒t,R∈Nd×Nf。
將生成的HRTF通過快速傅里葉逆變換(inverse fast Fourier transform,IFFT) 轉(zhuǎn)換到時域,得到左耳和右耳的頭相關(guān)沖激響應(yīng)(head-related impulse response,HRIR) 函數(shù),分別表示為h⌒t,Ld=IFFT(H⌒t,Ld)和h⌒t,Rd=IFFT(H⌒t,Rd)。
對于左耳及右耳,分別按照目標(biāo)位置d的HRIR函數(shù)進(jìn)行卷積運(yùn)算,則生成帶有空間感知信息的三維音頻信號。假設(shè)單通道音頻信號為s,生成空間音頻的過程可表示為
yL=h⌒t,Lds(22)
yR=h⌒t,Rds(23)
其中:表示卷積操作;yL和yR分別表示生成的左耳及右耳的空間音頻信號。
1.6基于層級集成的個性化空間音頻生成算法
本文提出的基于層級集成的個性化空間音頻生成方法由訓(xùn)練階段、測試階段和音頻生成三個階段構(gòu)成,整個過程如下:
算法1基于層級集成的個性化空間音頻生成算法
訓(xùn)練階段:
a)對數(shù)據(jù)庫中的HRTF,利用式(1)~(5)進(jìn)行預(yù)處理。
b)對數(shù)據(jù)庫中的人體生理參數(shù),利用式(6)進(jìn)行預(yù)處理。
c)共用模型訓(xùn)練:輸入為步驟a)得到的HRTF,利用EM算法學(xué)習(xí)模型參數(shù),根據(jù)式(10)獲得共用HRTF。
d)個性化模型訓(xùn)練:建立圖2所示的訓(xùn)練時的模型結(jié)構(gòu),以式(11)的計(jì)算結(jié)果和步驟b)得到的預(yù)處理后的人體生理參數(shù)為編碼器輸入,以式(14)為損失函數(shù),訓(xùn)練得到個性化模型參數(shù)。
e)殘差模型:以步驟d)個性化模型輸出為輸入,式(17)計(jì)算結(jié)果為輸出,線性回歸訓(xùn)練得到殘差模型。
測試階段:
f)對測試用戶測量人體生理參數(shù),并利用式(6)進(jìn)行預(yù)處理。
g)根據(jù)圖2所示的預(yù)測時的模型結(jié)構(gòu),經(jīng)過前向計(jì)算,得到位置d處的個性化HRTF分量的估計(jì)。
h)根據(jù)步驟e)得到的殘差模型,以步驟g)的結(jié)果為模型輸入,根據(jù)式(19)得到殘差分量。
i)根據(jù)式(20)得到預(yù)處理后的HRTF的估計(jì)。
j)根據(jù)式(4)(5)反向處理后,再根據(jù)式(21)得到測試用戶位置d處的HRTF。
音頻生成:
k)通過IFFT得到時域的HRIR。
l)根據(jù)式(22)(23),分別計(jì)算得到左耳、右耳的音頻信號,從而生成空間音頻。
2實(shí)驗(yàn)驗(yàn)證與分析
2.1數(shù)據(jù)庫及實(shí)驗(yàn)設(shè)置
為了驗(yàn)證提出的層級集成空間音頻生成的性能,采用CIPIC數(shù)據(jù)庫對算法的客觀性能和主觀性能分別作出評測[16]。CIPIC數(shù)據(jù)庫采集了43位用戶的人體生理參數(shù)及空間HRTF。對每位用戶均采集了37個人體生理參數(shù),其中包含17個頭部及軀干參數(shù)和20個耳廓參數(shù),耳廓參數(shù)中左、右耳各10個參數(shù)。同時,對每位用戶均測量了來自1 250個空間位置上的HRIR,其中,測量位置距用戶1 m,均勻取球面上的25個水平角及50個仰角。每個HRIR的采樣率為44.1 kHz,長度為4.5 ms(即200個點(diǎn))。
2.2數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置
首先,需要對CIPIC數(shù)據(jù)集進(jìn)行預(yù)處理。采用256點(diǎn)的快速傅里葉變換將HRIR轉(zhuǎn)換為頻域HRTF。然后,對數(shù)據(jù)庫中的HRTF和人體生理參數(shù)按照1.1節(jié)進(jìn)行預(yù)處理。從CIPIC數(shù)據(jù)集中隨機(jī)選取30個用戶的人體生理參數(shù)及HRTF數(shù)據(jù)為訓(xùn)練集,其余數(shù)據(jù)為測試集,因此共得到37 500個HRTF作為訓(xùn)練樣本,6 250個HRTF作為測試樣本。
在訓(xùn)練時,設(shè)置自編碼器的隱層數(shù)為3;隱表示層節(jié)點(diǎn)數(shù)為20;其余隱層節(jié)點(diǎn)數(shù)為40;DNN隱層數(shù)為3;隱層節(jié)點(diǎn)數(shù)為40;dropout值為0.5;激活函數(shù)采用線性函數(shù),采用Adam優(yōu)化,學(xué)習(xí)率為0.001。
2.3實(shí)驗(yàn)結(jié)果分析
本文采用以下評價(jià)指標(biāo)來評估算法的性能,包括:
a)真實(shí)的HRTF和預(yù)測的HRTF之間的LSD,即
LSD=1NdNf∑Ndd=1∑Nff=1(20 log10|Htd,f||H⌒td,f|)2(24)
其中:Htd,f和H⌒td,f分別表示位置d頻率點(diǎn)f處的真實(shí)HRTF和預(yù)測HRTF。
b)真實(shí)的HRIR和預(yù)測的HRIR之間的均方根誤差(root mean square error,RMSE),為
RMSE=1NdNf∑Ndd=1∑Nff=1(htd,f-h⌒td,f)2(25)
其中:htd,f和h⌒td,f分別表示位置d頻率點(diǎn)f處真實(shí)的HRIR和預(yù)測的HRIR。
c)規(guī)整的RMSE(normalized MSE,NRMSE),人類在定位時對HRIR的能量不敏感,因此通過對HRIR進(jìn)行能量規(guī)整,可以更準(zhǔn)確地評價(jià)HRIR的定位性能。NRMSE表示為
NRMSE=1NdNf∑Ndd=1∑Nff=1(htd,fPhd-h⌒td,fPh⌒d)2(26)
其中:Phd和Ph⌒d分別表示位置d處真實(shí)的HRIR和預(yù)測的HRIR的平均能量,表示為Phd=∑Nff=1|htd,f|2Nf和Ph⌒d=∑Nff=1|h⌒td,f|2Nf。
首先,分別對本文預(yù)測的HRTF在不同頻率處的LSD進(jìn)行評估,結(jié)果如圖3所示。從圖中可以看出,對于左耳和右耳的HRTF,LSD均隨頻率增加有上升趨勢。將全頻率范圍劃分為6個子帶,即0~1 kHz、1~2 kHz、2~4 kHz、4~8 kHz、8~15 kHz和15~22.05 kHz,統(tǒng)計(jì)各個子帶的LSD性能,結(jié)果如圖4所示。從圖中可以看出,低頻范圍內(nèi)的LSD較低,特別是0~4 kHz,LSD在2 dB以下,對于高頻處的HRTF,LSD有所增加。任意選取水平角-80°,仰角-33.75°處的左、右耳真實(shí)HRTF與預(yù)測HRTF進(jìn)行對比分析,如圖5所示。其中,ground truth線上的點(diǎn)表示真實(shí)的HRTF值。可以發(fā)現(xiàn),在低頻處,HRTF變化緩慢,雖有小幅振蕩,但真實(shí)值與預(yù)測值相差不大。而當(dāng)頻率升高,HRTF有多個凹點(diǎn)和峰點(diǎn)出現(xiàn),預(yù)測的HRTF變化趕不上真實(shí)HRTF的變化,因此,預(yù)測結(jié)果與真實(shí)值相差較大。
然后,對本文預(yù)測的左耳和右耳HRTF在不同方位的LSD進(jìn)行分析,如圖6所示,其中橫軸表示水平角,圖中的數(shù)字表示仰角。從圖中可以看出,左耳和右耳HRTF都存在譜損失較大與較小的區(qū)域。從圖6(a)中可以看出,對于左耳,較多的高譜損失的位置分布在仰角230°左右,水平角0°以上,即在后背以下靠右的位置,從這些位置發(fā)出的聲源遠(yuǎn)離左耳,且被頭部遮擋,聲波經(jīng)過更多的折射、散射達(dá)到左耳,因此,HRTF呈現(xiàn)出劇烈振蕩下降的趨勢,如圖7所示。這種情況下基于統(tǒng)計(jì)方法的估計(jì)性能較差,LSD較高。對于右耳,與左耳相對,從圖6(b)中可以看出,較多的高譜損失的位置分布在仰角230°左右,水平角0°以下,即在后背以下左邊的位置,與左耳有同樣的譜特征,LSD也偏高。另外,從圖中也可分析出,左、右耳的低譜損失位置最多的位于仰角0°或90°附近,即頭正前方及頭頂附近位置,聲源從這些位置出發(fā)到達(dá)雙耳,與軀干之間的作用較小,HRTF譜更加平滑,預(yù)測的結(jié)果與真實(shí)值更匹配,因此LSD更小。
最后,將本文算法與其他五種算法進(jìn)行比較,分別為隨機(jī)選擇(random select)、文獻(xiàn)[5,10,11,12]的算法,其中,隨機(jī)選擇方法為從訓(xùn)練集中隨機(jī)選擇一個用戶的HRTF,作為測試集用戶的HRTF,性能比較結(jié)果如表1所示。從表中可以看出,本文算法能有效降低譜損失,相較于對比的幾種算法,性能有所改善,特別是相比隨機(jī)選擇的HRTF有2.24 dB的性能提升,相比較新的基于神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)[11,12]中的算法,分別有0.74 dB和0.41的提升。從時域上來看,本文的算法也能降低估計(jì)HRIR與真實(shí)值之間的距離。對于RMSE,由于真實(shí)的HRIR的值較小,直接進(jìn)行與估計(jì)HRIR的距離對比改善不是很明顯,而規(guī)整化HRIR后,從NRMSE可以看出,本文的算法也能更好地?cái)M合真實(shí)HRIR。因此,本文提出的算法在時域和頻域上性能都能得到提升。
本文提出的算法包括共用分量、個性化分量、殘差分量三個分量,為了研究不同分量對性能的影響,增加了僅使用共用分量、使用共用分量和個性化分量兩種情況的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。可以看出,與僅使用共用分量相比,加入個性化分量極大改善了算法性能,在LSD性能上有26%的改善;加入殘差分量后,LSD有0.25 dB的降低,說明提出的殘差模型能對模型誤差、降維及重建過程中的譜損失進(jìn)行有效補(bǔ)償。
3結(jié)束語
本文針對人類定位感知的個性化問題,提出了一種基于層級集成的個性化空間音頻生成方法。本文算法建立用戶無關(guān)的共用模型、用戶有關(guān)的個性化模型及殘差模型,集成三個層次下的模型,可獲得個性化的HRTF。利用個性化HRTF生成三維空間音頻,可恢復(fù)定位信息。最終,對提出的算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,提出的算法可以有效降低HRTF頻譜損失。但本文算法存在高頻及背部譜損失較高的問題,未來可以采用分區(qū)域方法重點(diǎn)解決高頻譜的個性化重構(gòu)問題,進(jìn)一步提升HRTF的預(yù)測性能。
參考文獻(xiàn):
[1]Cheng C I,Wakefield G H.Introduction to head-related transfer functions(HRTFs):representations of HRTFs in time,frequency,and space[J].Journal of the Audio Engineering Society,2001,49(4):231-249.
[2]Moller H.Fundamentals of binaural technology[J].Applied Acoustics,1992,36(3):171-218.
[3]Bilinski P,Ahrens J,Thomas M,et al.HRTF magnitude synthesis via sparse representation of anthropometric features[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2014:4468-4472.
[4]He Jianjun,Gan W S,Tan E L.On the preproces-sing and postprocessing of HRTF individualization based on sparse representation of anthropometric features[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2015:639-643.
[5]Qi Xiaoke,Tao Jianhua.Sparsity-constrained weight mapping for head-related transfer functions individualization from anthropometric features[C]//Proc of Interspeech.2018:841-845.
[6]Huang Q H,Zhuang Q L.HRIR personalisation using support vector regression in independent feature space[J].Electronics Letters,2009,45(19):1002-1003.
[7]Hu Hongmei,Zhou Lin,Ma Hao,et al.HRTF personalization based on artificial neural network in individual virtual auditory space[J].Applied Acoustics,2008,69(2):163-172.
[8]孟戀.頭相關(guān)傳輸函數(shù)的個性化建模方法研究[D].武漢:武漢大學(xué),2019.(Meng Lian.Research on individualized modeling method of head related transfer function[D].Wuhan:Wuhan University,2019.)
[9]史夢杰,方勇,黃青華,等.基于稀疏表示和神經(jīng)網(wǎng)絡(luò)的頭相關(guān)傳輸函數(shù)個性化方法研究[J].電聲技術(shù),2019,43(3):10-16.(Shi Mengjie,F(xiàn)ang Yong,Huang Qinghua,et al.Research on personalized modeling of head-related transfer function based on sparse representation and neural network[J].Audio Engineering,2019,43(3):10-16.)
[10]Grijalva F,Martini L,F(xiàn)lorencio D A F,et al.A manifold learning approach for personalizing HRTFs from anthropometric features[J].IEEE/ACM Trans on Audio,Speech,and Language Proces-sing,2016,24(3):559-570.
[11]Miccini R,Spagnol S.HRTF individualization using deep learning[C]//Proc of IEEE Conference on Virtual Reality and 3D User Interfaces Workshops.Piscataway,NJ:IEEE Press,2020:390-395.
[12]Yang Zhijian,Choudhury R.Personalizing head related transfer functions for earables[C]//Proc of the ACM SIGCOMM.New York:ACM Press,2021:137-150.
[13]Kulkarni A,Isabelle S K,Colburn H S.Sensitivity of human subjects to head-related transfer-function phase spectra[J].Journal of the Acoustical Society of America,1999,105(5):2821-2840.
[14]Xie Bosun.Head-related transfer function and virtual auditory display[M]//[S.l.]:J.Ross Publishing,2013.
[15]Romigh G D,Brungart D S,Stern R M,et al.Efficient real spherical harmonic representation of head-related transfer functions[J].IEEE Journal of Selected Topics in Signal Processing,2015,9(5):921-930.
[16]Algazi V R,Duda R O,Thompson D M,et al.The CIPIC HRTF database[C]//Proc of IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics.Piscataway,NJ:IEEE Press,2001:99-102.
收稿日期:2021-09-02;修回日期:2021-11-03基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61603390,62173126);河南省科技攻關(guān)項(xiàng)目(202102210187,212102210014)
作者簡介:盧金燕(1985-),女,河南信陽人,講師,博士,主要研究方向?yàn)橹悄芸刂啤⑿盘柼幚怼C(jī)器學(xué)習(xí);戚肖克(1985-),女(通信作者),山東菏澤人,副教授,博士,主要研究方向?yàn)榭臻g音頻、自然語言處理、機(jī)器學(xué)習(xí)、無線通信(qixiaoke@cupl.edu.cn).