999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種局部線性嵌入的空間聽覺重建方法

2011-10-20 12:39:56湯永清黃青華
上海大學學報(自然科學版) 2011年2期

湯永清, 方 勇, 黃青華

(1.上海大學通信與信息工程學院,上海 200072;2.麗水學院計算機與信息工程學院,浙江麗水 323000)

一種局部線性嵌入的空間聽覺重建方法

湯永清1,2, 方 勇1, 黃青華1

(1.上海大學通信與信息工程學院,上海 200072;2.麗水學院計算機與信息工程學院,浙江麗水 323000)

空間聽覺重建中,頭相關傳輸函數 (head-related transfer function,HRTF)龐大的數據量是影響虛擬聲源合成效率的主要因素之一.為了減少 HRTF的數據存儲,提出一種局部線性嵌入 (locally linear embedding,LLE)空間聽覺重建方法.通過LLE對高維 HRTF數據進行降維,在低維數據空間提取與方位感知相關的特征,然后利用聚類算法進行分類,得到特征 HRTF,而其余非特征 HRTF則可以利用特征 HRTF通過改進插值算法進行重構.與現有的主成分分析法 (principal component analysis,PCA)相比,利用LLE降維后的數據保留了更多的感知信息,利用 HRTF數據間的內在關系,對插值后的數據進行修正,可減少重建誤差.仿真結果表明,該方法能夠有效地減少 HRTF的存儲數據量,有利于提高虛擬聲源的合成效率.

頭相關傳輸函數;局部線性嵌入;流形;空間聽覺重建

空間聽覺研究的目標是建立與聲源方位相關的聽覺環境.已有研究表明,人耳對聲源位置的判斷取決于聲音到達雙耳時的耳間時間差、耳間能量差、頻譜形狀、聽覺經驗以及環境等因素[1-3].聲波經過媒質傳輸到達雙耳時,會受到人的軀干、肩膀、頭部,尤其是耳廓的衍射和濾波,整個過程相當于一個聲學濾波器.通常將該濾波器建模成頭相關傳輸函數(head-related transfer function,HRTF)或頭相關沖激響應(head-related impulse response,HRIR).HRTF或 HRIR包含著關于聲源方位的全部特征信息,在空間聽覺或虛擬現實中起著非常重要的作用,比如可以通過 HRTF合成任意方位的虛擬聲源等.Huang等[4-5]研究了在球諧波域中的插值方法,以及個性化HRTF.在利用 HRTF進行虛擬聲源的合成過程中,為了產生逼真的聽覺效果,研究者們提出了很多HRTF模型[1,6-7],但大都需要較大的 HRTF數據存儲量或較復雜的計算量,從而在應用上影響了虛擬聲源的合成效率.

在模式識別和人工智能領域,為了提高算法或系統的“智能水平”,需要借助對人類認知的過程、心理以及生理的研究成果[3,8],即大腦對外界事物的認知是建立在對其部分感知的基礎之上.因此,本研究提出一種基于非線性流形學習算法——局部線性嵌入 (locally linear embedding,LLE)的空間聽覺重建方法.

1 HRTF數據特征

HRTF是當聲源位于頭部周圍不同方位時所測得的頻率響應,是多種因素共同作用所產生的序列.影響 HRTF的因素很多,而聲源的方位 (包括水平方位角θ、垂直方位角 φ)是其中最重要的因素之一.

就人的聽覺而言,不同方位角的 HRTF既有相似之處,也有各自不同的方位特征.方位角差異越小,其對應的 HRTF數據間的“距離”越小,共性越多.為了定量地描述聲源所處的不同垂直方位角與其所對應的 HRTF之間的關系,下面分別從 HRTF數據的距離以及相關系數兩方面加以說明.

(1)HRTF數據的距離.

角度坐標如圖 1所示.歐氏距離定義為

式中,H表示 HRTF數據,i,j對應不同的方位角.圖2為聲源在垂直面內取不同方位角 φ時 (θ=0°),HRTF之間的歐氏距離灰度圖,其中橫、縱坐標均表

圖 1 角度坐標Fig.1 Angle coord inate

圖 2 各垂直方位角對應的 HRTF之間的距離(θ=0°)Fig.2 D istance between HRTF correspond ing angles respectively(θ=0°)

示垂直方位角.

(2)HRTF數據的相關系數.相關系數的定義為

式中,N為 HRTF的序列長度,⊙表示 Hadamard積,,分別表示第 i個和第 j個 HRTF的方差.圖 3為θ=0°時,各垂直方位角對應的 HRTF之間的相關系數.

圖 3 各垂直方位角對應的 HRTF之間的相關系數(θ=0°)Fig.3 Correlation coeff icients of HRTF between elevation s(θ=0°)

從圖 2可以看出,某一垂直角對應的 HRTF和其鄰近垂直角對應的 HRTF有較小距離,當角度差異增大時,HRTF之間的距離也隨之增大,即相隔較遠的垂直角度對應的 HRTF之間的數據關聯性減弱.圖 3中的 HRTF之間的相關系數說明,鄰近方位的 HRTF之間具有較強的相關性,而當垂直角度的差異變大時,這種相關性就會減弱.因此,在對HRTF進行重構時,可以只保留鄰近角度的幾何性質,利用局部鄰近角度的 HRTF進行線性加權重構,這樣只需求解一個小的線性方程組,所需要的計算量較小.

2 降維算法及 HRTF特征提取

在聚類之前,通常對高維數據先進行降維處理,已有研究均是利用主成分分析 (p rincipal component analysis,PCA)對 HRTF進行降維[2,9].通過對 HRTF數據所構成的自相關矩陣進行特征值分解,選取特征值相對較大的特征向量所組成的空間作為信號空間,忽略特征值相對較小的特征向量所組成的噪聲空間,從而達到數據降維的目的.PCA算法本質上是通過特征向量的線性組合進行降維,屬于線性降維方法.但是,當數據不滿足 PCA的模型假設時,即當數據不能由特征向量的線性組合表示時,則需要尋找一種新的降維方法.

在人臉識別的研究[10]中發現,流形 (manifold)在人腦認識事物的過程中起著至關重要的作用.流形是局部具有歐氏空間性質的空間,由多個局部呈線性關系的小曲面連續聯接而成.人腦認識事物總是先通過對事物的若干關鍵因素的理解,繼而形成對事物的整體認識.人腦從由低維數據所形成的多個不同流形中綜合認識由高維數據所組成的事物,如人臉.因此,根據對人類感知機理的分析,當事物的數據特征不能簡單地描述成特征向量的線性組合,而數據的局部表現出較強的關聯性時,適合采用非線性流形學習算法.

非線性流形學習算法已廣泛應用于人臉識別,將該方法引入到空間聽覺中來,是基于以下原因:①人臉數據與聽覺數據均是與人類感知有關的數據,與傳統的線性降維方法相比,該類方法使得降維后的低維空間數據能夠保留更多的感知信息,發現數據間的內在關系;②從 HRTF數據特性來看,HRTF間的相關性隨著聲源方位角差異的變大而減弱,某一方位的 HRTF只與鄰近方位的 HRTF具有較強的相關性,因此,可以通過少數鄰近方位角的 HRTF對該方位 HRTF進行線性加權重構.

LLE[8]作為一種非線性流形學習算法,其基本思想是在數據點與其鄰域點之間構造一個重構權向量,并在低維數據中保持權值不變,即假設嵌入映射在局部為線性的條件下,最小化重構誤差.LLE算法中關于數據局部線性的假設與 HRTF的數據特性一致,因此,LLE可以作為 HRTE數據的降維工具.

假設存在高維數據 X為一個 D×N的矩陣,即

X=[X1,X2,…,XN]. (3)

給定數據集:X={Xi∈RD|i=1,2,…,N},可以找到映射函數 f,使{Yi=f(Xi)|i=1,2,…,N}滿足,其中Y={Yi∈Rd|i=1,2,…,N},d? D,Y為降維后的數據集.

LLE算法可以進行如下描述.

(1)求向量 Xi的 K個最鄰近向量以及相應的權值,由于局部鄰域內的數據表現出線性關系,因此,Xi可以用 K個最鄰近向量的線性加權和進行估計.

真實值與估計值之間的誤差可用代價函數ε(W)表示為

式中,Wij表示第 j個數據對第 i個估計向量的貢獻,Xj為 Xi的 K個最鄰近向量集中的一個.為了計算Wij,可將代價函數ε(W)最小化,并且要求 Wij滿足兩個約束:①若 Xj屬于 Xi的鄰近向量集,則②若 Xj不屬于 Xi的鄰近向量集,則Wij=0.從而得到兩個新的矩陣W和H,分別存儲權值以及最鄰近向量的索引.

(2)將高維向量 Xi映射到低維空間中,得到數據 Yi,而向量之間的權值和鄰近關系保持不變.降維后的數據 Y中包含著高維數據的特征,同時使得維數遠小于原有數據的維數,有利于進行分類處理.

3 分類算法及插值算法

3.1 分類算法

HRTF數據之間既有區別,又互相聯系,在分類前并沒有一個非常明確的類別區分標志,因此,適宜采用無監督的學習分類算法——k-均值分類算法.該算法的目的是將降維后的數據劃分成 k類,使得各個向量到其對應的聚類中心向量的歐氏距離最短,即類內平方和最小.根據平方誤差準則,代價函數可以寫為

式中,Yi為被分類的數據集,表示 Y的均值,Nclass為經驗值,表示需要分類的數目,可以通過多次實驗的方法獲得.uij有兩個約束:①當 Yi不屬于第 j類時,uij=0;②當 Yi屬于第 j類時,uij=1.通過最小化代價函數,可以得到 k類聚類中心.對于 HRTF而言,聚類中心為 k列 HRTF,由于 HRTF數據中列與聲源的方位是一一對應的,因此,若將聚類中心作為特征 HRTF,則其對應的聲源方位稱為特征方位.

3.2 插值算法

利用聚類算法可從 HRTF數據庫中得到具有代表性的特征 HRTF,其余的 HRTF可以通過對特征HRTF插值進行重構得到.這樣只需存儲特征 HRTF數據,就可以完成對全部 HRTF數據的重構,從而有效地減少了需要存儲的數據量.

從前面的分析可知,某一方位的 HRTF可以表示成鄰近方位數據的線性加權和形式,這是由HRTF數據間的內在關系所決定的.

改進后的插值算法,可分為以下兩步.

(1)線性內插,即直接由特征 HRTF對其余方位的 HRTF作線性內插.

(2)對插值后數據進行修正.

For i=1∶N

從 H讀取 Xi對應的最鄰近向量;

從W讀取相應的權值W(:,i);

For j=1∶d

利用 Xi=∑jW(j,i)X(:,H(j))進行修正;

End

End

修正后的插值方法充分利用了 HRTF數據間的內在關系,插值效果較好.

4 仿真結果

仿真實驗數據采用加州大學戴維斯分校圖像處理和計算中心所提供的 HRTF數據庫[11].該數據庫包括 45種耳廓,每個耳廓有 1 250個采樣位置,其中水平位置 50個,垂直角 25個,采樣頻率為 44.1 kHz.每個 HRIR長度為 200個點,采樣時間為 4.5 ms.垂直角從 -45.000°~230.625°等間隔分布 ,間隔為 5.625°.水平角從 -80°~80°等間隔分布 ,間隔為 5°.本研究的仿真實驗均是在 3#耳廓對應的HRTF數據庫下完成的.

4.1 流形

通過數據降維,可以發現數據與主要因素之間的關系[12].當測試聲源的水平方位與垂直方位固定時,每個 HRTF就有 N個采樣點的序列,在 N維空間中,該序列可以視為一點.當垂直角連續變化時,將其在N維空間中描繪出的一維曲線稱為流形,該曲線反映的是垂直方位角與 HRTF之間的關系.流形中包含著垂直方位信息.

本實驗考慮在垂直面上θ=0°的情形.利用LLE將 HRTF數據庫降成一維,即只保留垂直方位角,一維流形如圖 4所示.對于 HRTF數據庫,垂直方位角差距較大的 HRTF的歐氏距離可能會很接近.但垂直方位相差越遠,流形距離越遠,越能較好地區別聲源垂直方位上的差異.從圖中可以看到,雖然垂直角是均勻間隔的,但所形成的流形距離并非均勻變化,即流形曲線為非線性的.而從局部來看,數據之間又呈現出線性特點,因此,流形是由若干個局部線性的小曲線連續聯接而成的.

圖 4 一維流形與特征角度Fig.4 One d imensionalman ifold and representative angles

4.2 LL E和 PCA算法比較

在 LLE算法中,有 2個參數需要設定:最近鄰向量個數 K和維數 d.在仿真實驗中,設 K=3,d=6,同時給出利用 PCA進行數據恢復的結果.PCA中主分量的個數選取為 6,其特征值之和占總特征值之和的 95.61%.圖 5所示為使用 2種降維方法的數據恢復后的 HRTF與測量得到的 HRTF的比較 (θ=0°,φ =0°),其中 LLE數據恢復利用了 HRTF之間的鄰近關系.從圖中可以看出,在低頻段,2種算法的重構效果基本一致,但在高頻段,LLE算法的重構效果好于 PCA算法,這是因為 PCA算法中丟棄的那部分分量與聲源的高頻有關,即與頭部、肩膀、衣服的散射作用有關.

圖 5 PCA,LL E數據恢復與測量之間的比較(θ=0°,φ =0°)Fig.5 Data compar ision w ith PCA,LL E and measurement(θ=0°,φ =0°)

歸一化誤差定義為

圖 6為 PCA和 LLE重構歸一化誤差.可以看到,基于 LLE的數據恢復的誤差總體上小于基于PCA的數據恢復誤差.但是在垂直角為 -45°時,LLE的數據恢復誤差大于 PCA,原因在于 LLE算法是利用最鄰近垂直方位的 HRTF的線性加權和進行數據恢復,一般在該垂直方位的左右兩邊選擇最鄰近垂直方位,而 -45°是垂直方位的起始角,在尋找對應的最鄰近垂直方位時會出現比較大的誤差.但總體而言,非線性流形學習算法比傳統線性降維算法的優越性表現在:①無需設置過多的參數;②LLE算法是基于流形的內在幾何性質,能發現數據間的內在聯系,降維后的數據可保留更多與感知有關的信息,數據恢復誤差小;③避免了 PCA算法中的奇異值分解.

圖 6 PCA和 LL E重構歸一化誤差Fig.6 Normalized recon structive error s between PCA and LL E

4.3 特征 HRTF及重構

LLE算法將高維數據降成低維數據,保留了更多感知信息.從低維數據中聚類出特征 HRTF.為了表述方便,特征 HRTF用對應的特征方位表示.經過多次實驗得出,分類個數大于 10時可以獲得較好的插值重構.此處選取θ=0°的一組數據,選擇分類數為 10,聚類中心由對應的特征方位表示,結果為 0°,39.375°,67.500°,95.625°,123.750°,157.500°,180.000°,191.250°,208.125°,225.000°.特征方位在圖 4中用“*”標出.

利用 HRTF進行虛擬聲源模擬時,只需在計算機中存儲上述特征方位所對應的 HRTF,其余的HRTF可以通過特征 HRTF插值得到.圖 7給出了線性內插法重構波形、修正后的插值重構波形與測量值的比較.測量的 HRTF對應方位為θ=0°,φ=0°.線性插值方法直接在 Matlab中實現,所使用的類型為“linear”,調用函數“interp1”實現.

圖 7 插值重構比較Fig.7 Reconstruction compar isons w ith interpolation,m od if ied in terpolation and m easurem en t

為了進一步衡量各角度的插值效果,圖 8給出了各垂直方位角對應的 HRTF的誤差比較.可以看出,由于改進的插值算法充分利用了數據間的內在關系,重構后的效果整體上比直接使用插值算法的效果要好.

總體誤差定義為

圖 8 全方位插值重構誤差比較Fig.8 Reconstruction error compar isons in azim uth

式中,Aj為比較數據,Mj為測量數據.直接內插以及改進后插值的總體誤差如表1所示.改進后的插值總體誤差比直接線性內插減少了近 4 dB.

表1 總體誤差Table 1 Total error

5 結 束 語

本研究在分析 HRTF數據的特征后,將人臉識別中非線性降維算法引入到空間聽覺中.與傳統的線性降維方法相比,降維后的數據保留了更多的感知信息,有利于數據的聚類.并在此基礎上,針對虛擬聲源合成的實時性問題,提出了一種基于非線性流形學習的空間聽覺重建方法.降維后的數據利用聚類算法聚出 k個中心,即特征 HRTF,其余的HRTF可根據特征 HRTF進行插值重構.在插值過程中,利用數據間的關系對插值過程進行修正,使得重構結果更接近于真實值.實驗結果表明,該方法能有效地減少 HRTF的存儲數據量,有利于提高虛擬聲源合成的效率.

[1] BLAUERT J P.Spatial hearing[M].Massachusetts:M IT Press,1997.

[2] ZOTKIN.Rendering localized spatial audio in a virtual auditory space[J]. IEEE Transaction on Multimedia.2004,6(4):553-564.

[3] HACHHABIBOGLU H,MURTAGH F.Perception based simp lification for binaural room auralization [C]∥Proceeding of the International Conference on Auditory Display.2006:268-271.

[4] HUANG Q H,FANG Y. Interpolation of head-related transfer functions using spherical Fourier expansion[J].Journal of Electronics(China),2009,26(4):571-576.

[5] HUANGQ H,ZHUANGQ L.HRIR personalization using support vector regression in independent feature space[J].Electronics Letters,2009,45(19):1002-1003.

[6] SHIMADA S,HAYASHIS.A clusteringmethod for sound localization transfer functions[J].Journal of the Audio Engineering Society,1994,42:577-583.

[7] HUANG Q H,FANG Y.Modeling personalized headrelated impulse response using support vector regression[J].Journal of Shanghai University:English Edition,2009,13(6):428-432.

[8] ROWERS S, SAUL L. Non-linear dimensionality reduction by locally linear embedding[J]. Science,2000,290:2323-2326.

[9] KAPROLOS B,MEKUZ N,KOPINSKA A,et al.Dimensionality reduced HRTFs:a comparative study[C]∥ Proceedings of Advances in Computer Entertainment Technology.2008:59-62.

[10] SEUNG H S,LEE D D.Themanifold waysof percep tion[J].Science,2000,290:2268-2269.

[11] ALGAZIV R,DUDA RO,THOMOSON DM.The CIPIC HRTF database[C]∥Proc 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.2001:99-102.

[12] DURA IWWAM I R,RAYKAR V C.The manifolds of spatial hearing [C]∥ Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing.2005:285-288.

Recon struction of Spatial Hear ing Based on L ocally L inear Em bedd ing

TANG Yong-qing1,2, FANG Yong1, HUANGQing-hua1
(1.School of Communication and Information Engineering,Shanghai University,Shanghai200072,China;2.School of Computer and Information Engineering,LishuiUniversity,Lishui 323000,Zhejiang,China)

In spatial hearing,massdata of head-related transfer function(HRTF)isa factor that greatly influences the synthesis of virtual sounds. To reduce the data used,we propose a spatial hearing reconstruction method based on locally linear embedding(LLE).Using LLE,high dimensionality is mapped to a lower dimensional dataset suitable for regressive analysisand classification.To classify by an unsupervised cluster method,a representative HRTF is extracted from all HRTFs.Other HRTFs can be reconstructed in spatial hearing from the representative HRTF with modified interpolation.Compared to the p rincipal component analysis(PCA),the data w ith reduced dimension obtained by using LLE preservemoreperceptive information.Relationsamong the HRTF data can be found,withwhichmodified interpolation can be obtained and HRTF reconstruction error can be reduced.Simulation results show that the proposed method effectively reduces HRTF data. It is useful to imp rove efficiency of synthesis for virtual sound source in practical applications.

head-related transfer function(HRTF);locally linear embedding(LLE);manifold;spatial hearing reconstruction

TN 911.7

A

1007-2861(2011)02-0119-06

10.3969/j.issn.1007-2861.2011.02.003

2010-04-20

國家自然科學基金資助項目 (61001160);上海市自然科學基金資助項目 (08ZR1408300);上海市重點學科建設資助項目(S30108);上海市科委重點實驗室資助項目(08DZ2231100)

方 勇 (1964~),男,教授,博士生導師,博士,研究方向為盲信號處理、通信信號處理等.E-mail:yfang@staff.shu.edu.cn

(編輯:趙 宇 )

主站蜘蛛池模板: 日本黄色a视频| 午夜不卡福利| 国产精品私拍在线爆乳| 91香蕉国产亚洲一二三区| 亚洲一区二区在线无码| 国产91麻豆免费观看| 中文字幕在线看| a亚洲视频| 在线视频精品一区| 日本精品中文字幕在线不卡| 亚洲综合色区在线播放2019| 午夜欧美在线| 很黄的网站在线观看| 久久精品视频一| 99在线国产| 国产女人18毛片水真多1| 一级黄色欧美| 99久久精品国产综合婷婷| 精久久久久无码区中文字幕| 五月激情婷婷综合| 97se亚洲| 欧美日韩国产精品va| 亚洲第一成网站| 久久人人爽人人爽人人片aV东京热| 日韩在线影院| 8090午夜无码专区| 精品少妇人妻av无码久久| 99久久99这里只有免费的精品| 国产区福利小视频在线观看尤物| 色婷婷丁香| 日本免费精品| 青青草国产一区二区三区| 精品成人一区二区| 欧美成人手机在线观看网址| 在线观看国产一区二区三区99| 天天躁夜夜躁狠狠躁躁88| 精品国产成人高清在线| 国产精品亚洲专区一区| 国产成人艳妇AA视频在线| 91精品国产情侣高潮露脸| 成人久久精品一区二区三区| 国产乱人伦精品一区二区| 午夜国产大片免费观看| 在线观看欧美精品二区| 日韩成人在线一区二区| 国产呦视频免费视频在线观看| 欧美人人干| 午夜精品区| 男女男精品视频| 9cao视频精品| 高清无码不卡视频| 91区国产福利在线观看午夜| 777午夜精品电影免费看| 无码中字出轨中文人妻中文中| 色精品视频| 国产青青草视频| 欧美一级特黄aaaaaa在线看片| 欧美va亚洲va香蕉在线| 欧美曰批视频免费播放免费| 午夜福利网址| 伊人久综合| 色婷婷综合激情视频免费看| 草草影院国产第一页| 被公侵犯人妻少妇一区二区三区| 欧美激情视频一区| 国产麻豆va精品视频| 5388国产亚洲欧美在线观看| 老司机久久99久久精品播放 | 国产精品观看视频免费完整版| 久久99国产综合精品女同| 亚洲成网777777国产精品| 亚洲精品欧美日韩在线| 国产女人爽到高潮的免费视频| 国产一级片网址| aa级毛片毛片免费观看久| 华人在线亚洲欧美精品| 国产午夜福利片在线观看| 在线免费a视频| 在线视频亚洲色图| 国产91色| 亚洲日本韩在线观看| 色综合狠狠操|