基于稀疏表示權(quán)重張量的音頻特征提取算法

2016-05-14 10:37:23林靜楊繼臣張雪源李新超

計(jì)算機(jī)應(yīng)用 2016年5期

林靜楊繼臣張雪源李新超

摘要：為了更好地描述非平穩(wěn)音頻信號(hào)的特征，提出了一種基于Gabor字典和稀疏表示權(quán)重張量的時(shí)頻音頻特征提取方法。該方法基于Gabor字典將音頻信號(hào)編碼為稀疏的權(quán)重向量，并進(jìn)一步將權(quán)重向量中的元素重新排列為張量形式，該張量各階分別刻畫了信號(hào)的時(shí)間、頻率以及時(shí)長(zhǎng)特性，為信號(hào)的聯(lián)合時(shí)頻長(zhǎng)表示。通過對(duì)該張量進(jìn)行因子分解，將分解后得到的頻率因子和時(shí)長(zhǎng)因子拼接為音頻特征。針對(duì)稀疏張量分解時(shí)容易產(chǎn)生過擬合的問題，提出一種自調(diào)整懲罰參數(shù)分解算法并進(jìn)行了改進(jìn)。實(shí)驗(yàn)結(jié)果顯示，所提出的特征相對(duì)于傳統(tǒng)梅爾倒譜系數(shù)（MFCC）特征、MFCC特征及匹配追蹤算法（MP）求解的特征聯(lián)合拼接得到的MFCC+MP特征和非均勻尺度頻率圖特征對(duì)15類音效分類效果分別提升了28.0%、19.8%和6.7%。

關(guān)鍵詞：稀疏表示；張量因子分解；音效分類；時(shí)頻特征

中圖分類號(hào)：TN912.3 文獻(xiàn)標(biāo)志碼：A

Abstract：A joint timefrequency audio feature extraction algorithm based on Gabor dictionary and weight tensor of sparse representation was proposed to describe the characteristic of nonstationary audio signal. Conventional sparse representation uses a predefined dictionary to encode the audio signal as sparse weight vector. In this paper， the elements in the weight vector were reorganized into tensor format. Each order of the tensor respectively characterized time， frequency and duration property of signal， making it the joint timefrequencyduration representation of the signal. The frequency factors and duration factors were concatenated as audio features through tensor decomposition. To solve the overfitting problem of sparse tensor factorization， an automaticadjustpenaltycoefficient factorization algorithm was proposed. The experimental results show that the proposed feature outperforms MFCC （MelFrequency Cepstrum Coefficient） feature， MFCC+MP feature concatenated by MFCC and Matching Pursuit （MP） features， and nonuniform scalefrequency map feature by 28.0%， 19.8% and 6.7% respectively， in 15category audio classification.

Key words：sparse representation；tensor factorization；audio effect classification；timefrequency feature

0 引言

傳統(tǒng)的語音特征通常從頻域或者倒譜域?qū)π盘?hào)進(jìn)行表示，這些特征均假定在一短時(shí)幀內(nèi)信號(hào)的統(tǒng)計(jì)特性平穩(wěn)，即信號(hào)具有短時(shí)平穩(wěn)性。但是這些特征不適用于刻畫非平穩(wěn)的音頻信號(hào)，例如閃電聲和槍聲。為了描述統(tǒng)計(jì)特性隨時(shí)間變化的信號(hào)，基于稀疏表示（Sparse Representation）的方法受到了廣泛的關(guān)注。稀疏表示利用一個(gè)過完備的字典，將信號(hào)編碼為一個(gè)稀疏的權(quán)重向量序列，每個(gè)向量中的非零元素值表示了重建時(shí)對(duì)應(yīng)原子的權(quán)重。有許多文獻(xiàn)使用該權(quán)重向量進(jìn)行信號(hào)分類。Zubair等[1-2]直接使用該權(quán)重向量作為特征進(jìn)行音頻信號(hào)分類，并且通過使用最大投票和平均投票等方法提取更為魯棒的特征。Chu等[3]使用匹配追蹤（Matching Pursuit， MP）算法求解稀疏表示，并且利用分解后原子的頻率和時(shí)長(zhǎng)的均值和方差信息作為梅爾倒譜系數(shù)（MelFrequency Cepstrum Coefficient， MFCC）特征的補(bǔ)充特征。Sivasankaran等[4]對(duì)Chu算法進(jìn)行了改進(jìn)，提出使用權(quán)重計(jì)算加權(quán)的頻率和時(shí)長(zhǎng)平均值和方差作為特征。在上述文獻(xiàn)中，均使用了原子參數(shù)的低階統(tǒng)計(jì)量表征信號(hào)的頻率和時(shí)長(zhǎng)分布特性。但是，由于稀疏表示的目的是使用具有區(qū)分性的原子表示信號(hào)，而計(jì)算這些原子的均值和方差則消除了單個(gè)原子的表征能力。針對(duì)此問題，Wang等[5]提出了非均勻尺度頻率圖（Nonuniform ScaleFrequency Map）特征提取方法，他們構(gòu)建了一個(gè)頻率時(shí)長(zhǎng)圖來保存每個(gè)原子的頻率和時(shí)長(zhǎng)參數(shù)，將該圖向量化后利用主成分分析（Principal Component Analysis， PCA）算法和線性判別式分析（Linear Discriminant Analysis， LDA）算法對(duì)其進(jìn)行降維，但該方法的主要不足是向量化丟失了二維的信息，以及沒有使用對(duì)于時(shí)變信號(hào)分類具有重要作用的時(shí)間信息。

本文提出稀疏表示的張量（Tensor）形式，稱為權(quán)重張量。根據(jù)Gabor字典的3個(gè)參數(shù)，即時(shí)間、頻率和時(shí)長(zhǎng)，將權(quán)重排列到3階張量中，權(quán)重張量中每一個(gè)元素都表示了信號(hào)中某個(gè)瞬時(shí)成分的中心頻率、中心時(shí)間位置以及持續(xù)時(shí)長(zhǎng)，其中頻率、時(shí)間以及時(shí)長(zhǎng)信息通過元素在張量中的索引表示，該瞬時(shí)成分的強(qiáng)度通過元素的值表示，因此該張量是信號(hào)的聯(lián)合時(shí)頻長(zhǎng)表示。該張量表示相比于直接獲取特征向量的方法具有可以聯(lián)合分析信號(hào)成分的優(yōu)勢(shì)，具體地，張量中加入了信號(hào)的時(shí)間信息，該時(shí)間信息可以描述信號(hào)的時(shí)變特性，即瞬時(shí)成分出現(xiàn)的不同時(shí)間位置，該位置對(duì)于瞬時(shí)信號(hào)分類具有重要作用。但是由于其高維和稀疏特性，該張量不適合直接用作特征，因此通過張量因子分解算法將其分解為若干因子向量，并提出了一種自調(diào)整懲罰參數(shù)的分解算法以避免因子分解的過擬合。本文提出的張量特征通過時(shí)頻長(zhǎng)聯(lián)合分析保證了張量分析過程中保留了瞬時(shí)成分的主要特性，從而得到表征能力更強(qiáng)的頻率因子和時(shí)長(zhǎng)因子。

權(quán)重向量和權(quán)重張量均包含了所有原子的權(quán)重信息，只是兩者的排列方式不同。張量元素的索引和Gabor參數(shù)的索引相一致，每個(gè)張量元素需要3個(gè)索引值來標(biāo)示其位置，即時(shí)間、頻率和時(shí)長(zhǎng)索引值，因此張量元素的索引表達(dá)了Gabor原子參數(shù)之間的聯(lián)合關(guān)系。該張量利用其高階特性來聯(lián)合地表達(dá)了權(quán)重與其對(duì)應(yīng)原子的時(shí)間、頻率和時(shí)長(zhǎng)參數(shù)。此外，由于權(quán)重表示了原子的幅度，因此張量是信號(hào)的聯(lián)合時(shí)頻長(zhǎng)表示。例如，張量元素ti， j，k表示信號(hào)中在時(shí)間μi，一個(gè)頻率為fj的分量，其時(shí)長(zhǎng)為σk，強(qiáng)度為|ti， j，k|。

1.3 張量因子分解

張量元素的絕對(duì)值表示了信號(hào)中瞬變成分的強(qiáng)度。對(duì)張量T中每個(gè)元素取絕對(duì)值得到非負(fù)張量|T|。此外，權(quán)重張量與權(quán)重向量一樣均滿足稀疏條件，因此|T|為非負(fù)稀疏張量。本節(jié)中，對(duì)該非負(fù)稀疏張量進(jìn)行分解。傳統(tǒng)的張量分解算法包括CP（Canonical decomposition Parallel factor analysis）算法和Tucker3算法，這些算法針對(duì)的是非稀疏的矩陣，對(duì)稀疏矩陣分解時(shí)會(huì)產(chǎn)生過擬合問題[6]。通常算法會(huì)使用l1范數(shù)懲罰，通過最小化輸出因子的元素的和來避免過擬合[7]，但是該方法沒有指明輸出因子中的哪些元素應(yīng)當(dāng)最小化，因此需要通過多次隨機(jī)初始化和更新過程尋找最優(yōu)解。

在本文中，張量中各部分的稀疏度被用作懲罰參數(shù)，懲罰它們對(duì)應(yīng)的輸出因子元素，因此對(duì)于不同的輸出因子的元素有不同的懲罰參數(shù)。具體地，從張量中稀疏部分分解出的因子元素的懲罰參數(shù)大于從張量緊致部分分解出的因子元素，從而使用更多的非零因子元素近似緊致部分，使用少量的非零因子元素近似張量中的稀疏部分，使得在保證分解準(zhǔn)確性的前提下避免過擬合。同時(shí)，與l1范數(shù)的方法相比，由于指定了每個(gè)輸出因子元素的懲罰值，即指明了哪些因子元素應(yīng)當(dāng)最小化，因此可以在更少的循環(huán)迭代中收斂。

其中當(dāng)代價(jià)函數(shù)值在相鄰兩次迭代中的相對(duì)變化小于一個(gè)門限ε時(shí)停止迭代。

因子w刻畫了數(shù)據(jù)中顯著的頻率值，s表示它們的持續(xù)時(shí)長(zhǎng)，u指出其出現(xiàn)的位置，即以幀起始位置為時(shí)間原點(diǎn)頻率成分出現(xiàn)在幀內(nèi)的時(shí)間位置，但是受到分幀的影響，不同幀之間的u因子不具有共同時(shí)間原點(diǎn)，因此在完成聯(lián)合時(shí)頻長(zhǎng)分解后丟棄該因子，不作為特征。將w和s拼接起來，通過LDA降維后作為特征。

2 實(shí)驗(yàn)和結(jié)果

2.1 權(quán)重張量

本文采用正交匹配追蹤算法（Orthogonal Matching Pursuit， OMP） [9]進(jìn)行信號(hào)的稀疏表示分解。字典原子參數(shù)集設(shè)置如下μ∈{1+32m：0≤m≤15，m∈Z}， f∈{0.5×（m/25）2.6：1≤m≤25， m∈Z}， σ∈{2m：3≤m≤11，m∈Z}，因此權(quán)重張量的維數(shù)是16×25×9，經(jīng)過LDA降維后的特征向量維數(shù)為13。

一短時(shí)幀的女性語音和河流流水聲分別如圖4（a）和（b）所示，其權(quán)重張量分別如圖4（c）和4（d）所示，其中稀疏表示原子數(shù)目選擇為32。圖中尺寸較大的點(diǎn)表示權(quán)重較大的值，反之，尺寸較小的點(diǎn)表示較小的權(quán)重值，權(quán)重為0的元素沒有顯示。如圖4（c）中可見一個(gè)尺寸較大的點(diǎn)，該點(diǎn)的索引為（9，12，6），根據(jù)原子參數(shù)取值該點(diǎn)的中心位置為257個(gè)采樣點(diǎn)，頻率為0.074（即1186Hz），時(shí)長(zhǎng)為256個(gè)采樣點(diǎn)，因此該點(diǎn)表示了在該語音幀中的一個(gè)能量集中的頻率分量。與之相比，圖4（d）中的點(diǎn)能量均相似，且能量普遍較小，與河流流水無顯著頻率成分的事實(shí)相一致。對(duì)比圖4（e）、（g）與圖4（f）、（h）可以看出，語音的中心頻率集中在一個(gè)因子元素上，而河流流水聲相對(duì)較為分散；此外，兩者時(shí)長(zhǎng)因子的分布模式也有較大不同。

2.2 音效分類實(shí)驗(yàn)結(jié)果

本文使用15類音效分類任務(wù)評(píng)估所提出的特征，音效包括男性語音、女性語音、嬰兒語音、掌聲、腳步聲、鳥叫聲、貓叫聲、河流流水聲、雷聲、引擎聲、槍聲、警報(bào)聲、鋼琴聲、小提琴聲和鼓聲。所有音效都是從Digital Juice音效庫Ⅰ和Ⅱ[10]以及BBC（British Broadcasting Corporation）音效庫[11]中收集的，所有音效樣本時(shí)長(zhǎng)介于3～8s，單聲道，16kHz采樣，使用32ms幀和8ms幀移。

高斯混合模型（Gaussian Mixture Model，GMM）對(duì)于該多分類問題有最好并且最穩(wěn)定的分類結(jié)果[3]，因此本文統(tǒng)一采用該分類器對(duì)各組特征進(jìn)行分類實(shí)驗(yàn)比較。GMM的混合度為8，懲罰參數(shù)α、 β和γ通過最優(yōu)化男性和女性語音的二分任務(wù)設(shè)定為0.132、0.109和0.097。門限ε根據(jù)經(jīng)驗(yàn)設(shè)定為0.01。在Matlab 7.14.10仿真平臺(tái)下將本文所提出的13維張量特征（Tensor）與13維MFCC特征、MFCC特征和匹配追蹤算法稀疏分解的MP特征拼接得到的17維聯(lián)合 MFCC+MP特征[3]、16維非均勻尺度頻率圖特征（Map）[5]比較分類效果。此外，為了驗(yàn)證所提出的自調(diào)整懲罰參數(shù)分解算法的有效性，Tensor特征還與CP分解算法（CP）和l1范數(shù)懲罰的CP算法（l1CP）進(jìn)行比較。

每種特征對(duì)所有音效類的平均分類效果如圖5所示，每一類的識(shí)別率定義為正確識(shí)別為該類的樣本數(shù)與該類總樣本數(shù)的比值，所有類的平均識(shí)別率通過10折交叉驗(yàn)證得到。由于稀疏表示中稀疏度的不同會(huì)導(dǎo)致識(shí)別率不同，因此選擇以2為底的對(duì)數(shù)尺度的原子數(shù)目進(jìn)行稀疏表示，分別測(cè)定不同原子數(shù)目下的識(shí)別效果。Tensor特征、非均勻尺度頻率圖特征和MFCC+MP特征對(duì)每一音效類的識(shí)別率如圖6所示。注意，圖6中每種特征對(duì)應(yīng)的原子數(shù)是根據(jù)圖5中該種特征達(dá)到最高識(shí)別率時(shí)的原子數(shù)決定的。

最好的平均識(shí)別率時(shí)由Tensor特征在原子數(shù)為128時(shí)得到的84.8%，非均勻尺度頻率圖Map特征的平均識(shí)別率在原子數(shù)為64時(shí)取得最高，為77.6%。此外，Tensor特征在原子數(shù)目為16～256時(shí)識(shí)別率均高于83%，因此該特征對(duì)原子數(shù)目具有魯棒性。在各原子數(shù)目下，Tensor特征分類效果均優(yōu)于非均勻尺度頻率圖特征，原因在于Tensor特征相比于非均勻尺度頻率圖特征多使用了時(shí)間信息進(jìn)行聯(lián)合分析，而時(shí)間信息對(duì)于瞬變信號(hào)分類具有重要作用。該結(jié)論也可以從圖6中看出，其中，與非均勻尺度頻率圖特征相比，Tensor特征顯著提升了河流流水聲，雷聲，引擎聲和槍聲的分類效果，此外，對(duì)人類語音、掌聲和腳步聲也均有一定提升。MFCC+MP特征最高的識(shí)別率時(shí)8個(gè)原子數(shù)對(duì)應(yīng)的64.6%。Tensor特征較非均勻尺度頻率圖特征、MFCC特征和MFCC+MP特征識(shí)別率分別高出6.7%、28.0%和19.8%。

3 結(jié)語

本文以音效分類為應(yīng)用背景，提出了一種基于稀疏表示權(quán)重張量的特征提取方法，刻畫了音頻信號(hào)中瞬變成分的特性。Gabor原子的時(shí)間、頻率以及時(shí)長(zhǎng)特性用來建立一個(gè)張量，描述了信號(hào)的聯(lián)合時(shí)頻長(zhǎng)分布特點(diǎn)。該張量刻畫了信號(hào)更多具有區(qū)分力的特性，并且利用張量分解得到描述信號(hào)短時(shí)幀內(nèi)頻率分布的頻率因子和時(shí)長(zhǎng)分布的時(shí)長(zhǎng)因子。該張量結(jié)構(gòu)和因子分解過程相比于直接進(jìn)行向量特征提取的方法描述了更多信號(hào)的區(qū)分特性。此外針對(duì)稀疏張量分解還提出了一種自調(diào)整懲罰參數(shù)分解算法，利用張量的稀疏度動(dòng)態(tài)作為懲罰參數(shù)，有效避免了過擬合。實(shí)驗(yàn)結(jié)果顯示，所提出的張量特征對(duì)15類音效的分類效果顯著優(yōu)于其他特征。

參考文獻(xiàn)：

[1]ZUBAIR S，WANG W. Audio classification based on sparse coefficients[C]// Sensor Signal Processing for Defence （SSPD 2011）. London， UK： The Institution of Engineering and Technology Press， 2011：1-5.

[2] ZUBAIR S， YAN F， WANG W. Dictionary learning based sparse coefficients for audio classification with max and average pooling[J]. Digital Signal Processing， 2013， 23（3）：960-970.

[3] CHU S， NARAYANAN S，KUO C C J. Environmental sound recognition with timefrequency audio features[J]. IEEE Transactions on Audio， Speech， and Language Processing， 2009， 17（6）：1142-1158.

[4] SIVASANKARAN S， PRABHU K M M. Robust features for environmental sound classification[C]// Proceedings of the 2013 IEEE International Conference on Electronics， Computing and Communication Technologies. Piscataway， NJ： IEEE， 2013：1-6.

[5] WANG J C， LIN C H，CHEN B W， et al. Gaborbased nonuniform scalefrequency map for environmental sound classification in home automation[J]. IEEE Transactions on Automation Science and Engineering， 2014，11（2）：607-613.

[6]TAKEUCHI K， ISHIGURO K， KIMURA A， et al. Nonnegative multiple matrix factorization[C]// Proceedings of the 23rd International Joint Conference on Artificial Intelligence. Beijing： AAAI， 2013： 1713-1720.

[7]LIU J， LIU J， WONKA P， et al. Sparse nonnegative tensor factorization using columnwise coordinate descent[J]. Pattern Recognition， 2012， 45（1）：649-656.

[8]CICHOCKI A， ZDUNEK R，PHAN A H， et al. Nonnegative Matrix and Tensor Factorizations： Applications to Exploratory Multiway Data Analysis and Blind Source Separation[M]. New York： John Wiley & Sons， 2009：35-37.

[9]CHANG L H， WU J Y. An improved RIPbased performance guarantee for sparse signal recovery via orthogonal matching pursuit[J].IEEE Transactions on Information Theory， 2014， 60（9）：5702-5715.

[10]Digital Juice， Incorporated. The digital juice sound FX library[DB/OL].[2015-05-20]. http：//www.digitaljuice.com.

[11]British Broadcasting Corporation （BBC）.BBC sound effects library[DB/OL]. [2015-05-20]http：//www.soundideas.com/bbc.html.

計(jì)算機(jī)應(yīng)用2016年5期

計(jì)算機(jī)應(yīng)用的其它文章: 適應(yīng)異構(gòu)集群的Mesos多資源調(diào)度DRF增強(qiáng)算法; 云環(huán)境下軟件錯(cuò)誤報(bào)告自動(dòng)分類算法改進(jìn); 基于Rent規(guī)則的片上網(wǎng)絡(luò)局部化特性流量生成算法; 2DMesh片上網(wǎng)絡(luò)分區(qū)容錯(cuò)路由算法; 基于反向傳播神經(jīng)網(wǎng)絡(luò)改進(jìn)的增益修改卡爾曼濾波算法; 基于曲面擬合的WiFi指紋數(shù)據(jù)庫更新