葉吉祥,劉亞
1.長沙理工大學計算機與通信工程學院,長沙 410114
2.中南大學信息科學與工程學院,長沙 410083
ITD在語音情感識別中的研究
葉吉祥1,2,劉亞1
1.長沙理工大學計算機與通信工程學院,長沙 410114
2.中南大學信息科學與工程學院,長沙 410083
情感特征提取是語音情感識別中重要的步驟,特征提取的好壞直接影響情感識別的準確率[1]。基于確定性線性系統理論,傳統語音情感特征主要提取三種重要的聲學特征:韻律特征、音質特征、譜特征[2]。近年來,研究者開始基于語音本質上是非平穩非線性的這一特點提取情感特征,主要提取情感語音的瞬時參數特征[3]和混沌特征[4-7]。其中有張衛等人用EMD瞬時參數結合Teager能量用于語音情感識別[8],取得了一定的識別效果,但是實驗只針對“高興、生氣、中立”三種情感,而且EMD的計算速率也不高。文獻[9-10]用分形維表征語音的混沌特征,并作為新的語音特征進行識別實驗,雖然平均識別率達到了82.4%,但是生氣的識別率只有70%,同時也存在提取特征速率不高的缺點。
通過分析目前引入的非線性特征,發現特征提取效率和最后的識別效果還有很多局限性,有待進一步的改進。
由于固有時間尺度分解[11](Intrinsic Time-scale Decomposition,ITD)具有端點效應小、計算速度快、提取瞬時信息精確的特點,能很好地表征非穩定非線性信號的特性,因此將ITD引入語音情感識別中,獲得其PR特征,結合傳統特征對四種情感語音進行識別實驗。實驗數據顯示,平均識別率達到了86.5%,可以較好地提高識別率和表征情感狀態。
2.1 ITD分解

步驟3將Lt作為新原始的信號重復上述步驟,直到基線信號為一單調函數或常函數。即原始信號被分解為:

式中H為合理旋算子,P為分解的層數,HLKXt是第k階合理旋轉分量,LPXt為單調趨勢分量。
2.2 瞬時參數特征提取方法
采用基于“完整波”的方法[11]提取瞬時特征是指用分段的方法定義瞬時能量信息,在PR分量連續向上過零點的時間區間內,僅基于此區間內的分析PR分量的單波形信息,所以能夠精確地表達非平穩信號頻率時變特征。
2.3 關聯維數的測定方法
對語音信號進行一次ITD分解后,得第一階合理旋轉(PR1)分量。對原信號和PR1分別進行相空間重構[12],用互信息方法求得時間遲延τ。采用G-P算法[13-14]求取原信號和PR1分量在不同嵌入維數下的關聯維數。
實驗數據使用北航情感語音數據庫。它由7男8女錄制,包含7種情感狀態和20句錄制腳本。選取其中四種具有代表性的情感“悲傷、平靜、喜悅、憤怒”進行識別實驗。為了增加實驗數據的多樣性,避免同質語音對實驗結果的影響,實驗采用混合數據進行實驗,對于每一種情感都在數據庫中選取不同人的不同語句共70個語音樣本,其中40句作為訓練樣本,30句作為測試樣本。
3.1 PR瞬時特征
將4種情感的所有訓練樣本,經過預處理后,進行多次ITD分解,通過對實驗數據分析,發現當不同情感的語音分解到第八層時,基線信號基本為一個單調趨勢分量或常函數,符合分解停止的條件,故參照此結果可對所有用于實驗的語音分解到第8階,得到前8階的PR分量。
圖1和圖2分別是同一人不同情感的前8階PR分量中的第1、第2階PR分量,記為PR1、PR2,它們包含信號主要的瞬時信息。從圖分析,憤怒和喜悅由于情感強烈,他們的PR1、PR2的瞬時幅度比平靜和悲傷的大,瞬時頻率也比平靜和悲傷高。此外,相似強度情感之間的頻率也有差異,平靜的頻率在大部分時間段都比悲傷的高,憤怒的頻率高于喜悅。從以上的分析可知,四種情感的PR分量的瞬時幅度和瞬時頻率是有區別的,能在一定程度上表征情感狀態。

圖1 同一個人四種情感的PR1分量
3.2 PR1關聯維數
由于語音具有混沌特性,將語音進行相空間重構后提取關聯維數可作為情感語音的新特征。圖3為語音庫中某一語句(錄音語句編號為15,語句內容:明天我要搬家啦)的原信號和PR1分量的關聯維數對比圖。

圖3 不同情感狀態原信號的關聯維數

圖4 不同情感狀態PR1分量的關聯維數
圖3為原信號提取不同情感狀態下的關聯維數的結果圖,可以看出四種情感的關聯維數曲線雖然彼此分離,但是平靜和悲傷,喜悅和憤怒的分離效果還不是很好,而且悲傷和憤怒收斂速度也不是很快。為了使提取的關聯維數效果更好,本文嘗試了將情感語音信號先進行ITD分解,得到PR1分量,再對其相空間重構后提取關聯維數。結果如圖4所示,由圖可知,悲傷和平靜的PR1關聯維數曲線更好地分離開了,這是因為悲傷的幅度和頻率相對都比較低,時頻能量相對較少,當ITD分解為PR1分量時去掉了一個基線信號,又帶走了一部分時頻能量,當求關聯維數的標準r不變時,悲傷在單位體積范圍內的吸引子會明顯減少,并很快進入穩定狀態。高興和憤怒,由于情感強度大且一定程度上相似,所以PR1關聯維數還是不能完全分離,但是在關聯維穩定的區域,曲線分離的效果比原信號的也好了一些。根據以上的分析可知,將PR1的關聯維數作為新的特征參數可以更好地表征情感狀態。
4.1 特征提取
為了研究語音情感的PR特征,提取的特征主要有:ITD分解后PR瞬時參數特征、PR1關聯維數和原信號的傳統特征。PR分量瞬時特征包括:PR1至PR8瞬時幅度的均值、最大值、中心化瞬時幅度方差、瞬時幅度譜密度最大值、瞬時幅度變化率均值;PR1至PR8瞬時頻率的均值、最大值、歸一化瞬時頻率方差、瞬時頻率密度最大值、瞬時頻率變化率均值。傳統特征如表1所示。

表1 情感語音傳統特征
4.2 實驗結果及分析
語音信號通過ITD處理后得到前8階的PR分量,并提取每一階PR分量瞬時特征,結合傳統特征使用SVM[15]情感識別分類器進行識別。識別結果如圖5所示。

圖5 四種情感的各階PR分量瞬時特征結合傳統特征的識別率分布圖
從圖5可知,除喜悅外,前3階各情感的識別率都相對比較高,由此選取前3階PR瞬時特征結合傳統特征做最后識別實驗。各類情感的最高識別率如表2所示。

表2 前三階PR瞬時特征結合傳統特征識別結果
從表2可得出識別率最高的是憤怒,達到了93.3%,悲傷識別率也超過了85%,相對來說高興的識別率只有73.3%,是因為憤怒和高興的情感強烈程度相似,即便是PR分量,所包含的瞬時時頻信息也一定程度上相近,容易誤認為是憤怒。悲傷和平靜也同樣如此,也有相互誤判的情況。
為了更好地檢測傳統特征、PR瞬時特征和PR1關聯維數的識別效果,使用SVM進行了對比識別試驗。有如下四種方案:
方案1單獨使用傳統特征(短時過零率、短時能量,MFCC等)進行識別。
方案2 PR1關聯維數結合傳統特征進行識別。
方案3 PR瞬時特征結合傳統特征進行識別。
方案4 PR瞬時特征和PR1關聯維數結合傳統特征進行識別。
四種不同方案的識別結果如表3所示。

表3 采用不同方案各情感的識別率(%)
從表3可以看出單獨使用傳統特征進行識別時,平均識別率只有75.9%,各情感的識別率相對比較低。同時對比方案2方案3,可以發現,PR瞬時特征結合傳統特征后,除了喜悅外,各情感的識別率有了明顯的提高,憤怒的識別率達到了93.3%,平均識別率達到了84.2%,說明PR瞬時特征總體是能夠很好地表征情感狀態;PR1關聯維結合傳統特征后,雖然總體平均識別率沒有方案3高,較方案1各情感的平均識別率都有提高,平靜的識別率增加了11.3%,喜悅的識別率比方案1、3都高,說明PR1關聯維數對表征情感有很好的補充作用。綜合以上的特點,方案4將PR1關聯維數與PR瞬時特征、傳統特征進行融合識別,喜悅的識別率與方案3相比提高了7.3%,整體的平均識別率也達到了86.5%,比傳統方案1提高了10.6%,從方案4可知,PR的瞬時特征和PR1的關聯維數能很好地刻畫情感語音的非線性特征,與傳統特征融合后,能更明顯地區分相似情感。
本文采用ITD算法對語音信號進行處理,得到其PR特征,結合傳統特征,從語音的非平穩非線性、混沌特性和短時平穩性三個方面,較為全面地表征了四種情感狀態,經過SVM識別,獲得了較好的識別率,憤怒、悲傷和平靜的識別效果有了明顯提高。但是對于相似強度的情感,如憤怒和喜悅,悲傷和平靜仍然存在相互誤判,找到更好區分各情感狀態的特征仍是以后要研究的工作。
[1]林奕琳,韋崗,楊康才.語音情感識別的研究進展[J].電路與系統學報,2007,12(1):90-97.
[2]張石清,李樂民,趙知勁.人機交互中的語音情感識別研究進展[J].電路與系統學報,2013,18(2):422-434.
[3]Huang N E,Shen Z,Long S R.A new view of nonli-near water waves:the Hilbert spectrum[J].Annu Rev Fluid Mech,1999,31(2):417-457.
[4]Schullar B,Rigoll G.Speech emotion recognition combining acoustic features and linguistic information in a hybrid supportvectormachineBeliefnetworkarchitecture[J]. IEEE,2004,28(28):571-577.
[5]Karadogan S G,Larsen J.Combining semantic and acoustic features for valence and arousal recognition in speech[C]// IEEE International Workshop on Cognitive Information Processing,2012,23(1):1-6.
[6]Wu Chung-hsien,Liang Weibin.Emotion recognition of affective speech based on multiple classifiers using acoustic prosodic information and semantic labels[J].IEEE Transactions on Affective Computing,2011,16(2):10-21.
[7]李銀山,李欣業,劉波.分岔混沌非線性振動及其在工程中的應用[J].河北工業大學學報,2004,33(2):96-103.
[8]張衛,張雪英,孫穎.EMD結合Teager能量用于語音情感識別[J].科學技術與工程,2013,24(13):278-280.
[9]Kinsner W,Grieder W.Speech segmentation using multifractal measures and amplification of signal features[C]// Proc of IEEE ICCI'08.Stanford:IEEE Computer Press,2008:351-357.
[10]葉吉祥,王聰慧.多重分形在語音情感識別中的研究[J].計算機工程與應用,2012,48(13):186-204.
[11]Osorio M G F.Intrinsic time-scale decomposition:timefrequency-energy analysis and real-time filtering of nonstationarysignals[J].ProceedingsoftheRoyalSociety SeriesA,2007,463(2078):321-342.
[12]Sun Dan,Meng Jun,Guan Yufan,et al.Inverter faults diagnosis in PMSM DTC drive using reconstruive phase space and fuzzy clustering[J].Proceedings of the CSEE,2007,27(16):49-53.
[13]Grassberger P,Procaccia I.Measuring the strangeness of strange attractors[J].Physica D,1983,9(132):189-208.
[14]Grassberger P,Procaccia I.Characterization of strange attractors[J].Phys Rev,1983,50(5):346-349.
[15]蘆濤,王成儒,韓笑蕾.基于的漢語語音情感識別研究[J].電子測量技術,2007,30(3).
YE Jixiang1,2,LIU Ya1
1.College of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China
2.College of Information Science and Engineering,Central South University,Changsha 410083,China
In order to express speech emotional state better,this paper takes the Intrinsic Time-scale Decomposition(ITD)into extracting speech emotion features,decomposes the emotion speech into a sum of Proper Rotation(PR)components,extracts instantaneous characteristic parameters and correlation dimension as new emotional characteristic parameters,combines with traditional features and uses Support Vector Machine(SVM)for speech emotional recognition.The results show that recognition accuracy is improved obviously through using PR features parameters.
Intrinsic Time-scale Decomposition(ITD);Proper Rotation components(PR);PR features parameters;emotion recognition
為了更好地表征語音情感狀態,將固有時間尺度分解(ITD)用于語音情感特征提取。從語音信號中得到前若干階合理旋轉(PR)分量,并提取PR分量的瞬時參數特征和關聯維數,以此作為新的情感特征參數,結合傳統特征使用支持向量機(SVM)進行語音情感識別實驗。實驗結果顯示,引入PR特征參數后,與傳統特征的方案相比,情感識別率有了明顯提高。
固有時間尺度分解;合理旋轉分量;PR特征參數;情感識別
A
TP391
10.3778/j.issn.1002-8331.1402-0342
YE Jixiang,LIU Ya.Speech emotion recognition based on Intrinsic Time-scale Decomposition.Computer Engineering and Applications,2014,50(22):203-206.
湖南省自然科學基金重點項目(No.10jj2050)。
葉吉祥(1963—),男,博士,教授,主要研究方向:人工智能、語音情感計算;劉亞(1987—),女,碩士研究生,主要研究方向:語音情感識別。E-mail:huyebowen@163.com
2014-02-27
2014-04-08
1002-8331(2014)22-0203-04
CNKI網絡優先出版:2014-06-18,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1402-0342.html