云南機電職業技術學院 陳瑤玲
語音信號不僅可以傳遞語義信息,還可以傳遞語種信息,說明語音信號中包含了語種信息特征,語種識別的特征參數提取就是利用數字信號處理的方法,從語音信號中把這些特征參數提取出來,以實現語種識別。在語種識別中對特征參數的要求是:(l)能有效地代表各語種特征,具有很好的區分性;(2)各階參數之間具有良好的獨立性和魯棒性;(3)特征參數的計算要簡單方便,要可以擁有高效的計算方法,用以保證語種識別算法的快速實現。在本文中,主要介紹美爾頻率倒譜系數(Mel Frequency Cepstral Coefficients,MFCC)、線性預測倒譜系數(LPCC)、第一共振峰(F1)、基音頻率(F0)、短時能量(En)、韻律節奏等6種聲學特征參數及其派生參數。
美爾頻率倒譜系數(Mel Frequency Cepstral Coefficients,MFCC)[1]考慮了人耳的感知頻率以及音強時具有的非線性特性,被認為具有良好的語音識別性能和抗噪聲能力,現在已被廣泛的應用于語種識別和說話人識別中。
線性預測倒譜參數(LPCC)已被廣泛地應用在語音識別上[2]。由于倒頻譜(Cepstrum)具有將頻譜上的高低頻分開的優點,所以只要取前面幾項參數,就可以代表語音信號的特性,使得識別率提高,線性預測倒譜參數就是屬于倒頻域上的語音特征。
第一共振峰代表了發音信息的直接來源,是反映聲道特性的重要參數,人在語音感知中也利用了共振峰信息。一般認為共振峰信息包含在語音頻譜包絡中,譜包絡中的最大值就是共振峰。
線性預測分析可以導出聲道濾波器,根據聲道濾波器就可以找出共振峰。一般來說,共振峰采用基于線性預測的方法估計頻譜包絡。
用來反映語音激勵源參數的叫基音頻率,對于像漢語這樣有聲調的語言,基音頻率是語音信號中非常重要的參數。發濁音時聲帶振動的周期性稱為基音周期,基音頻率就是基音周期的倒數。因為基音周期的準周期性,可以采用基音檢測 (Pitch detection)的方法來計算基音周期,而實際上這就是一種進行短時平均的方法,基音頻率就是這個參數的倒數。基音頻率是重要的超音段特征。
要計算基音頻率,基音檢測是一個需要重點研究的課題。基音檢測主要分為預處理、自相關基音檢測、基音檢測后處理等部分。然而迄今為止,雖然提出了許多種基音檢測的方法,但這些方法都存在它們的局限性,至今尚未找到一個可以適用于不同語種、不同環境的基音檢測方法。
短時能量首先可以用來區分清音和濁音,語音信號中濁音部分的能量要遠遠大于清音部分的能量,在語音信號中進行短時能量分析,主要是用來描述語音幅度及能量的變化。處理語音信號時,短時能量一般采用一維參數來描述語音信號能量的大小以及超音段的信息。
在自然語音中,人們利用重音,節奏和語調等方式來表達情感和意義,這些特征是自然語音的重要組成部分。
重音,節奏和語調這些特征是通過特征頻率,音強,音高,音長的變化而表現出來的,因此韻律節奏參數的提取是把每個語種識別的語句音節數與語句發音時間的比值作為語速特征參數,統計每個語句中有聲段和無聲段的比例,得到2維的韻律特征參數集。
根據以往實驗結果可以看出,基音頻率應用在語種識別中的一個較優越的特征。這也和以往的很多相關的研究是吻合的[3][4],基音頻率(F0)是語種識別中區分效果最好的一類特征,它在不同語種之間的差異性最好。實驗結果也表明,MFCC參數的識別效果也不錯,這也是因為MFCC參數表現的是語音的頻譜信息,而頻譜信息的變化對語種識別的貢獻比較大。短時能量(En)和第一共振峰(F1)在實驗中也有不錯的表現,它們的識別效果相近,也可以選作進行語種識別的特征。韻律節奏的識別率最低,說明韻律節奏是所采用的特征中用于語種識別最不適合的特征參數。
[1]徐翔俊,畢福昆,楊鑒.基于支持向量機的民族語口音識別[J].計算機工程與應用,2008,44(13),pp.71-73.
[2]M Sugiyama. Automatic Language Recognition Using Acoustic Features. International Conference on Acousti[C].Speech and Signal Proeessing.Toronto,1991,pp.423-430.
[3]徐永華,楊鑒,陳江,陳瑤玲.一個面向少數民族語種識別的電話語音數據庫[J].第十屆全國人機語音通訊學術會議,蘭州,2009,pp.54-57.
[4]S Yildirimeral,An acoustic study of emotions expressed in speech[C].ICSLP-2004,2004,pp.2193-2196.