999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于共振峰曲線的語音信號動態特征提取方法

2017-06-27 08:14:13韓志艷
計算機技術與發展 2017年6期
關鍵詞:特征提取特征信號

韓志艷,王 健

(渤海大學 工學院,遼寧 錦州 121000)

基于共振峰曲線的語音信號動態特征提取方法

韓志艷,王 健

(渤海大學 工學院,遼寧 錦州 121000)

為了提高噪音環境下語音識別的魯棒性,提出了一種基于共振峰曲線的語音信號動態特征提取方法。采用基于Hilbert-Huang變換的方法來估算預處理后的語音信號共振峰頻率特征,然后按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第一共振峰頻率特征值進行組合獲得第一共振峰曲線,依此類推,獲得第二共振峰曲線、第三共振峰曲線及第四共振峰曲線。對獲得的每條共振峰曲線進行快速傅里葉變換獲得線性頻譜,然后再求取能量譜,計算對數能量和離散余弦變換。與MFCC方法相比,提取的語音信號動態特征具有時間相關性,揭示了語音信號前后以及相鄰之間存在的密切關聯,提高了語音識別的性能。

語音信號;動態特征;語音識別;特征提取;共振峰曲線

0 引 言

語音識別最基礎最重要的開發環節是語音信號特征參數的提取。語音信號特征參數提取,即利用數學理論提取語音信號中所攜帶的有用信息,獲得一個矢量序列。R.K.Potter等[1]早在二十世紀四十年代就提出了“可視語音”的概念,指出語譜圖對語音信號有很強的描述能力,而且用語譜圖進行了語音識別,即形成了最早的語音特征。到了五十年代,人們發現要想減少模板數目、運算量、存儲量及提高識別率,就必須提取語音信號中能夠反映語音特性的某些參數,濾除語音信號中的冗余信息,于是就出現了幅度特征、短時幀平均能量特征、短時幀過零率特征、短時自相關系數特征、平均幅度差函數特征等。但隨著語音識別技術的發展,發現無論從穩定性還是區分能力,上述時域特征參數的表現都不是很好,于是開始利用頻域特征參數進行識別,比如基音周期[2]、共振峰頻率特征[3]、線性預測系數(LPC)特征[4]、線譜對(LSP)特征[5-6]、倒譜系數特征等[7]。目前基于全聲道全極點模型的線性預測倒譜系數(LPCC)[8-10]和基于人耳聽覺模型的梅爾倒譜系數(MFCC)[11-14]應用最為廣泛。

但上面所述的特征參數反映的都是語音信號的靜態特征,要使提取出的特征參數能更好地表達語音信號,就必須提取動態特征參數,語音信號的動態特性即為從連續幾幀語音信號中提取的特征參數。動態特性是語音多樣性的一部分,它不同于平穩的隨機過程,具有時間相關性,比如可以通過靜態特征的差分參數和加速度參數來獲取。但它們并不能將動態信息挖掘得很充分,所以尚不能很好地反映語音信號的動態特性。

因此,提出了一種基于共振峰曲線的語音信號動態特征提取方法,構成的共振峰曲線具有時間相關性,揭示了語音信號前后以及相鄰之間存在的密切關聯。其中采用基于Hibert-Huang變換方法來估算預處理后的語音信號共振峰頻率特征,其中用經驗模態分解法(EMD)將信號分解成一組含有不同尺度的固有模態函數(IMF)分量,經分解得到的每一個IMF分量都代表了一個頻率成分,這些頻率成分可以有效突出信號的局部特性和細節變化,有助于快速有效地掌握信號的動態特征。

因此,語音特征的動態變化,可以通過動態特性來描述,而研究語音信號的動態特性,也是匹配新的語音動態模型、提高語音輔助工程性能的必然趨勢。

1 共振峰特征提取

在語音識別技術應用領域,共振峰特征參數是重要的聲學特征參數之一。長期以來該參數的提取都是基于人的發聲系統是線性的和語音信號是短時平穩的兩個基本假設。隨著對語音發聲機理的深入研究,發現在語音產生過程中存在著非線性,因此傳統的線性共振峰特征參數估計方法的準確性就會受到影響[15]。另一方面,由于傳統分析方法建立在短時平穩的假設上,對快速變化的共振峰特征參數的提取無能為力。所以研究者們越來越重視對隨時間快速變化的動態信息的提取。

近年來,盡管也提出了一些新的參數提取方法,如逆濾波器法[16]和頻域線性預測算法等[17],但這些方法都只是在算法和處理方法上進行改進,本質上仍屬于線性分析方法的范疇,而且分析計算過程復雜,需要根據主觀經驗來調整參數。文中采用一種基于Hilbert-Huang變換(Hilbert-Huang Transform,HHT)的適用于非平穩、非線性信號處理,具有自適應特性的時間-頻率分析新方法。

HHT包括2個基本步驟:第一步是經驗模態分解(Empirical Mode Decomposition,EMD),它的核心是“篩選”,即從被分析信號中提取一族固有模態函數(Intrinsic Mode Function,IMF);第二步是計算信號的Hilbert譜(Hilbert Spectrum),將每個IMF與它的Hilbert變換構成一個復解析函數,并由此導出作為時域函數的瞬時幅值(能量)和瞬時頻率。

通過EMD得到的每個IMF滿足兩個條件:

(1)在整個序列上,極值點個數和過零點個數相等或至多相差一個;

(2)分別連接其各局部極大值和局部極小值所形成的上、下2條包絡線的均值在任一點處為零。

分解后得到信號x(t)的n個IMF分量c1(t),c2(t),…,cn(t)和剩余項rn(t),即有:

(1)

對每個ci(t),i=1,2,…,n,求其Hilbert變換di(t),然后計算相應的瞬時頻率ωi(t)和幅值ai(t):

ωi(t)=dθi(t)/dt

(2)

(3)

其中,θi(t)為瞬時相位。

θi(t)=arctan[di(t)/ci(t)]

(4)

根據每個IMF的瞬時頻率和幅值,可將信號表示為:

(5)

由于rn(t)不是一個常數就是一個單調函數,對信號分析和信息提取沒有實質性的影響,所以式(5)中略去了式(1)中的剩余項。在時間-頻率面上畫出每個IMF以其幅值加權的瞬時頻率曲線,這個時間-頻率分布譜圖就是Hilbert譜,記為H(ω,t)。

當采用HHT方法估計語音信號的共振峰頻率時,為了避免和抑制各個共振峰分量在EMD過程中產生互相干擾,需要事先對各個共振峰分量進行分離,對分離后的各個共振峰分量作EMD,最后求出相應的共振峰頻率及其隨時間的變化曲線。

2 動態特征提取

動態特征提取流程如圖1所示。

其具體步驟如下:

步驟1:利用麥克風輸入語音數據,然后以11.025 kHz的采樣頻率、16 bit的量化精度進行采樣量化,獲得相應的語音信號。然后利用一階數字預加重濾波器對獲取的語音信號進行預加重處理,其中預加重濾波器的系數取值范圍為0.93~0.97。接下來以幀長256點的標準進行分幀處理,并對分幀后的語音信號加漢明窗,再利用短時能零積法進行端點檢測。短時能零積方法如下:

短時能量與相應的短時過零率之積稱為短時能零積,每一幀的短時能量En和短時過零率Zn以及短時能零積EZn的定義分別為:

(6)

(7)

EZn=En*Zn

(8)

其中,n為語音信號的第n幀;N為每一幀的長度;sw(k)為加窗語音信號。

用短時能零積法進行語音端點檢測的步驟如下:

(1)確定噪聲的門限閾值。

無音片段主要包括的是背景噪聲,由于錄音開始階段往往有一段無音區,所以在實驗室環境下通常取最開始的5幀信號作為背景噪聲的分析,對這5幀信號按式(6)和式(7)分別按幀計算En和Zn,并按式(8)計算EZn,通過多幀平均,就得到了平均短時能零積EZ,并按照式(9)確定噪聲的門限閾值TH。

TH=k×EZ

(9)

其中,k為經驗值,通常取1.2。

圖1 動態特征提取流程圖

(2)利用短時能零積進行語音端點檢測。

計算每幀錄音信號的短時能零積EZn,與噪聲的門限閾值TH做比較。EZn大于TH,就以該幀的幀號作為有音片段的起點N1,表明進入了有音片段。如果由過去幀已經得到了N1,那么當EZn小于TH時,就以該幀的幀號作為有音片段的終點N1。相反,如果N1還未得到,那么當EZn小于TH時,表明當前幀仍處于無音片段。

步驟2:計算共振峰頻率特征參數,其中獲得的每幀語音信號的第一共振峰特征值為F1、第二共振峰特征值為F2、第三共振峰特征值為F3和第四共振峰特征值為F4。

步驟3:構成共振峰曲線。具體為:

(1)按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第一共振峰頻率特征值F1進行組合,獲得第一共振峰曲線x1(n),n=0,1,…,N-1,N為語音信號的幀數;

(2)按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第二共振峰頻率特征值F2進行組合,獲得第二共振峰曲線x2(n);

(3)按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第三共振峰頻率特征值F3進行組合,獲得第三共振峰曲線x3(n);

(4)按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第四共振峰頻率特征值F4進行組合,獲得第四共振峰曲線x4(n)。

步驟4:對獲得的第一、第二、第三和第四共振峰曲線進行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜。

(10)

其中,Xi(k)表示第i條共振峰曲線進行快速傅里葉變換后得到的線性頻譜,i=1,2,3,4,k=0,1,…,N-1,N為語音信號的幀數;xi(n)表示第i條共振峰曲線。

步驟5:根據線性頻譜獲得每條共振峰曲線的能量譜。即取上述線性頻譜Xi(k)模的平方來獲得相應的能量譜Si(k):

(11)

步驟6:根據能量譜獲得每條共振峰曲線的對數能量。即為了使結果對噪聲有更好的魯棒性,將獲得的能量譜Si(k)取對數,即可獲得對數能量Li(k):

Li(k)=log(Si(k))

(12)

步驟7:對上述對數能量進行離散余弦變換,獲得倒頻譜域,即獲得語音信號動態特征參數:

(13)

其中,Ci(t)表示第i條共振峰曲線的動態特征參數,i=1,2,3,4;t=1,2,…,T,T表示設定的倒譜系數個數,取值范圍為12~16。

3 仿真實驗及結果分析

采用50個典型的漢語詞匯進行實驗。由于考慮識別系統容易受環境噪聲、信道變化和說話人變化等因素的影響,因此,訓練集采用安靜環境下的語音數據,而測試集采用含有噪聲的數據。

為了驗證該特征參數對不同說話人變化的魯棒性,訓練集數據由前后兩次錄成,共50人,每人每詞發音一遍,共獲得5 000個數據,測試集數據也是分兩次錄成,共30人,每人每詞發音一遍,共3 000個數據;為了驗證該特征參數對不同信道變化的魯棒性,每次使用不同的麥克風來錄音;為了驗證該特征參數對不同環境噪聲變化的魯棒性,在測試集的每個語音中手工加入四種噪聲,包括:白噪聲、粉噪聲、街道噪聲、坦克噪聲,構成信噪比為15 dB,10 dB,5 dB,0 dB,-5 dB的含噪語音信號。采用基于遺傳算法改進的小波神經網絡作為分類器[18-19]。圖2~5為采用與文中算法相同條件的MFCC方法和文中方法分別在白噪聲、粉噪聲、街道噪聲和坦克噪聲干擾下的系統識別性能曲線。

圖2 白噪聲環境下的系統識別性能曲線

圖3 粉噪聲環境下的系統識別性能曲線

圖4 街道噪聲環境下的系統識別性能曲線

圖5 坦克噪聲環境下的系統識別性能曲線

從圖中可以看出,在信噪比較低時,文中方法與MFCC方法相比識別率提高了很多。這是因為文中方法構成的共振峰曲線具有時間相關性,揭示了語音信號前后以及相鄰之間存在著密切關聯,這一特性,使得在強噪聲環境下應用語音識別技術成為了可能。

4 結束語

文中提取的語音信號動態特征,采用基于Hibert-Huang變換的方法來估算預處理后的語音信號共振峰頻率特征,其中用EMD將信號分解成一組含有不同尺度的IMF分量,經分解得到的每一個IMF分量都代表了一個頻率成分,這些頻率成分可以有效突出信號的局部特性和細節變化,有助于快速有效地掌握信號的動態特征。相比于傳統的MFCC方法,大大提高了語音識別的性能。但是語音信號的某一特征中一般只包含部分語音信息,所以采用動靜態特征參數的組合,這樣動態信息和靜態信息形成了互補,當各組合參數間相關性不大時,會有很好的效果。

[1] Potter R K,Kopp G A,Green H C.Visible speech[M].New York:Van Nostrand,1947.

[2] 趙瑞珍,宋國鄉.基音檢測的小波快速算法[J].電子科技,1998,43(1):16-19.

[3] 黃 海,陳祥獻.基于Hilbert-Huang變換的語音信號共振峰頻率估計[J].浙江大學學報:工學版,2006,40(11):1926-1930.

[4] Christensen R L,Sreong W J,Palmer E P.A comparison of three methods of extracting resonance information from predictor coefficient coded speech[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1976,24(1):8-14.

[5] Girin L. Joint matrix quantization of face parameters and LPC coefficients for low bit rate audiovisual speech[J].IEEE Transactions on Speech and Audio Processing,2004,12(3):265-276.

[6] Trentin E, Gori M. Robust combination of neural networks and hidden Markov models for speech recognition[J].IEEE Transactions on Neural Networks,2003,14(6):1519-1531.

[7] Hong K K,Rose R C.Cepstrum-domain model combination based on decomposition of speech and noise for noisy speech recognition[C]//IEEE international conference on acoustics,speech,and signal processing.[s.l.]:IEEE,2002:209-212.

[8] Songhita M,Tusharkanti D,Partha S,et al.Comparison of MFCC and LPCC for a fixed phrase speaker verification system,time complexity and failure analysis[C]//International conference on circuit,power and computing technologies.[s.l.]:[s.n.],2015:1-4.

[9] Yuan Y J,Zhao P H,Zhou Q.Research of speaker recognition based on combination of LPCC and MFCC[C]//International conference on intelligent computing and intelligent system.[s.l.]:[s.n.],2010:765-767.

[10] Zhu J C,Liu Z L.Analysis of hybrid feature research based on extraction LPCC and MFCC[C]//10th international conference on computational intelligence and security.[s.l.]:[s.n.],2014:732-735.

[11] Kopparapu S K,Laxminarayana M.Choice of Mel filter bank in computing MFCC of a resampled speech[C]//10th international conference on information sciences signal processing and their applications.[s.l.]:[s.n.],2010:121-124.

[12] 周 萍,李曉盼,李 杰,等.混合MFCC特征參數應用于語音情感識別[J].計算機測量與控制,2013,21(7):1966-1968.

[13] 龐 程,李曉飛,劉 宏.基于MFCC與基頻特征貢獻度識別說話人性別[J].華中科技大學學報:自然科學版,2013(S1):108-111.

[14] 沈 燕,肖仲喆,李冰潔,等.采用GW-MFCC模型空間參數的語音情感識別[J].計算機工程與應用,2015,51(10):219-222.

[15] 張家騄.論語音技術的發展[J].聲學學報,2004,29(3):193-199.

[16] Watanabe A.Formant estimation method using inverse-filter control[J].IEEE Transactions on Audio Processing,2001,9(4):317-326.

[17] Rao P,Barman A D.Speech formant frequency estimation: evaluating a nonstationary analysis method[J].Signal Processing,2000,80(8):1655-1667.

[18] 韓志艷,倫淑嫻,王 健.基于遺傳小波神經網絡的語音情感識別[J].計算機技術與發展,2013,23(1):75-78.

[19] 韓志艷,倫淑嫻,王 健.語音信號魯棒特征提取及可視化技術研究[M].沈陽:東北大學出版社,2012.

Dynamic Feature Extraction for Speech Signal Based on Formant Curve

HAN Zhi-yan,WANG Jian

(College of Engineering,Bohai University,Jinzhou 121000,China)

In order to improve the robustness of speech recognition in noise environment,a dynamic feature extraction for speech signal based on formant curve is put forward.It uses Hilbert-Huang transform to estimate speech signal formant frequency characteristics after preprocessing,and then gets the first formant curve by combining the first formant frequency characteristics of each frame from the first frame to the last frame,and so forth,gets the second,the third and the fourth formant curve.And then takes Fast Fourier Transform for each formant curve to obtain linear spectrum,and calculates the energy spectrum,logarithmic energy and discrete cosine transform.Compared with the method of MFCC,the proposed dynamic feature of speech signal has the time correlation,revealing the close correlation between the speech signal frames,improving the performance of speech recognition.

speech signal;dynamic feature;speech recognition;feature extraction;formant curve

2016-07-29

2016-11-03 網絡出版時間:2017-04-28

國家自然科學基金資助項目(61403042,61503038);遼寧省教育科研項目(L2013423)

韓志艷(1982-),女,博士,副教授,研究方向為語音識別、情感識別。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1704.084.html

TP391.4

A

1673-629X(2017)06-0072-04

10.3969/j.issn.1673-629X.2017.06.015

猜你喜歡
特征提取特征信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于LabVIEW的力加載信號采集與PID控制
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 亚洲一级毛片在线观| 亚洲人成网站在线播放2019| 在线日韩一区二区| 国产精品丝袜视频| 91网址在线播放| 日韩无码真实干出血视频| 欧美日韩北条麻妃一区二区| 国产视频 第一页| AV天堂资源福利在线观看| 91小视频在线观看免费版高清| 91www在线观看| 亚洲欧洲综合| 伊人久久婷婷| 国产欧美又粗又猛又爽老| 亚洲欧美国产高清va在线播放| 久久久久九九精品影院| 久久动漫精品| 亚洲视频在线网| 国产人人射| 九色视频一区| 亚洲天堂网站在线| 呦女精品网站| 久久精品波多野结衣| 91成人精品视频| 一本久道久综合久久鬼色| 天堂中文在线资源| 伊人婷婷色香五月综合缴缴情| 另类重口100页在线播放| 久久毛片网| 国产玖玖视频| 老司机aⅴ在线精品导航| 国产你懂得| 国产精品va| 激情无码字幕综合| 草草影院国产第一页| 丁香婷婷激情网| 丝袜美女被出水视频一区| 国产成人精品18| 在线精品视频成人网| 毛片基地视频| 欧美 亚洲 日韩 国产| 在线精品视频成人网| 欧美 亚洲 日韩 国产| 欧美成一级| 曰AV在线无码| 亚洲精品在线影院| 深夜福利视频一区二区| 国产欧美日韩精品综合在线| 无码日韩视频| 国产内射一区亚洲| 国产精品浪潮Av| 国产午夜无码片在线观看网站 | 欧美日韩国产精品综合| 日韩国产黄色网站| 亚洲欧美国产视频| 综合天天色| 国产在线一二三区| 色欲综合久久中文字幕网| 国产精品午夜福利麻豆| 免费一级α片在线观看| 激情六月丁香婷婷四房播| 狠狠色狠狠综合久久| 综合五月天网| 国产丝袜一区二区三区视频免下载| 午夜福利视频一区| 亚洲综合一区国产精品| 日韩精品毛片| 成人午夜天| 72种姿势欧美久久久大黄蕉| 久久综合丝袜日本网| 99热这里只有精品国产99| 亚洲欧洲国产成人综合不卡| 一级毛片在线直接观看| a天堂视频| 成人a免费α片在线视频网站| 欧美一区福利| 国产欧美日韩免费| 在线欧美国产| 五月天久久综合| 18禁高潮出水呻吟娇喘蜜芽| 国产精品永久不卡免费视频| 国产午夜无码片在线观看网站 |