999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HMM和匹配追蹤的多參數語音識別

2013-01-26 03:20:40無錫機電高等職業技術學校自動化工程系
電子世界 2013年19期
關鍵詞:信號模型

無錫機電高等職業技術學校自動化工程系 郭 昕

1.引言

語音識別的研究工作始于20世紀50年代,1952年Bell實驗室開發的Audry系統是第一個可以識別10個英文數字的語音識別系統。隱馬爾可夫模型是20世紀70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。目前大多數連續語音的非特定人語音識別系統都是基于HMM模型的。[1]

一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網絡的方法。語音識別一個根本的問題是合理的選用特征。特征參數提取的目的是對語音信號進行分析處理,去掉與語音識別無關的冗余信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。非特定人語音識別系統一般側重提取反映語義的特征參數,盡量去除說話人的個人信息;而特定人語音識別系統則希望在提取反映語義的特征參數的同時,盡量也包含說話人的個人信息。

而隨著時頻技術的研究發展,使人們在進行信號處理時,可以將語音信號分解在一組完備的正交基上。從而,語音信號的能量在分解以后將分散分布在不同的基上。但是,語音信號是一種典型的非平穩信號,其性質隨時間快速變化,在兩個不同的時間瞬間,在同一個頻率鄰域內,信號可以有完全不同的能量分布。因此,有必要找到一種精確表示語音信號時頻結構,便于特征提取的方法。[2]

立足于此,本文提出,通過平移窗口,用余弦基乘以窗口函數,構造出局部余弦基,分離不同時間區間,很適合于逼近語音信號。本文使用這種具有活動窗口特性的局部余弦基表示語音信號。為了減少計算量,并進一步提高局部余弦基原子時頻分布的分辨率,采用匹配追蹤(MP)算法分解信號,并結合時頻分析技術得到最優局部余弦基原子的魏格納-維利分布(WVD)[2],從而得到信號精確的時頻結構[3],進行特征提取。此外,結合語音信號的美爾頻率倒譜系數(MFCC)一起作為該信號的特征向量,通過隱馬爾科夫(HMM)模型進行識別。實驗證明。這種多參數語音識別算法提高了識別的準確度和速度。

2.局部余弦基建模

通過光滑地劃分時間序列為任意長度的子區間 [a p,ap+1](如圖1),可使每一個時間段分別由重疊正交基表示,而整個時間序列的基函數又構成時頻平面的正交鋪疊,因此局部余弦變換對在不同時間段有不同的波形的語音信號有很強的針對性。

圖1 重疊窗口劃分時間軸Figure1 lapped window divides time axis

圖1中g p(t)為重疊窗口函數[3]:

式中β為單調遞增的輪廓函數,定義為[3]:

局部余弦函數族構成了實數軸上平方可積函數空間的規范正交基:

式中lp為窗口支集伸縮參數;ap為第P段時間起點;n(0 ≤n≤lp)表示正交基序列號。

語音信號可表示為:

gγn(t)是余弦基原子,γ=(a p,lp,η)。其中ap是窗口支集邊界參數,lp為窗口支集伸縮參數,η是輪廓函數β的尺度參數,這保證了窗口支集只與相鄰的具有適當對稱性的窗口重合,達到局部余弦基精確覆蓋整個時頻平面的目的。

3.匹配追蹤法選取最佳基

由Mallat和Zhang引入的匹配追蹤算法運用貪婪技巧減少了計算的復雜性。它從局部余弦基構成的冗余字典中一個一個挑選向量,每一步都使信號的逼近更為優化。

MP算法將信號分解成一簇時頻原子的線性表達,這些原子選自高冗余度的函數字典中,且最好地符合f(t) 內在結構。假設函數集是Hilbert空間中一個完備字典滿足,最優的M階近似為:

設由M個時頻函數近似的信號與f(t) 的誤差ε最小,ε表達式如下:

其中{γi}i=0...M代表所選函數gγi的索引。

首先按照某個選擇函數(與f(t) 的內積最大)逐個挑選出時頻函數g0γ,f(t) 分解為:,設初始輸入信號f(t)為初始殘差信號R0f,Rf表示f(t)在gγ0方向上近似后的冗余部分。

假設已有M

R f表示經過前M-1次迭代后,f(t)中未表達部分:選定為最匹配R Mf的時頻函數,R Mf按如下公式分解為:

由于每步中R M+1f與gri正交,如果字典是完備的,則迭代收斂于f,滿足:

這樣,可估算出(4)式中局部余弦基原子的參數bn=<R Mf,gγi>。

文獻[4]中提出,選出最匹配信號的基,對每一個基求出其WVD分布,信號f(t) 的WVD分布就表示其最優基的WVD的線性組合,這樣就消除了交叉項的影響。由此得到f(t) 的WVD分布:

WVDgγn(t,w)是局部余弦基字典中被選中的最優基的WVD分布。將等式左邊第二項交叉項組合去除,這樣在時頻面上就得到了干凈的時頻表示:

在語音信號稀疏分解過程中,每步分解都要從過完備原子庫中選出與待分解語音信號f(t)或語音信號分解殘余R Mf最為匹配的原子gγi,原子是由參數γ=(a p,lp,η)公式(4)決定的。因此語音信號稀疏分解所得原子的 參數γ=(a p,lp,η)可作為語 音信 號的 特征。此外,根據公式(10),使用匹配追蹤法選取的最佳基的WVD分布Es,含有該語音信號重要且獨特的信息,也可作為該語音信號的特征。

4.基于HMM的語音識別算法

特征提取基于語音幀,即將語音信號分為有重疊的若干幀,對每一幀提取一次語音特片。由于語音特征的短時平穩性,幀長一般選取20ms左右。在分幀時,前一幀和后一幀的一部分是重疊的,用來體現相鄰兩幀數據之間的相關性,通常幀移為幀長1/2。本文為了方便做MP,采用的幀長為512點(32ms),幀移為256點(16ms)。特征的選擇需要綜合考慮存儲量的限制和識別性能的要求。通常的語音識別系統使用24維特征矢量,包括12維MFCC和12維一階差分MFCC。本文提出的多參數語音識別算法,在此基礎上增加了原子參數γ=(a p,lp,η)公式(4)和最佳基的WVD分布Es公式(10),這兩維特征,構成26維特征矢量。對MFCC和語音信號能量的WVD分布Es分別使用了倒譜均值減CMS(Cepstrum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩健性[5]。

在HMM模型中,首先定義了一系列有限的狀態S1,…,SN,系統在每一個離散時刻n只能處在這些狀態當中的某一個Xn。在時間起點n=0時刻,系統依初始概率矢量π處在某一個狀態中,即:

以后的每一個時刻n,系統所處的狀態Xn僅與前一時刻系統的狀態有關,并且依轉移概率矩陣A跳轉,即:

系統在任何時刻n所處的狀態Xn隱藏在系統內部,并不為外界所見,外界只能得到系統在該狀態下提供的一個Rq空間隨機觀察矢量On。On的分布P稱為輸出概率矩陣,只取決于On所處狀態:

因為該系統的狀態不為外界所見,因此稱之為“隱含馬爾科夫模型”,簡稱HMM。在識別中使用的隨機觀察矢量就是從信號中提取的特征矢量。按照隨機矢量Qn的概率分布形時,其概率密度函數一般使用混合高斯分布擬合。

其中,M為使用的混合高斯分布的階數;Cm為各階高斯分布的加權系數。此時的HMM模型為連續HMM模型(Continuous density HMM),簡稱CHMM模型[6]。在本識別系統中,采用孤立詞模型,每個詞條7個狀態,同時包括首尾各一個靜音狀態;每個狀態使用3階混合高斯分布擬合。

5.仿真實驗

5.1 提取最佳基的WVD分布特征矢量

構建局部余弦基字典,使用MP算法選取語音信號“A”的最佳基。如圖2所示。得到的E s(t,w)時頻圖既保留了余弦基原子高時頻聚集性的優點,又削弱了WVD作為二次型時頻表示所固有的交叉項的影響,得到了干凈的時頻面。其結果更精確的反映出語音信號在頻率、音強方面的特征,具有良好的時頻聚集性。

圖2 “A“信號的WVD分布Figure2 WVD of“A”

5.2 孤立詞識別

在語音識別實驗中,采用信號長度為1024的200個實際語音信號樣本,其中100個用于訓練,100個用于測試。該實驗用以識別出語音信號”A”。實驗利用WaveCN2.0錄音系統進行樣本采集,采樣率為8kHz。得到語音信號的有效部分后,提取樣本信號的MFCC參數作為語音信號的特征參數之一。Mel濾波器的階數為24,fft變換的長度為256,采樣頻率為8kHz。MFCC的相關波形見圖3。

圖3 “A“信號的MFCC波形Figure3 MFCC Waveform of“A”

然后利用MP算法將樣本信號分解為300個原子,將所得原子的參數γ=(a p,lp,η)和最佳基的WVD分布Es,作為該語音信號的特征參數之二。見圖2。通過HMM進行識別。

在實驗中,設語音”A”類值為1,其他的語音類值為-1。HMM模型的狀態數為7,高斯混合數為3。由第4節HMM訓練的定義可知,重估過程中的輸出概率是隨著重估次數的遞增而增加的,圖4列出了“A”模型訓練期間重估次數與總和輸出概率的log值之間的關系。由圖可以看出,“A”模型重估20次算法收斂,并且,輸出概率與重估次數成正比趨勢。

圖4 重估次數與總和輸出概率Figure4 Iterations of EM and output like lihood

對語音進行上述HMM訓練之后,將其模型參數存貯,獲得了識別的HMM模型庫。在識別階段,對100個測試用數據進行語音識別,以檢驗本文系統的識別效果。如表1所示識別精度為89%,平均識別時間約為1.313秒,實驗結果表明,系統識別率和運算速度都比較理想。

表1 識別結果

增加了局部余弦基原子的參數γ=(a p,lp,η)和最佳基的WVD分布Es作為特征參數,較單純的使用MFCC作為特征參數進行HMM模型訓練,識別率有一定提高,見表2。

表2 結果比較

6.結語

本文在傳統基于HMM模型的語音識別基礎上,通過匹配追蹤算法,提取出最佳基的原子參數γ=(a p,lp,η)和WVD分布Es。二者與MFCC一起,作為本文提出的多參數語音識別算法的特征向量。然后選擇了大量孤立詞樣本進行仿真實驗,針對非特定人孤立詞進行語音識別。結果表明,基于HMM和匹配追蹤的多參數語音識別算法,可提高語音識別的速度和準確度,有一定的實用性。但是,由于算法的復雜性增加,運算量相應增大,簡化算法運算量仍是需要深入研究的課題。

[1]何方偉,青木由直.DP動態匹配算法實現語音的實時識別[J].數據采集與處理,vol.4,no.1,Mar,1989.

[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.

[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processi ng,1993,41(12):3397-3415.

[4]R Gribonval.Fast matching pursuit with a multiscale dictionary of Gaussian Chirps[J].IEEE Trans.Signal Processing,2001,49(5):994-1001.

[5]于建潮,張瑞林.基于MFCC 和LPCC的說話人識別[J].計算機工程與設計,2009,30(5):1189-1191.

[6]王作英,肖熙.基于段長分布的HMM語音識別模型[J].電子學報,2004,vol.32,no.1:46-49.

猜你喜歡
信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
孩子停止長個的信號
3D打印中的模型分割與打包
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲香蕉在线| 久久人妻系列无码一区| 欧美福利在线观看| 亚洲天堂在线免费| 成人综合在线观看| 不卡视频国产| 色哟哟国产精品一区二区| 欧美天天干| 欧美综合激情| 在线观看欧美国产| 久久伊人操| 国产小视频在线高清播放| 亚洲天堂成人在线观看| 国产精品欧美日本韩免费一区二区三区不卡 | 国产美女免费| 亚洲天堂区| 国产人人射| 伊人久久大线影院首页| 欧美综合中文字幕久久| 91免费观看视频| 3p叠罗汉国产精品久久| 日韩AV无码免费一二三区| 不卡无码网| 国产网站免费| 免费在线一区| 大香伊人久久| 免费看a毛片| 国产三级视频网站| 国产96在线 | 成人国产免费| 日韩精品专区免费无码aⅴ| 被公侵犯人妻少妇一区二区三区| 久久这里只有精品66| 日韩一区二区三免费高清| 国产日韩精品欧美一区灰| 国产乱子伦精品视频| 综1合AV在线播放| 免费毛片在线| 蜜桃视频一区二区| 国产成人精品在线1区| 国内丰满少妇猛烈精品播 | 婷婷色狠狠干| 亚洲综合狠狠| 亚洲精品午夜无码电影网| 91人妻在线视频| 国产欧美日韩一区二区视频在线| 性色一区| 精品国产成人a在线观看| 国产福利一区在线| 久久国产成人精品国产成人亚洲| 欧美日韩亚洲国产| 性欧美久久| 亚洲日本韩在线观看| 欧美不卡二区| 成人夜夜嗨| 日本午夜影院| 99在线国产| 97成人在线观看| 思思热在线视频精品| 亚洲成人一区二区三区| 中字无码av在线电影| 国产区免费| 六月婷婷精品视频在线观看| 四虎成人在线视频| 亚洲狼网站狼狼鲁亚洲下载| 国产精品区网红主播在线观看| 国产一区二区精品福利| 日日碰狠狠添天天爽| 久久性妇女精品免费| 欧美啪啪精品| 欧美国产综合色视频| 久久国产精品无码hdav| 高清欧美性猛交XXXX黑人猛交| 全午夜免费一级毛片| 美女视频黄又黄又免费高清| 免费又爽又刺激高潮网址| 国产91小视频在线观看| 欧美午夜精品| 亚洲天堂2014| 欧美 亚洲 日韩 国产| 国产成人a毛片在线| 亚洲精品视频在线观看视频|