999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GMM-HMM 的語音識別垃圾分類系統

2020-11-02 07:49:36鄧江云李晟
現代計算機 2020年26期
關鍵詞:信號模型

鄧江云,李晟

(江西理工大學理學院,贛州341000)

0 引言

近年來,隨著經濟社會發展和物質消費水平大幅提高,我國垃圾產生量迅速增長,不僅造成資源浪費,也使環境隱患日益突出,現有的垃圾分類裝置主要為四色分類垃圾桶,現有的垃圾分類裝置存在只是簡單地通過文字標識提示了每種垃圾桶需要投放的垃圾大類。并不能直觀、細致地指示出具體垃圾種類的投放位置,導致垃圾分類推廣存在困難的問題。為解決該問題,本文設計并實現了一種基于語音識別的垃圾分類分裝置,通過投放者與裝置之間的語音交互,即投放者只需說出待投放的垃圾名稱,裝置便可以自動識別需要投放的垃圾類別,同時引導投放者將垃圾投放如正確的垃圾桶中。而隱馬爾科夫模型(Hidden Markov Model,HMM)提供了一種統計學模型,該模型對過程的狀態預測效果良好,適宜系統的短期狀態預測,因此可使用HMM 原理對字數較少的中文垃圾詞匯的識別模型進行建模。本設計先利用MFCC 對采集到的原始語音信號進行特征提取,再利用HMM 模型建立語音識別模型,其中利用混合高斯模型(Gaussian Mixture Model,GMM)擬合語音特征向量的概率密度分布函數。將提取的特征樣本分為訓練樣本集和測試樣本集,利用訓練樣本集訓練HMM 模型,利用測試樣本集測試訓練模型的識別準確率。最后通過一個實例驗證了設計的有效性。

1 語音識別基本理論

語音識別的目的是將聲音信號轉換為文本文字,也就是輸入一段語音信號,輸出對應的文本。一般的語音識別系統并不能直接識別原始的數字語音信號,需要先將語音信號的特征向量提取出來再進行識別。識別流程圖如圖1 所示。

圖1 語音識別系統流程

將語音數據庫中的原始語音數據進行預處理、特征提取后得到的特征向量作為訓練樣本進行無監督學習,得到HMM 模型參數,最后將模型參數帶入測試樣本,求解最大輸出概率,從而得到識別結果。

1.1 語音信號預處理

一般的原始數字語音信號往往包含各種噪聲,包括說話人唇齒碰撞的低頻噪聲,還有語音采樣裝置的電流毛刺,加上說話聲音的大小都會影響到語音信號識別結果,所以在進行特征提取之前按,我們需要先對語音信號進行一些預處理,預處理流程圖如圖2 所示。

圖2 預處理流程

預處理總共分為4 個步驟:中值濾波,歸一化,預加重,分幀與加窗。中值濾波的目的在于消除由于語音采樣電路本身性質引起的沖激信號、毛刺等噪聲。

其中x 表示語音數據向量,median 表示求括號中數據的中位數。

歸一化的目的是為了消除由于聲音振幅的大小對特征提取產生的影響,是音頻信號映射到同一區間[-1,1]。

為了消除聲音由唇與聲帶產生的低頻噪聲,將數字語音信號通過一個高通濾波器,這一步稱為預加重。高通濾波器的系統函數與時域表達式分別為:

研究表明[1],a 的取值范圍在0.93 到0.98 之間。

一般情況下,語音信號是在不斷變化的,為了簡化建模,假設語音信號是短時穩定不變的。分幀處理的目的就是將數字語音信號分割為幀長為15~25 毫秒的幀,為了讓幀與幀之間平滑過渡,相鄰兩幀會有一個重疊部分,重疊部分稱為幀移。一般情況下,幀移為幀長的(0,0.5)倍長度之間[1]分幀信號如圖3 所示。

在經過分幀處理后,每一幀的截斷處是不平滑的,不利于后續處理。解決辦法是使用窗函數對截斷處的不連續變化進行平滑,減少泄露,降低傅里葉變化后旁瓣強度,將能量集中在主瓣內。常用的窗函數以及對應基本指標如表1 所示。

圖3 語音信號分幀

表1 窗函數指標

處理語音信號一般采用邊界平滑下降的海明窗[2],海明窗函數W(n)表達式為:

加窗處理方式為:

1.2 語音信號特征提取

(1)MFCC 原理

根據人耳聽力對頻率的敏感度是非線性的,定義一種符合人耳聽覺敏感度的頻率:梅爾頻率Fmel:

人耳的耳蝸結構相當于一組MEL 濾波器組,其傳遞函數Hm(k)為:

f(m)表示第m 個三角濾波器的中心頻率。利用MATLAB 繪制梅爾濾波器組,如圖4 所示。

圖4 梅爾濾波器組

該圖體現了不同頻率信號通過梅爾濾波器組后的衰減程度(橫坐標代表頻率,縱坐標代表衰減系數),該濾波器組由24 個梅爾濾波器線性相加構成。

(2)特征提取流程

基于MFCC 的語音特征向量提取流程如圖5所示:

圖5 特征向量提取流程

由于梅爾濾波器是在頻域上處理語音信號,所以需要先通過(FFT)快速傅里葉變換將每一幀語音數據由時域信號轉換為頻域信號:

將轉換后的數據通過梅爾濾波器組Hm(k),即可得到語音特征向量Y。此時的特征向量已經可以用于訓練與識別,但由于每一幀語音包含的采樣點數較多(一般為200 到1000 個左右),用于訓練或識別會大大提高運算量,降低系統的實時性。本文的解決方法是利用離散余弦變換(DCT)壓縮特征向量信息:

其中,m 為13 維向量[3]。考慮到實際語音信號是動態變化的,而每一幀語音是假設短時不變的,所以我們需要一個指標來表示語音的動態變化性質,一般通過計算每一幀特征向量m 的一階差分與二階差分來實現[4]:

2 基于GMM-HMM的語音識別模型

2.1 GMM-HMM模型原理

HMM 是比較經典的機器學習模型,在自然語言處理,模式識別等領域都有著廣泛的用途,一般用于解決含有兩類數據(觀測序列,狀態序列)的問題,該模型由俄國科學家馬爾科夫提出[5],目的是解決統計過程中狀態和行為之間的“聯動性”,即某個行為的發生與不同狀態之間存在特定的概率關聯。

圖6 隱馬爾科夫模型

如圖6 所示,{1,2,3}為模型狀態序列,而{O1,O2,O3}為模型觀測序列。狀態之間可以相互進行轉換,其轉換結果由狀態轉移概率矩陣決定。而每一種狀態可以同時對應多種觀測值,其中離散的對應關系使用觀測概率矩陣表示,連續的對應關系則使用概率密度函數表示。HMM 的參數及其含義如表2 所示。

表2 隱馬爾可夫模型參數及其含義

混合高斯模型(Gaussian Mixture Model,GMM)是一種統計學模型[7],可以用來表示在總體分布中含有K個子分布的概率模型,表示了觀測數據在總體中的概率分布,由K 個子分布組成的混合分布,而每一個子分布都遵循高斯分布,理論上混合高斯分布可以用于擬合任意分布的樣本,因此本文使用GMM 擬合語音特征向量的分布情況,其概率密度函數為:

其中,μ為數據均值(期望)向量,Σ 為協方差矩陣,D 為數據維度。

前后向算法用于解決HMM 模型三大問題中的參數學習問題。求解前后向概率的公式為:

前向概率αt(j)表示在t 時刻,狀態為j 且觀測序列為{o1,o2…,ot-1,ot} 的概率。后向概率βt(i)表示在t時刻,狀態為j 的且從t+1 時刻到T 時刻的觀測序列為{ot+1,ot+2…,oT}的概率。其中aij表示狀態轉移概率矩陣,bj(t)表示觀測概率矩陣。

2.2 孤立詞識別算法

在基于HMM 建立的孤立詞模型當中,經過MFCC提取出的特征向量序列為狀態序列,而文本信息為觀測值。由于在孤立詞的HMM 當中,一段語音信號僅僅對應了一個觀測值,所以求解最大概率并識別的方式為遍歷每個孤立詞模型,求解出概率最大的模型對應的詞匯,流程如圖7 所示。

圖7 孤立詞訓練與識別流程

本文采用了無監督學習的方法進行模型的訓練。利用K 均值算法將每一個孤立詞分為4~6 種狀態[6],通過最大期望(Expectation-Maximum,EM)算法求狀態之間的轉移概率矩陣。狀態轉移概率矩陣與前后向概率向量之間的遞歸公式[7]為:

由于語音信號受情緒、環境影響較大,不同的人音調、音色也存在許多差異,導致同一個詞匯存在無數種與之相對應的語音波形。使用觀測概率矩陣B 來作為語音特征狀態與觀測值之間的對應關系是不切實際的,所以本文采用GMM 來擬合語音特征觀測向量的分布情況,使用多維混合高斯分布密度函數P(X|θ)來代替(4-5)中的bj(ot+1),其中X表示第(t+1)幀的語音特征向量,θ表示第狀態j 對應的GMM 參數。

利用遞歸與重估的方式訓練參數往往都需要一個指標來判斷是否完成訓練,本文采用最大輸出概率作為該指標。當連續兩次重估之后最大輸出概率之差小于10-6時,訓練完成。重估參數流程如圖8。

圖8 參數重估流程

維特比解碼是在給定一段觀測序列時,需要找到一條最佳路徑使得該路徑上的狀態序列轉移為改觀測序列時概率P*最大,P*即為最大輸出概率。在完成對HMM 模型訓練之后,使用維特比算法求解測試樣本相對于每一個孤立詞模型的最大輸出概率,比較得到概率最大的模型即可完成識別任務。

3 實例分析

現有的國家標準將垃圾分為四個大類,分別是可回收垃圾、廚余垃圾、有害垃圾、其他垃圾,本文對每一種類各選擇了3 個詞匯進行識別實驗。采用MATLAB完成對孤立詞語音模型的訓練和識別。

圖9

首先通過函數audioread 讀取出wav 文件當中的數據,其調用方式為:

其中x 為數字音頻信號向量,fs 為采樣頻率,fname為文件名稱。由于人類發聲的頻率范圍一般在80Hz~3400Hz,由采樣定理可知采樣頻率應當為信號最高頻率的兩倍以上,所以這里fs 一般取8000Hz。提取出數據之后,采用自定義函數MFCC 對語音信號進行特征提取

輸出參數m 表示語音信號特征向量,原始語音信號波形以及對應特征向量波形如圖10。

圖10 語音波形

特征提取完成后,通過自定義函數tran 進行訓練,其調用方式為:

Samples 為元胞型數據,包含了一個孤立詞所有訓練樣本的特征向量,而Hmm_mode 是一個存儲模型參數的結構體變量。訓練完成之后,使用自定義函數vit?erbi 求解測試樣本的特征向量對于每一個孤立詞模型當中的最大輸出概率:

輸出概率最大的模型對應的詞匯文本即為識別結果,如圖11 所示。

圖11 訓練過程

完成訓練之后,設計GUI 界面用于進行實驗驗證,如圖12 所示。通過“音頻選擇”按鈕選擇PC 上的音頻文件,點擊“開始識別”按鈕即可完成識別。

圖12 GUI界面

本次實驗共測試了10 個人的語音樣本,其中男生女生各5 人,測試結果(識別正確率)如表3 所示。

表3 語音識別結果統計表

實驗結果表明,總體識別正確率可以達到93.5%,說明本文設計的有效性和可行性。

4 結語

本文設計并實現了一種基于HMM 的語音識別垃圾分類系統,該系統通過語音交互自動識別垃圾種類信息,并指導垃圾的分類投放。該系統采用統計學習方法中的HMM 模型對語音信號進行建模,相比于一般的機理建模,該方法可以通過不斷增加訓練樣本來提高識別率,識別不同的詞匯時也無需重新建模,只需更新訓練樣本即可,這在社會發展迅速,有關垃圾的新興詞匯不斷增加的背景下顯得尤為重要。經過實驗驗證,本設計識別率高,可以為我國垃圾分類的智能化提供有效的技術支持。

猜你喜歡
信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
孩子停止長個的信號
3D打印中的模型分割與打包
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 中文字幕在线免费看| 欧美日韩国产在线播放| 中字无码av在线电影| 久久综合久久鬼| 人妻精品全国免费视频| 国产福利大秀91| 免费a级毛片18以上观看精品| 一级毛片免费不卡在线视频| 国产97公开成人免费视频| 久久精品丝袜高跟鞋| 乱人伦视频中文字幕在线| 久草国产在线观看| 乱人伦中文视频在线观看免费| 精品一区二区三区波多野结衣| 少妇极品熟妇人妻专区视频| 2022国产91精品久久久久久| 国产浮力第一页永久地址| 午夜国产精品视频| 欧美 亚洲 日韩 国产| 99人妻碰碰碰久久久久禁片| 成人久久精品一区二区三区| 久久人搡人人玩人妻精品 | 久久香蕉国产线| 日韩成人在线视频| a毛片在线播放| 欧美日韩动态图| 欧美精品啪啪一区二区三区| 国产精品一区二区无码免费看片| 亚洲性视频网站| 欧美日韩久久综合| 狠狠操夜夜爽| 日韩美毛片| 九九九精品成人免费视频7| 国产在线观看成人91| 深爱婷婷激情网| 欧美一区二区精品久久久| 欧美中文一区| 欧美一级在线| 四虎AV麻豆| 天天激情综合| 在线综合亚洲欧美网站| 亚洲福利网址| 性欧美精品xxxx| 毛片一区二区在线看| 国产精品香蕉在线| 国产极品美女在线| 中文字幕无码av专区久久| 天天综合天天综合| 成人在线观看一区| 国产女人在线| 超碰aⅴ人人做人人爽欧美| 在线另类稀缺国产呦| 中文无码毛片又爽又刺激| 先锋资源久久| 国产aⅴ无码专区亚洲av综合网| 亚洲h视频在线| 福利一区三区| 日韩精品一区二区三区免费| 不卡的在线视频免费观看| 精品丝袜美腿国产一区| 国产精品久久久久无码网站| 亚洲热线99精品视频| 国产精品高清国产三级囯产AV| 看看一级毛片| 欧美在线精品怡红院| 午夜欧美在线| 精品福利国产| 国内熟女少妇一线天| 91福利免费| 久草性视频| 亚洲无码熟妇人妻AV在线| 在线播放国产99re| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲欧美成人影院| 欧美国产综合视频| 手机在线国产精品| 中日无码在线观看| 欧美一区二区精品久久久| 四虎精品免费久久| 在线观看国产网址你懂的| 国产成人综合在线观看| 天堂成人av|