999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于噪聲環境下的說話人識別系統的研究

2011-06-13 06:36:38范茂志
科技傳播 2011年20期
關鍵詞:特征信號模型

林 秀,范茂志

同濟大學軟件學院,上海 201804

基于噪聲環境下的說話人識別系統的研究

林 秀,范茂志

同濟大學軟件學院,上海 201804

對帶噪聲的語音信號采用消噪算法處理,并提取特征參數Mel倒譜系數來建立說話人的特征參數的混合高斯模型,構建了一個基于噪聲環境的文本無關的說話人識別系統。本文詳細闡述了梅爾倒譜系數這一主流語音特征及高斯混合通用背景模型來建立說話人識別系統。實驗表明,增加混合高斯模型的維數可以增加系統的識別率。

說話人識別;梅爾倒譜系數;高斯混合-通用背景模型

0 引言

說話人識別指在提取代表個人身份的特征信息,最終識別出說話人。作為身份鑒定的一種方法,說話人識別具有使用簡單、獲取方便、使用者的接受程度高等優點,但也存在許多值得研究的問題,如訓練條件與測試條件不匹配。

說話人識別系統在訓練條件與測試條件匹配的情況下,識別系統具有很好的性能。由于人體聲道特征,語音信道及通話環境等因素的干擾,使得說話人識別系統的準確性顯著降低。在說話人識別系統中,有兩方面重要的影響因素:一方面,所選取的語音特征參數應盡量突出說話人的個性特征,使得不同說話人可以在特征空間上盡量分離。另一方面,降低環境噪聲對說話人識別系統的干擾,是使訓練條件與測試條件匹配的最好辦法。通常提高系統抗噪性能的方法有3種:1)前端處理,如自適應噪聲抵消技術等[1];2)提取具有魯棒性的特征參數[2];3)后端處理,如歸一化補償變換[3]。

本系統的基本思路如下:首先,采用消噪算法對帶噪聲的語音信號進行消噪。其次,提取說話人特征信息。提取梅爾倒譜系數作為說話人的特征信息,由這些特征信息來刻畫說話人特征矢量的超空間。最后,建立高斯混合-通用背景模型。通用背景模型的訓練,自適應算法生成說話人模型,計算似然度進行得分測試及得分規整,完成辨認說話人。

1 說話人識別算法框架

說話人識別系統以待測說話人的語音波形作為輸入,通過對波形的頻譜及特征參數的計算和提取,可以得到說話人區別于其他說話人人的生理和行為特征的聲學特征參數,來識別待測說話人身份。圖1為說話人識別系統的整體框架。

根據系統的整體框架,可以把系統分成由兩個主要組成模塊:基于Mel倒譜系數[5](Mel-Frequency Cepstrum Coefficients, MFCC)說話人特征參數的提取模塊和基于背景模型[6](Gaussian Mixture Model-Universal Background Model,GMM-UBM)的目標說話人的判決模塊。

圖1 說話人識別系統

1.1 基于MFCC說話人特征的提取

本模塊的基本思路:首先,采用消噪算法對帶噪聲的語音信號進行處理,得到較為純凈的語音。采用消噪算法的目的在于提高語音質量,在消除背景噪音的同時使得語音信號更清晰準確,提高語音信號的可懂度。其次,對消除噪聲之后的語音進行特征提取,得到可以代表說話人特征信息的梅爾到普系數,即說話人的特征參數。

1.1.1 消噪算法

采用譜相減法對語音信號消除噪聲影響,圖2為譜相減法的結構圖。

圖2 譜相減法

譜相減法的具體步驟如下所示:

1)確定語音信號的每幀的幀長,將語音信號進行分幀;

2)計算各幀的能量值,確定噪音能量閾值。在能量小于閾值且能量等于閾值的時刻之前的時間段內的能量認為是該能量為噪音能量,該時間段的信號為噪音信號。從能量大于閾值的時刻起后面所有時間的信號認為是帶噪聲語音信號;

3)對各幀語音信號進行傅立葉變換,得到語音信號的頻譜信息;

4)根據所確定的噪聲信號信息,對帶噪聲語音信號進行相位和頻譜能量的變換,得到增強后的語音頻譜圖;

5)根據傅立葉逆變換,得到增強后到語音信號。

1.1.2 MFCC特征參數提取

MFCC在人耳聽覺結構和人類發聲和接受聲音等機理特性方面具有很好的魯棒性,并且在頻率域上可以較好的表達說話人的個性特征,具有較好的識別性能和抗噪聲能力。因為標準的MFCC僅僅表現了語音算數的靜態特征,而語音的動態特性更能滿足人耳對聲音敏感的特性,故本文采用的特征提取算法是在MFCC的基礎上再作一階差分(MFCC),二階差分(MFCC)這三部分構成了特征矢量。它對消除語音信號的幀之間的相關性具有很好的效果,并且可以很好的逼近語音的動態特性,對提高系統的識別率有很大的作用。MFCC特征參數的提取過程如圖3所示:

圖3 特征提取

特征提取具體步驟如下:

1)預加重,減少尖銳噪聲的影響,提升高頻信號,x(n)為原信號,y(n)為預加重后信號;

2)加漢明窗,減少吉伯斯效應。W(n)是窗函數,Sw(n)是加窗后信號:

3)對信號Sw(n)進行DFT

4)把頻譜系數用三角濾波器進行濾波處理,得到一組系數m1, m2,...,mM,M 為濾波器組個數。濾波器組中每一個三角濾波器的跨度在Mel標度上是相等的。

5)計算每個濾波器組輸出的對數能量:

6)經離散余弦變換(DCT)得到MFCC:

7)對MFCC再作一階差分、二階差分作為最終的特征矢量。

1.2 基于GMM-UBM模型目標說話人的判決

1)注冊說話人階段:注冊語音在UBM模型上計算高斯狀態占有率,得到統計量,在UBM的均值和方差中做一個類似插值的操作得到說話人模型參數。

具體步驟如下:

(1)語音特征矢量X = { x t,t = 1, 2, …,T },設置最大迭代次數L以及每次迭代的改進閾值作為迭代過程的終止條件;

(4)計算總畸變Dm:

(5)計算畸變的相對改變值:

(7)如果當前誤差值小于門限值則跳轉到第(9)步,否則,跳到第(8)步;

(8)若m > L,跳到第(9)步,否則,m = m +1,跳轉到第(3)步;

(9)迭代終止并計算:

其中,Nj是屬于第的點的個數;

2)測試階段:測試語音在UBM模型上計算高斯的似然度,并計算在待測說話人模型上對應的高斯似然度,將兩個似然度相減則為最后的得分。具體步驟如下:

(1)首先對通用背景模型(UBM)中每個高斯計算似然度得分,并對每一幀選出得分最高的C個高斯模型。

(2)計算說話人模型得分,每一幀只需要計算對應于UBM的C個高斯模型的得分即可。

(3)計算最終的測試得分為說話人模型和通用背景模型兩者之差。

3)得分規整[7]階段:由于同一說話人在不同的說話狀態、語義信息、環境噪音等因素的影響,說話人在不同狀態下的語音信息和特征信息會有所不同,導致同一說話人在兩次說話中出現差異,在系統上表現為得分不同。不同說話人在某些相同的環境下會有一定的相似性。

通過得分規整技術對說話人識別的高斯似然度進行歸一化運算,使在不同說話人模型下的輸出得分規整到同一分布范圍。得分規則可以有效地減小同一說話人的不一致性,擴大不同說話人的不一致性。本文主要討論對最后得分ZNORM[7-8]、TNORM[9]及ZTNORM這三種方式規整技術。ZNORM(Zero Normalization)的原理是利用大量冒認者語句對目標說話人模型進行測試,再利用輸出得分統計出目標說話人模型的輔助參數。TNORM(Test Normalization)的原理是計算大量冒認者模型對待測語句的得分,從而得到待測語句在冒認者模型上的相關參數,TNORM是一種在線處理的規則方法。其缺點是當冒認者模型較多時,計算量較大,比較耗費時間。

2 實驗分析及結果

本實驗采用的語音數據的格式是16kHz,8位精度,wav 文件格式,語音時長為5min。設置12個實驗,對不同的高斯維數(256、512、1024、2048)及得分規則(ZNORM、TNORM、TZNORM),得到不同的等錯誤率。

表 1

由表1中的12個實驗數據可以看出,2048個高斯模型,TNORM和ZNORM的混合得分規整這個實驗參數是等錯誤率(EER)最小,在12個實驗中識別效果最好。對不同的高斯維數及得分規則,說話人識別系統的等錯誤率(EER)有不同,整體趨勢是高斯維數越大,等錯誤率EER越小,識別效果越好。混合得分規整具有較好的效果,EER較低。

3 結論

增高通用背景高斯混合模型的維數可以較為準確地對說話人的特征信息即MFCC進行建模,很好的描述說話人的特征信息,并使得系統獲得較好的系統識別率。

[1]TADJ C, GABREA M, GARGOUR C, et al.Towards robustness speaker verification: enhancement and adaptation[C]//Proceeding of the 45th Midwest Symposium on Circuit and System.New York: IEEE, 2002:320-323.

[2]ZHEN Y X, ZHENG T F, WU W H.Weighting observation[C]//Proceedings of International Conference on Spoken Language Processing.Jeju Island, Korean: ISCA,2004: 819-822.

[3]包永強,趙力,鄒采榮.采用歸一化補償變換的與文本無關的說話人識別[J].聲學學報,2006,31(1):55-60.

[4]D.A.Reynolds and R.C.Rose.”Robust textindependent speaker identification using Gaussian mixture speaker models”IEEE Trans.on Speech and Audio Processing,1995,3.

[5]Steve Young,The HTK Book.Ver 3.0, July 2000.http://svr-www.eng.cam.ac.uk.

[6]D.A.Reynolds.”Speaker identification and verification using Gaussian mixture speaker models”Speech Communication, 1995,17:91-108.

[7]Frederic Bimbot, Jean-Francois Bonastre, A Tutorial on Text-Independent Speaker Verification[J].EURASIP Journal on Applied Signal Processing,2004,4:430-451.

A Study on the Textindependent Speaker Recognition System under Noisy Condition

LIN Xiu,FAN Mao-zhi
School of Software Engineering, Tongji University,Shanghai 201804

TP391.42

A

1674-6708(2011)53-0182-03

林秀,碩士研究生,研究方向:說話人識別

范茂志,碩士,研究方向:人工智能、人臉識別、嵌入式Linux

猜你喜歡
特征信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国内毛片视频| 高清国产在线| 国产精品女同一区三区五区| 中文字幕色在线| 中文国产成人久久精品小说| 久久久久免费精品国产| 精品小视频在线观看| 九九九久久国产精品| 极品尤物av美乳在线观看| 9cao视频精品| 亚洲精品视频免费看| 欧美国产综合视频| 亚洲一区无码在线| 老汉色老汉首页a亚洲| 亚洲国产黄色| 2021国产乱人伦在线播放 | 久久福利网| 亚洲av无码专区久久蜜芽| 欧美精品成人一区二区视频一| 欧美在线观看不卡| 97国产在线视频| 有专无码视频| 曰韩人妻一区二区三区| 国产福利免费在线观看| 国产欧美视频一区二区三区| 无码福利视频| 亚洲中文字幕无码爆乳| 国产办公室秘书无码精品| 亚洲第一成年免费网站| 国产毛片基地| 亚洲国产成人精品无码区性色| 欧美日韩在线国产| 色哟哟色院91精品网站| 久久久久国产一区二区| 国产精品无码作爱| 99在线观看视频免费| 国产青榴视频| 永久免费av网站可以直接看的 | 久久午夜夜伦鲁鲁片无码免费| 亚洲一级色| 91年精品国产福利线观看久久 | 亚洲美女久久| 色AV色 综合网站| 亚洲精品国产综合99| 国产成人一区| 999国内精品久久免费视频| 国产乱论视频| 欧美色伊人| 亚洲成人动漫在线| 日韩AV无码一区| 日韩在线播放中文字幕| 亚洲无码日韩一区| 国产在线观看精品| 色成人亚洲| 日韩免费毛片| 欧美中日韩在线| 青青草综合网| 亚洲天堂免费在线视频| 国产丝袜啪啪| 成人自拍视频在线观看| 国产精品流白浆在线观看| av在线手机播放| 欧美曰批视频免费播放免费| 无码区日韩专区免费系列| 国产不卡一级毛片视频| 原味小视频在线www国产| 欧美一级高清片欧美国产欧美| 国产高清在线观看| 成人午夜天| 孕妇高潮太爽了在线观看免费| 国产欧美日韩另类| 青青操国产视频| 亚洲欧美日韩视频一区| 久久精品国产精品青草app| 亚洲欧洲自拍拍偷午夜色| 国产女人18毛片水真多1| 毛片网站免费在线观看| 午夜国产大片免费观看| 99视频在线观看免费| 亚洲天堂视频网站| 热久久这里是精品6免费观看| 色屁屁一区二区三区视频国产|