999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于噪聲環(huán)境下的說話人識(shí)別系統(tǒng)的研究

2011-06-13 06:36:38范茂志
科技傳播 2011年20期
關(guān)鍵詞:特征信號(hào)模型

林 秀,范茂志

同濟(jì)大學(xué)軟件學(xué)院,上海 201804

基于噪聲環(huán)境下的說話人識(shí)別系統(tǒng)的研究

林 秀,范茂志

同濟(jì)大學(xué)軟件學(xué)院,上海 201804

對(duì)帶噪聲的語音信號(hào)采用消噪算法處理,并提取特征參數(shù)Mel倒譜系數(shù)來建立說話人的特征參數(shù)的混合高斯模型,構(gòu)建了一個(gè)基于噪聲環(huán)境的文本無關(guān)的說話人識(shí)別系統(tǒng)。本文詳細(xì)闡述了梅爾倒譜系數(shù)這一主流語音特征及高斯混合通用背景模型來建立說話人識(shí)別系統(tǒng)。實(shí)驗(yàn)表明,增加混合高斯模型的維數(shù)可以增加系統(tǒng)的識(shí)別率。

說話人識(shí)別;梅爾倒譜系數(shù);高斯混合-通用背景模型

0 引言

說話人識(shí)別指在提取代表個(gè)人身份的特征信息,最終識(shí)別出說話人。作為身份鑒定的一種方法,說話人識(shí)別具有使用簡(jiǎn)單、獲取方便、使用者的接受程度高等優(yōu)點(diǎn),但也存在許多值得研究的問題,如訓(xùn)練條件與測(cè)試條件不匹配。

說話人識(shí)別系統(tǒng)在訓(xùn)練條件與測(cè)試條件匹配的情況下,識(shí)別系統(tǒng)具有很好的性能。由于人體聲道特征,語音信道及通話環(huán)境等因素的干擾,使得說話人識(shí)別系統(tǒng)的準(zhǔn)確性顯著降低。在說話人識(shí)別系統(tǒng)中,有兩方面重要的影響因素:一方面,所選取的語音特征參數(shù)應(yīng)盡量突出說話人的個(gè)性特征,使得不同說話人可以在特征空間上盡量分離。另一方面,降低環(huán)境噪聲對(duì)說話人識(shí)別系統(tǒng)的干擾,是使訓(xùn)練條件與測(cè)試條件匹配的最好辦法。通常提高系統(tǒng)抗噪性能的方法有3種:1)前端處理,如自適應(yīng)噪聲抵消技術(shù)等[1];2)提取具有魯棒性的特征參數(shù)[2];3)后端處理,如歸一化補(bǔ)償變換[3]。

本系統(tǒng)的基本思路如下:首先,采用消噪算法對(duì)帶噪聲的語音信號(hào)進(jìn)行消噪。其次,提取說話人特征信息。提取梅爾倒譜系數(shù)作為說話人的特征信息,由這些特征信息來刻畫說話人特征矢量的超空間。最后,建立高斯混合-通用背景模型。通用背景模型的訓(xùn)練,自適應(yīng)算法生成說話人模型,計(jì)算似然度進(jìn)行得分測(cè)試及得分規(guī)整,完成辨認(rèn)說話人。

1 說話人識(shí)別算法框架

說話人識(shí)別系統(tǒng)以待測(cè)說話人的語音波形作為輸入,通過對(duì)波形的頻譜及特征參數(shù)的計(jì)算和提取,可以得到說話人區(qū)別于其他說話人人的生理和行為特征的聲學(xué)特征參數(shù),來識(shí)別待測(cè)說話人身份。圖1為說話人識(shí)別系統(tǒng)的整體框架。

根據(jù)系統(tǒng)的整體框架,可以把系統(tǒng)分成由兩個(gè)主要組成模塊:基于Mel倒譜系數(shù)[5](Mel-Frequency Cepstrum Coefficients, MFCC)說話人特征參數(shù)的提取模塊和基于背景模型[6](Gaussian Mixture Model-Universal Background Model,GMM-UBM)的目標(biāo)說話人的判決模塊。

圖1 說話人識(shí)別系統(tǒng)

1.1 基于MFCC說話人特征的提取

本模塊的基本思路:首先,采用消噪算法對(duì)帶噪聲的語音信號(hào)進(jìn)行處理,得到較為純凈的語音。采用消噪算法的目的在于提高語音質(zhì)量,在消除背景噪音的同時(shí)使得語音信號(hào)更清晰準(zhǔn)確,提高語音信號(hào)的可懂度。其次,對(duì)消除噪聲之后的語音進(jìn)行特征提取,得到可以代表說話人特征信息的梅爾到普系數(shù),即說話人的特征參數(shù)。

1.1.1 消噪算法

采用譜相減法對(duì)語音信號(hào)消除噪聲影響,圖2為譜相減法的結(jié)構(gòu)圖。

圖2 譜相減法

譜相減法的具體步驟如下所示:

1)確定語音信號(hào)的每幀的幀長(zhǎng),將語音信號(hào)進(jìn)行分幀;

2)計(jì)算各幀的能量值,確定噪音能量閾值。在能量小于閾值且能量等于閾值的時(shí)刻之前的時(shí)間段內(nèi)的能量認(rèn)為是該能量為噪音能量,該時(shí)間段的信號(hào)為噪音信號(hào)。從能量大于閾值的時(shí)刻起后面所有時(shí)間的信號(hào)認(rèn)為是帶噪聲語音信號(hào);

3)對(duì)各幀語音信號(hào)進(jìn)行傅立葉變換,得到語音信號(hào)的頻譜信息;

4)根據(jù)所確定的噪聲信號(hào)信息,對(duì)帶噪聲語音信號(hào)進(jìn)行相位和頻譜能量的變換,得到增強(qiáng)后的語音頻譜圖;

5)根據(jù)傅立葉逆變換,得到增強(qiáng)后到語音信號(hào)。

1.1.2 MFCC特征參數(shù)提取

MFCC在人耳聽覺結(jié)構(gòu)和人類發(fā)聲和接受聲音等機(jī)理特性方面具有很好的魯棒性,并且在頻率域上可以較好的表達(dá)說話人的個(gè)性特征,具有較好的識(shí)別性能和抗噪聲能力。因?yàn)闃?biāo)準(zhǔn)的MFCC僅僅表現(xiàn)了語音算數(shù)的靜態(tài)特征,而語音的動(dòng)態(tài)特性更能滿足人耳對(duì)聲音敏感的特性,故本文采用的特征提取算法是在MFCC的基礎(chǔ)上再作一階差分(MFCC),二階差分(MFCC)這三部分構(gòu)成了特征矢量。它對(duì)消除語音信號(hào)的幀之間的相關(guān)性具有很好的效果,并且可以很好的逼近語音的動(dòng)態(tài)特性,對(duì)提高系統(tǒng)的識(shí)別率有很大的作用。MFCC特征參數(shù)的提取過程如圖3所示:

圖3 特征提取

特征提取具體步驟如下:

1)預(yù)加重,減少尖銳噪聲的影響,提升高頻信號(hào),x(n)為原信號(hào),y(n)為預(yù)加重后信號(hào);

2)加漢明窗,減少吉伯斯效應(yīng)。W(n)是窗函數(shù),Sw(n)是加窗后信號(hào):

3)對(duì)信號(hào)Sw(n)進(jìn)行DFT

4)把頻譜系數(shù)用三角濾波器進(jìn)行濾波處理,得到一組系數(shù)m1, m2,...,mM,M 為濾波器組個(gè)數(shù)。濾波器組中每一個(gè)三角濾波器的跨度在Mel標(biāo)度上是相等的。

5)計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量:

6)經(jīng)離散余弦變換(DCT)得到MFCC:

7)對(duì)MFCC再作一階差分、二階差分作為最終的特征矢量。

1.2 基于GMM-UBM模型目標(biāo)說話人的判決

1)注冊(cè)說話人階段:注冊(cè)語音在UBM模型上計(jì)算高斯?fàn)顟B(tài)占有率,得到統(tǒng)計(jì)量,在UBM的均值和方差中做一個(gè)類似插值的操作得到說話人模型參數(shù)。

具體步驟如下:

(1)語音特征矢量X = { x t,t = 1, 2, …,T },設(shè)置最大迭代次數(shù)L以及每次迭代的改進(jìn)閾值作為迭代過程的終止條件;

(4)計(jì)算總畸變Dm:

(5)計(jì)算畸變的相對(duì)改變值:

(7)如果當(dāng)前誤差值小于門限值則跳轉(zhuǎn)到第(9)步,否則,跳到第(8)步;

(8)若m > L,跳到第(9)步,否則,m = m +1,跳轉(zhuǎn)到第(3)步;

(9)迭代終止并計(jì)算:

其中,Nj是屬于第的點(diǎn)的個(gè)數(shù);

2)測(cè)試階段:測(cè)試語音在UBM模型上計(jì)算高斯的似然度,并計(jì)算在待測(cè)說話人模型上對(duì)應(yīng)的高斯似然度,將兩個(gè)似然度相減則為最后的得分。具體步驟如下:

(1)首先對(duì)通用背景模型(UBM)中每個(gè)高斯計(jì)算似然度得分,并對(duì)每一幀選出得分最高的C個(gè)高斯模型。

(2)計(jì)算說話人模型得分,每一幀只需要計(jì)算對(duì)應(yīng)于UBM的C個(gè)高斯模型的得分即可。

(3)計(jì)算最終的測(cè)試得分為說話人模型和通用背景模型兩者之差。

3)得分規(guī)整[7]階段:由于同一說話人在不同的說話狀態(tài)、語義信息、環(huán)境噪音等因素的影響,說話人在不同狀態(tài)下的語音信息和特征信息會(huì)有所不同,導(dǎo)致同一說話人在兩次說話中出現(xiàn)差異,在系統(tǒng)上表現(xiàn)為得分不同。不同說話人在某些相同的環(huán)境下會(huì)有一定的相似性。

通過得分規(guī)整技術(shù)對(duì)說話人識(shí)別的高斯似然度進(jìn)行歸一化運(yùn)算,使在不同說話人模型下的輸出得分規(guī)整到同一分布范圍。得分規(guī)則可以有效地減小同一說話人的不一致性,擴(kuò)大不同說話人的不一致性。本文主要討論對(duì)最后得分ZNORM[7-8]、TNORM[9]及ZTNORM這三種方式規(guī)整技術(shù)。ZNORM(Zero Normalization)的原理是利用大量冒認(rèn)者語句對(duì)目標(biāo)說話人模型進(jìn)行測(cè)試,再利用輸出得分統(tǒng)計(jì)出目標(biāo)說話人模型的輔助參數(shù)。TNORM(Test Normalization)的原理是計(jì)算大量冒認(rèn)者模型對(duì)待測(cè)語句的得分,從而得到待測(cè)語句在冒認(rèn)者模型上的相關(guān)參數(shù),TNORM是一種在線處理的規(guī)則方法。其缺點(diǎn)是當(dāng)冒認(rèn)者模型較多時(shí),計(jì)算量較大,比較耗費(fèi)時(shí)間。

2 實(shí)驗(yàn)分析及結(jié)果

本實(shí)驗(yàn)采用的語音數(shù)據(jù)的格式是16kHz,8位精度,wav 文件格式,語音時(shí)長(zhǎng)為5min。設(shè)置12個(gè)實(shí)驗(yàn),對(duì)不同的高斯維數(shù)(256、512、1024、2048)及得分規(guī)則(ZNORM、TNORM、TZNORM),得到不同的等錯(cuò)誤率。

表 1

由表1中的12個(gè)實(shí)驗(yàn)數(shù)據(jù)可以看出,2048個(gè)高斯模型,TNORM和ZNORM的混合得分規(guī)整這個(gè)實(shí)驗(yàn)參數(shù)是等錯(cuò)誤率(EER)最小,在12個(gè)實(shí)驗(yàn)中識(shí)別效果最好。對(duì)不同的高斯維數(shù)及得分規(guī)則,說話人識(shí)別系統(tǒng)的等錯(cuò)誤率(EER)有不同,整體趨勢(shì)是高斯維數(shù)越大,等錯(cuò)誤率EER越小,識(shí)別效果越好?;旌系梅忠?guī)整具有較好的效果,EER較低。

3 結(jié)論

增高通用背景高斯混合模型的維數(shù)可以較為準(zhǔn)確地對(duì)說話人的特征信息即MFCC進(jìn)行建模,很好的描述說話人的特征信息,并使得系統(tǒng)獲得較好的系統(tǒng)識(shí)別率。

[1]TADJ C, GABREA M, GARGOUR C, et al.Towards robustness speaker verification: enhancement and adaptation[C]//Proceeding of the 45th Midwest Symposium on Circuit and System.New York: IEEE, 2002:320-323.

[2]ZHEN Y X, ZHENG T F, WU W H.Weighting observation[C]//Proceedings of International Conference on Spoken Language Processing.Jeju Island, Korean: ISCA,2004: 819-822.

[3]包永強(qiáng),趙力,鄒采榮.采用歸一化補(bǔ)償變換的與文本無關(guān)的說話人識(shí)別[J].聲學(xué)學(xué)報(bào),2006,31(1):55-60.

[4]D.A.Reynolds and R.C.Rose.”Robust textindependent speaker identification using Gaussian mixture speaker models”IEEE Trans.on Speech and Audio Processing,1995,3.

[5]Steve Young,The HTK Book.Ver 3.0, July 2000.http://svr-www.eng.cam.ac.uk.

[6]D.A.Reynolds.”Speaker identification and verification using Gaussian mixture speaker models”Speech Communication, 1995,17:91-108.

[7]Frederic Bimbot, Jean-Francois Bonastre, A Tutorial on Text-Independent Speaker Verification[J].EURASIP Journal on Applied Signal Processing,2004,4:430-451.

A Study on the Textindependent Speaker Recognition System under Noisy Condition

LIN Xiu,F(xiàn)AN Mao-zhi
School of Software Engineering, Tongji University,Shanghai 201804

TP391.42

A

1674-6708(2011)53-0182-03

林秀,碩士研究生,研究方向:說話人識(shí)別

范茂志,碩士,研究方向:人工智能、人臉識(shí)別、嵌入式Linux

猜你喜歡
特征信號(hào)模型
一半模型
信號(hào)
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产一区二区免费播放| 国产国模一区二区三区四区| 久久精品人妻中文视频| 久久激情影院| 亚洲精品综合一二三区在线| 国产区在线观看视频| 国产精品久久久久久久伊一| 欧美精品一区二区三区中文字幕| 再看日本中文字幕在线观看| 国产精品白浆无码流出在线看| 2022国产无码在线| 国产成人啪视频一区二区三区| 国产亚洲精品自在久久不卡| 国产99视频在线| 五月天福利视频 | 日韩小视频在线观看| 免费无码一区二区| 亚洲欧美日韩天堂| 色窝窝免费一区二区三区| 亚洲成a人片| 久久一色本道亚洲| 国产乱人乱偷精品视频a人人澡| 全部免费毛片免费播放| 91热爆在线| 久久精品国产精品一区二区| 中文字幕有乳无码| 欧美精品影院| 国产亚洲精久久久久久无码AV| 成年女人a毛片免费视频| 狠狠操夜夜爽| 亚洲人成网站在线观看播放不卡| 国产va在线| 香蕉在线视频网站| 午夜成人在线视频| 69国产精品视频免费| 亚洲一级无毛片无码在线免费视频| 国产精品手机视频| 午夜日b视频| 中文字幕永久在线观看| 成年免费在线观看| 成人av专区精品无码国产 | 欧美区在线播放| 国产亚洲精品资源在线26u| 大学生久久香蕉国产线观看 | 中文精品久久久久国产网址| 最新加勒比隔壁人妻| 国产剧情无码视频在线观看| 激情午夜婷婷| 国产成人精品一区二区三在线观看| 亚洲无码A视频在线| 国产成人免费视频精品一区二区 | 在线欧美一区| 亚洲乱码精品久久久久..| 国产一区成人| 欧美狠狠干| 成人午夜视频网站| 欧美亚洲国产精品第一页| 永久天堂网Av| 久久一级电影| 国产导航在线| 亚洲人成人无码www| 国产传媒一区二区三区四区五区| 在线看片免费人成视久网下载| 国产人人射| 日韩黄色在线| 成人国产精品网站在线看| 99色亚洲国产精品11p| aaa国产一级毛片| 中国国产A一级毛片| 岛国精品一区免费视频在线观看| 97久久精品人人| 国产精品成人观看视频国产| 免费在线一区| 亚洲另类国产欧美一区二区| 无码电影在线观看| 国产一区二区三区夜色| 亚洲综合色婷婷| 久久久久亚洲精品成人网 | 国产亚洲男人的天堂在线观看| 亚洲无码精彩视频在线观看 | 丁香五月亚洲综合在线 | 欧美日本视频在线观看|