999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

LPC及F0參數(shù)組合基于GMM電話語音說話人識別

2011-06-28 06:27:14達瓦吾守爾斯拉木匂坂芳典
中文信息學報 2011年4期
關鍵詞:特征信號模型

伊·達瓦,吾守爾·斯拉木,匂坂 芳典

(1. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830014;2. 新疆多語種技術重點實驗室,新疆 烏魯木齊 830014;3. 早稻田大學 大學院國際情報通信研究科, 日本,東京,169-0051)

1 引言

據(jù)科學家分析、人類說話的聲音能夠表現(xiàn)出一個人的生理、情緒、感情、健康程度、受教育狀況、居住以及所處的社會環(huán)境等許多關聯(lián)的物理現(xiàn)象,跟一個人的遺傳因子(DNA)有密切關系且千差萬別。為此在科學上常常用聲音的聲學參數(shù)來標記、觀察、辨別一個人的生理特征以及身份。這種技術稱為聲紋技術,目前,尤其是公共安全領域應用很廣泛[1-3]。

語音是信息最重要的載體,隨著手機、互聯(lián)網(wǎng)等方便好用的通訊產(chǎn)業(yè)的高速發(fā)展,利用電話—互聯(lián)網(wǎng)等通訊手段的犯罪時有發(fā)生,且有逐年上升的趨勢。比方說電話詐騙,通過電話、網(wǎng)絡終端的非法交易,利用電話的政治煽動事件等直接危害人民群眾的正常生活工作甚至威脅著國家和地區(qū)的安定。因此語音技術在國家、地區(qū)及公共安全領域有著重大的應用價值。

說話人識別技術與語音識別技術不同。在語音識別中重點關注語音內(nèi)容(說的什么話)以及人聽覺等提取相關信息的特征參數(shù)。常用MFCC參數(shù),而說話人識別中應重點考慮說話人本身特征,即表現(xiàn)聲道和音調(diào)相關的特征參數(shù),不必考慮說什么內(nèi)容的話或者什么詞句,說哪種語言等內(nèi)容信息。

為實現(xiàn)說話人的自動判別或者識別分類,技術上在語音信號流中提取聲學參數(shù)生成發(fā)話人的數(shù)理模型。常用方法有矢量量化VQ (Vector Quantization);ANN (Acoustic Network Neural);HMM (Hideen Markov Model);GMM (Gaussian Mixture Model) 技術及它們的混合技術等。

SRS技術,近年來一直是在計算機通信領域的熱門研究課題之一。目前說話人自動識別系統(tǒng)(SRS)主要依據(jù)于語音中所包含的說話人特定的聲學特征來自動辨認—識別一個人的身份。可以實現(xiàn)生物人證、語音識別及合成技術。在國內(nèi)外,安全要害部門的出入注冊、偵聽嫌疑人通話、出入境管理及敏感內(nèi)容的監(jiān)控等方面已得到了廣泛地應用,而且需求也很大。

原先,由于基于HMM的方法對含噪音的語音信號處理有較強的魯棒性,為此常也在說話人識別中引用。比如,在文獻[4-7]中通過連續(xù)語音 CHMM (Continuous CHMM) 的方法實現(xiàn)了較好的說話人識別系統(tǒng)。但是,基于HMM的方法對上下文無關時間序列的建模能力有限,需要事先自動轉(zhuǎn)寫語音流內(nèi)容。

另外,上述各方法均利用聲道頻譜的倒譜系數(shù)LPC (Linear Prediction Coding), Mel-倒譜及LPC-倒譜參數(shù)作為特征量構建識別模型。聲道頻譜含豐富的語言學成分(如音素等),因此,用這種方法建模對于語音識別(語音轉(zhuǎn)換為文字)技術帶來較高的識別性能。尤其是基于GMM的方法對上下文無關數(shù)據(jù)有較好的聲學特征分類能力,近來在SRS系統(tǒng)開發(fā)中得到了廣泛的應用[8-9]。

基于GMM的SRS系統(tǒng),對于無噪音環(huán)境下收錄的巨量的話音,通過單一信道建模并在閉合集實驗(close test 訓練模型數(shù)據(jù)和測試數(shù)據(jù)相同)條件下一般給出較高的實驗結(jié)果。可是,SRS系統(tǒng)的性能在開放集數(shù)據(jù)(open test 訓練和測試數(shù)據(jù)不同)條件下常常會大幅度地下降。這是由于不同環(huán)境下的語音信號流變動大系統(tǒng)難以適應而引起的。比如帶噪音的電話線路,發(fā)話周圍噪音,使用話筒特性等將引起語音特征量的變化。因此近來不少研究關注試圖提取發(fā)話人個人聲道相關參數(shù)建模的研究[10-11]。另外采取其他一些技術措施來改善系統(tǒng)性能的研究嘗試也不少,如CMN (Cepstral Mean Normalization 頻倒譜歸一化處理)法等[12]。

為了增強并提高發(fā)話人聲學特征提取精度和質(zhì)量,本文討論自動切分有聲區(qū)間(voiced part “聲道信號”)語音流提取純LPC倒譜以及LPC倒譜增加基頻(f0, “聲源信號”)參數(shù)建模方案,試圖改善SRS系統(tǒng)的識別性能。

2 系統(tǒng)分析

2.1 高斯混合分布模型GMM

高斯混合分布模型GMM法是目前在說話人識別技術中常用來建模的有效方法之一。基于GMM準則說話人識別方法GMM模型構建原理如圖1所示。

圖1 為說話人GMM模型的表現(xiàn)形式圖

實施識別時的數(shù)理模型可表示為式(1)和(2)。比較HMM法,GMM不依賴于語音的音素(文本)信息,因此,可以利用多種形式的發(fā)話語音流進行建模。

2.2 語音信號傳輸特性分析

SRS系統(tǒng)的性能受很多外加因素的影響而性能惡化,例如,環(huán)境噪音、受話機傳輸特性、錄音條件及信道中出現(xiàn)說話人自身的生理特征(比如,方言、說話方式、情緒及心理等)以及語種等。圖2表示電話信道特性構造。

圖2 電話語音環(huán)境模型

傳輸?shù)绞茉捦驳恼Z音是個包含多種附加噪音的混合信號。比如在圖2中,假設無雜音語音信號表示為SDi(ω;n),電話線路傳輸特性為H(ω)時,傳輸?shù)绞茉捲捦驳恼Z音信號Oi(ω;n)的表示形式為式(3),即

在式(3)中,ω表示信號傳輸頻率,n為特征量序列號,而i為說話人數(shù)。可見由于H(ω)的客觀存在,會使受話筒信號產(chǎn)生失真。另外考慮到個人聲道特性SDFi(ω;n),發(fā)話環(huán)境雜音Nenv(ω;n)及回線雜音Ncn(ω,n)等因素時,實際傳輸?shù)绞茉捦采系恼Z音信號的數(shù)理模型應表現(xiàn)為式(4)的形式。

因此,在設計建立一個實時的說話人識別系統(tǒng)時,如何從這樣一個復雜的含噪音的信號中提取原有的語音信號是電話語音識別的最大的問題。也是本研究擬去解決的關鍵性問題。除此之另外,應用系統(tǒng)還要考慮以下的技術課題。

① 系統(tǒng)需要定期修改訓練數(shù)據(jù)-刷新聲紋模型

由于話者的發(fā)音特征隨著季節(jié),本人的情緒以及周圍環(huán)境等因素的改變而隨時變化。這就是聲源的可變性問題。為了適應發(fā)音的時差變動,系統(tǒng)需要定期刷新原先的錄音數(shù)據(jù)-使得說話人模型吸收時差變化。

② 父子(兄弟姐妹等家族)聲音難以區(qū)分

目前在聲學研究中目前沒有一個有效可靠的方法來區(qū)分父子或者兄弟姐妹等家族語音的發(fā)音。在建立面向安全—監(jiān)控管理系統(tǒng)中有必要采取聲學以外的有效措施對家族發(fā)話語音所對應身份的辨認驗證。

2.3 LPC倒譜的計算

SRS系統(tǒng)利用聲譜提取聲學特征量。尤其是LPC頻譜更好地反映語言學聲學特征并有較好的魯棒性,因此常常用來做語音信號的特征參數(shù)抽出。其遞歸計算式為:

其中cn為LPC倒譜系數(shù),αi為通過Levinson Durbin算法獲得的線性預測系數(shù),而n表示LPC倒譜系數(shù)的大小。本次試驗中對頻譜的每幀抽出16維LPC-倒譜系數(shù)構建聲學特征量。

2.4 LPC倒譜系數(shù)與基頻結(jié)合

聲音頻率(在語音聲學中指聲帶的基頻,常記作為f0),反映一個人說話時的聲帶振動時的聲源特性的本質(zhì)。要增強并提高SRS系統(tǒng)精度有必要考慮與說話人個人聲道特征相關的聲學特征參數(shù),即基頻參數(shù)。為此,本研究關注在語音流的有聲區(qū)間提取頻譜LPC倒譜系數(shù)及基頻參數(shù)并合并的方式增強GMM模型的精度,從而達到提高說話人識別精度的目的。其訓練用特征量為式(6)所示。這樣總的聲學特征參數(shù)維數(shù)增加到17階。即16階LPC倒頻系數(shù)和一維基頻系數(shù)logF0(因為logF0近似于正規(guī)分布)。

2.5 基線目標系統(tǒng)

一般說話人識別系統(tǒng)由圖3所示三部分技術環(huán)節(jié)構成。首先是聲學參數(shù)抽出部分,即通過某種方式從一定量的語音數(shù)據(jù)中抽出一定大小和格式的聲學參數(shù),即特征參數(shù)或者特征量;其次是,說話人分類建模過程,即通過特征量的統(tǒng)計學習及自適應方法建立各說話人聲學模型,最后為決定算法部分,用來取出識別結(jié)果。其中特征量為式(6)給出的混合參數(shù),GMM用來創(chuàng)建說話人模型。

圖3 基線提案系統(tǒng)

2.6 抽出有聲區(qū)間的方法

由于只有語音流中的有聲區(qū)間才有可能反映出說話人的聲學特征,因此完整地抽出語音流中的有聲區(qū)間是個很重要的技術問題。如圖4所示,一段發(fā)話中如果含有元音就會出現(xiàn)音高或者基頻(F0),因此我們可以利用基頻曲線通過自相關線性預測編碼法自動切分語音流中的有聲區(qū)間。

圖4 基于基頻F0的語音串有聲無聲區(qū)間的切分舉例

3 實驗

3.1 實驗數(shù)據(jù)

本次試實驗訓練庫采用項目組自行采集的實際電話信道維吾爾語對話語音庫[13],發(fā)話人數(shù)為50人(男30,女20),16KHz采樣,16bit量化。每人發(fā)話時間長度約為10~60s。測試數(shù)據(jù)為實際電話信道另行采集的數(shù)據(jù)(與文本無關),格式與訓練數(shù)據(jù)相同。

對每個說話人訓練1個1 024個分量的GMM,在GMM混合元M=16。GMM采用最大似然(Maximum Likelihood, ML)準則,訓練采用K均值法初始化模型,然后用Baum-Welch算法迭代16次。對于每個發(fā)話人每段語音,分別在每個GMM上計算MLLR,然后拼接形成超矢量。

為了便于比較分析,本次實驗用整個語音區(qū)間切分數(shù)據(jù);人工切分有聲區(qū)間數(shù)據(jù);自動切分有聲區(qū)間數(shù)據(jù)以及自動切分有聲區(qū)間數(shù)據(jù)增加基頻logF0等四種數(shù)據(jù)分別在閉集測試和開放集測試上進行。實驗結(jié)果如表1所示。

表1 說話人識別試驗結(jié)果(M=16)

3.2 實驗結(jié)果分析

從表1實驗結(jié)果可以看到,僅利用LPC倒頻系數(shù)時比起人工切分整個區(qū)間和人工切分有聲區(qū)間,自動切分有聲區(qū)間時的識別率在閉集及開放集兩種測試情況下降較多(閉集為93.31%,而開放集為76.97%)。但是通過本研究提案方法(LPC倒譜增加基頻參數(shù)logF0并進行自動切分有聲區(qū)間)的識別精度比起LPC倒譜系數(shù)自動切分語音數(shù)據(jù)時有明顯的提高,即閉集測試為99.18%, 改善5.87%, 而開放集為80.29%,改善3.32%。提案方法開放集測試結(jié)果較接近與人工切分結(jié)果。

4 結(jié)論

通過本次實驗我們可以確認利用語音串的有聲區(qū)間數(shù)據(jù)比較利用語音區(qū)間的整個區(qū)間識別精度有明顯提高。這是由于語音信號中的無聲數(shù)據(jù)段會引起GMM的誤匹配。

LPC-倒譜為實驗數(shù)據(jù)再增加聲源相關的基頻參數(shù)會使開放集說話人識別系統(tǒng)達到較好的識別精度,接近實際使用要求。

今后要進一步研究反映說話人個人聲學特征相關參數(shù)的提取方法,以改善系統(tǒng)的開放集應用性能。

[1] 白井 克彥. 音聲言語處理的潮流 [M]. 東京: CORONA PUBLISHING CO.LTD, 出版社, 2010.3

[2] A Solomonoff, A. Mielke, and al. Clustering speakers by their voice [C]//Proc. ICASSP. UAS: ICASSP, 1998: 757-760.

[3] 張利鵬,王琳琳,徐明星. 多發(fā)音方式下說話人識別研究 [C]//第十屆全國人機語音通訊學術會議暨國際語音語言處理研討會論文集. 北京: 清華大學出版社, 2009: 22-23.

[4] S..Furui. Speaker dependent feature extraction, recognition and processing techniques [J]. Speech Communication, 1991.10(5-6):505-520.

[5] T.Matsui and S.Furui. Comparison of text independent speaker recognition methods using VQ-distortion and discrete/ continuous HMMs [C]//Proc. ICASSP. California: ICASSP, 1992: 157-160.

[6] D.A. Reynolds. Speaker Identification and verification using Gaussian mixture speaker model [J]. Speech Communication, 1995, 17(1-2): 91-108.

[7] B.Tseng, F.Soong and A. Rosenberg. Continuous probabilistic acoustic map for speaker recognition [C]//Proc. ICASSP. California: ICASSP, 1992: 161-164.

[8] Kenichi YOSHIDA, et, al. Speaker Recognition Using Multi-SNR Subband GMM under Noisy Environments [R]. IEICE Technical Report. DSP2000-97, IEICE, 2000.

[9] Minghui Liu and Zhongwei Huang. Evaluation of GMM- based Features for SVM Speaker Verification [C]//Proc. of the 7thWorld Congress on Intelligent Control and Automation. China: Chongqing, 2008: 5027-5030.

[10] Hirokazu Itahashi, et,al. Explaining A Discriminate Model Construct red By SVM in Text Categorization [C]//Proc. of the 22ndAnnual Conference of the Japanese Society for Artificial Intelligence. Kyushu: ACJSAI, 2008: 1-4.

[11] 李娜,崔連延,李蘭蘭. 一種加權矢量量化說話人識別技術 [J]. 電腦知識與技術, 2008, (35): 2228-2229.

[12] 王永琦,鄧琛,李世超,等. 噪音環(huán)境中基于GMM漢語說話人識別 [J]. 人工智能, 2005, 25(11-2):177-179.

[13] 吾守爾·斯拉木, 那斯爾江·吐爾遜. 維吾爾語語音語料庫的設計研究[C]//北京, 國家語言資源與應用語言學高峰論壇, 2007.

猜你喜歡
特征信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發(fā)生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人午夜天| 国产精品一区在线麻豆| 国产哺乳奶水91在线播放| 久久99蜜桃精品久久久久小说| 国产精品片在线观看手机版| 亚洲美女操| 国产a网站| 高清国产在线| 亚洲欧美另类视频| 免费一级毛片在线播放傲雪网| 直接黄91麻豆网站| 色哟哟国产成人精品| 色网站在线免费观看| 久久亚洲中文字幕精品一区 | 欧美成人h精品网站| 尤物亚洲最大AV无码网站| 国产一区二区视频在线| 日本一区高清| 91九色国产在线| 欧美亚洲欧美区| 亚洲日韩Av中文字幕无码| 亚洲精品第一页不卡| 亚洲AV一二三区无码AV蜜桃| vvvv98国产成人综合青青| 国产SUV精品一区二区6| 99视频在线免费| 91麻豆精品国产91久久久久| AV不卡国产在线观看| 一级在线毛片| 99久久精品视香蕉蕉| 国产精品自拍露脸视频| 毛片免费试看| 欧美国产精品拍自| 毛片免费观看视频| 国产精品成| 欧美成人看片一区二区三区| 精品视频福利| 久久久久无码精品国产免费| 国产www网站| 九色视频一区| 在线国产欧美| 国产人免费人成免费视频| 久久特级毛片| 日韩精品免费一线在线观看| 亚洲男人的天堂久久香蕉| 国禁国产you女视频网站| 欧美在线国产| 91成人在线观看视频| 亚洲精品在线观看91| 亚洲成人一区二区三区| 国产亚洲精久久久久久久91| 国产亚洲欧美日韩在线一区二区三区| 国产精品理论片| 久精品色妇丰满人妻| 日韩精品专区免费无码aⅴ| 无码精品福利一区二区三区| 欧美一级特黄aaaaaa在线看片| 亚洲αv毛片| 97国产一区二区精品久久呦| 国模粉嫩小泬视频在线观看| 成人在线综合| 久久久波多野结衣av一区二区| 国产一区二区三区在线观看免费| 色窝窝免费一区二区三区| 欧美激情福利| 色婷婷电影网| 欧美成人日韩| 亚洲一区第一页| а∨天堂一区中文字幕| 99在线免费播放| 一级一级一片免费| 亚洲成人网在线观看| 国产91麻豆免费观看| 小13箩利洗澡无码视频免费网站| 一本久道久久综合多人| 99在线观看国产| 欧美日韩动态图| 久久精品人人做人人| 青草91视频免费观看| 欧美19综合中文字幕| 久久无码高潮喷水| a级毛片在线免费|