999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GMMi—vector的說話人識別研究

2018-10-31 10:31:54王致垚
中國新技術(shù)新產(chǎn)品 2018年16期
關(guān)鍵詞:深度學(xué)習(xí)

王致垚

摘 要:語音識別技術(shù)飛速發(fā)展,在現(xiàn)實生活中扮演著越來越重要的角色,語音識別簡單來說就是讓計算機理解人的語音,它有兩大研究領(lǐng)域:語種識別和說話人識別。說話人識別是指計算機能夠識別出語音來自那個說話人,在身份驗證等眾多領(lǐng)域有很廣泛的應(yīng)用。本文著重探究哪種細(xì)微聲音對說話人識別的效果好,這些細(xì)微聲音有“嗯”“嘖嘖”“清嗓子”“清鼻子”等,最后進(jìn)行人機大戰(zhàn),得出機器的準(zhǔn)確率普遍比較高的結(jié)論。

關(guān)鍵詞:語音識別;說話人識別;高斯混合模型;深度學(xué)習(xí)

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A

0 前言

隨著移動互聯(lián)網(wǎng)的興起,手機APP的廣泛應(yīng)用以及移動電子商務(wù)的需求,人們對安全保密系統(tǒng)的要求也越來越高。除了傳統(tǒng)的密碼輸入方式外,基于生物特征的身份認(rèn)證(如指紋、虹膜、掌紋以及人臉等)成為目前最主要的研究方向。在這其中,語音信號是用于個人身份辨識和確認(rèn)的一種有效的生物特征,其技術(shù)在生物識別中占有重要地位。

語音信號處理是用數(shù)字信息技術(shù)處理語音,可以分為語音合成、語音識別、語音編程和說話人識別。說話人識別是指從語音信號中提取說話人的特征,并對說話人進(jìn)行識別的研究領(lǐng)域。說話人識別實際上是一個模型識別問題。而基于Kaldi的GMM i-vector說話人識別系統(tǒng)則是其中比較新穎的技術(shù)。本文探討的是利用i-vector說話人識別系統(tǒng)來處理一些比較特殊的問題。

1 說話人識別研究的目的及意義

信息輸入方式的變化,也是由于生物識別技術(shù)的發(fā)展。說話人識別技術(shù)能夠更加快捷便利的確定說話人的身份,能夠應(yīng)用于說話人核對,(例如語音類別身份證)電子設(shè)備,信息系統(tǒng)的安全工作,刑偵技術(shù)的人員追蹤,公安、軍事、機密的防護(hù)等眾多領(lǐng)域、將會在電腦、手機、汽車、電子鎖等電子產(chǎn)品上有眾多應(yīng)用

說話人識別也叫做聲紋識別,屬于生物識別技術(shù)的一種。相對于傳統(tǒng)認(rèn)證,具有安全、保密、不易偽裝、不會遺忘或丟失,方便等優(yōu)點。比起其他的生物識別技術(shù),說話人識別更有廉價、簡潔輕便、應(yīng)用廣泛、易于操作和接受等優(yōu)點。

2 說話人識別發(fā)展概述

1876年貝爾(Bell)發(fā)明了電話。1952年Davis等人在貝爾實驗室研制出第一個10個英語字母的語音識別設(shè)備。1956年Cooley和Tukey提出了離散傅里葉變換的快速算法(FFT算法)。20世紀(jì)80年代,人們應(yīng)用非線性技術(shù)提出了梅爾頻率倒譜系數(shù)(MFCC),MFCC是最實用的語音特征參數(shù)。在20世紀(jì)90年代后期,高斯混合模型(GMM,在HMM的基礎(chǔ)上被提出)被應(yīng)用到了說話人識別,GMM成了現(xiàn)在說話人識別的基礎(chǔ)。21世紀(jì)后,人們在高斯混合模型的基礎(chǔ)上提出了高斯混合模型—通用背景模型(GMM—UBM),克服了外部環(huán)境的干擾。GMM—UBM成為目前說話人識別領(lǐng)域最為經(jīng)典的建模方法。

1997年,IBM 將ViaVoice應(yīng)用于商業(yè)。2011年iPhone手機上出現(xiàn)了Siri語音助手服務(wù),語音識別技術(shù)在生活中普及開來。現(xiàn)在幾乎身邊的電子設(shè)備如手機、電腦、iPad都會具備語音識別功能。

3 說話人識別的研究方法

3.1 說話人識別的基本流程

說話人識別實際上是一個模型識別類型,其基本原理是將識別目標(biāo)說話人形成的特征模型與訓(xùn)練好的特征模型進(jìn)行匹配。根據(jù)匹配的距離或概率近似度來判斷說話者是訓(xùn)練模型中的哪個人(說話人辨認(rèn)),或是否是被申明的人(說話人確認(rèn))。

3.1.1 預(yù)處理

預(yù)處理指令可以使輸入的語音信號在不同的執(zhí)行環(huán)境中方便被修改或翻譯。大致分為預(yù)加重、分幀加窗和端點檢測。

3.1.2 特征提取

特征提取是在音頻中提取能夠代表說話人語音特征的信息,消除無用的信息。從而有利于后續(xù)的特征比較,提取的特征能夠直接辨別說話人身份,充分體現(xiàn)不同語音間的差異。

3.1.3 訓(xùn)練過程:訓(xùn)練模型、模型參數(shù)儲存

根據(jù)提取的特征參數(shù)建立說話人的模型,建立訓(xùn)練過程的模型。建立模型的方法分為模板匹配法和概率統(tǒng)計模型法。并將模型進(jìn)行儲存,作為識別過程中的匹配模板。

3.1.4 測試過程:匹配得分,決策判斷

將待測試的語音文件的特征參量與已建立的模型庫進(jìn)行對比、匹配和識別,計算出來得分,查看相似性的最大值,根據(jù)相似性匹配說話人。

值得一提的是,如果被測試的音頻文件不屬于已知的說話人模型。(閉集情況)系統(tǒng)不能隨意抽取相似得分的最大值,因為這樣會將陌生說話人誤判為模型庫中的某一說話人。應(yīng)當(dāng)確定一個適當(dāng)大小的閾值,判斷測試語音是否屬于已經(jīng)建立模型的說話人。若測試得分低于閾值則系統(tǒng)判斷測試音頻不屬于任何一個說話人模型。

3.2 說話人識別的傳統(tǒng)方法

在提取特征之后,要進(jìn)行模型訓(xùn)練。在模型匹配方面,大體分為模板匹配法和概率統(tǒng)計模型法。

可是在實際應(yīng)用中,常常會受到周邊噪聲的干擾,對基于GMM的說話人識別系統(tǒng)要求便有所增加,因此要訓(xùn)練準(zhǔn)確的高斯混合模型需要很多語音數(shù)據(jù),而每一個訓(xùn)練說話人的語音又不夠,因此UBM通用背景模型便被提出來了。在眾多語音數(shù)據(jù)中訓(xùn)練好一個和說話人特征無關(guān)的通用背景模型來模擬實際的外部環(huán)境,通過自適應(yīng)算法來得到目標(biāo)的說話人模型。

4 細(xì)微聲音識別實驗

4.1 實驗原理

說話人識別是一類典型的模式識別類型,包括說話人模型訓(xùn)練和測試語音打分判決兩個階段。

訓(xùn)練階段:對每個使用系統(tǒng)的說話人預(yù)留充足的語音;對預(yù)留語音提取聲學(xué)特征;根據(jù)提取的聲學(xué)特征訓(xùn)練得到說話人模型;將每個說話人模型存入說話人模型庫中。

測試階段:系統(tǒng)獲取待測試識別的語音;與訓(xùn)練階段相同,提取測試語音的聲學(xué)特征;將測試語音的聲學(xué)特征與說話人模型庫進(jìn)行比對,根據(jù)預(yù)先定義的相似性準(zhǔn)則,在說話人模型上進(jìn)行打分判別;最終得到測試語音的說話人身份。

本實驗基于Kaldi的GMM i-vector說話人識別系統(tǒng)主要由4個步驟組成:數(shù)據(jù)列表準(zhǔn)備(scp文件)、特征提取(MFCC提取特征及vad)、模型訓(xùn)練(UBM、T-matrix訓(xùn)練和i-vector提取)、打分判決(Cosine、LDA、PLDA),其流程如圖1所示。

4.2 實驗過程及結(jié)果分析

實驗測試中,首先采集了網(wǎng)站上20人的細(xì)微聲音判別記錄見表1,同一種細(xì)微聲音中,讓測試人員去聽該聲音是否是同一個人發(fā)出的,每個人聽3組同種細(xì)微聲音,最后提交表單,得到該20人的測試記錄錯誤率。由于網(wǎng)站上會對每個測試者選擇的音頻有記錄,然后將測試的音頻全部取出來,同種細(xì)微聲音的音頻放在一起,然后利用圖1所示的i-vector模型對細(xì)微聲音進(jìn)行判別,從而得出機器對該細(xì)微聲音的錯誤率,其結(jié)果見表2。

從實驗結(jié)果來看,4種細(xì)微聲音中,“嗯”的識別錯誤率最低,也就是“嗯”相對其他3種,其識別效果更好;另外從人機測試結(jié)果來看,細(xì)微聲音中對“嗯”“嘖嘖”“清嗓子”的識別準(zhǔn)確率,機器明顯優(yōu)于人類,然而對“清鼻子”的識別準(zhǔn)確率,人類優(yōu)于機器,由于不同測試者清鼻子變化多樣,人類可以根據(jù)語境及背景聲音是否一致來判斷是否為同一個人發(fā)出來的,而機器不可以這樣判斷,這個實驗結(jié)果也是在合理范圍內(nèi)的。

結(jié)語

說話人識別是語音識別的熱點之一。本文首先介紹了說話人識別研究的目的和意義以及發(fā)展概述。重點研究了基于Kaldi的GMM i-vector說話人識別系統(tǒng),對說話人識別系統(tǒng)的工作過程及其工作原理進(jìn)行了深刻的闡述,并著重探究了4種細(xì)微聲音的識別,通過人機測試的對比,得出了機器的識別效果明顯比人類的識別正確率要高的結(jié)果。由于本實驗探討的是在特殊情況下的說話人識別(嗯、嘖嘖、清嗓子、清鼻子),因此探討了基于i-vector說話人識別系統(tǒng)在各種極端情況下的工作情況。或許以后說話人識別不再需要說出一大段文字,而是直接發(fā)出幾種聲音就可以實現(xiàn)識別。

參考文獻(xiàn)

[1]談建慧.基于深度學(xué)習(xí)的語音識別研究[D].廣西:桂林電子科技大學(xué),2016.

[2]陳強.基于GMM的說話人識別系統(tǒng)研究與實現(xiàn)[D].湖北:武漢理工大學(xué),2010.

[3]周利鋒.人工神經(jīng)網(wǎng)絡(luò)的概念[J].醫(yī)學(xué)信息(上旬刊),1998(11):8-10.

[4]馬平.基于i-vector的穩(wěn)健說話人識別研究[D].新疆:新疆大學(xué),2016.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 精品伊人久久久大香线蕉欧美| 免费在线一区| 日韩精品一区二区三区免费在线观看| 高清无码手机在线观看| 国产成人喷潮在线观看| 台湾AV国片精品女同性| 一级毛片基地| 亚洲一区二区黄色| 无码一区中文字幕| 国产精品亚洲片在线va| 亚洲国产清纯| 亚洲成a人片| 日a本亚洲中文在线观看| 中国美女**毛片录像在线| 夜精品a一区二区三区| Aⅴ无码专区在线观看| 亚洲国产91人成在线| 亚洲人成网站18禁动漫无码| 国产成人免费观看在线视频| 色综合五月婷婷| 日韩欧美在线观看| 婷婷综合色| 毛片在线看网站| 久久黄色一级片| 中文字幕一区二区人妻电影| 97se亚洲综合在线天天| 中文天堂在线视频| 精品久久久久无码| 狠狠干综合| 91小视频版在线观看www| 国产欧美在线| 亚洲天堂视频在线播放| 午夜天堂视频| 国产精品网曝门免费视频| 日本成人福利视频| 99精品福利视频| 最近最新中文字幕免费的一页| 全部毛片免费看| 久久天天躁夜夜躁狠狠| 六月婷婷激情综合| 亚洲日韩AV无码一区二区三区人 | 色综合网址| 女人18毛片水真多国产| 91麻豆国产视频| 日韩毛片免费观看| 97视频在线观看免费视频| 毛片基地美国正在播放亚洲 | 国产精品午夜福利麻豆| 亚洲欧美精品在线| 国内a级毛片| 日本91视频| 五月婷婷伊人网| 日韩欧美国产精品| 四虎永久在线视频| 国产网站免费观看| 国产成人精品亚洲日本对白优播| 国产在线观看人成激情视频| aa级毛片毛片免费观看久| 日韩免费无码人妻系列| 高清无码一本到东京热| 日本爱爱精品一区二区| 国产精品3p视频| 国产无码制服丝袜| 91精品啪在线观看国产91九色| 国产福利小视频高清在线观看| 一个色综合久久| 亚洲一区国色天香| 亚洲国产看片基地久久1024| 九九九精品成人免费视频7| 国产成人综合日韩精品无码首页 | 国产成人资源| 免费毛片网站在线观看| 中文字幕中文字字幕码一二区| 女人18一级毛片免费观看| 丁香婷婷激情网| 99久久这里只精品麻豆| 欧美三级日韩三级| 青青草原国产精品啪啪视频| 高清欧美性猛交XXXX黑人猛交| 99视频国产精品| 久操线在视频在线观看| 亚洲欧美色中文字幕|