999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GMMi—vector的說(shuō)話(huà)人識(shí)別研究

2018-10-31 10:31:54王致垚
關(guān)鍵詞:深度學(xué)習(xí)

王致垚

摘 要:語(yǔ)音識(shí)別技術(shù)飛速發(fā)展,在現(xiàn)實(shí)生活中扮演著越來(lái)越重要的角色,語(yǔ)音識(shí)別簡(jiǎn)單來(lái)說(shuō)就是讓計(jì)算機(jī)理解人的語(yǔ)音,它有兩大研究領(lǐng)域:語(yǔ)種識(shí)別和說(shuō)話(huà)人識(shí)別。說(shuō)話(huà)人識(shí)別是指計(jì)算機(jī)能夠識(shí)別出語(yǔ)音來(lái)自那個(gè)說(shuō)話(huà)人,在身份驗(yàn)證等眾多領(lǐng)域有很廣泛的應(yīng)用。本文著重探究哪種細(xì)微聲音對(duì)說(shuō)話(huà)人識(shí)別的效果好,這些細(xì)微聲音有“嗯”“嘖嘖”“清嗓子”“清鼻子”等,最后進(jìn)行人機(jī)大戰(zhàn),得出機(jī)器的準(zhǔn)確率普遍比較高的結(jié)論。

關(guān)鍵詞:語(yǔ)音識(shí)別;說(shuō)話(huà)人識(shí)別;高斯混合模型;深度學(xué)習(xí)

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

0 前言

隨著移動(dòng)互聯(lián)網(wǎng)的興起,手機(jī)APP的廣泛應(yīng)用以及移動(dòng)電子商務(wù)的需求,人們對(duì)安全保密系統(tǒng)的要求也越來(lái)越高。除了傳統(tǒng)的密碼輸入方式外,基于生物特征的身份認(rèn)證(如指紋、虹膜、掌紋以及人臉等)成為目前最主要的研究方向。在這其中,語(yǔ)音信號(hào)是用于個(gè)人身份辨識(shí)和確認(rèn)的一種有效的生物特征,其技術(shù)在生物識(shí)別中占有重要地位。

語(yǔ)音信號(hào)處理是用數(shù)字信息技術(shù)處理語(yǔ)音,可以分為語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音編程和說(shuō)話(huà)人識(shí)別。說(shuō)話(huà)人識(shí)別是指從語(yǔ)音信號(hào)中提取說(shuō)話(huà)人的特征,并對(duì)說(shuō)話(huà)人進(jìn)行識(shí)別的研究領(lǐng)域。說(shuō)話(huà)人識(shí)別實(shí)際上是一個(gè)模型識(shí)別問(wèn)題。而基于Kaldi的GMM i-vector說(shuō)話(huà)人識(shí)別系統(tǒng)則是其中比較新穎的技術(shù)。本文探討的是利用i-vector說(shuō)話(huà)人識(shí)別系統(tǒng)來(lái)處理一些比較特殊的問(wèn)題。

1 說(shuō)話(huà)人識(shí)別研究的目的及意義

信息輸入方式的變化,也是由于生物識(shí)別技術(shù)的發(fā)展。說(shuō)話(huà)人識(shí)別技術(shù)能夠更加快捷便利的確定說(shuō)話(huà)人的身份,能夠應(yīng)用于說(shuō)話(huà)人核對(duì),(例如語(yǔ)音類(lèi)別身份證)電子設(shè)備,信息系統(tǒng)的安全工作,刑偵技術(shù)的人員追蹤,公安、軍事、機(jī)密的防護(hù)等眾多領(lǐng)域、將會(huì)在電腦、手機(jī)、汽車(chē)、電子鎖等電子產(chǎn)品上有眾多應(yīng)用

說(shuō)話(huà)人識(shí)別也叫做聲紋識(shí)別,屬于生物識(shí)別技術(shù)的一種。相對(duì)于傳統(tǒng)認(rèn)證,具有安全、保密、不易偽裝、不會(huì)遺忘或丟失,方便等優(yōu)點(diǎn)。比起其他的生物識(shí)別技術(shù),說(shuō)話(huà)人識(shí)別更有廉價(jià)、簡(jiǎn)潔輕便、應(yīng)用廣泛、易于操作和接受等優(yōu)點(diǎn)。

2 說(shuō)話(huà)人識(shí)別發(fā)展概述

1876年貝爾(Bell)發(fā)明了電話(huà)。1952年Davis等人在貝爾實(shí)驗(yàn)室研制出第一個(gè)10個(gè)英語(yǔ)字母的語(yǔ)音識(shí)別設(shè)備。1956年Cooley和Tukey提出了離散傅里葉變換的快速算法(FFT算法)。20世紀(jì)80年代,人們應(yīng)用非線(xiàn)性技術(shù)提出了梅爾頻率倒譜系數(shù)(MFCC),MFCC是最實(shí)用的語(yǔ)音特征參數(shù)。在20世紀(jì)90年代后期,高斯混合模型(GMM,在HMM的基礎(chǔ)上被提出)被應(yīng)用到了說(shuō)話(huà)人識(shí)別,GMM成了現(xiàn)在說(shuō)話(huà)人識(shí)別的基礎(chǔ)。21世紀(jì)后,人們?cè)诟咚够旌夏P偷幕A(chǔ)上提出了高斯混合模型—通用背景模型(GMM—UBM),克服了外部環(huán)境的干擾。GMM—UBM成為目前說(shuō)話(huà)人識(shí)別領(lǐng)域最為經(jīng)典的建模方法。

1997年,IBM 將ViaVoice應(yīng)用于商業(yè)。2011年iPhone手機(jī)上出現(xiàn)了Siri語(yǔ)音助手服務(wù),語(yǔ)音識(shí)別技術(shù)在生活中普及開(kāi)來(lái)。現(xiàn)在幾乎身邊的電子設(shè)備如手機(jī)、電腦、iPad都會(huì)具備語(yǔ)音識(shí)別功能。

3 說(shuō)話(huà)人識(shí)別的研究方法

3.1 說(shuō)話(huà)人識(shí)別的基本流程

說(shuō)話(huà)人識(shí)別實(shí)際上是一個(gè)模型識(shí)別類(lèi)型,其基本原理是將識(shí)別目標(biāo)說(shuō)話(huà)人形成的特征模型與訓(xùn)練好的特征模型進(jìn)行匹配。根據(jù)匹配的距離或概率近似度來(lái)判斷說(shuō)話(huà)者是訓(xùn)練模型中的哪個(gè)人(說(shuō)話(huà)人辨認(rèn)),或是否是被申明的人(說(shuō)話(huà)人確認(rèn))。

3.1.1 預(yù)處理

預(yù)處理指令可以使輸入的語(yǔ)音信號(hào)在不同的執(zhí)行環(huán)境中方便被修改或翻譯。大致分為預(yù)加重、分幀加窗和端點(diǎn)檢測(cè)。

3.1.2 特征提取

特征提取是在音頻中提取能夠代表說(shuō)話(huà)人語(yǔ)音特征的信息,消除無(wú)用的信息。從而有利于后續(xù)的特征比較,提取的特征能夠直接辨別說(shuō)話(huà)人身份,充分體現(xiàn)不同語(yǔ)音間的差異。

3.1.3 訓(xùn)練過(guò)程:訓(xùn)練模型、模型參數(shù)儲(chǔ)存

根據(jù)提取的特征參數(shù)建立說(shuō)話(huà)人的模型,建立訓(xùn)練過(guò)程的模型。建立模型的方法分為模板匹配法和概率統(tǒng)計(jì)模型法。并將模型進(jìn)行儲(chǔ)存,作為識(shí)別過(guò)程中的匹配模板。

3.1.4 測(cè)試過(guò)程:匹配得分,決策判斷

將待測(cè)試的語(yǔ)音文件的特征參量與已建立的模型庫(kù)進(jìn)行對(duì)比、匹配和識(shí)別,計(jì)算出來(lái)得分,查看相似性的最大值,根據(jù)相似性匹配說(shuō)話(huà)人。

值得一提的是,如果被測(cè)試的音頻文件不屬于已知的說(shuō)話(huà)人模型。(閉集情況)系統(tǒng)不能隨意抽取相似得分的最大值,因?yàn)檫@樣會(huì)將陌生說(shuō)話(huà)人誤判為模型庫(kù)中的某一說(shuō)話(huà)人。應(yīng)當(dāng)確定一個(gè)適當(dāng)大小的閾值,判斷測(cè)試語(yǔ)音是否屬于已經(jīng)建立模型的說(shuō)話(huà)人。若測(cè)試得分低于閾值則系統(tǒng)判斷測(cè)試音頻不屬于任何一個(gè)說(shuō)話(huà)人模型。

3.2 說(shuō)話(huà)人識(shí)別的傳統(tǒng)方法

在提取特征之后,要進(jìn)行模型訓(xùn)練。在模型匹配方面,大體分為模板匹配法和概率統(tǒng)計(jì)模型法。

可是在實(shí)際應(yīng)用中,常常會(huì)受到周邊噪聲的干擾,對(duì)基于GMM的說(shuō)話(huà)人識(shí)別系統(tǒng)要求便有所增加,因此要訓(xùn)練準(zhǔn)確的高斯混合模型需要很多語(yǔ)音數(shù)據(jù),而每一個(gè)訓(xùn)練說(shuō)話(huà)人的語(yǔ)音又不夠,因此UBM通用背景模型便被提出來(lái)了。在眾多語(yǔ)音數(shù)據(jù)中訓(xùn)練好一個(gè)和說(shuō)話(huà)人特征無(wú)關(guān)的通用背景模型來(lái)模擬實(shí)際的外部環(huán)境,通過(guò)自適應(yīng)算法來(lái)得到目標(biāo)的說(shuō)話(huà)人模型。

4 細(xì)微聲音識(shí)別實(shí)驗(yàn)

4.1 實(shí)驗(yàn)原理

說(shuō)話(huà)人識(shí)別是一類(lèi)典型的模式識(shí)別類(lèi)型,包括說(shuō)話(huà)人模型訓(xùn)練和測(cè)試語(yǔ)音打分判決兩個(gè)階段。

訓(xùn)練階段:對(duì)每個(gè)使用系統(tǒng)的說(shuō)話(huà)人預(yù)留充足的語(yǔ)音;對(duì)預(yù)留語(yǔ)音提取聲學(xué)特征;根據(jù)提取的聲學(xué)特征訓(xùn)練得到說(shuō)話(huà)人模型;將每個(gè)說(shuō)話(huà)人模型存入說(shuō)話(huà)人模型庫(kù)中。

測(cè)試階段:系統(tǒng)獲取待測(cè)試識(shí)別的語(yǔ)音;與訓(xùn)練階段相同,提取測(cè)試語(yǔ)音的聲學(xué)特征;將測(cè)試語(yǔ)音的聲學(xué)特征與說(shuō)話(huà)人模型庫(kù)進(jìn)行比對(duì),根據(jù)預(yù)先定義的相似性準(zhǔn)則,在說(shuō)話(huà)人模型上進(jìn)行打分判別;最終得到測(cè)試語(yǔ)音的說(shuō)話(huà)人身份。

本實(shí)驗(yàn)基于Kaldi的GMM i-vector說(shuō)話(huà)人識(shí)別系統(tǒng)主要由4個(gè)步驟組成:數(shù)據(jù)列表準(zhǔn)備(scp文件)、特征提取(MFCC提取特征及vad)、模型訓(xùn)練(UBM、T-matrix訓(xùn)練和i-vector提取)、打分判決(Cosine、LDA、PLDA),其流程如圖1所示。

4.2 實(shí)驗(yàn)過(guò)程及結(jié)果分析

實(shí)驗(yàn)測(cè)試中,首先采集了網(wǎng)站上20人的細(xì)微聲音判別記錄見(jiàn)表1,同一種細(xì)微聲音中,讓測(cè)試人員去聽(tīng)該聲音是否是同一個(gè)人發(fā)出的,每個(gè)人聽(tīng)3組同種細(xì)微聲音,最后提交表單,得到該20人的測(cè)試記錄錯(cuò)誤率。由于網(wǎng)站上會(huì)對(duì)每個(gè)測(cè)試者選擇的音頻有記錄,然后將測(cè)試的音頻全部取出來(lái),同種細(xì)微聲音的音頻放在一起,然后利用圖1所示的i-vector模型對(duì)細(xì)微聲音進(jìn)行判別,從而得出機(jī)器對(duì)該細(xì)微聲音的錯(cuò)誤率,其結(jié)果見(jiàn)表2。

從實(shí)驗(yàn)結(jié)果來(lái)看,4種細(xì)微聲音中,“嗯”的識(shí)別錯(cuò)誤率最低,也就是“嗯”相對(duì)其他3種,其識(shí)別效果更好;另外從人機(jī)測(cè)試結(jié)果來(lái)看,細(xì)微聲音中對(duì)“嗯”“嘖嘖”“清嗓子”的識(shí)別準(zhǔn)確率,機(jī)器明顯優(yōu)于人類(lèi),然而對(duì)“清鼻子”的識(shí)別準(zhǔn)確率,人類(lèi)優(yōu)于機(jī)器,由于不同測(cè)試者清鼻子變化多樣,人類(lèi)可以根據(jù)語(yǔ)境及背景聲音是否一致來(lái)判斷是否為同一個(gè)人發(fā)出來(lái)的,而機(jī)器不可以這樣判斷,這個(gè)實(shí)驗(yàn)結(jié)果也是在合理范圍內(nèi)的。

結(jié)語(yǔ)

說(shuō)話(huà)人識(shí)別是語(yǔ)音識(shí)別的熱點(diǎn)之一。本文首先介紹了說(shuō)話(huà)人識(shí)別研究的目的和意義以及發(fā)展概述。重點(diǎn)研究了基于Kaldi的GMM i-vector說(shuō)話(huà)人識(shí)別系統(tǒng),對(duì)說(shuō)話(huà)人識(shí)別系統(tǒng)的工作過(guò)程及其工作原理進(jìn)行了深刻的闡述,并著重探究了4種細(xì)微聲音的識(shí)別,通過(guò)人機(jī)測(cè)試的對(duì)比,得出了機(jī)器的識(shí)別效果明顯比人類(lèi)的識(shí)別正確率要高的結(jié)果。由于本實(shí)驗(yàn)探討的是在特殊情況下的說(shuō)話(huà)人識(shí)別(嗯、嘖嘖、清嗓子、清鼻子),因此探討了基于i-vector說(shuō)話(huà)人識(shí)別系統(tǒng)在各種極端情況下的工作情況。或許以后說(shuō)話(huà)人識(shí)別不再需要說(shuō)出一大段文字,而是直接發(fā)出幾種聲音就可以實(shí)現(xiàn)識(shí)別。

參考文獻(xiàn)

[1]談建慧.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別研究[D].廣西:桂林電子科技大學(xué),2016.

[2]陳強(qiáng).基于GMM的說(shuō)話(huà)人識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D].湖北:武漢理工大學(xué),2010.

[3]周利鋒.人工神經(jīng)網(wǎng)絡(luò)的概念[J].醫(yī)學(xué)信息(上旬刊),1998(11):8-10.

[4]馬平.基于i-vector的穩(wěn)健說(shuō)話(huà)人識(shí)別研究[D].新疆:新疆大學(xué),2016.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 亚洲国产午夜精华无码福利| 一本大道AV人久久综合| 欧洲av毛片| 亚洲一区二区三区麻豆| 亚洲日韩AV无码一区二区三区人| 青青国产在线| 精品国产黑色丝袜高跟鞋| 女同久久精品国产99国| 天天操天天噜| 久久精品国产在热久久2019| 99视频在线看| 妇女自拍偷自拍亚洲精品| 国产精品女同一区三区五区| 性网站在线观看| 亚洲一区国色天香| 欧美成a人片在线观看| 人人看人人鲁狠狠高清| 国产在线视频欧美亚综合| 亚洲香蕉久久| 香蕉网久久| 香港一级毛片免费看| 亚洲AV一二三区无码AV蜜桃| 免费a级毛片18以上观看精品| 欧美精品成人| 色婷婷综合激情视频免费看| 精品一区二区久久久久网站| 2020最新国产精品视频| 亚洲三级色| 99ri精品视频在线观看播放| 欧美日韩福利| 亚洲天堂网2014| 一级毛片网| 久久亚洲天堂| 九九视频免费在线观看| 中国美女**毛片录像在线| 自拍偷拍欧美日韩| 亚洲欧洲美色一区二区三区| 成人国内精品久久久久影院| 18禁不卡免费网站| 97视频免费在线观看| 精品国产一区91在线| 久久国产精品娇妻素人| A级毛片无码久久精品免费| 亚洲精品视频免费看| 久热中文字幕在线观看| 午夜精品国产自在| 精久久久久无码区中文字幕| 欧美特黄一级大黄录像| 一级成人欧美一区在线观看| 国产精品毛片一区| 亚洲福利视频一区二区| P尤物久久99国产综合精品| 午夜毛片福利| 国产在线小视频| 欧美va亚洲va香蕉在线| 在线观看亚洲精品福利片| 久久综合干| 无码aⅴ精品一区二区三区| 又猛又黄又爽无遮挡的视频网站| 国内精品自在自线视频香蕉| 91美女视频在线| 视频在线观看一区二区| 欧美在线导航| 国产91高跟丝袜| 亚洲中文字幕23页在线| 国产aⅴ无码专区亚洲av综合网| 欧美成一级| 六月婷婷综合| 亚洲天堂777| 久久精品人妻中文系列| 成人精品午夜福利在线播放| 国产69精品久久| 91黄色在线观看| 婷婷五月在线| 91在线激情在线观看| 成人福利在线看| aaa国产一级毛片| 青青草综合网| 丁香六月激情综合| 亚洲一级色| 久久黄色一级片| 免费av一区二区三区在线|