999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于無監督學習的語音簽到系統

2019-01-02 09:01:18趙從健,雷菊陽,李明明
軟件 2019年12期

摘 ?要: 針對語音簽到系統在實際運用中識別率較低的問題,從提高對標簽缺失數據的利用角度出發,提出一種利用無監督學習來提高識別率的方法。該方法基于深度置信網絡隱馬爾可夫混合模型(DBN-HMM),利用受限波爾茨曼機(RBM)為無監督學習提取特征參數,接著利用深度置信網絡(DBN)得到對原始數據的觀測概率。隱馬爾可夫(HMM)據此通過前向算法求出數據的似然概率,并將概率值最大的類別作為識別結果。實驗表明,使用DBN-HMM模型可以有效利用存在標簽缺失的數據,提高語音簽到系統的識別能力。

關鍵詞: 語音識別;簽到系統;無監督學習;DBN-HMM

中圖分類號: TN912.3;TP183 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.12.041

本文著錄格式:趙從健,雷菊陽,李明明. 基于無監督學習的語音簽到系統[J]. 軟件,2019,40(12):183187

Voice Check-in System Based on Unsupervised Learning

ZHAO Cong-jian, LEI Ju-yang, LI Ming-ming

(Shanghai University of Engineering Science, College of Mechanical and Automotive Engineering, Shanghai, 201620, China)

【Abstract】: Aiming at the low recognition rate of speech check-in system in practical application, this paper proposed a method, from improving the utilization of tag missing data, to improve recognition rate by unsupervised learning. This method was based on Deep Belief Network mixed Hidden Markov Model (DBN-HMM), used the Restricted Boltzmann Machine (RBM) to extract the characteristic parameters for unsupervised learning, then used Deep Belief Network (DBN) to get the observation probability of raw data. Based on this, Hidden Markov Model (HMM) calculated the likelihood probability of data by forward algorithm, and took the category with the largest probability value as recognition results. Experiments showed that DBN-HMM model could effectively utilize the data with missing tags and improved the recognition ability of speech check-in system.

【Key words】: Speech recognition; Check-in system; Unsupervised learning; DBN-HMM

0 ?引言

目前,國內高校、企業對考勤系統的要求不斷提高,如何安全且經濟地完成考勤成為一項研究課題[1-5]。傳統的考勤方式,如人工點名、刷卡簽到等方式存在他人代替、遺失和被盜用等風險[6]。因此,傳統的考勤方式面臨著嚴峻的挑戰,與當今人工智能的發展越來越不協調。

語言作為人類最常用、最重要和最有效的交流載體,是最適合用來身份認證的方式之一。和其他方式相比,語音信號獲取方便,人機交流時最自然和便利,而不基于固定文本下的語音識別具有很高的安全性[1-8]。過去的研究缺乏準確的模型,無法處理大量未經注釋的數據,而深度學習的興起為語音識別提供了強大的建模能力,提高了原始數據的利用率[9-12]。

語音識別本質上是模式識別的一種,簽到系統下為非特定人群的識別,決定了特征選取的難度。深度學習中,相關的特征由網絡訓練后提取而出,特征向量高維且抽象但能更準確地表示模型[13-14]。文獻[15]中,利用DBN作為特征參數的提取器可以降低GMM-UBM模型下的錯誤識別率。高維的特征向量、海量的數據加上復雜的深層神經網絡結構,嚴重影響了深度學習在語音識別中的訓練效率。文獻[16]提出,利用重構方法來修剪深度網絡的節點數,修剪后的訓練速度提升了4倍以上。

對此,本文設計了一種無監督學習的語音簽到系統。在利用MFCC和RBM對原始數據提取特征的基礎上,引入DBN建立深層次的結構模型,提高模型概率觀測的準確性。再將DBN網絡得到的狀態觀測概率帶入HMM模型用于簽到識別。圖1為語音識別流程圖,先無監督學習再匹配識別。

圖1 ?語音識別流程

Fig.1 ?Speech recognition process

1 ?語音處理

1.1 ?語音采集及預處理

課堂語音簽到系統依賴含有大量學生信息的特定數據庫,這些數據庫中的語音信號主要記錄了學生的音頻特征。這些特征的選取需要有效區分、易提取、可靠和穩定地識別學生,目前完全滿足這些特征是難以找到的,這里采用無監督學習的方式找到部分滿足的特征。

原始語音數據的采集應安排在安靜的環境中,采集到的語音長度在3-5秒,采集多個短文本。信號預處理前,先用低通濾波器降噪處理,過濾高頻噪音信號。這里采用的是雙門限法來檢測端點,圖2可以發現,經過降噪處理,端點檢測的結果更為連續和精確,保留了信號的關鍵部分。

對采集好的語音數據進行預處理,主要包括:預加重、分幀、加窗和端點檢測。預加重可以提升高頻信號的分辨率。加窗分幀可以把原始信號變成具有短時平穩性的待處理信號。端點檢測可以區分語音信號和非語音信號[17-18]。圖3反應了預處理前后信號頻譜的變化。

圖2 ?端點檢測效果對比

Fig.2 ?Comparison of endpoint detection effects

圖3 ?信號頻譜對比

Fig.3 ?Signal spectrum contrast

1.2 ?語音的特征提取

特征參數的提取,直接影響了語音簽到系統的識別性能。合適且適量的特征選取,可以有效提高語音簽到的識別效率。由于待簽到對象是多人和未知的,也為了后續的無監督學習做準備,這里在MFCC提取特征參數的基礎上引入了RBM,利用最大似然函數優化選取的特征參數。

受限波爾茨曼機(RBM)是一種常用的深度概率模型,本質上是一個無向的能量圖模型,如圖4所示。

該神經網絡包含了可見層和隱含層,同層內部節點無連接,不同層的節點間全連接但沒有方向。MFCC提取出的特征向量作為可見層的輸入,經過訓練不斷調整網絡參數[19]。

圖4 ?受限波爾茨曼機

Fig.4 ?Restricted boltzmann machine

假定數據集為S={s1,s2,s3,…,sns},其中的數據si={x1i,x2i,x3i,…,xji}(i=1,2,…,ns)由MFCC提取。則RBM網絡參數更新式如下所示:

(1)

(2)

(3)

其中,Δw表示可見層和隱含層之間的權值矩陣,Δa表示可見層的偏置向量,Δb表示隱含層的偏置向量,P(h|s)表示的是可見單元為特定訓練樣本s時,對應的隱藏層概率分布。

2 ?基于DBN-HMM的語音識別網絡

隱馬爾可夫模型(HMM)現已成為了語音識別的主流技術,尤其在連續語音識別系統中無可替代。HMM模型依賴訓練數據的狀態標簽,而實際訓練中存在大量標簽缺失的原始數據,影響識別效果。DBN是一種無監督學習算法,可以有效利用標簽缺失的數據,其深層次的網絡結構增強了對信號特征的建模能力,可以提供更準確的觀察概率,結合HMM模型得到的狀態轉移概率矩陣,并將概率得分最大的類別作為語音識別的結果[20]。

2.1 ?DBN模型

DBN網絡主要由多個RBM網絡疊加而成,采用逐層無監督訓練的方式。前一層RBM的輸出作為下一層RBM的輸入,逐層學習,最后再用BP算法對網絡進行反向微調。

圖5為DBN的網絡結構圖。其中每層的RBM包括了正向預訓練階段和重構階段,BP算法為全局反向微調階段。

利用交叉驗證法將經過處理和標簽的語音信號劃分為訓練集和測試集,再將訓練集作為向量輸入到DBN網絡中訓練。訓練主要包括:DBN網絡及參數的初始化;網絡的預訓練;全局的反向微調。

圖5 ?DBN網絡結構圖

Fig.5 ?DBN network structure diagram

(1)DBN網絡及參數的初始化

目前關于DBN的研究中,主要依據經驗來選擇網絡深度和隱含層的節點數。由于在提取特征時使用了單層的RBM網絡,將其隱含層的相關參數作為DBN輸入層參數的預設值。 在確定網絡深度、隱含節點數的過程中,還需要依賴重構誤差的曲線來調整。重構誤差主要對比的是原始數據和對其經過k次Gibbs采樣后(RBM中的對比散度算法)的差異,其2-范數公式表達為:

(4)

其中,n為可視層的個數,m為隱含層個數,y為隱含層輸出值,x為可視層輸入值,q為取值個數或范圍。

(2)網絡的預訓練

網絡由多層RBM堆疊而成,整個預訓練過程分為多個RBM的學習過程。從最底層的網絡輸入處理好的原始數據,每相鄰的兩層作為一個RBM網絡進行無監督的學習過程。每次只訓練一層,并將訓練后的隱含層作為下一個RBM的可視層輸入,最后一個RBM的隱含層作為整個網絡的輸出。

(3)全局的反向微調

每個RBM網絡經過參數調優可以使重構誤差最小,但整個DBN網絡無法保證參數最優,此時結合BP對網絡自頂向下進行有監督的反向微調,更新每層網絡的參數。

2.2 ?基于DBN-HMM的語音識別

在圖6中,DBN根據輸入的特征向量數據學習訓練,最后輸出向量數據的后驗概率P(s|h)。再利用貝葉斯公式,將其轉化為狀態的觀測概率:

(5)

其中,P(s)表示狀態s的先驗概率,P(h)表示觀測樣本的先驗概率。

圖6 ?DBN-HMM模型

Fig.6 ?DBN-HMM model

DBN為HMM提供觀察概率,再采用前向算法求出向量數據的似然概率P(H|λ),保留其中概率最大的類別,輸出結果。

3 ?結果及分析

3.1 ?實驗設計

為了實現語音簽到系統的設計,現從中文普通話開源語音數據庫AISHELL-ASR0009中選取一部分作為實驗數據。數據由不同的10個人隨機錄入不同文本信息的10段語音,共100段3-5秒的語音數據組成。

為真實反映實驗需求,對于選取的語音數據,男女各占一半,全為普通話但包含了南北的口音差異,每段語音均為隨機不同的文本信息。實際建立語音簽到數據庫的過程中,還需要對每個已知個體建立對應的信息表,具體包括姓名、工號、性別、年齡等相關信息,這樣可以確保區分開所有個體。由于本實驗選取了小樣本數據,現對每個個體標號以區分。

首先對原始的語音數據預處理;然后利用RBM對處理好的特征向量數據降維和提取;接著利用交叉驗證的方式將數據分為訓練集和測試集兩部分;對于訓練集,采用DBN-HMM網絡學習和訓練;最后用測試集驗證和評價訓練的結果。完整的訓練流程如圖7所示。

圖7 ?訓練流程

Fig.7 ?The training process

3.2 ?實驗分析

為了提高RBM的學習訓練能力,需要選擇合適的網絡參數,網絡的訓練性能可以用重構誤差曲線來表示。圖8反映了不同隱含節點數下網絡的訓練性能,適當增加節點數可以提升性能,過多的節點會增加計算量降低網絡性能,由此確定隱含層節點數為30。

圖8 ?不同隱藏層節點數下的重構誤差曲線

Fig.8 ?Reconstruction error curves of

different hidden layer nodes

圖9為不同網絡深度下DBN的重構誤差曲線,誤差大小與RBM堆疊的數量有關,選取的數值為訓練時有限次迭代后的平均數值。可以發現,當堆疊的RBM網絡數為3時,網絡擁有較低的重構誤差。隨著網絡層數的增加,計算量增大,重構誤差并沒有隨之降低,由此確定使用三層RBM堆疊的DBN網絡。

實驗所用不同的10個個體語音對應了不同的測試編號,這些編號可以幫助我們將語音庫的所有個體完全區分開來。接著利用交叉驗證的方法,將數據集拆分成訓練數據和測試數據,這樣可以使拆分后的小樣本盡量可靠和穩定地反應原樣本的分布規律。

圖9 ?不同網絡深度下的重構誤差

Fig.9 ?Reconstruction errors at different network depths

表1為DBN-HMM與GMM-HMM對不同測試數據集的測試結果對比。可以發現,DBN-HMM的測試結果明顯更高,這是因為DBN對信號特征建立了更深層的模型,性能強于GMM,可以為HMM提供更為準確的觀察概率。

表1 ?兩種方法下測試結果對比

Tab.1 ?Comparison of test results between the two methods

測試編號 DBN-HMM GMM-HMM

D0012 84.8 83.2

D0013 88.2 86.6

D0014 84.4 82.8

D0015 88.3 86.7

D0018 84.7 83.1

T0016 T00 87.4 85.8

T0017 83.1 81.5

T0019 84.1 82.5

T0020 88.3 86.7

T0021 81.9 80.3

TOTAL 85.5 83.9

結合圖5、6以及表1的結果考慮,DBN模型是一個深度學習的模型,可以直接從原始信號中提取特征和識別,由于具有更深層次的模型建立能力,可以取得更高的識別精度。對于深度學習方法,計算量大,需要確定合理的參數和網絡結構,在降低運算量和提高識別率中取得平衡。最后的測試結果也說明了,DBN-HMM用于語音簽到系統中的優勢明顯。

4 ?結束語

本文對語音簽到系統進行了研究,提出了一種可以無監督學習的混合模型,該模型對原始語音具有更深層次的建模能力,通過梯度上升算法和對比散度算法,可以在提高識別率的基礎上降低算法的計算量。實驗結果表明,該方法可行且具有一定優越性。

由于語音數據量、硬件設備缺乏、環境干擾影響等限制和能力的不足,我們并沒有獲得識別率在95%以上理想的DBN-HMM語音識別模型,如何在更復雜的環境干擾下,盡可能使用最少的語音數據學習訓練是需要今后進一步研究的內容

參考文獻

[1]王愛蕓. 語音識別技術在智能家居中的應用[J]. 軟件, 2015, 36(7): 104-107.

[2]劉星燕, 賈磊, 薛君彥. 淺談張家口121語音答詢系統幾個常見問題的處理[J]. 軟件, 2018, 39(1): 180-182.

[3]陳恒, 李宏達, 趙曉艷. 基于微信的大學課堂點名系統的設計與實現[J]. 軟件, 2018, 39(3): 45-47.

[4]楊士卿. 基于B/S的一卡通會議簽到系統設計與實現[J]. 軟件, 2018, 39(5): 66-69.

[5]王芳, 蔡沂. 基于生成樹的學生互校驗簽到應用研究[J]. 軟件, 2018, 39(7): 06-11.

[6]阮超. 基于Android系統語音云記事本的設計與實現[D]. 安徽大學, 2016.

[7]陳碩. 深度學習神經網絡在語音識別中的應用研究[D]. 華南理工大學, 2013.

[8]于俊婷, 劉伍穎, 易綿竹, 等. 國內語音識別研究綜述[J]. 計算機光盤軟件與應用, 2014, 17(10): 76-78.

[9]侯一民, 周慧瓊, 王政一. 深度學習在語音識別中的研究進展綜述[J]. 計算機應用研究, 2017, 34(08): 2241-2246.

[10]王海坤, 潘嘉, 劉聰. 語音識別技術的研究進展與展望[J]. 電信科學, 2018, 34(02): 1-11.

[11]楊俊安, 王一, 劉輝, 等. 深度學習理論及其在語音識別領域的應用[J]. 通信對抗, 2014, 33(03): 1-5.

[12]劉豫軍, 夏聰. 深度學習神經網絡在語音識別中的應用[J]. 網絡安全技術與應用, 2014(12): 28-30.

[13]郭麗麗, 丁世飛. 深度學習研究進展[J]. 計算機科學, 2015, 42(3): 28-33.

[14]Deng Li. Industrial technology advances: deep learning from speech recognition to language and multimodal processing[J]. APSIPA Trans on Signal and Information Processing, 2016(5).

[15]Qian Yanmin, He Tianxing, Deng Wei, et al. Automatic model redundancy reduction for fast back-propagation for deep neural networks in speech recognition[C]//Proc of International Joint Conference on Neural Networks.[S.l.]: IEEE Press, 2015.

[16]Liu Yuan, Fu Tianfan, Fan Yuchen, et al. Speaker verification with deep features[C]//Proc of International Joint Conference on Neural Networks. 2014: 747-753.

[17]劉琦, 尹國祥. 基于Matlab的語音信號預處理技術研究[J]. 電子技術與軟件工程, 2014(01): 62-63.

[18]張毅, 黎小松, 羅元, 等. 基于人耳聽覺特性的語音識別預處理研究[J]. 計算機仿真, 2015, 32(12): 322-326.

[19]張建明, 詹智財, 成科揚, 等. 深度學習的研究與發展[J]. 江蘇大學學報: 自然科學版, 2015, 36(2): 191-200.

[20]Yu Dong, Deng Li. 解析深度學習——語音識別實踐[M]. 俞凱, 錢彥旻, 等譯. 北京: 電子工業出版社, 2016.

主站蜘蛛池模板: 呦女精品网站| 日本午夜三级| 3344在线观看无码| 伊人久久大香线蕉成人综合网| 丝袜无码一区二区三区| 青青热久免费精品视频6| 伊人婷婷色香五月综合缴缴情| 欧美视频在线播放观看免费福利资源| 狠狠色成人综合首页| 国产精品爽爽va在线无码观看| 亚洲精品第五页| 国产h视频免费观看| 免费毛片全部不收费的| 高清视频一区| 国内黄色精品| 国产女人在线观看| 亚洲精品桃花岛av在线| 亚洲国产成人综合精品2020 | 日韩天堂网| 亚洲中文久久精品无玛| 这里只有精品国产| 亚洲视频免| 在线观看亚洲人成网站| 成人综合网址| 国产一线在线| 国产另类视频| 欧美乱妇高清无乱码免费| 99偷拍视频精品一区二区| 91啦中文字幕| 91色国产在线| 国产午夜一级毛片| 免费 国产 无码久久久| 五月天在线网站| 亚欧乱色视频网站大全| 亚洲成A人V欧美综合| 日本人又色又爽的视频| 日韩欧美中文| 国产精品尤物在线| 毛片卡一卡二| 在线精品视频成人网| 亚洲永久视频| 午夜日本永久乱码免费播放片| 无码久看视频| 成人一级免费视频| 中国一级特黄大片在线观看| 中文字幕日韩丝袜一区| 久久久久国产一级毛片高清板| 成人在线亚洲| 国产91透明丝袜美腿在线| 久久亚洲中文字幕精品一区| 欧美日韩国产在线观看一区二区三区| 国产乱子伦手机在线| 热99re99首页精品亚洲五月天| 嫩草在线视频| 日韩成人高清无码| 国产手机在线观看| 白丝美女办公室高潮喷水视频| 国产人在线成免费视频| 精品小视频在线观看| 欧美亚洲一区二区三区在线| 国产一区二区在线视频观看| 国产精品毛片一区| 亚洲午夜国产片在线观看| 亚洲色无码专线精品观看| 91无码国产视频| 一本视频精品中文字幕| 日韩在线观看网站| 成人小视频网| 高清视频一区| 99热这里只有精品免费| 91九色最新地址| 午夜限制老子影院888| 精品无码国产自产野外拍在线| 亚洲精品国产成人7777| 亚洲丝袜第一页| 精品一区二区三区自慰喷水| 国产尤物视频在线| 国产精品人莉莉成在线播放| 欧美一级高清片欧美国产欧美| 国产成人凹凸视频在线| 精品久久久久久久久久久| 超碰色了色|