999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NAO機器人的BLSTM-CTC的聲學模型研究

2021-08-09 10:53:20胡希穎王大東陳佳欣
智能計算機與應用 2021年3期

胡希穎 王大東 陳佳欣

摘 要: 針對于NAO機器人自身語音識別準確率低的問題,提出一種基于NAO機器人的BLSTM-CTC的聲學模型研究方法。基于BLSTM-CTC的聲學模型進行建模,以BLSTM為聲學模型和CTC為目標函數(shù),以音素作為基本建模單元,建立中文語音識別端到端系統(tǒng)。實驗結(jié)果證明,本文算法相較于NAO機器人自身,取得了良好識別效果。

關(guān)鍵詞: 語音識別; BLSTM-CTC; NAO

文章編號: 2095-2163(2021)03-0076-05 中圖分類號: N33 文獻標志碼:A

【Abstract】Aiming at the problem of low accuracy of NAO robot's own speech recognition, an acoustic model research method based on NAO robot BLSTM-CTC is proposed.Based on the acoustic model of BLSTM-CTC, an end-to-end system for Chinese speech recognition is established by taking BLSTM as the acoustic model and CTC as the objective function, and taking phonemes as the basic modeling unit.Experimental results show that compared with NAO robot itself, the proposed algorithm achieves good recognition performance.

【Key words】 speech recognition; BLSTM-CTC; NAO

0 引 言

語音識別是語音信號處理領域的一項重要研究內(nèi)容,其中的基于深度學習的識別方法則在近年來引起了學界的廣泛關(guān)注[1]。基于深度學習的識別方法是利用神經(jīng)網(wǎng)絡來構(gòu)建模型、訓練數(shù)據(jù),并已取得了較好的識別效果,現(xiàn)正廣泛應用于智能家居以及相關(guān)的學術(shù)研究等領域。作為備受學界矚目的智能機器人,NAO本身自帶語音識別模塊,但卻因受到自身處理速度和存儲能力的限制,識別效果一般。考慮到NAO機器人自身的軟硬件資源較為有限,只依靠NAO自身來提高語音識別準確率的難度較大。基于此,本文即提出以了BLSTM[2]為聲學模型和CTC為目標函數(shù),利用WFST進行解碼,對模型結(jié)構(gòu)進行訓練和學習,并將其移植到NAO機器人上,從而獲得更好的識別結(jié)果,提升機器人的學習能力。

1 模型結(jié)構(gòu)

LSTM(Long Short-Term Memory)最早由Hochreiter & Schmidhuber在1977年提出[3],后經(jīng)Alex Graves完善并獲得廣泛應用[4]。LSTM主要由2部分組成。一個是傳統(tǒng)的外部RNN循環(huán);一個是內(nèi)部精致的“門”結(jié)構(gòu),包括sigmoid神經(jīng)網(wǎng)絡層和按位乘法操作。LSTM的“門”分別是輸入門、輸出門、遺忘門,3個門控單元控制和保護cell的信息到細胞狀態(tài)[5]。LSTM基本結(jié)構(gòu)如圖1所示。

圖1中,遺忘門f決定從細胞狀態(tài)cell中遺棄哪些數(shù)據(jù)信息。其對應數(shù)學公式可寫為:

細胞狀態(tài)cell確定可存放信息數(shù)據(jù),輸入門it,確定信息的更新與否,并在tan h層創(chuàng)建新的候選向量t,如此則用新的主語來更新代替舊的細胞狀態(tài)。

2 基于連接時序分類的語音識別系統(tǒng)

采用傳統(tǒng)神經(jīng)網(wǎng)絡訓練聲學模型方法時,先是根據(jù)聲學模型的基本單元進行建模,在訓練時還需使用GMM與標簽進行對齊,并將目標函數(shù)作為訓練標準。本文用BLSTM-CTC系統(tǒng)在訓練聲學模型時采用端到端的訓練方式,不同于傳統(tǒng)的混合方法基于eesen框架的RNN使用基于交叉熵(CE)準則訓練幀級標簽,而是采用CTC函數(shù)學習幀與序列的對齊,并使用WFST進行解碼[6],BLSTM-CTC系統(tǒng)結(jié)構(gòu)如圖3所示。

2.1 連接時序分類CTC技術(shù)

CTC(Connectionist Temporal Classification)技術(shù)作為目標函數(shù)無需強制預先對齊輸入與輸出幀級別信息,可直接對標簽和語音特征之間的映射進行建模。RNN中softmax層的輸出序列、即CTC層的輸入,softmax層中的k個節(jié)點與CTC中訓練數(shù)據(jù)的標簽序列一一對應;對未輸出的標簽也需建模,在此基礎上,增加一個單元(blank)。假定長度是T的輸入序列x,輸出向量yt,在t時刻softmax分類層輸出音素或空白的概率k表示為:

CTC經(jīng)過學習后得到由音素和blank組成的標注序列a的輸出路徑概率為:

由于標注的重復性和blank插入的影響,音頻序列與轉(zhuǎn)錄后去掉空白標簽的路徑具有多重對應關(guān)系,因此,輸入序列x對應的輸出標簽概率為:

其中,a→y的映射獲取β,β的逆過程表示為β-1,映射過程把空白類去除的同時將重復序列合并得到y(tǒng)目標函數(shù),即:

通過已知的輸入序列找到最大概率的輸出路徑、即CTC網(wǎng)絡解碼的最佳路徑為:

CTC路徑求和隨著輸入序列的增加,計算復雜度越來越增大,為解決這一實際問題,在輸出序列z的首尾及每對輸出標簽序列之間插入索引是“0”的blank標簽,從而將得到的增廣式擴充標簽序列l(wèi)=(l1,…,l2U+1)用于語音識別中前后向算法(Forward-backward Algorithm)計算路徑似然估計[7]。

標簽序列z的似然估計概率計算如下:

其中,t為1到T時刻中的任意一幀。CTC目標函數(shù)lnPr(z|X)對RNN網(wǎng)絡輸出yt求微分,則lnPr(z|X)相對于ykt的一階導為:

由式(11)可見,目標函數(shù)可進行微分,所以bt、bi、bo、bf在求導過程中誤差影響可以忽略,RNN在接收softmax層反向傳播過程中即可更新參數(shù)。

2.2 WFST解碼

一般情況下,應用于CTC訓練輸出模型的解碼方法均有些不足。一是不能把單詞級語言模型進行有效的整合[8];二是只能在特定約束條件下進行集合[9],因此需要高效解碼。本文基于發(fā)聲特點將語言模型、詞典和CTC輸出用WFST進行編譯,建立一個基于WFST的搜索圖實現(xiàn)高效完整性的解碼操作。WFST實質(zhì)上是一個FSA(Finite-state Acceptor),相應的每個轉(zhuǎn)換都包含輸入符號、輸出符號和權(quán)重[10]。

WFST解碼由3個部分組成,分別是:標記(Token)、語法(Grammar)和詞典(Lexicon)。對此擬做闡釋分述如下。

(1)語法G:基于語言模型n-gram編碼了符合語法的單詞序列。初始節(jié)點用節(jié)點O表示,每個邊的權(quán)重即當前對應字或詞的概率。

(2)標記T:編碼了語音CTC標簽序列L到詞典單元L的一對多的映射關(guān)系(l)。在詞典單元中,幀級別標簽序列進行WFST存在空白標簽Φ和重復序列,例如處理五幀后的RNN可能存在的標記序列“AAAAA”、“ΦΦAAΦ”、“ΦAAΦΦ”,token的WFST可把上述三種序列均映射為一個“A”的詞典單元。

(3)詞典L:WFST將標簽序列L的詞序列映射到字序列進行編碼。空的輸入和輸出用表示。

3個獨立的WFST在編譯后,把語法G和詞典L進行組合獲得LG網(wǎng)絡,再通過確定化和最小化算法針對LG網(wǎng)絡進行處理,同時減少搜索圖的占用和優(yōu)化WFST網(wǎng)絡,最終結(jié)合CTC標簽生成完整的搜索圖,也就是:

在搜索圖S中。T、min、det分別表示組合、最小化和確定化操作[11]。S通過編碼將獲取的CTC標簽映射到字序列,此方法較HMM模型CTC解碼速度和性能均大幅度提高。

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)集

本節(jié)的基于NAO機器人的BLSTM-CTC聲學模型研究是基于清華大學開源的THCHS-30中文數(shù)據(jù)集。該數(shù)據(jù)集是由50人錄制的、共計時長為35 h的聲音數(shù)據(jù),數(shù)據(jù)中的采樣率和量化位數(shù)分別為16 kHz和16 bit。其中,訓練集占74.7%,共10 000句;開發(fā)集占6.7%,共893句;測試集則占18.6%,共2 495句,并且每個集合之間均不存在相同錄制人。語言模型為3-gram模型。

3.2 實驗設置

本次實驗中的硬件配置是Ubuntu Linux操作系統(tǒng)和NAO機器人的麥克風;實驗軟件配置是搭建TensorFlow1.5框架結(jié)構(gòu)和Python2.7編程語言。實驗中搭建的基于BLSTM-CTC端到端語音識別系統(tǒng),輸入特征參數(shù)MFCC幀長為256,Mel頻率倒譜系數(shù)為26,每個時間段有494個MFCC特征數(shù),語音輸入的窗函數(shù)選用漢明窗。

3.3 實驗結(jié)果分析

端到端系統(tǒng)建模能力強于基線系統(tǒng),但不同的網(wǎng)絡隱藏層數(shù)對系統(tǒng)性能的影響也存在差異性。表1給出了不同的隱藏層數(shù),即2層、3層和4層之間系統(tǒng)的WER值對比。

由表1可知,LSTM網(wǎng)絡層數(shù)為3層時,相較于2層和4層,系統(tǒng)的WER值分別降低了1.01%和2.28%。當網(wǎng)絡層由2層豐富到3層時,結(jié)構(gòu)得到完善,性能獲得提升;當網(wǎng)絡層由3層增加到4層時,由于訓練語料庫的短缺,導致網(wǎng)絡欠擬合,反而抑制系統(tǒng)準確率的提升。因此,3層的網(wǎng)絡系統(tǒng)結(jié)構(gòu)最優(yōu)。

本實驗的網(wǎng)絡模型結(jié)構(gòu)是由3層全連接層網(wǎng)絡作為輸入,每層包含1 024個節(jié)點,設置最佳學習率為0.001,共進行120次迭代,每次迭代共循環(huán)267次,每次取8。訓練中選取句子字數(shù)相同、但循環(huán)次數(shù)不同的3組數(shù)據(jù)進行對比,分別是69、139和209,每次迭代訓練后均對訓練損失、錯誤率和訓練時間進行輸出。以音素為基本單元進行建模,輸出層激活函數(shù)是softmax函數(shù),其輸出標簽數(shù)為47,其中包含一個靜音標簽和blank標簽以及45個音素。

文中選取前22次的迭代數(shù)據(jù),分析3種不同循環(huán)次數(shù)進行對比,如圖4所示。隨著迭代次數(shù)的增加,在端到端語音識別系統(tǒng)中循環(huán)69次的正確率峰值最大;循環(huán)139次相較其他兩者識別變化更加穩(wěn)定;循環(huán)209次初始錯誤率最低。可見循環(huán)次數(shù)越多,錯誤率越小。

不同循環(huán)次數(shù)BLSTM-CTC語音識別損失對比如圖5所示。由圖5可知,端到端語音識別系統(tǒng)循環(huán)次數(shù)69次時,初始損失為304.81,較其他兩者損失相比過大;當循環(huán)次數(shù)為209次時,初始損失則為292.24,當?shù)鷶?shù)目增加時,損失均呈現(xiàn)逐漸下降趨勢,不同次數(shù)間的損失數(shù)值變化區(qū)別不明顯,可見循環(huán)次數(shù)越小損失變化越明顯。綜上可知,循環(huán)次數(shù)為209時,損失變動小,魯棒性更強。

BLSTM-CTC語音識別WER和損失變化則如圖6所示。由圖6可知,隨著迭代次數(shù)的變化,訓練損失大幅度降低,錯誤率變化不穩(wěn)定,但趨勢處于降低狀態(tài),最終的識別準確率為74.4%。實現(xiàn)NAO機器人語音識別魯棒性的有效提高。

NAO機器人、端到端系統(tǒng)對比見表2。表2中,針對NAO機器人自身和使用端到端系統(tǒng)二者進行對比,依據(jù)詞錯誤率(Word Error Rate,WER)作為評判標準。與最初的NAO識別準確率相比, BLSTM-CTC系統(tǒng)將WER值降低6.57%。研究中發(fā)現(xiàn)WER值成功降低,但仍存在一些不足, BLSTM-CTC系統(tǒng)訓練后不受外界附加條件影響和制約,但訓練時間長。由此可見,兩者魯棒性均獲得大幅度提高,但也都存在一定的弊端,因此,兩者可相互彌補在不同的硬件配置條件下的不足,通過多種方案均可有效改善NAO機器人WER值。

4 結(jié)束語

本文使用基于BLSTM-CTC的聲學模型進行建模,建立了中文語音識別端到端系統(tǒng),應用于NAO機器人。實驗結(jié)果證明,使用端到端系統(tǒng)比NAO機器人自身的WER有了進一步的改善,為NAO機器人的語音處理領域提供了更多的思路。

參考文獻

[1] ?戴禮榮,張仕良,黃智穎. 基于深度學習的語音識別技術(shù)現(xiàn)狀與展望[J]. 數(shù)據(jù)采集與處理,2017,32(2):221-231.

[2] 姚煜. 基于BLSTM-CTC和WFST的端到端中文語音識別系統(tǒng)[J]. 計算機應用,2018(2):1-4.

[3] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8):1735-1780.

[4] SHERSTINSKY A. Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) network[J]. Physica D: Nonlinear Phenomena, 2020,404:132306.

[5] XU Y, MO T, FENG Q. Deep learning of feature representation with multiple instance learning for medical image analysis[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing( ICASSP). Washington DC: IEEE, 2014:1626-1630.

[6] FAHED A, GHALIA N. A multiple- hypothesis map-matching method suitable for weighted and box-shaped state estimation for location[J]. IEEE Transactions on Intelligent Transportation Systems, 2011,12(4):1495-1510.

[7] 鄭曉瓊,汪曉,江海升,等. 基于RNN和WFST譯碼的自動語音識別研究[J]. 信息技術(shù),2019,43(6):115-120.

[8] PRICE M, GLASS J, CHANDRAKASAN A P. A low-power speech recognizer and voice activity detector using deep neural networks[J]. IEEE Journal of Solid-State Circuits, 2018,53(1):66 -75.

[9] 馮偉,易綿竹,馬延周. 基于WFST的俄語字音轉(zhuǎn)換算法研究[J]. 中文信息學報,2018,32(2): 87-93,101.

[10]ARMENI K, WILLEMS R M, FRANK S L. Probabilistic language models in cognitive neuroscience:Promises and pitfalls[J]. Neuroscience & Biobehavioral Reviews, 2017,83:579-588.

[11]JIANG B, CHAN W K. Input-based adaptive randomized test case prioritization: A local beam search approach[J]. Journal of Systems and Software, 2015,105: 91-106.

主站蜘蛛池模板: 国产导航在线| 五月天香蕉视频国产亚| 丰满少妇αⅴ无码区| 青青热久免费精品视频6| 国产一区二区网站| 国产精品自拍合集| 99精品视频九九精品| 国产成人啪视频一区二区三区| 无码AV动漫| 91精品情国产情侣高潮对白蜜| 国产一区二区三区在线精品专区| 女人18一级毛片免费观看| 91精品综合| 精品国产电影久久九九| 亚洲区一区| 精品人妻一区无码视频| 日韩精品亚洲人旧成在线| 久久成人免费| 国产靠逼视频| 精品夜恋影院亚洲欧洲| 国产在线日本| 亚洲天堂啪啪| 国产精品对白刺激| 精品人妻AV区| 91精品小视频| 久青草国产高清在线视频| 夜夜操国产| 精品国产美女福到在线不卡f| 国产91麻豆视频| 亚洲成a∧人片在线观看无码| 99在线视频网站| 久久综合五月婷婷| 精品国产美女福到在线不卡f| 久草视频精品| 国产精品视频公开费视频| 婷婷六月色| 国内精品一区二区在线观看| 亚洲中文在线看视频一区| 色国产视频| 亚洲成人网在线播放| 被公侵犯人妻少妇一区二区三区| 国产精品密蕾丝视频| 99精品免费在线| 亚洲日韩久久综合中文字幕| 三级视频中文字幕| 鲁鲁鲁爽爽爽在线视频观看| 日韩欧美91| 色窝窝免费一区二区三区| 99视频免费观看| 亚洲欧美成aⅴ人在线观看| 亚洲动漫h| 久久国产黑丝袜视频| 中文字幕丝袜一区二区| 一边摸一边做爽的视频17国产| 国产精品自拍露脸视频| 国产免费精彩视频| 中文字幕有乳无码| 国产在线专区| 国产大片黄在线观看| a亚洲天堂| 欧美精品影院| yjizz国产在线视频网| 91麻豆久久久| 国产凹凸一区在线观看视频| 日本日韩欧美| 中文字幕调教一区二区视频| 玩两个丰满老熟女久久网| 国产又大又粗又猛又爽的视频| 精品一区二区三区水蜜桃| 亚洲国产看片基地久久1024 | 日韩精品一区二区三区大桥未久| 中文字幕亚洲专区第19页| 在线观看视频99| 亚洲色图欧美激情| 日韩无码精品人妻| 日本黄色不卡视频| 国产成人综合网| 国产亚洲高清视频| 天天干天天色综合网| 香蕉综合在线视频91| 国内精品免费| 亚洲国产成人超福利久久精品|