999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談聲音識別模型發(fā)展趨勢

2021-11-21 14:04:17盧林王東
汽車實(shí)用技術(shù) 2021年12期
關(guān)鍵詞:深度模型

盧林,王東

(1.黃岡職業(yè)技術(shù)學(xué)院,湖北 黃岡 438002;2.中汽研(天津)汽車工程研究院有限公司,天津 300300)

引言

聲音識別技術(shù)中主要包含語音識別和環(huán)境聲音識別,語音識別的出現(xiàn)讓人類和機(jī)器的交流變得更加智能和便捷。環(huán)境聲音識別同樣也在各領(lǐng)域取得了廣泛的應(yīng)用。如基于機(jī)器聲音識別的故障診斷、基于道路交通聲音識別的輔助駕駛等。目前實(shí)現(xiàn)聲音識別的準(zhǔn)備工作分別為特征參數(shù)的提取和構(gòu)建識別模型。近年來,為提高聲音識別準(zhǔn)確率、識別速度,各種識別模型被提出,這項(xiàng)智能技術(shù)在不斷地更新進(jìn)步。

1 識別模型的發(fā)展

1.1 動態(tài)時間規(guī)整

在聲音識別領(lǐng)域,早期采用的是語音識別中孤立詞識別的方法,其原理是對一段輸入信號進(jìn)行逐幀單獨(dú)識別,針對識別信號的長度各有不同的情況。上世紀(jì)60年代,日本學(xué)者Itakura首次動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法應(yīng)用到語音識別領(lǐng)域[1]。在識別過程中,不能簡單的將輸入的聲音與模板直接比較,即使是同一種聲音,其信號在時間長度上也不會完全相同,直接比較會降低識別率,因此可對聲音信號進(jìn)行時間規(guī)整,將待測聲音信號伸長或縮短,直到與參考模板的長度一致。DTW算法基于動態(tài)規(guī)劃(Dyna-mic Programming,DP)的思想,能夠?qū)⑤斎胄盘柕臅r長與模板的時長進(jìn)行動態(tài)匹配,它也是聲音識別技術(shù)中出現(xiàn)較早的一種算法[2]。

實(shí)驗(yàn)結(jié)果證明,將DTW算法應(yīng)用到語音識別領(lǐng)域在對孤立詞識別方面確實(shí)有著較好的識別效果,但其最明顯的缺點(diǎn)在于這種方法實(shí)現(xiàn)需要對大量路徑及這些路徑中的所有節(jié)點(diǎn)進(jìn)行匹配計(jì)算,從而導(dǎo)致計(jì)算量極大,隨著聲音樣本量及樣本長度的增大,其識別時間甚至將達(dá)到難以接受的程度,因此,無法直接應(yīng)用于大、中樣本量聲音識別。同時,根據(jù)其優(yōu)缺點(diǎn),這種方法主要是應(yīng)用于孤立詞的識別上,對大詞匯量的連續(xù)聲音識別上其效果不太理想,所以,HMM/GMM等混合高速模型應(yīng)運(yùn)而生。

1.2 隱馬爾科夫模型

隱馬爾科夫模型(Hidden Markov Model,HMM)是目前聲音識別中使用最普遍的統(tǒng)計(jì)模型之一。它對時間序列結(jié)構(gòu)有著較強(qiáng)的建模能力,它不僅能描述不平穩(wěn)聲音信號的瞬態(tài)特征,還可以跟蹤隱含在觀測序列中的動態(tài)特征。HMM是一個雙內(nèi)嵌式隨機(jī)過程,一個隨機(jī)過程用來表示隱含狀態(tài)鏈之間的轉(zhuǎn)移,另一個隨機(jī)過程用來表示隱含狀態(tài)鏈和可見狀態(tài)鏈對應(yīng)的統(tǒng)計(jì)關(guān)系[3]。

HMM聲音識別的步驟是先對輸入的聲音信號應(yīng)用Baum-Welch算法訓(xùn)練其特征參數(shù),從而使觀測序列對HMM模型的輸出概率最大化。同時應(yīng)用這種算法還可以為每個輸入的聲音信號建立HMM模型參數(shù),將所有聲音的HMM模型參數(shù)組合起來,得到系統(tǒng)HMM模板庫。然后使用Viterbi算法,將待測的聲音和模板庫進(jìn)行模式匹配,搜索最優(yōu)狀態(tài)序列,并以最大后驗(yàn)概率為準(zhǔn)則獲得識別結(jié)果。

但是HMM模型更多的反應(yīng)類別間的相似性,忽略了類別的差異性,因此具有較弱的分類能力和決策能力,同時其自適應(yīng)性和抗噪性也較差。

1.3 高斯混合模型

高斯混合模型(Gaussian Mixture Model,GMM)使用高斯分布作為參數(shù)模型,精確地量化事物,它是一種將事物分解為若干的基于高斯概率密度函數(shù)形成的模型[4]。GMM用M個高斯分布的線性組合來刻畫矢量的特征數(shù)據(jù)分布。

在建模過程中,首先要初始化GMM算法,即初始化GMM模型中的協(xié)方差矩陣、均值矢量和權(quán)重,得到一個不準(zhǔn)確的初始化高斯模型,然后通過運(yùn)行迭代算法的次數(shù)來不斷縮小它的范圍,更新模型的參數(shù)值,直到收斂,最終訓(xùn)練出模型的參數(shù)。GMM訓(xùn)練中使用的迭代算法為最大期望算法(Expectation-Maximization algorithm,EM),EM算法可通過非完備數(shù)據(jù)集合來估計(jì)模型參數(shù),包含E-Step和MStep。其中,E-Step的功能是初始化模型,并根據(jù)給定的參數(shù)獲得似然度;M-Step的功能是重估參數(shù),利用最大似然準(zhǔn)則使得似然度最大。重復(fù)迭代兩個步驟直到收斂,訓(xùn)練出模型的參數(shù)。

GMM的優(yōu)點(diǎn)是僅使用少量參數(shù)就能較好地描述對象的特征,聲學(xué)模型較小,容易移植到嵌入式平臺。但GMM的局限是計(jì)算量較大,收斂速度較慢。對異常點(diǎn)較為敏感,如果其中一個數(shù)據(jù)不服從正態(tài)分布,聚類算法會出現(xiàn)偏差,同時對訓(xùn)練數(shù)據(jù)量的要求較高。

1.4 支持向量機(jī)

支持向量機(jī)(Support Vector Machine,SVM)是一種基于統(tǒng)計(jì)原理開發(fā)的常用作分類器的淺層機(jī)器學(xué)習(xí)方法之一。在聲音識別中,它可以看作是一種分類器,可以將兩種或多種樣本準(zhǔn)確地分開,并使經(jīng)驗(yàn)風(fēng)險和真實(shí)風(fēng)險都盡可能地小。

SVM算法的基本思想是在不同類的數(shù)據(jù)集上尋找一個最優(yōu)決策超平面將不同類的樣本分開,并使其距離不同類的分類邊緣(平行超平面并過距離超平面最近的數(shù)據(jù)點(diǎn))最大。當(dāng)數(shù)據(jù)集線性可分或近似線性可分時,直接尋找最佳超平面,并使得錯分點(diǎn)最少。當(dāng)數(shù)據(jù)集線性不可分時,SVM將樣本從原始空間映射到高維空間,使其在此空間內(nèi)線性可分,然后尋找最佳超平面將樣本集在此空間內(nèi)區(qū)分開[5]。基于這種方法,其在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。

SVM在中小樣本量訓(xùn)練集分類問題上能夠得到比其它算法更優(yōu)的效果,且可以解決樣本維數(shù)很高的問題。但當(dāng)特征數(shù)據(jù)為非線性問題時,SVM算法并沒有固定的解決方案,遇到這種情況時往往采用網(wǎng)格交叉驗(yàn)證的思路來選擇最優(yōu)的核函數(shù)和其中的參數(shù)數(shù)值。此外在對大樣本數(shù)據(jù)進(jìn)行訓(xùn)練時其學(xué)習(xí)速度慢也是它的一個不足之處。

1.5 人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是自上世紀(jì)80年代以來人工智能領(lǐng)域興起的研究熱點(diǎn),并迅速應(yīng)用在聲音識別、圖像識別、文本識別等領(lǐng)域。它的原理是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò),在理解和抽象人腦神經(jīng)系統(tǒng)結(jié)構(gòu)和人腦神經(jīng)系統(tǒng)對外界信息反饋機(jī)制后,以網(wǎng)絡(luò)拓?fù)渲R為理論基礎(chǔ),模擬人腦神經(jīng)網(wǎng)絡(luò)對外界信息處理機(jī)制的數(shù)學(xué)模型。ANN內(nèi)部模仿人腦神經(jīng)系統(tǒng),它由大量神經(jīng)元(節(jié)點(diǎn))組成,每個節(jié)點(diǎn)表示一種特定的輸出函數(shù)(激活函數(shù)),然后通過節(jié)點(diǎn)之間不同方式的連接組成不同的網(wǎng)絡(luò),并對信息進(jìn)行分布式并行處理,從而復(fù)現(xiàn)大腦神經(jīng)系統(tǒng)處理外部信號的功能。

基于ANN的聲音識別系統(tǒng)內(nèi)部除了包含神經(jīng)元,還具有訓(xùn)練算法以及網(wǎng)絡(luò)結(jié)構(gòu)兩大要素。ANN采用了多種現(xiàn)代信息技術(shù)成果,如并行處理機(jī)制、非線性信息處理機(jī)制和信息分布存貯機(jī)制等,從而達(dá)到高效率處理數(shù)據(jù)和自適應(yīng)調(diào)節(jié)的功能,其中自適應(yīng)調(diào)節(jié)功能主要表現(xiàn)在訓(xùn)練過程中可以不斷調(diào)整自身的參數(shù)權(quán)值和拓?fù)浣Y(jié)構(gòu),以適應(yīng)環(huán)境和系統(tǒng)性能優(yōu)化的需求[6]。在聲音識別中使用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有BP神經(jīng)網(wǎng)絡(luò)、基于RBF神經(jīng)網(wǎng)絡(luò)等。

神經(jīng)網(wǎng)絡(luò)方法具有聯(lián)想記憶功能和良好的容錯性、高并行性、良好的自適應(yīng)和自學(xué)習(xí)能力。然而,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)也存在許多缺點(diǎn),例如難以準(zhǔn)確分析神經(jīng)網(wǎng)絡(luò)的各個指標(biāo)、不適合解決必須得到正確答案的問題、體系結(jié)構(gòu)通用性差等問題。

2 深度學(xué)習(xí)在聲音識別中的應(yīng)用

HMM、GMM、SVM與淺層神經(jīng)網(wǎng)絡(luò)等,歸根結(jié)底都是屬于淺層機(jī)器學(xué)習(xí)模型,這些淺層結(jié)構(gòu)在處理內(nèi)部結(jié)構(gòu)不復(fù)雜,在解決約束不強(qiáng)的數(shù)據(jù)時通過提取相應(yīng)特征進(jìn)行訓(xùn)練可取得較好的效果,但是在聲音識別中若遇到信號本身結(jié)構(gòu)復(fù)雜的數(shù)據(jù)時,基于這些方法得到的訓(xùn)練模型會存在數(shù)據(jù)表征能力不強(qiáng)的現(xiàn)象,最終的識別效果也會有所欠缺,這促使了深度學(xué)習(xí)(Deep-Learning)的誕生和其在聲音識別領(lǐng)域的快速發(fā)展。

深度學(xué)習(xí)的概念是由神經(jīng)網(wǎng)絡(luò)大師Hinton和其學(xué)生于2006年正式提出,基于深度學(xué)習(xí)的方法在ImageNet 圖像識別大賽中屢建戰(zhàn)功。不僅在圖像識別上,后來也被延伸應(yīng)用到聲音識別領(lǐng)域,現(xiàn)已成為國際研究的新熱點(diǎn)。從本質(zhì)上講,深度學(xué)習(xí)是建立一個具有多個隱藏層的機(jī)器學(xué)習(xí)架構(gòu)模型,通過大規(guī)模的數(shù)據(jù)訓(xùn)練,提取更具代表性的特征。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)限制網(wǎng)絡(luò)的層數(shù)不同,深度神經(jīng)網(wǎng)絡(luò)可根據(jù)設(shè)計(jì)者的要求,選擇任意的層數(shù)。

目前,在基于深度學(xué)習(xí)方法的聲音識別中,逐漸開發(fā)出循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)雙向長短期記憶(Bidirectional Long-Short Term Memory,LSTM)等。

深度神經(jīng)網(wǎng)絡(luò)根據(jù)其運(yùn)行原理可以接受比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)大很多的輸入數(shù)據(jù)維度,并且它可以自動學(xué)習(xí)數(shù)據(jù)的特征,在聲音識別中顯著縮短了特征提取的時間,同時伴隨著計(jì)算機(jī)GPU的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間也不斷減少,極大地提高了聲音識別的效率。

3 聲音識別模型未來發(fā)展趨勢

深度神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)技術(shù)的極大突破,同時在大數(shù)據(jù)時代也為聲音識別模型提供了一個新的發(fā)展方向。未來聲音識別模型主要以深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型為基礎(chǔ)進(jìn)行更深入地研究與改進(jìn)。

首先是對更深更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)的開發(fā)研究,雖然以目前的計(jì)算能力,在實(shí)際聲音識別中還不能取得很好的應(yīng)用,但這是推動深度神經(jīng)網(wǎng)絡(luò)進(jìn)一步發(fā)展的必然趨勢。Deep-CNN是目前聲音識別模型領(lǐng)域最主要研究的一種模型,微軟、百度、IBM公司相繼推出了自己的Deep-CNN模型,推動著神經(jīng)網(wǎng)絡(luò)向更深層發(fā)展。

其次是混合模型的使用和改進(jìn),將不同模型結(jié)合使用,取長補(bǔ)短,達(dá)到更好的識別效果。已被應(yīng)用的混合模型有傳統(tǒng)的GMM-HMM模型,隨著ANN的提出,80年代晚期Morgan提出了基于ANN-HMM的混合模型。隨著近年來深度神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,基于DNN-HMM的混合模型成為了主流的算法。

最后是粗粒度建模技術(shù)的出現(xiàn)和發(fā)展,這是近期出現(xiàn)的一種新的聲學(xué)模型技術(shù),粗粒度建模技術(shù)可以極大加快聲音識別的解碼速度,解碼速度的提升使得應(yīng)用更深和更復(fù)雜的神經(jīng)網(wǎng)絡(luò)建立聲學(xué)模型成為可能,這是提高識別速度的尖端技術(shù)之一。

4 結(jié)語

識別模型的建立是開展聲音識別工作中至關(guān)重要的一步,它直接關(guān)系到最終目標(biāo)識別效率。識別模型從開始的動態(tài)時間規(guī)整,到隱馬爾科夫模型、高斯混合模型、人工神經(jīng)網(wǎng)絡(luò)等淺層模型的轉(zhuǎn)變,再到將深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取與分類能力應(yīng)用到聲音識別中。目前,基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)成為了聲學(xué)建模的主流,并隨著計(jì)算機(jī)技術(shù)的發(fā)展而不斷進(jìn)步。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产成人在线无码免费视频| 国产精品欧美在线观看| 欧美三级视频在线播放| 99一级毛片| 女人天堂av免费| 国产男女免费视频| 国产手机在线ΑⅤ片无码观看| 国产精品永久免费嫩草研究院| 啊嗯不日本网站| 国产小视频a在线观看| 亚洲有无码中文网| 国产jizzjizz视频| 国产成人福利在线| 国产成人亚洲精品色欲AV| www.91中文字幕| 无遮挡一级毛片呦女视频| аv天堂最新中文在线| 欧美在线一二区| 在线不卡免费视频| 就去色综合| 久久久精品国产亚洲AV日韩| 男女精品视频| 五月天婷婷网亚洲综合在线| 久久人搡人人玩人妻精品一| 黄色网站不卡无码| 国产精品香蕉在线| 国产中文一区二区苍井空| 久久国产精品麻豆系列| 国产精品2| 无码人妻免费| 免费无码又爽又刺激高| 日韩成人在线网站| 国产靠逼视频| 毛片免费视频| 亚洲精品在线影院| 成人精品午夜福利在线播放| 国产日韩AV高潮在线| 99这里精品| 最新国产成人剧情在线播放| 国产午夜福利在线小视频| 精品国产www| 国产精品高清国产三级囯产AV| 成年片色大黄全免费网站久久| 久无码久无码av无码| 久久精品一卡日本电影 | 亚洲天堂视频网站| 成人午夜视频免费看欧美| 国产精品无码AV片在线观看播放| 久久综合国产乱子免费| 免费毛片全部不收费的| 久久午夜影院| 99久久精品美女高潮喷水| 99re经典视频在线| 国产电话自拍伊人| 精品久久蜜桃| 午夜限制老子影院888| 成人一区专区在线观看| 乱人伦视频中文字幕在线| 欧美一区中文字幕| 99中文字幕亚洲一区二区| 中文字幕有乳无码| 成人午夜视频在线| 91色在线观看| a亚洲天堂| Aⅴ无码专区在线观看| 91久久天天躁狠狠躁夜夜| 乱人伦99久久| 亚洲免费福利视频| 中文字幕在线免费看| 国产簧片免费在线播放| 88国产经典欧美一区二区三区| 国产视频久久久久| 国产噜噜在线视频观看| 国产永久免费视频m3u8| 成年片色大黄全免费网站久久| 99久久精品久久久久久婷婷| 日韩在线第三页| 97成人在线视频| 国产成人精品视频一区二区电影 | AV色爱天堂网| 久久国产精品电影| 无码高潮喷水在线观看|