張安安 鄧芳明



摘? 要: 針對現有語音識別技術識別精準度低的問題,提出一種基于深度卷積神經網絡算法與遷移學習相結合的語音識別技術。由于深度卷積神經網絡應用范圍有限,當輸入輸出參數發生變化時,需要重新開始構建,體系結構訓練時間過長,因此,采用遷移學習方法有利于降低數據集規模。仿真實驗結果表明,遷移學習不僅適用于源數據集與遷移問題的目標數據集比較,而且也適用于兩種不同數據集情況,小數據集應用不僅有利于降低數據集生成時間和費用,而且有利于降低模型培訓時間和對計算能力的要求。
關鍵詞: 語音識別; 深度卷積神經網絡; 遷移學習; 數據集規模; 識別精度; 培訓時間
中圖分類號: TN912.34?34; TN925? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)17?0069?03
Abstract: Since the recognition accuracy of existing speech recognition technology is low, a speech recognition technology based on deep convolution neural network algorithm is proposed. Due to the limited application scope of deep convolutional neural network (DCNN), when the input and output parameters change, the deep convolution neural network needs to be rebuilt and the training duration of architecture is time?consuming. Therefore, the migration learning method is adopted, which is beneficial to the reduction of the data set scale. The results of simulation experiments show that the migration learning is not only suitable for comparing the source data set with the target data set of migration problem, but also suitable for situations of two different data sets. The application of small data sets is favorable to the reduction of not only the time and cost of data set generation, but also the training duration and computational ability requirement of the model.
Keywords: speech recognition; deep convolution neural network; transfer learning; data set scale; recognition precision; training duration
0? 引? 言
語音識別是機器的聽覺系統,能夠實現人與機器的交流[1]。一般來說,語音識別的方法通常分為以下3種:基于聲道模型和語音知識方法、模板匹配方案以及利用人工神經網絡方法[2]。人工神經網絡方法模擬了人類神經活動,相比于傳統的語音識別法,在建模能力以及語音識別準確率上都有了很大的提升。
深度學習的概念源于人工神經網絡[3],2009年深度學習首次被應用于語音識別任務中[4]。根據目前語音識別技術的發展現狀,基于深度學習的語音識別技術算法主要分為長短時記憶(Long Short?term Memory,LSTM)網絡[5]、深層神經網絡(Deep Neural Network,DNN)[4]、卷積神經網絡(Convolutional Neural Network,CNN)[6]。CNN通過采用局部濾波和最大池化技術可以獲得更好的魯棒性,因此,CNN近年來在圖像、視頻及語音識別領域得到了廣泛的關注[7?8]。而在最近的一些研究中,CNN在語音識別領域中得到了新的應用,相比于之前的工作,最大的不同是使用了非常深層的卷積神經網絡(Deep Convolution Neural Network,DCNN)[9?10]。在語音識別中,每個人的發音存在差異性,通過DCNN能有效地去除這種差異性,提高語音識別準確率[11?12]。DCNN需要一個大型的數據集來防止過擬合,因此,體系結構的訓練非常耗時。目前,減少圖像數據集大小的方法是遷移學習,在遷移學習中,網絡結構在被傳輸到一個未知的、小得多的目標數據集之前,被訓練在一個大的源數據集上。關于遷移學習的物體識別可在文獻[13]中找到。在遷移學習的支持下,視覺識別有許多不同的方法,這些方法被廣泛應用到圖像分類[14]和醫療領域[15]。
本文提出DCNN算法與遷移學習相結合的方法實現語音識別,采用DCNN算法能有效地提高語音識別精度,遷移學習用于降低數據集規模。由仿真結果可知,遷移學習方法不僅可減少數據集生成的時間及成本,而且極大地節省了訓練時間。
1? 遷移學習
1.1? 數據預處理
Avicar數據集來源于一輛裝有多個傳感器的汽車中收集的視聽語音語料庫。在5種不同的駕駛條件下,分別用50個男性和50個女性演講者收集數據。本文對5種驅動條件下的孤立字母音頻數據進行了進一步的研究。對于從A~Z的26個字母中的每一個,分別提取和保存200個音頻文件的訓練集和50個音頻文件的測試集。一共生成13 000個音頻文件的稀疏數據集,其中10 400個文件用于培訓,2 600個文件用于測試。本文利用傅里葉變換從音頻數據中生成頻譜圖。
由于存在稀疏數據集,因此進行數據擴充,利用標簽保持轉換實現數據集的人工擴充。為了實現數據放大,不需要生成新的圖像,對已經存在的數據集進行細微的修改,這些更改包括翻轉、旋轉或平移。本文對不同的增強調整進行簡單的測試,通過隨機旋轉和隨機寬度移動獲得了最佳的結果,轉換后的圖像是從原始圖像生成的,對上一批進行培訓時在CPU上生成,不需要存儲。
1.2? 遷移學習和方法
在小數據集上對DCNN進行訓練,但得到的結果與理論仍存在差異,因此使用遷移學習解決該問題。除了預先訓練的權重之外,還有不同的架構,它們可以自由地用于預測、微調或特征提取。本文采用16層卷積網絡VGG?16用于進一步的工作,因為與其他可訪問的模型相比,測試結果最優。
如圖1所示,VGG?16的體系結構包括輸入大小為244×244×3的圖像,然后添加接收場大小為3×3的卷積層,以及一個像素的步幅和5個像素窗口為2×2的最大池化層。接下來是3個完整連接層和最后1個SoftMax層。對于所有隱藏層,整流非線性(RELU)被用作激活函數。該體系結構在ImageNet數據庫的一個子集上進行了培訓。ImageNet是一個用于研究應用的圖像數據集,包含超過1 400萬個圖像,這些圖像通過手工分類來指示圖像中的對象。為了對VGG?16進行培訓,使用了超過一百萬張圖像的子集,這些圖像被分為1 000個對象類別,生成豐富多樣的圖像的廣泛特征表示。預訓練具有識別關系并可在廣泛的數據集上創建結構和形狀分類的優點,可以在新的任務中適應和組裝以完成重新設計的任務。從字面上講,它將學習進展轉移到當前的主題上。
在使用小數據集時,視覺識別的遷移學習非常適合,尤其是在醫學圖像分析中,通常只有很小的數據集,DCNN是分析的首選方法。大數據集的預訓練提取了一般特征,并將這些特征應用于小數據集的后續給定任務,并在學習稀疏數據時提出改進。
2? 實驗設計及結果
在這種方法中,使用帶有TensorFlow后端的Keras深度學習框架來實現。Keras除了各種預先訓練的深層卷積神經網絡外,還包括之前描述過的VGG?16模型。該模型可用于預測、特征提取和微調,并具有預先訓練的權重,在這種方法中,模型開發使用微調。
如圖2所示,通過截斷最后一個最大池化層之前的最后一個完全連接層,并通過全局空間平均池化層和兩個完全連接的層擴展模型,對預先訓練的VGG?16模型進行修改。全局平均池化層(GAP)通過減少模型的參數數量,減少了空間維度,并保證模型不會過度擬合。之后是一個尺寸為1×1×512的全連接層和一個線性分類器(RELU)以及一個尺寸為26個類的第二個全連接SoftMax層。這與實驗所需的類數相對應。
利用數據增強得到的圖譜,通過人工放大數據來提高性能,對VGG?16模型的頂層進行訓練。作為一個優化器,選擇學習率為0.000 5的隨機梯度下降優化器。該模型訓練的批量大小為8的25,50,100和200個學時的音頻數據,只有男性的聲音、女性的聲音和混合的男性和女性的聲音,預先訓練的學時數要接近或在訓練飽和的范圍內??偟臏蚀_度百分比的培訓結果如表1所示。
由表1可以看出:對于一個包含5 200個男性或女性聲音文件的數據集,可以收到每個性別的語音測試結果。對于一個包含5 200個文件的數據集中男女聲音的組合,培訓無法取得可比的結果。但是一個包含2倍多文件(10 400個)的數據集不能只是達到單獨培訓的結果,它甚至優于單獨培訓的結果。也可以看出,對于所有的測試案例,超過25個學時的培訓都不能完成的結果,可以通過50個或更高學時的培訓獲得。
由表2可知,男性和女性的聲音分別測試和合并在一起,與預訓練一樣,整體準確度的結果對于單獨訓練的男性和女性聲音具有可比性,而男女合并后的精度較低??梢钥闯觯谒袑嶒灄l件下,凍結層的百分比為10%~50%時,可獲得最佳結果。在90%層被凍結的情況下,根本沒有訓練成績。在這項研究中,預訓練數據庫與實際數據集不相關時,凍結大部分層并只訓練最后剩余的層是沒有意義的,因為特征的適應度是不夠的,可隨著凍結層的減少直到某個點改善。由于表1中的結果不充分,無法說明25個學時前培訓不充分的假設。在與微調的交互中,只有25個學時階段的預培訓會產生與其他測試案例類似的結果。
從圖3中的學習率和精確度飽和情況可以看出,50個學時以上的培訓足以進行微調,且凍結層的比例小于50%,如表2結果所假設的那樣。
3? 結? 論
本文主要采用DCNN與遷移學習相結合實現語音識別,盡管使用了不同的數據集,但是仿真結果表明,即使目標數據庫與預訓練模型的源數據集存在差異,預訓練特征也普遍適用。在語音字母識別應用中,在小數據集上使用遷移學習。仿真結果表明,即使是對于一個非常小的數據庫,也能很好地檢測出語音字母,識別精度略低于使用大數據集的其他方法,但僅使用10 400個男女聲音文件的數據集,即使部分音頻數據是在噪音條件下錄制的,也可以達到近80%的精度。小數據集的應用減少了數據集生成的時間和費用,也減少了培訓模型的時間和對計算能力的需求。
參考文獻
[1] 楊洋,汪毓鐸.基于改進卷積神經網絡算法的語音識別[J].應用聲學,2018,37(6):940?946.
[2] 山世光,闞美娜,劉昕,等.深度學習:多層神經網絡的復興與變革[J].科技導報,2016,34(14):60?70.
[3] 余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013,50(9):1799?1804.
[4] 戴禮榮,張仕良,黃智穎.基于深度學習的語音識別技術現狀與展望[J].數據采集與處理,2017,32(2):221?231.
[5] 舒帆,屈丹,張文林,等.采用長短時記憶網絡的低資源語音識別方法[J].西安交通大學學報,2017,51(10):120?127.
[6] 王霞,杜桂明,王光艷,等.基于卷積神經網絡的面罩語音識別[J].傳感器與微系統,2017,36(10):31?34.
[7] RONNEBERGER O, FISCHER P, BROX T. U?Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing And Computer?Assisted Intervention 2015—18th International Conference. Munich, Germany: Springer, 2015: 234?241.
[8] 趙珊珊,何寧.基于卷積神經網絡的路面裂縫檢測[J].傳感器與微系統,2017,36(11):135?138.
[9] 張軍,張婷,楊正瓴,等.深度卷積神經網絡的汽車車型識別方法[J].傳感器與微系統,2016,35(11):19?22.
[10] JOHNSON R, ZHANG Tong. Deep pyramid convolutional neural networks for text categorization [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.: s.n.], 2017: 562?570.
[11] ABDEL?HAMID O, MOHAMED A H, JIANG Hui, et al. Convolutional neural networks for speech recognition [J]. IEEE/ACM transactions on audio, speech, and language proces?sing, 2014, 22(10): 1533?1545.
[12] ABDEL?HAMID O, DENG Li, YU Dong. Exploring convolutional neural network structures and optimization techniques for speech recognition [C]// INTERSPEECH. Lyon, France: [s.n.], 2013: 3366?3370.
[13] 張雪松,莊嚴,閆飛,等.基于遷移學習的類別級物體識別與檢測研究與進展[J].自動化學報,2019,45(7):1224?1243.
[14] 石祥濱,房雪鍵,張德園,等.基于深度學習混合模型遷移學習的圖像分類[J].系統仿真學報,2016,28(1):167?173.
[15] SHIN H?C, ROTH H R, GAO Mingchen, et al. Deep convolutional neural networks for computer?aided detection: CNN architectures, dataset characteristics and transfer learning [J]. IEEE transactions on medical imaging, 2016, 35(5): 1285?1298.