999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學習優化的DCNN語音識別技術

2020-09-21 08:48:49張安安鄧芳明
現代電子技術 2020年17期

張安安 鄧芳明

摘? 要: 針對現有語音識別技術識別精準度低的問題,提出一種基于深度卷積神經網絡算法與遷移學習相結合的語音識別技術。由于深度卷積神經網絡應用范圍有限,當輸入輸出參數發生變化時,需要重新開始構建,體系結構訓練時間過長,因此,采用遷移學習方法有利于降低數據集規模。仿真實驗結果表明,遷移學習不僅適用于源數據集與遷移問題的目標數據集比較,而且也適用于兩種不同數據集情況,小數據集應用不僅有利于降低數據集生成時間和費用,而且有利于降低模型培訓時間和對計算能力的要求。

關鍵詞: 語音識別; 深度卷積神經網絡; 遷移學習; 數據集規模; 識別精度; 培訓時間

中圖分類號: TN912.34?34; TN925? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)17?0069?03

Abstract: Since the recognition accuracy of existing speech recognition technology is low, a speech recognition technology based on deep convolution neural network algorithm is proposed. Due to the limited application scope of deep convolutional neural network (DCNN), when the input and output parameters change, the deep convolution neural network needs to be rebuilt and the training duration of architecture is time?consuming. Therefore, the migration learning method is adopted, which is beneficial to the reduction of the data set scale. The results of simulation experiments show that the migration learning is not only suitable for comparing the source data set with the target data set of migration problem, but also suitable for situations of two different data sets. The application of small data sets is favorable to the reduction of not only the time and cost of data set generation, but also the training duration and computational ability requirement of the model.

Keywords: speech recognition; deep convolution neural network; transfer learning; data set scale; recognition precision; training duration

0? 引? 言

語音識別是機器的聽覺系統,能夠實現人與機器的交流[1]。一般來說,語音識別的方法通常分為以下3種:基于聲道模型和語音知識方法、模板匹配方案以及利用人工神經網絡方法[2]。人工神經網絡方法模擬了人類神經活動,相比于傳統的語音識別法,在建模能力以及語音識別準確率上都有了很大的提升。

深度學習的概念源于人工神經網絡[3],2009年深度學習首次被應用于語音識別任務中[4]。根據目前語音識別技術的發展現狀,基于深度學習的語音識別技術算法主要分為長短時記憶(Long Short?term Memory,LSTM)網絡[5]、深層神經網絡(Deep Neural Network,DNN)[4]、卷積神經網絡(Convolutional Neural Network,CNN)[6]。CNN通過采用局部濾波和最大池化技術可以獲得更好的魯棒性,因此,CNN近年來在圖像、視頻及語音識別領域得到了廣泛的關注[7?8]。而在最近的一些研究中,CNN在語音識別領域中得到了新的應用,相比于之前的工作,最大的不同是使用了非常深層的卷積神經網絡(Deep Convolution Neural Network,DCNN)[9?10]。在語音識別中,每個人的發音存在差異性,通過DCNN能有效地去除這種差異性,提高語音識別準確率[11?12]。DCNN需要一個大型的數據集來防止過擬合,因此,體系結構的訓練非常耗時。目前,減少圖像數據集大小的方法是遷移學習,在遷移學習中,網絡結構在被傳輸到一個未知的、小得多的目標數據集之前,被訓練在一個大的源數據集上。關于遷移學習的物體識別可在文獻[13]中找到。在遷移學習的支持下,視覺識別有許多不同的方法,這些方法被廣泛應用到圖像分類[14]和醫療領域[15]。

本文提出DCNN算法與遷移學習相結合的方法實現語音識別,采用DCNN算法能有效地提高語音識別精度,遷移學習用于降低數據集規模。由仿真結果可知,遷移學習方法不僅可減少數據集生成的時間及成本,而且極大地節省了訓練時間。

1? 遷移學習

1.1? 數據預處理

Avicar數據集來源于一輛裝有多個傳感器的汽車中收集的視聽語音語料庫。在5種不同的駕駛條件下,分別用50個男性和50個女性演講者收集數據。本文對5種驅動條件下的孤立字母音頻數據進行了進一步的研究。對于從A~Z的26個字母中的每一個,分別提取和保存200個音頻文件的訓練集和50個音頻文件的測試集。一共生成13 000個音頻文件的稀疏數據集,其中10 400個文件用于培訓,2 600個文件用于測試。本文利用傅里葉變換從音頻數據中生成頻譜圖。

由于存在稀疏數據集,因此進行數據擴充,利用標簽保持轉換實現數據集的人工擴充。為了實現數據放大,不需要生成新的圖像,對已經存在的數據集進行細微的修改,這些更改包括翻轉、旋轉或平移。本文對不同的增強調整進行簡單的測試,通過隨機旋轉和隨機寬度移動獲得了最佳的結果,轉換后的圖像是從原始圖像生成的,對上一批進行培訓時在CPU上生成,不需要存儲。

1.2? 遷移學習和方法

在小數據集上對DCNN進行訓練,但得到的結果與理論仍存在差異,因此使用遷移學習解決該問題。除了預先訓練的權重之外,還有不同的架構,它們可以自由地用于預測、微調或特征提取。本文采用16層卷積網絡VGG?16用于進一步的工作,因為與其他可訪問的模型相比,測試結果最優。

如圖1所示,VGG?16的體系結構包括輸入大小為244×244×3的圖像,然后添加接收場大小為3×3的卷積層,以及一個像素的步幅和5個像素窗口為2×2的最大池化層。接下來是3個完整連接層和最后1個SoftMax層。對于所有隱藏層,整流非線性(RELU)被用作激活函數。該體系結構在ImageNet數據庫的一個子集上進行了培訓。ImageNet是一個用于研究應用的圖像數據集,包含超過1 400萬個圖像,這些圖像通過手工分類來指示圖像中的對象。為了對VGG?16進行培訓,使用了超過一百萬張圖像的子集,這些圖像被分為1 000個對象類別,生成豐富多樣的圖像的廣泛特征表示。預訓練具有識別關系并可在廣泛的數據集上創建結構和形狀分類的優點,可以在新的任務中適應和組裝以完成重新設計的任務。從字面上講,它將學習進展轉移到當前的主題上。

在使用小數據集時,視覺識別的遷移學習非常適合,尤其是在醫學圖像分析中,通常只有很小的數據集,DCNN是分析的首選方法。大數據集的預訓練提取了一般特征,并將這些特征應用于小數據集的后續給定任務,并在學習稀疏數據時提出改進。

2? 實驗設計及結果

在這種方法中,使用帶有TensorFlow后端的Keras深度學習框架來實現。Keras除了各種預先訓練的深層卷積神經網絡外,還包括之前描述過的VGG?16模型。該模型可用于預測、特征提取和微調,并具有預先訓練的權重,在這種方法中,模型開發使用微調。

如圖2所示,通過截斷最后一個最大池化層之前的最后一個完全連接層,并通過全局空間平均池化層和兩個完全連接的層擴展模型,對預先訓練的VGG?16模型進行修改。全局平均池化層(GAP)通過減少模型的參數數量,減少了空間維度,并保證模型不會過度擬合。之后是一個尺寸為1×1×512的全連接層和一個線性分類器(RELU)以及一個尺寸為26個類的第二個全連接SoftMax層。這與實驗所需的類數相對應。

利用數據增強得到的圖譜,通過人工放大數據來提高性能,對VGG?16模型的頂層進行訓練。作為一個優化器,選擇學習率為0.000 5的隨機梯度下降優化器。該模型訓練的批量大小為8的25,50,100和200個學時的音頻數據,只有男性的聲音、女性的聲音和混合的男性和女性的聲音,預先訓練的學時數要接近或在訓練飽和的范圍內??偟臏蚀_度百分比的培訓結果如表1所示。

由表1可以看出:對于一個包含5 200個男性或女性聲音文件的數據集,可以收到每個性別的語音測試結果。對于一個包含5 200個文件的數據集中男女聲音的組合,培訓無法取得可比的結果。但是一個包含2倍多文件(10 400個)的數據集不能只是達到單獨培訓的結果,它甚至優于單獨培訓的結果。也可以看出,對于所有的測試案例,超過25個學時的培訓都不能完成的結果,可以通過50個或更高學時的培訓獲得。

由表2可知,男性和女性的聲音分別測試和合并在一起,與預訓練一樣,整體準確度的結果對于單獨訓練的男性和女性聲音具有可比性,而男女合并后的精度較低??梢钥闯觯谒袑嶒灄l件下,凍結層的百分比為10%~50%時,可獲得最佳結果。在90%層被凍結的情況下,根本沒有訓練成績。在這項研究中,預訓練數據庫與實際數據集不相關時,凍結大部分層并只訓練最后剩余的層是沒有意義的,因為特征的適應度是不夠的,可隨著凍結層的減少直到某個點改善。由于表1中的結果不充分,無法說明25個學時前培訓不充分的假設。在與微調的交互中,只有25個學時階段的預培訓會產生與其他測試案例類似的結果。

從圖3中的學習率和精確度飽和情況可以看出,50個學時以上的培訓足以進行微調,且凍結層的比例小于50%,如表2結果所假設的那樣。

3? 結? 論

本文主要采用DCNN與遷移學習相結合實現語音識別,盡管使用了不同的數據集,但是仿真結果表明,即使目標數據庫與預訓練模型的源數據集存在差異,預訓練特征也普遍適用。在語音字母識別應用中,在小數據集上使用遷移學習。仿真結果表明,即使是對于一個非常小的數據庫,也能很好地檢測出語音字母,識別精度略低于使用大數據集的其他方法,但僅使用10 400個男女聲音文件的數據集,即使部分音頻數據是在噪音條件下錄制的,也可以達到近80%的精度。小數據集的應用減少了數據集生成的時間和費用,也減少了培訓模型的時間和對計算能力的需求。

參考文獻

[1] 楊洋,汪毓鐸.基于改進卷積神經網絡算法的語音識別[J].應用聲學,2018,37(6):940?946.

[2] 山世光,闞美娜,劉昕,等.深度學習:多層神經網絡的復興與變革[J].科技導報,2016,34(14):60?70.

[3] 余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013,50(9):1799?1804.

[4] 戴禮榮,張仕良,黃智穎.基于深度學習的語音識別技術現狀與展望[J].數據采集與處理,2017,32(2):221?231.

[5] 舒帆,屈丹,張文林,等.采用長短時記憶網絡的低資源語音識別方法[J].西安交通大學學報,2017,51(10):120?127.

[6] 王霞,杜桂明,王光艷,等.基于卷積神經網絡的面罩語音識別[J].傳感器與微系統,2017,36(10):31?34.

[7] RONNEBERGER O, FISCHER P, BROX T. U?Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing And Computer?Assisted Intervention 2015—18th International Conference. Munich, Germany: Springer, 2015: 234?241.

[8] 趙珊珊,何寧.基于卷積神經網絡的路面裂縫檢測[J].傳感器與微系統,2017,36(11):135?138.

[9] 張軍,張婷,楊正瓴,等.深度卷積神經網絡的汽車車型識別方法[J].傳感器與微系統,2016,35(11):19?22.

[10] JOHNSON R, ZHANG Tong. Deep pyramid convolutional neural networks for text categorization [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.: s.n.], 2017: 562?570.

[11] ABDEL?HAMID O, MOHAMED A H, JIANG Hui, et al. Convolutional neural networks for speech recognition [J]. IEEE/ACM transactions on audio, speech, and language proces?sing, 2014, 22(10): 1533?1545.

[12] ABDEL?HAMID O, DENG Li, YU Dong. Exploring convolutional neural network structures and optimization techniques for speech recognition [C]// INTERSPEECH. Lyon, France: [s.n.], 2013: 3366?3370.

[13] 張雪松,莊嚴,閆飛,等.基于遷移學習的類別級物體識別與檢測研究與進展[J].自動化學報,2019,45(7):1224?1243.

[14] 石祥濱,房雪鍵,張德園,等.基于深度學習混合模型遷移學習的圖像分類[J].系統仿真學報,2016,28(1):167?173.

[15] SHIN H?C, ROTH H R, GAO Mingchen, et al. Deep convolutional neural networks for computer?aided detection: CNN architectures, dataset characteristics and transfer learning [J]. IEEE transactions on medical imaging, 2016, 35(5): 1285?1298.

主站蜘蛛池模板: 国产aaaaa一级毛片| 极品私人尤物在线精品首页 | 国产不卡网| 免费一级成人毛片| 久久伊人色| 欧美日韩精品综合在线一区| 欧美午夜小视频| 欧美色视频在线| 亚洲天堂日韩在线| 日韩人妻无码制服丝袜视频| 麻豆精品视频在线原创| 午夜福利无码一区二区| 亚洲无码37.| 99久久精品久久久久久婷婷| 人妖无码第一页| 日本午夜网站| 中文字幕永久在线看| 色老二精品视频在线观看| 露脸一二三区国语对白| 免费激情网站| 亚洲精品va| 久久精品无码中文字幕| 欧美日韩另类在线| 国产香蕉在线| 欧美一级99在线观看国产| 亚洲三级a| 亚洲人成网址| 一区二区三区四区精品视频| 成人欧美日韩| 一本大道东京热无码av| 亚洲天堂精品视频| 久久福利片| 国产91丝袜在线播放动漫| 亚洲乱码在线播放| 国产精品午夜福利麻豆| 伊人久热这里只有精品视频99| 91最新精品视频发布页| 国产91精品久久| 国产精品亚洲精品爽爽| 国产高清色视频免费看的网址| 毛片最新网址| 91网红精品在线观看| 久久久久人妻精品一区三寸蜜桃| 亚洲一级毛片在线观播放| 亚洲综合狠狠| 国产日本欧美在线观看| 夜夜拍夜夜爽| 欧美精品在线看| 国产a网站| 国产一区二区丝袜高跟鞋| 91黄色在线观看| 欧美在线综合视频| 国产成人精品三级| 亚洲第一成年人网站| 亚洲a免费| 77777亚洲午夜久久多人| 亚洲无码电影| 欧美亚洲香蕉| 99久久无色码中文字幕| 韩日午夜在线资源一区二区| 亚洲精品高清视频| 国产流白浆视频| 国产亚洲精品自在久久不卡| 国产亚洲精品在天天在线麻豆 | 国产精品亚洲精品爽爽| 亚洲成在线观看 | 六月婷婷综合| 亚洲AⅤ无码国产精品| 色婷婷亚洲十月十月色天| 六月婷婷激情综合| 亚洲无码精品在线播放| AⅤ色综合久久天堂AV色综合| 在线色综合| 国产午夜无码专区喷水| 欧美亚洲欧美| 国产精品视频观看裸模| 国产乱子伦视频在线播放| 国产在线观看一区二区三区| 久久精品欧美一区二区| 国产波多野结衣中文在线播放| 欧美有码在线| 动漫精品中文字幕无码|