999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

卷積神經網絡在語言識別中的應用

2018-05-06 09:56:10李子煜汪鑫張優優姚天
科技傳播 2018年7期

李子煜 汪鑫 張優優 姚天

摘 要 近年來,隨著理論的發展與大數據的來臨,人工智能、深度學習再度成為學術界研究的熱點。本研究的主要目標是通過卷積神經網絡實現對江蘇省方言的分類,提出了一種高效準確的語音識別與分類的方法,可建立詳細的方言數據庫,在方言日益衰微的今天,方言數據庫對于方言的保護與研究都具有重大意義。首先詳細介紹了用于卷積神經網絡的數據集的制作過程,包括語音文件的準備,聲譜圖的批量轉化以及處理過程。然后使用MatConvNet建立卷積神經網絡,在訓練與測試過程中不斷修改參數,最后使用江蘇省方言中的單字進行測試,分類的準確率在85%左右,證明該卷積神經網絡性能良好。

關鍵詞 卷積神經網絡;語音識別;江蘇省方言;MatConvNet

中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2018)208-0080-03

1 卷積神經網絡

1.1 卷積神經網絡的起源與發展

卷積神經網絡是人工智能神經網絡的一種,Fukushima于1980年第一次提出了一個基于感受野的理論模型Neocognitron,Neocognitron是一個自組織的多層神經網絡模型,也是卷積神經網絡的理論基礎;1998年,Lecun 等提出的LeNet-5采用了反向傳播算法對神經網絡網絡進行有監督的訓練,經過訓練的網絡通過交替連接的卷積層和下采樣層將原始圖像轉換成一系列的特征向量,最后通過全連接的神經網絡針對圖像的特征表達進行分類,這就是最早的卷積神經網絡模型;2012年,Krizhevsky 等提出的AlexNet 在大型圖像數據庫ImageNet的圖像分類競賽中以準確度超越第二名11%的巨大優勢奪得了冠軍,使得卷積神經網絡成為了學術界的焦點,至此卷積神經網絡被廣泛應用于語音分析和圖像識別領域。

1.2 卷積神經網絡的結構

卷積神經網絡是一個多層的神經網絡,由多個獨立神經元彼此連接構成平面,又由多個二維平面構成完整的網絡。卷積神經網絡一般含有多個卷積層與特征映射層,其中卷積層是卷積神經網絡最基本的結構,一般來說,一個典型的卷積層包括數據輸入、卷積計算、激活、池化等部分組成。其中,數據輸入層也包括可選擇性的對原始數據的處理,主要是歸一化等圖像白化處理;卷積計算的目的是通過卷積核與輸入數據的卷積來實現圖像的特征提取,得到多個特征映射;激活通過非線性的激活函數處理,提高網絡的表達能力;池化層通過最大池化或者平均池化等來減小參數的規模,降低網絡的復雜程度。特征映射層上所有神經元的權重相同,通過Logistic回歸與ReLu激活映射圖像特征,最后一個特征映射層通過softmax輸出結果。以本研究為例,本文的卷積層共使用了18個卷積核,并采用最大池化來提取圖像有效特征,防止過擬合,同時提高模型泛化能力;特征映射層通過ReLu函數來約束Logistic回歸中可能出現的負值,最后一層通過softmax來輸出分類結果。

1.3 卷積神經網絡的特點與優勢

卷積神經網絡的模型因其權值共享的結構類似于生物神經網絡,使得網絡模型的復雜度大大降低而被用于圖像及語音的識別,并取得了卓越的效果。另外,由于引入了GPU,以前很復雜的模型現在通過并行計算能很容易地訓練,大大縮短了訓練調節參數的周期,大大增強了卷積神經網絡的實用性。

2 語音文件的準備

2.1 語音文件的選擇

為了使卷積神經網絡具有良好的性能,本研究選擇了種類繁多,發音相近的江蘇省方言對神經網絡進行訓練。因為訓練卷積神經網絡需要龐大的數據集,本研究按照江蘇省各市分為70類,其中每類的語音文件又分為單字、詞語和短句各選擇300個音頻文件,從而提供了足夠可分為訓練集與測試集的數據庫。

2.2 語音文件的下載

首先登錄江蘇語言與文化資源庫http://jsyy. jsjyt.edu.cn/選擇所要下載的音頻類型與所屬市,點擊鼠標右鍵,選擇其中的“查看源”選項,使用“ctrl+F”進入查找頁面,查找“wav”文件,得到音頻的源文件下載地址為:http://jsyy.jsjyt. edu.cn/bigdata/濱海需交文件電子版/錄音/方言老男/老男例句/0001小張昨天.wav 獲得一個市的所有下載地址后使用Internet Download Manager進行批量下載:點擊“任務”選項,選擇“從剪貼板中添加批量任務”;點擊“瀏覽”選項,選擇需要保存的位置,然后點擊“全部選擇”,然后點擊“確定”;選擇“開始執行隊列”,點擊“確定”,開始批量下載到以縣級市名字命名的指定文件夾。這樣即可批量下載一個市的方言音頻文件。而下載其他市的樣本集只需在excel中用目標市替換下載地址中的當前市,重復以上步驟即可。

3 聲譜圖的轉換與處理

3.1 聲譜圖的轉換

為了使用卷積神經網絡進行語音識別,本研究使用MATLAB將音頻文件轉換為可輸入卷積神經網絡的二維聲譜圖。在MATLAB中有許多繪圖函數,本研究中采用自動短時傅里葉變換spectrogram函數直接繪制音頻文件的聲譜圖,軟件框架如圖1所示。

使用strcat函數獲取音頻文件的路徑與名稱;使用audioread函數讀取音頻文件并保存為向量形式;使用spectrogram函數將音頻文件轉化為聲譜圖,其中的參數分別為:x——輸入信號的向量,本研究中即為音頻文件轉化為的向量;window——窗函數,本研究中默認為nfft長度的海明窗Hamming;noverlap——每一段的重疊樣本數,本研究中采用500;nfft——做FFT變換的長度,本研究中取512;fs——采樣頻率,本研究取384;最終使用saves函數保存獲得的聲譜圖至目標路徑。

最終得到的聲譜圖實質上為音頻文件所轉化的向量的頻譜圖,其中縱軸為時間,橫軸為頻率,顏色表示音頻強度。

3.2 聲譜圖的處理

用MATLAB轉化的聲譜圖會帶有圖例與空白邊緣,這無疑對卷積神經網絡的訓練是不利的;另一方面,本實施例中所述聲譜圖的大小為1 200×900,不可以直接放進經典的卷積神經網絡進行訓練。本研究中使用Photoshop批量處理聲譜圖,去掉白邊并轉換為固定大小。具體步驟為:使用Photoshop中的“創建新組”功能實現批量處理,即在點擊創建新組后進行裁剪、調整大小、保存至目標路徑等操作,之后即可對一批聲譜圖反復執行所述操作,最終得到無空白邊緣,圖像大小為227×227、224×224等經典卷積神經網絡可訓練的圖片大小,處理后的聲譜圖如圖2所示。再為處理后的聲譜圖打上標簽,即其所屬的市與單字或詞語等類型,按照4:1的比例分為訓練集與測試集,至此完成聲譜圖的轉換與處理,獲得可用于卷積神經網絡的數據集。

4 卷積神經網絡的訓練

4.1 MatConvNet簡介

MatConvNet是MATLAB軟件中可用于實現計算機圖像識別的卷積神經網絡(CNN)的工具箱,其特點是非常易于開發與使用。除了MatConvNet之外,已經有許多機器學習以及卷積神經網絡的開源庫,例如Caffle、Tensorflow、CudaConvNet等,而開發者仍要開發MatConvNet的主要動機就是為研究者以及使用者提供一個更加友好,高效便捷的環境。相比于其他框架,MatConvNet的優勢在于可以運用相對簡單的MATLAB語言來構筑網絡(卷積,歸一化,池化等)。除此以外,MATLAB可以支持GPU運算,這可以保證工作的效率。而且,MATLAB軟件的開放性也意味著卷積神經網絡能夠在其他領域發揮作用。MatConvNet可以對一些大型神經網絡進行學習,比如我們將要使用的Alexnet網絡。

4.2 卷積神經網絡的建立

本研究在MatConvNet中搭建的Alexnet網絡共分為五層,結構如圖3所示。

輸入圖像為227×227×3的彩色圖像,輸出為70個結點,對應70個縣市。初始化網絡模型之后,可以開始訓練樣本和測試樣本,分批次對所有樣本進行訓練,不斷更新權值,直到目標函數的值收斂于一個穩定區域內的值。

5 卷積神經網絡的測試

5.1 實驗準備

Alexnet網絡的第一層為輸入層,接受227×227的彩色圖片輸入,最后一層為輸出層可以設置有N個節點,可以代表結果的N個分類。本研究的數據集為江蘇省70個縣市的方言單字音頻轉換的聲譜圖,所以將N的值設為70,每個類約有300個樣本,將其中的80%用于訓練,剩余的20%用于測試。

5.2 實驗結果

使用測試集測試經過訓練的卷積神經網絡,得到AlexNet網絡用于江蘇省方言分類的目標函數及錯誤率的變化趨勢圖如圖4所示。其中,橫坐標代表訓練的次數,藍色曲線表示訓練過程,黃色曲線表示測試過程;objective 表示目標函數即誤差的變化趨勢,縱坐標表示目標函數的值;top1err表示將方言準確分類到其所屬縣市的錯誤率的變化趨勢,縱坐標表示錯誤率;top5err為表示將方言分類到與所屬縣市方言最接近的5個縣市方言的錯誤率的變化趨勢,縱坐標表示錯誤率。從圖4中通過對卷積神經網絡的訓練與測試,目標函數和錯誤率都逐漸趨于穩定值,其中top1err 的值也穩定在10%左右,證明卷積神經網絡性能良好。

參考文獻

[1] Hubel D H, Wiesel T N. Receptive fields,binocular interaction,and functional architecture in the cats visual cortex [J].Journal of Physiology, 1962,160(1):106-154.

[2] Fukushima K. Neocognitron: a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position [J]. Biological Cybernetics, 1980, 36(4):193-202.

[3] Lecun Y, Bengio Y, Hinton G E. Deep learning. Nature,2015,521:436-444.

[4] Krizhevsky A, Sutskever I, and Hinton G E. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, Lake Tahoe,NV,USA,2012:1097-1105.

[5]張晴晴,劉勇,王智超,等.卷積神經網絡在語音識別中的應用[C]//中國科學院聲學研究所紀念建所50周年暨學術交流會,2014.

[6]趙志宏,楊紹普,馬增強.基于卷積神經網絡 LeNet-5 的車牌字符識別研究[J].系統仿真學報,2010,22(3):638-641.

主站蜘蛛池模板: 久久不卡精品| 欧美特黄一级大黄录像| 国产精品大尺度尺度视频| 日韩视频免费| 一本一本大道香蕉久在线播放| 九九热精品在线视频| 伊人天堂网| 欧美福利在线| 欧美精品成人一区二区视频一| 欧美中文字幕无线码视频| 午夜少妇精品视频小电影| 国产一区二区三区在线观看免费| 中文字幕无码电影| 久久久久中文字幕精品视频| www亚洲精品| 麻豆国产原创视频在线播放| aa级毛片毛片免费观看久| 在线观看精品自拍视频| 亚洲欧洲日韩综合| 91小视频在线| 亚洲第一黄色网| 亚洲六月丁香六月婷婷蜜芽| 欧洲欧美人成免费全部视频| 色网站在线免费观看| 91成人精品视频| 波多野结衣中文字幕一区二区| 老司国产精品视频91| 欧美亚洲综合免费精品高清在线观看 | 伊人久久久久久久| 亚欧美国产综合| 凹凸精品免费精品视频| 国产精品免费电影| 国产又色又爽又黄| 国产乱人免费视频| 国产一区二区精品福利| 乱人伦视频中文字幕在线| 99精品一区二区免费视频| 91在线视频福利| 亚洲乱伦视频| 国产剧情一区二区| 亚洲成年人网| 免费一看一级毛片| 伊人久久影视| 国产女人爽到高潮的免费视频| 国产免费自拍视频| 国产三级a| 精品国产福利在线| 国产精品30p| 国产高清又黄又嫩的免费视频网站| 人妻无码中文字幕第一区| 99久久国产综合精品女同| 日本国产精品一区久久久| 夜夜操国产| 波多野结衣视频网站| 免费a级毛片视频| 极品国产在线| 国产精品免费p区| 波多野结衣在线se| 91视频99| 国产亚洲现在一区二区中文| 中文字幕 91| 久久香蕉国产线看观看式| 成人毛片免费观看| 国产成人三级| 国模沟沟一区二区三区| 毛片免费网址| 久久窝窝国产精品午夜看片| 久久综合伊人 六十路| 国产三级视频网站| 国产福利不卡视频| 国产免费久久精品99re不卡| 91久久青青草原精品国产| 国产欧美精品一区aⅴ影院| 免费一级全黄少妇性色生活片| 久久人人爽人人爽人人片aV东京热| 国产午夜在线观看视频| 午夜视频在线观看区二区| 综1合AV在线播放| 黄色片中文字幕| 国产国拍精品视频免费看| 亚洲欧美色中文字幕| 国产91成人|