卷積神經網絡在語言識別中的應用

2018-05-06 09:56:10李子煜汪鑫張優優姚天

科技傳播 2018年7期

李子煜汪鑫張優優姚天

摘要近年來，隨著理論的發展與大數據的來臨，人工智能、深度學習再度成為學術界研究的熱點。本研究的主要目標是通過卷積神經網絡實現對江蘇省方言的分類，提出了一種高效準確的語音識別與分類的方法，可建立詳細的方言數據庫，在方言日益衰微的今天，方言數據庫對于方言的保護與研究都具有重大意義。首先詳細介紹了用于卷積神經網絡的數據集的制作過程，包括語音文件的準備，聲譜圖的批量轉化以及處理過程。然后使用MatConvNet建立卷積神經網絡，在訓練與測試過程中不斷修改參數，最后使用江蘇省方言中的單字進行測試，分類的準確率在85%左右，證明該卷積神經網絡性能良好。

關鍵詞卷積神經網絡；語音識別；江蘇省方言；MatConvNet

中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708（2018）208-0080-03

1 卷積神經網絡

1.1 卷積神經網絡的起源與發展

卷積神經網絡是人工智能神經網絡的一種，Fukushima于1980年第一次提出了一個基于感受野的理論模型Neocognitron，Neocognitron是一個自組織的多層神經網絡模型，也是卷積神經網絡的理論基礎；1998年，Lecun 等提出的LeNet-5采用了反向傳播算法對神經網絡網絡進行有監督的訓練，經過訓練的網絡通過交替連接的卷積層和下采樣層將原始圖像轉換成一系列的特征向量，最后通過全連接的神經網絡針對圖像的特征表達進行分類，這就是最早的卷積神經網絡模型；2012年，Krizhevsky 等提出的AlexNet 在大型圖像數據庫ImageNet的圖像分類競賽中以準確度超越第二名11%的巨大優勢奪得了冠軍，使得卷積神經網絡成為了學術界的焦點，至此卷積神經網絡被廣泛應用于語音分析和圖像識別領域。

1.2 卷積神經網絡的結構

卷積神經網絡是一個多層的神經網絡，由多個獨立神經元彼此連接構成平面，又由多個二維平面構成完整的網絡。卷積神經網絡一般含有多個卷積層與特征映射層，其中卷積層是卷積神經網絡最基本的結構，一般來說，一個典型的卷積層包括數據輸入、卷積計算、激活、池化等部分組成。其中，數據輸入層也包括可選擇性的對原始數據的處理，主要是歸一化等圖像白化處理；卷積計算的目的是通過卷積核與輸入數據的卷積來實現圖像的特征提取，得到多個特征映射；激活通過非線性的激活函數處理，提高網絡的表達能力；池化層通過最大池化或者平均池化等來減小參數的規模，降低網絡的復雜程度。特征映射層上所有神經元的權重相同，通過Logistic回歸與ReLu激活映射圖像特征，最后一個特征映射層通過softmax輸出結果。以本研究為例，本文的卷積層共使用了18個卷積核，并采用最大池化來提取圖像有效特征，防止過擬合，同時提高模型泛化能力；特征映射層通過ReLu函數來約束Logistic回歸中可能出現的負值，最后一層通過softmax來輸出分類結果。

1.3 卷積神經網絡的特點與優勢

卷積神經網絡的模型因其權值共享的結構類似于生物神經網絡，使得網絡模型的復雜度大大降低而被用于圖像及語音的識別，并取得了卓越的效果。另外，由于引入了GPU，以前很復雜的模型現在通過并行計算能很容易地訓練，大大縮短了訓練調節參數的周期，大大增強了卷積神經網絡的實用性。

2 語音文件的準備

2.1 語音文件的選擇

為了使卷積神經網絡具有良好的性能，本研究選擇了種類繁多，發音相近的江蘇省方言對神經網絡進行訓練。因為訓練卷積神經網絡需要龐大的數據集，本研究按照江蘇省各市分為70類，其中每類的語音文件又分為單字、詞語和短句各選擇300個音頻文件，從而提供了足夠可分為訓練集與測試集的數據庫。

2.2 語音文件的下載

首先登錄江蘇語言與文化資源庫http：//jsyy. jsjyt.edu.cn/選擇所要下載的音頻類型與所屬市，點擊鼠標右鍵，選擇其中的“查看源”選項，使用“ctrl+F”進入查找頁面，查找“wav”文件，得到音頻的源文件下載地址為：http：//jsyy.jsjyt. edu.cn/bigdata/濱海需交文件電子版/錄音/方言老男/老男例句/0001小張昨天.wav 獲得一個市的所有下載地址后使用Internet Download Manager進行批量下載：點擊“任務”選項，選擇“從剪貼板中添加批量任務”；點擊“瀏覽”選項，選擇需要保存的位置，然后點擊“全部選擇”，然后點擊“確定”；選擇“開始執行隊列”，點擊“確定”，開始批量下載到以縣級市名字命名的指定文件夾。這樣即可批量下載一個市的方言音頻文件。而下載其他市的樣本集只需在excel中用目標市替換下載地址中的當前市，重復以上步驟即可。

3 聲譜圖的轉換與處理

3.1 聲譜圖的轉換

為了使用卷積神經網絡進行語音識別，本研究使用MATLAB將音頻文件轉換為可輸入卷積神經網絡的二維聲譜圖。在MATLAB中有許多繪圖函數，本研究中采用自動短時傅里葉變換spectrogram函數直接繪制音頻文件的聲譜圖，軟件框架如圖1所示。

使用strcat函數獲取音頻文件的路徑與名稱；使用audioread函數讀取音頻文件并保存為向量形式；使用spectrogram函數將音頻文件轉化為聲譜圖，其中的參數分別為：x——輸入信號的向量，本研究中即為音頻文件轉化為的向量；window——窗函數，本研究中默認為nfft長度的海明窗Hamming；noverlap——每一段的重疊樣本數，本研究中采用500；nfft——做FFT變換的長度，本研究中取512；fs——采樣頻率，本研究取384；最終使用saves函數保存獲得的聲譜圖至目標路徑。

最終得到的聲譜圖實質上為音頻文件所轉化的向量的頻譜圖，其中縱軸為時間，橫軸為頻率，顏色表示音頻強度。

3.2 聲譜圖的處理

用MATLAB轉化的聲譜圖會帶有圖例與空白邊緣，這無疑對卷積神經網絡的訓練是不利的；另一方面，本實施例中所述聲譜圖的大小為1 200×900，不可以直接放進經典的卷積神經網絡進行訓練。本研究中使用Photoshop批量處理聲譜圖，去掉白邊并轉換為固定大小。具體步驟為：使用Photoshop中的“創建新組”功能實現批量處理，即在點擊創建新組后進行裁剪、調整大小、保存至目標路徑等操作，之后即可對一批聲譜圖反復執行所述操作，最終得到無空白邊緣，圖像大小為227×227、224×224等經典卷積神經網絡可訓練的圖片大小，處理后的聲譜圖如圖2所示。再為處理后的聲譜圖打上標簽，即其所屬的市與單字或詞語等類型，按照4：1的比例分為訓練集與測試集，至此完成聲譜圖的轉換與處理，獲得可用于卷積神經網絡的數據集。

4 卷積神經網絡的訓練

4.1 MatConvNet簡介

MatConvNet是MATLAB軟件中可用于實現計算機圖像識別的卷積神經網絡（CNN）的工具箱，其特點是非常易于開發與使用。除了MatConvNet之外，已經有許多機器學習以及卷積神經網絡的開源庫，例如Caffle、Tensorflow、CudaConvNet等，而開發者仍要開發MatConvNet的主要動機就是為研究者以及使用者提供一個更加友好，高效便捷的環境。相比于其他框架，MatConvNet的優勢在于可以運用相對簡單的MATLAB語言來構筑網絡（卷積，歸一化，池化等）。除此以外，MATLAB可以支持GPU運算，這可以保證工作的效率。而且，MATLAB軟件的開放性也意味著卷積神經網絡能夠在其他領域發揮作用。MatConvNet可以對一些大型神經網絡進行學習，比如我們將要使用的Alexnet網絡。

4.2 卷積神經網絡的建立

本研究在MatConvNet中搭建的Alexnet網絡共分為五層，結構如圖3所示。

輸入圖像為227×227×3的彩色圖像，輸出為70個結點，對應70個縣市。初始化網絡模型之后，可以開始訓練樣本和測試樣本，分批次對所有樣本進行訓練，不斷更新權值，直到目標函數的值收斂于一個穩定區域內的值。

5 卷積神經網絡的測試

5.1 實驗準備

Alexnet網絡的第一層為輸入層，接受227×227的彩色圖片輸入，最后一層為輸出層可以設置有N個節點，可以代表結果的N個分類。本研究的數據集為江蘇省70個縣市的方言單字音頻轉換的聲譜圖，所以將N的值設為70，每個類約有300個樣本，將其中的80%用于訓練，剩余的20%用于測試。

5.2 實驗結果

使用測試集測試經過訓練的卷積神經網絡，得到AlexNet網絡用于江蘇省方言分類的目標函數及錯誤率的變化趨勢圖如圖4所示。其中，橫坐標代表訓練的次數，藍色曲線表示訓練過程，黃色曲線表示測試過程；objective 表示目標函數即誤差的變化趨勢，縱坐標表示目標函數的值；top1err表示將方言準確分類到其所屬縣市的錯誤率的變化趨勢，縱坐標表示錯誤率；top5err為表示將方言分類到與所屬縣市方言最接近的5個縣市方言的錯誤率的變化趨勢，縱坐標表示錯誤率。從圖4中通過對卷積神經網絡的訓練與測試，目標函數和錯誤率都逐漸趨于穩定值，其中top1err 的值也穩定在10%左右，證明卷積神經網絡性能良好。

參考文獻

[1] Hubel D H， Wiesel T N. Receptive fields，binocular interaction，and functional architecture in the cats visual cortex [J].Journal of Physiology， 1962，160（1）：106-154.

[2] Fukushima K. Neocognitron： a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position [J]. Biological Cybernetics， 1980， 36（4）：193-202.

[3] Lecun Y， Bengio Y， Hinton G E. Deep learning. Nature，2015，521：436-444.

[4] Krizhevsky A， Sutskever I， and Hinton G E. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems， Lake Tahoe，NV，USA，2012：1097-1105.

[5]張晴晴，劉勇，王智超，等.卷積神經網絡在語音識別中的應用[C]//中國科學院聲學研究所紀念建所50周年暨學術交流會，2014.

[6]趙志宏，楊紹普，馬增強.基于卷積神經網絡 LeNet-5 的車牌字符識別研究[J].系統仿真學報，2010，22（3）：638-641.

科技傳播2018年7期

科技傳播的其它文章: 兵器科學技術的最新進展與時代特征; 科技館在青少年科技創新活動與創新型人才培養中的作用分析; 新媒體時代我國檔案宣傳工作的思考; 專利信息主動推送服務模式研究; 多媒體背景下電視新聞媒體的創新思路探究; 在責編工作中提升高職機電類教材質量的思考