999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AlexNet模型的佤語語譜圖識別

2019-07-31 09:28:24解雪琴和麗華潘文林
關鍵詞:分類深度模型

王 翠,王 璐,解雪琴,和麗華,潘文林

(云南民族大學 數學與計算機科學學院,云南 昆明 650500)

語言和文字是一個民族的文化最重要的組成部分,在文化快速融合的時代,佤族的語言和文字面臨消亡的處境.佤族是跨境而居的民族,而佤語作為佤族唯一的溝通交流工具,佤語語音的識別研究對國家安全和跨邊境文化的交流有著重要的意義.中國語言資源保護工程(“語保工程”)錄制大量的少數民族語音語料,佤語雖作為“語保工程”的一部分,但其國際音標人工標注信息并沒有達到可信可用的程度,原因在于精確的標注不僅困難而且昂貴.本文選用了“語保工程”中的佤語作為研究對象,針對標注信息中出現的問題,最終實現佤語國際音標的自動標注及糾錯,該任務分2步完成:第1步實現佤語識別,第2步基于識別結果進行國際音標自動標注.本文為研究目標的第1步.

佤語的主流研究方向有2個:語音學、傳統的深度學習.語音學對佤語語言本身的語言結構進行研究[1-4]:音系歸納整理和語音演變探究,從宏觀上為佤語的語音研究奠定了堅實的基礎,但是如何應用科學實驗的手段對佤語進行識別研究的工作很少.傳統深度學習對佤語識別研究工作主要有:傅美君基于遺傳算法的支持向量機對佤語進行分類[5-6],測試集在佤語音節分類的預測準確率達到84.83%.佤語音節分類基于多核支持向量機對免疫遺傳進行優化,顯著的增強音節分類的準確性.佤語語言動態共振峰提取自適應變分模式[7](AVWD)分解來研究佤語的共振峰特性與Praat軟件獲得的頻率相比得到86%的正確率.陳紹雄[8-9]基于HTK的佤語特定人和非特定人的孤立詞準確率達到92%.主要應用傳統的深度學習方法對佤語進行識別研究,但實驗結果的識別率還沒有達到可用的程度.

近年來,主流語言應用深度學習的語音識別產品已較為成熟:百度使用端到端的深度學習方法高效的識別英語或普通話[10];谷歌使用最先進的序列到序列語音識別模型,使詞錯誤率(WER)降到5.6%[11].而對少數民族語言語音識別的研究還較少,主要從語音信號和語譜圖兩個角度切入.語音信號,主要的研究方法有隱馬爾科夫模型、深度置信網絡等.蔡琴[12]建立了維吾爾語的連續數字語音聲學模型,對維吾爾語連續數字短語識別率達到80%,詞識別率達到91.19%.胡文君[13]分別訓練了5種不同的聲學模型: Monophone、Triphone1、Triphone2、O-SGMM、G-DNN,實驗結果表明,隨著語料量的增加,系統魯棒性提高.語譜圖,宋洋[14]針對維吾爾語音素的語譜圖像提取二值和邊緣特征,建立基于數學形態學分析的概率函數,應用近似模式識別計算音素特征矩陣的相似度,在單音素環境下識別率達77.5%,在連續語流中音素識別率達64%;最后,在神經網絡中對音素的語音學特征進行分類,利用混沌矩陣給出分類的正確率約70%.由于主流語言應用深度學習的語音識別產品已較為成熟,然而少數民族語音識別采用傳統的深度學習方法的識別率并沒達到可用的程度,所以本文采用深度學習方法對佤語語音識別進行研究提高可用性.基于卷積神經網絡在處理二維像素網格[15-16]、語義分類中的優勢[17]、本文數據集的大小、網絡參數量等參數的綜合考量,選擇運用卷積網絡的AlexNet模型對佤語語譜圖識別.

1 深度學習理論

卷積神經網絡(convolutional neural network, CNN)在處理圖片上有一定的優勢,并且可以用來處理具有類似網絡結構的數據.CNN的稀疏交互、參數共享、等變表示等特性,可以有效降低網絡的復雜度,減少訓練參數的數目.對數據的平移、扭曲、縮放具有一定程度的不變性,易于網絡結構的訓練和優化,使模型具有強魯棒性、強容錯能力.卷積神經網絡前端由多個卷積層、匯聚層組成,可以看作網絡的特征提取層.后端由多個全連接層組成,可以看作模式識別層.

卷積層用于提取圖片的特征,每層數據之間的正向傳播遵循非線性函數,輸入變量記為x=(x1,x2, …,xn),層之間的連接權重記為w=(w1,w2, …,wn),偏置項記為b,則正向傳播函數為y=wx+b,因RELU激活函數具有單側抑制、相對寬闊的興奮邊界、稀疏激活性等優勢,所以卷積層和全連接層皆選用RELU激活函數,激活后的輸出結果記為Y=RELU(y).RELU激活函數如(式1)所示.

(1)

匯聚層主要對卷積層得到的特征進行選擇,由此不僅降低特征的數量而且減少參數的數量.最大匯聚層(max pooling)如(式2)所示,一般取匯聚區域的最大值.

(2)

對于多分類問題,損失函數采用交叉熵(cross entropy)損失,以此讓預測分布q逼近真實分布p,如(式3)所示.

H(p,q)=-∑p(x)logq(x) .

(3)

反向傳播選用隨機梯度下降法(SGD),其中梯度估計可以表示成(式4)所示:

(4)

式中,m表示樣本個數,x(i)表示第i個樣本,y(i)表示x(i)對應目標,為學習率.

輸出層的分類選用Softmax函數,如式5所示.

(5)

2 AlexNet模型

AlexNet[18-19]網絡結構如表1所示,整個網絡有8個需要訓練參數的層(不包括匯聚層和局部響應歸一化層——LRN層),前 5層為卷積層,其中3個卷積層后面連接最大匯聚層,后 3 層為全連接層.卷積層和匯聚層可以看作是從一般抽象到高級抽象的特征提取層,全連接層可以看作特征映射層,因此整個AlexNet表示為嵌套的層次概念體系.AlexNex最后一層是有1 860類輸出的Softmax層用作分類.LRN層出現在第1個及第2個卷積層后,而最大匯聚層出現在兩個LRN層及最后一個卷積層后.在這8個網絡層每一層的后面都應用ReLU激活函數.AlexNet模型流程如表1所示.

表1 Alxnet模型流程圖

續表1

結構詳細參數卷積層4num(kernel) = 384, kernel = 3×3,strides = 1,channel = 384,padding=SAME卷積層5num(kernel) = 256, kernel = 3×3,strides = 1,channel = 384,padding=SAMELRN 3—匯聚層3Max pooling,ksize = 3×3,strides = 2,padding=VALID全連接層outputNum = 4096全連接層outputNum = 4096全連接層outputNum = 1000

表1中,kernel:卷積核大小,channel:通道數,num(kernel):卷積核個數,strides:移動步長,padding:采樣方式,ksize:池化核大小,outputNum:全連接輸出神經元個數.LRN,即局部響應歸一化層,LRN函數類似DROPOUT和數據增強作為RELU激勵之后防止數據過擬合而提出的一種處理方法.

3 實驗

AlexNet用于佤語語譜圖識別流程,如圖1所示,具體步驟如下:

1) 選用佤語語音數據集作為研究對象,數據集中總計37 200條佤語孤立詞語音,37 200 =((2(女) + 2(男)) × 1 860(類)× 5(遍)).

2) 語譜圖可同時反應語音信號的時頻域三維信息(時間、頻率、能量),且寬帶語譜圖具有較好的時間分辨率,但頻率分辨率較低,能給出語音的共振峰頻率及清輔音的能量匯集區.計算37 200條語音信號的彩色寬帶語譜圖,語譜圖大小為640×480×3.以編號296佤語語音信號為例,其語譜圖如圖2所示.圖2中橫軸表示時間,縱軸表示頻率,顏色的深淺表示能量.

3) 以佤語孤立詞類別種類數作為標簽,并對標簽采用one-hot編碼.

4) 選用數據集中的60%作為訓練集,剩余的40%作為測試集,網絡每訓練一次,隨機從訓練集中抓取一個批次的數據做交叉驗證.

5) 將每個語譜圖及其對應標簽轉換成tensorflow可讀的文件形式(.tfrecords).

6) AlexNet模型參數設置:批次數150;網絡迭代次數2 200,每迭代100次顯示一次學習率及交叉驗證率結果;為了有效的訓練深層神經網絡,采用學習率衰減,初始學習率α0=0.003,在第t(步長為500)次迭代時的學習率如式(6)所示,網絡輸出神經元個數1 860,

(6)

7) 實驗結果如圖3所示,為了直觀的顯示佤語語譜圖識別過程中迭代次數、交叉驗證準確率和交叉驗證損失之間的變化關系,將實驗結果繪制成曲線圖.圖中橫坐標表示迭代次數,圖3(a)縱坐標表示交叉驗證準確率,圖3(b)縱坐標表示交叉損失.從圖中可以發現,隨著迭代次數的增加,交叉驗證準確率逐漸提升,交叉驗證損失逐漸降低,當迭代次數達到1 200時,交叉驗證準確率波動范圍<1%,基本趨于平穩狀態.基于該模型最終的實驗準確率可以達到97%.實驗結果表明,基于語譜圖的語音識別可以有效避免清輔音對實驗的干擾,系統魯棒性強,最終的訓練準確率為99.33%,測試準確率為96%.

4 結語

語譜圖已經將語音的所有特征表示在圖片上,無需考慮清、濁音的影響.本文使用傅里葉變換將圖片轉換為對應的語譜圖.由于成熟的AlexNet模型處理圖片具有一定的優勢,所以選用AlexNet深度模型用于佤語語譜圖識別.該方法不僅可以有效避免語音信號中清輔音對識別結果的影響,還可通過表示學習的方式得到圖片更抽象的特征參數.本文研究主要針對語譜圖的分類問題,但對佤語的語音識別還未真正解決.在接下的工作中,本課題組會針對以上問題,對模型作相應更改,使用端到端模型實現佤語語音識別.

猜你喜歡
分類深度模型
一半模型
分類算一算
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
主站蜘蛛池模板: 99色亚洲国产精品11p| 粉嫩国产白浆在线观看| 国内精品视频| 亚洲无线视频| 日本成人一区| 成人在线不卡| 国产精品手机在线播放| 26uuu国产精品视频| 亚洲国产av无码综合原创国产| 狠狠色狠狠综合久久| 欧美国产视频| 欧美爱爱网| 欧美福利在线观看| 又爽又大又光又色的午夜视频| 国产精品福利在线观看无码卡| 亚洲一区二区黄色| 999精品免费视频| 456亚洲人成高清在线| 国产一区二区三区视频| 欧美日本在线一区二区三区| 国产自无码视频在线观看| 久久人搡人人玩人妻精品| 欧美亚洲第一页| 国产综合无码一区二区色蜜蜜| 欧美人与动牲交a欧美精品| 一级毛片在线播放| 日本精品影院| 伊人激情久久综合中文字幕| 天天综合网在线| 华人在线亚洲欧美精品| 女人爽到高潮免费视频大全| 在线精品亚洲一区二区古装| 成人久久18免费网站| 中文字幕伦视频| 色成人亚洲| 最新国产成人剧情在线播放 | 色老头综合网| 亚洲Aⅴ无码专区在线观看q| 青青草原偷拍视频| 免费在线一区| 天天摸夜夜操| A级毛片无码久久精品免费| 亚洲成av人无码综合在线观看| 国产综合精品一区二区| 色国产视频| 成人免费视频一区二区三区 | 8090午夜无码专区| 91福利免费视频| 亚洲va在线∨a天堂va欧美va| 亚洲熟女中文字幕男人总站| 91国内在线观看| 国产美女自慰在线观看| AV不卡国产在线观看| 欧美黄色网站在线看| 日本免费一级视频| 一级毛片网| 色哟哟国产精品一区二区| 日本手机在线视频| 久久美女精品国产精品亚洲| 中文字幕在线观| 国产一区成人| 污网站在线观看视频| 国产乱子伦手机在线| 欧美国产日本高清不卡| 沈阳少妇高潮在线| 国产成人综合久久| 国产不卡国语在线| 91久久精品日日躁夜夜躁欧美| 日韩在线欧美在线| 免费无码又爽又黄又刺激网站 | 九九久久精品国产av片囯产区| 五月婷婷综合色| 国产美女在线观看| 国产一区二区三区夜色| 国产熟女一级毛片| 亚洲成AV人手机在线观看网站| 国产精品尹人在线观看| 日韩在线影院| 色成人综合| 婷婷六月综合| 免费国产高清视频| 亚洲无码不卡网|