999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合注意力機制和因果卷積網絡的維吾爾語方言識別

2021-01-08 08:31:52吾守爾斯拉木
聲學技術 2020年6期
關鍵詞:機制特征模型

孫 杰,王 宏,吾守爾·斯拉木

(1.新疆大學信息科學與工程學院,新疆烏魯木齊 830046;2.昌吉學院,新疆昌吉 831100)

0 引 言

方言識別亦稱方言分類,屬于語種識別的范疇。方言作為特定共同語的地方變體,具有“互相通話”功能[1],在語言學上具有很大的相似性,因此方言識別要比語種識別更具挑戰性[2]。

現代維吾爾語劃分為3個方言區:中心方言、和田方言與羅布方言。中心方言包括伊犁、烏魯木齊、吐魯番、哈密、喀什和塔里木土語;和田方言由和田、墨玉、洛浦、皮山、策勒、于田和民豐七個土語組成;羅布方言主要是現今若羌縣境內的羅布人所操土語,由于地理位置閉塞,保留較多古語。目前,關于維吾爾語方言識別的研究較少,僅文獻[3]提出了基于長短時記憶神經網絡-統一背景空間(Long Short Term Memory-Universal Background Model, LSTM-UBM)的維吾爾語方言識別方法。很多研究者從語言學的角度對維吾爾語方言進行了辨識:依據動詞后是否綴接-mix判斷南部方言與北部方言[4];把是否存在元音的唇部和諧作為區別羅布方言和中心方言的標準[5-7],但是這些都屬于“口耳之學”,很難用計算機進行處理。

主流的方言識別技術是建立在高斯通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)[8]和聯合因子分析技術(Joint Factor Analysis, JFA)[9]上的全變量子空間建模方法(Total Variability, TV),它用一個低維度(通常是400維或600維)的i-vector矢量表征方言[10],取得較好識別效果,但是 i-vector對訓練和測試方言語音的時長、噪聲和信道差異都很敏感,對訓練數據的要求較為嚴苛。隨著深度神經網絡在說話人識別方面取得的巨大成功,研究者從特征域和模型域分別提出了深度瓶頸特征(Deep Bottleneck Feature,DBF)[11-12]和深度神經網絡通用背景[13-14]的方言識別TV模型。由于使用區分性的DNN網絡獲取不同方言語種的音素差異,剔除了與音素無關的噪聲干擾,因而提取的方言語種 i-vector更具鑒別性,其識別性能好于傳統的 GMM-UBM 生成性模型,但是模型訓練需要大量的標注語料,對于方言識別而言代價較大。近期,基于詞嵌入技術的深度神經網絡在自然語言處理方面取得良好效果[15],受此啟發Snyder等學者提出了x-vector模型[16-18],其實質是一種端到端(End-to-End)的方言識別模型,相關實驗表明長時語音條件下的方言識別準確率高于i-vector,且與DNN-UBM相當。然而,x-vector模型用池化層將幀級別特征轉換為句子級特征時,對語音段的幀特征計算了簡單算數平均數,即對不同幀采用相同的權重,但是,實際語音中每幀信號對方言語種的辨識貢獻度是不一致的。

本文在對維吾爾語方言進行識別時,做了兩方面的創新工作:一是在x-vector模型的池化層引入了注意力機制,對引起方言差異的語音幀在計算段級特征時給予較大的權重;二是采用因果卷積網絡獲取維吾爾語方言語音幀的因果關系,實驗結果表明,融合了兩種技術的x-vector系統的方言識別效果進一步提升。

1 注意力機制

1.1 注意力機制涵義

注意力機制實質是模仿人類觀察物體時大腦視覺系統處理信息的方式,即將有限的注意力放在眾多信息中的重要區域,挑選出關鍵信息,抑制或忽略其他無關信息[19-20]。方言語種識別任務中應用注意力機制的目標是挑選出與當前任務最為相關和最為關鍵的信息,進而增強識別效果。

1.2 多頭注意力模型

多頭注意力(Multi-head Attention)機制[21]使用多個查詢狀態Q={q1,q2,??,qM},并行地從輸入特征中遴選出多個關鍵信息,用不同的視角觀察不同區域的信息,并將每個單頭注意力進行拼接,最終構成多頭注意力的輸出值,其模型如圖1所示。

圖1 多頭注意力模型Fig.1 Multi-head attention model

計算多頭注意力時,首先對查詢狀態Q、候選狀態K和輸入值V進行線性變換,其變換表達式為

其中:att(?)表示注意力得分計算函數;WiK、WiV和表示第i個輸入的線性變換矩陣,每個頭的線性變換參數不共享,也即每次對Q、K和V進行線性變換的參數都不一樣,目的是為獲取不同的注意力。然后再將每個頭值輸入縮放點積注意力模塊,計算各自的注意力,并將所有輸出進行拼接,其表達式為

其中:h表示注意力的計算次數,屬于超參數。簡單拼接后得到的多頭注意力內部結構松散,對其實施線性變換可以使最終得到的多頭注意力更加緊湊。另外,每個單頭注意力張成一個特征子空間,多頭注意力機制的優勢就是從不同注意力張成的多個子空間中學習到互為補充的有用信息。

1.3 自注意力模型

自注意力機制[22]是對多頭注意力技術的進一步改進,它更加注重內部信息的學習,充分挖掘輸入數據各部分的依賴性關系,適合提取語音段內部各幀之間的相互關系。自注意力機制本質就是用輸入特征X={X1,X2,??,XN}同時表示Q、K和V,并且令Q=K=V=X,進而達到自我關注和自我挖掘。自注意力機制經常與多頭注意力機制相結合使用,其結合公式為

2 因果卷積

2.1 因果卷積網絡

卷積神經神經網絡(Convolutional Neural Networks, CNN)通常是在空間維度處理信息,例如圖像識別中對像素信息的處理,因此使用CNN處理語音信號時,通常將語音信號轉換為語譜圖的形式再進行處理。為使 CNN直接處理時序特征的語音信號,可以使用一維卷積網絡,并通過增加卷積層數,同時配合一定的門控激活函數,實現對時序信號的“因果卷積”處理,門控激活為

其中:x、y分別表示神經元的輸入和輸出;Wf、Wg分別表示卷積權重系數;?代表卷積操作;σ(?)表示sigmoid函數。這種多層的一維卷積網絡稱之為因果卷積網絡(Causal Convolution Networks,CCN)[23]。輸入層的序列數據通過因果卷積網絡映射為標記序列,即fCNN:XN+1→YN+1,從而實現序列數據建模。

2.2 空洞卷積

因果卷積通過增加網絡層數以及增大卷積核的尺寸實現長時序列預測,同時也帶來梯度彌散、模型復雜和擬合效果不佳等問題,針對此問題通過引入空洞卷積(Dilated Convolution)[24-25]采樣的方式進一步優化因果卷積網絡。所謂空洞卷積采樣就是在卷積核中加入空洞,從而增大感受野,擴展了觀察數據的范圍。空洞卷積采樣可以表示為

其中:s表示輸入序列的長度;f為卷積核;d為空洞因子;?表示卷積操作;k為卷積核尺寸;s?d?i卷積的歷史跨度;?d表示帶有d個空洞因子的卷積操作。

3 結合注意力和因果卷積的方言識別模型

3.1 方言識別模型

首先,盡管基于x-vector模型的語種識別系統取得了一定的識別效果,但是對維吾爾語這種黏著語而言,構成詞語的詞干和詞綴的作用不同,與詞干、詞綴對應的所有幀的權重應該也不相同。其次,不同方言、同一個音素會有不同的音位變體,這些音位變體會引起語音的較大差異,因此在計算均值時可以為其對應的幀特征分配更大的權重。另外,維吾爾語方言語音變化呈現出顯著的先后關系。由于這三方面原因,本文使用自注意力機制和因果卷積網絡對傳統的x-vector語種識別模型進行改進,圖2描繪了該系統架構,其中diaci為第i類方言的縮寫。該模型首先使用因果卷積網絡提取方言語音的幀級特征,使用注意力模塊計算幀級特征對應的權重,其次結合獲取的權值在池化層對語音段計算加權統計信息,后使用一維卷積層獲取方言的x-vector辨別矢量,最后使用softmax層輸出方言種類的后驗概率P。圖2中,1,1 CONVID@128表示卷積核為1×1、個數為128的一維卷積。

維吾爾語方言語音結構中元音和諧對辨識不同方言具有重要作用,元音和諧現象在維吾爾語中很常見,并且元音和諧發生在音素與音素之間,表現為前一個音素中的音位影響后一個音素中元音的發音。通常一個音素對應一個或幾個語音幀,因此可以認為語音中前后幀之間具有較強的因果關系。圖3為使用帶有空洞卷積核的因果網絡提取和田方言語音特征的過程示意圖,音頻語義為“vRvmqigE bardiGan poyiz Kaysi wogzaldin maN-do(去烏魯木齊的火車從哪個車站發車)?”

圖2 結合注意力和因果卷積的方言識別模型Fig.2 Dialect recognition model combining attention mechanism and causal convolution networks

圖3 因果網絡提取和田方言語音特征示意圖Fig.3 Diagram of extracting speech features of Hotan dialect by causal networks

在“烏魯木齊”(標注為vRvmqi)一詞中,前元音/v/和前元音/i/發生和諧,根據黏著語的特性:(詞根不斷綴接其它音素),可以認為維吾爾語方言語音每一幀之間都具有因果關系。從生成模型的角度,這一段語音信號幀的聯合概率可以表示為

其中:x={x0,??,xT}表示語音段的幀信號,而使用空洞卷積核的因果卷積網絡,通過考慮歷史語音幀的因果卷積及門控激活函數的點積運算,可近似計算式(6)的聯合概率。

3.2 結合注意力機制的池化層

使用注意力機制的維吾爾語方言識別模型中,采用了一個受限玻爾茲曼機計算查詢狀態和候選狀態的相似度,其計算公式為

其中:A=[α1,α2,??,αT]表示方言語音幀注意力權重矩陣;H=[h1,h2,??,hT]表示由因果卷積網絡隱藏層的輸出值組成的矩陣,它同時作為注意力網絡的輸入值,其維度為dh×T,而dh是ht的維度;W為受限玻爾茲曼機的權值矩陣,f(?)是ReLU激活函數。通過式(7)即可得到方言幀級特征對應的權值,然后池化層就可以計算加權統計量,計算公式為

另外,為從維吾爾方言語音幀特征構成的不同子空間中提取信息,注意力模塊使用了多頭注意力機制,平行地對因果卷積網絡的輸出幀特征重復計算注意力值,因此得到多組方言語音段的均值和標準差,所以需要對其進行拼接形成方言語音段的最終表示。

4 實 驗

4.1 方言數據集和評測指標

本文研究的維吾爾語方言識別目前在國際和國內均未有公開的標準測試數據集。清華大學公開的維吾爾語語音數據集 THUYG-20只提供了說話人信息和文本標注信息[26],并沒有說明方言語種類別,因此只能用于維吾爾語說話識別和自動語音識別任務。本文實驗使用的方言語種數據集是由新疆大學多語種信息技術重點實驗室創建,三種方言語料均為手機錄音的朗讀式語句,采樣頻率為16 KHz,采樣位數 16 bits,語音時長為 5~30 s,保存格式為WAV類型。其中中心方言與和田方言男女發音人各為41人,每人朗讀120句,而羅布方言女性發音人比例略大于男性發音人,分別為49人和33人,每人朗讀120句,三種方言的語料各有9 840句。

方言和語種識別性能評測中經常也會使用方言語種識別正確率[27]作為評測指標,即被正確分類語音段的百分比Pacc:

其中:Nt表示測試方言語音段的總數;Nc表示被正確分類的語音段總數。

4.2 系統設計

為驗證本文所提算法的有效性,按照文獻[16]中的配置搭建基于TDNN的x-vector方言識別基線系統,稱之為TDNN-xvec。為探索因果卷積網絡提取方言語音幀級特征對方言識別效果的影響,設計一個基于因果卷積的x-vector方言識別系統,其卷積層同樣設置為5層,第一層至第五層空洞因子分別設置為d=1、d=2、d=4、d=8和d=16,為了保持輸入序列和標注序列的一致性,所有卷積層的濾波器數量均相同,并稱為 CCN-xvec。另外,為驗證結合注意力機制和因果卷積網絡維吾爾語方言的識別效果,在CCN-xvec系統中加入注意力模塊,獲取權重系數的受限玻爾茲曼機的輸入和輸出神經元數量均與因果卷積層的輸出幀數保持一致,將該系統稱之為CCN-att-xvec。最后,對基線TDNN-xvec方言識別系統加入注意力模塊,將該系統稱TDNN-att-xvec。

4.3 模型訓練

結合注意力機制和因果卷積網絡的x-vector方言模型訓練流程如圖4所示,為充分利用有限方言語料,并增強模型的穩定性和可靠性,首先在從維吾爾語三種方言語料中挑選訓練集和測試集時,采用十折交叉驗證法,同時保證訓練集數據不出現在驗證集中。然后采用G.723.1技術規范[28]對語音進行端點檢測和倒譜均值減處理,分幀后每幀提取30維MFCC系數,同時計算其一階和二階差分系數,考慮到基線系統TDNN-xvec的第一層組合了當前時刻的前后兩幀{t?2,t?1,t,t+1,t+2}作為輸入,CCN-att-xvec同樣使用5幀共計450維參數作為CCN的輸入。采用有監督方式對神經網絡訓練,訓練目標是最小化負對數似然函數,損失函數使用交叉熵函數。采用反向傳播和梯度下降算法更新網絡參數,參數更新公式為

圖4 方言識別系統訓練過程Fig.4 Training process of dialect recognition system

式(11)~(13)中:vt、mt和θt分別表示t時刻的沖量、光滑系數和網絡參數;β1和β2為超參數;η為學習率;ε為保持數值穩定的參數,初始學習率設置為0.01,共計迭代40個周期。

4.4 實驗結果

4.4.1 實驗一

實驗一對比了不同濾波器數量時的TDNN-xvec和CCN-xvec模型的方言識別性能。將TDNN-xvec和CCN-xvec模型中卷積層中卷積核數量分別設置為 64、128、256、512,實驗中所有網絡的卷積核尺度固定為7。圖5為方言識別結果,從圖中可以看出,TDNN-xvec方言識別系統隨著卷積核數量的增加,識別正確率不斷降低,兩者之間呈現明顯的負相關性。而CCN-xvec方言識別系統卷積核從64個增加到 128個時,識別正確率最高,正確率為85.80%,繼續增加卷積核數量,方言識別正確率緩慢降低。值得注意的是,具有不同卷積核數量的CCN-xvec模型的方言識別正確率都高于對應的TDNN-xvec模型。這說明在x-vector框架下,因果卷積網絡比 TDNN更能夠提取到具有辨別性的維吾爾語方言語音幀級特征。

圖5 不同尺度卷積核模型的方言識別正確率Fig.5 Correctness rate of dialect recognition based on the convolution kernel model with different scales

4.4.2 實驗二

實驗二對比了添加注意力機制后 TDNN-att-xvec和CCN-att-xvec模型的方言識別性能。實驗時將計算幀權重的受限玻爾茲曼機的神經元與卷積核的數量設置為一致,加入注意機制后模型的維吾爾語方言識別結果如圖6所示。從實驗結果來看,一個明顯的結論就是CCN-att-xvec系統的識別性能始終優于TDNN-att-xvec系統的識別性能,并且兩個模型在卷積核數量為128個時性能最優。另外將實驗二與實驗一進行對比可以發現兩點:(1) 加入注意力機制的 CCN-att-xvec比沒有融合注意力機制的CCN-xvec識別正確率總體上有一定程度提升,識別正確率最大提升6.19個百分點,說明注意機制與因果卷積網絡結合有助于提高維吾爾語方言識別率;(2) 加入注意力機制的TDNN-xvec系統在卷積核數量為 64時,識別正確率低于未使用注意力機制的系統,而在卷積核數量為128、256和512個時方言識別正確率又都高于未使用注意機制的系統。形成這種結果的原因是:對于 TDNN-xvec系統而言,當訓練語料數量一定、語音段長度一定時,濾波器數量的增多意味著網絡最終輸出的幀級特征維度越大,這些特征中存在大量重疊的上下文信息,這些信息簡單拼合在一起會相互干擾,濾波器數量越多干擾越大,識別正確率降低程度越大,而使用注意力機制后,就相當于對這些高維冗余信息進行了主成分分析(Principal Component Analysis,PCA)[29-30],做了降維處理,維度越大反而提取到的有用信息越多,識別效果越好。

圖6 加入注意力機制后模型的方言識別性能Fig.6 Dialect recognition performance of the model with attention mechanism

4.4.3 實驗三

實驗三為驗證本文所提方法對其他方言識別的有效性,分別使用 TDNN-xvec和 CCN-att-xvec模型對長沙話、南昌話和上海話(簡稱湘、贛、吳)三種方言進行識別,識別結果如圖7所示。三種方言數據來自科大訊飛方言挑戰賽公開的部分方言語料,每種方言訓練數據為6 600條,同樣使用十折交叉驗證法劃分訓練集與測試集,且保證訓練集中無測試集中的發音人語料。圖7中TDNN-xvec和CCN-att-xvec分別表示兩種模型對長沙話、南昌話和上海話的識別結果。從識別結果可以看出,在不同卷積核個數情況下CCN-att-xvec模型方言識別正確率均比TDNN-xvec模型的要高。說明注意力機制的因果卷積網絡相對傳統x-vector模型,不僅對維吾爾語有較高的識別正確率,而且對漢語方言也有較好識別性能,模型有較強的泛化性。通過與實驗二進行對比,可以發現CNN-att-xvec模型對湘、贛、吳和上海話三種方言的識別正確率略低于維吾爾語三種方言的正確率,這可能和維吾爾語的黏著性有關。

圖7 融合注意力機制模型的湘、贛、吳方言識別正確率Fig.7 Recognition rate of Xiang, Gan and Wu dialects based on attention mechanism model

5 結 論

本文提出了結合注意力機制和因果卷積網絡的 x-vector維吾爾語方言識別模型。實驗結果表明,使用空洞卷積采樣技術的因果卷積網絡提取的維吾爾語方言幀級特征比TDNN的更具辨識性,且加入注意機制后,基于TDNN的x-vector模型和基于CCN的x-vector模型方言識別性能均有相當程度的提升,特別是后者的維吾爾語方言識別正確率比標準x-vector模型最高提升了23.19個百分點。

猜你喜歡
機制特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 在线日韩一区二区| 欧美精品H在线播放| 久久性妇女精品免费| 熟妇人妻无乱码中文字幕真矢织江| 99精品福利视频| 人妻丰满熟妇AV无码区| 波多野结衣无码AV在线| 伊人丁香五月天久久综合| 国产精品永久免费嫩草研究院| 亚洲无码日韩一区| 亚洲AⅤ无码日韩AV无码网站| 亚洲综合狠狠| 亚洲AV无码一区二区三区牲色| 国产69精品久久| 亚洲欧美另类日本| 久久国产热| 国产精品污视频| 在线高清亚洲精品二区| 婷婷丁香色| 国产欧美视频在线观看| 亚洲国产成人无码AV在线影院L| 免费人成黄页在线观看国产| 9cao视频精品| 小说 亚洲 无码 精品| 国国产a国产片免费麻豆| 伊人成人在线| 97视频在线观看免费视频| 亚洲国产成人久久精品软件| 四虎影视8848永久精品| 免费午夜无码18禁无码影院| 亚洲成AV人手机在线观看网站| 精品乱码久久久久久久| 欧美成人精品欧美一级乱黄| 99热亚洲精品6码| 精品欧美日韩国产日漫一区不卡| 国产网站在线看| 久草国产在线观看| 激情网址在线观看| 夜夜爽免费视频| 91精品国产情侣高潮露脸| 日韩第一页在线| 久久综合丝袜日本网| 国产区在线看| 久久综合五月| 国产亚洲欧美在线人成aaaa| jizz国产在线| 在线va视频| 国产成年女人特黄特色毛片免| 亚洲激情区| 亚洲无码高清视频在线观看 | 亚洲精品图区| 亚洲人成电影在线播放| 亚洲无码四虎黄色网站| 色婷婷成人网| 国产精品欧美亚洲韩国日本不卡| 四虎永久在线| 国产一国产一有一级毛片视频| 国产手机在线小视频免费观看 | 中文字幕乱码中文乱码51精品| 色噜噜久久| 露脸真实国语乱在线观看| 最新亚洲av女人的天堂| 欧美色视频日本| 国产欧美中文字幕| 91探花国产综合在线精品| 中文字幕无码制服中字| 精品久久久久久成人AV| 超碰91免费人妻| 国产精品视频第一专区| 国产成人一区| 国产午夜精品一区二区三| 尤物精品视频一区二区三区| 欧洲av毛片| 国产成人做受免费视频| 国产麻豆永久视频| 国产在线观看人成激情视频| 99国产精品一区二区| 国产女人18水真多毛片18精品| 自拍偷拍欧美日韩| 国产国产人在线成免费视频狼人色| 色婷婷亚洲综合五月| 1769国产精品免费视频|