(長安大學 陜西 西安 710000)
深度神經網絡(DNNs)廣泛應用于特征提取器[1]和語音處理系統中[2]。盡管DNNs常在大型數據庫上訓練,由于訓練和測試數據之間不匹配的條件,導致在輸入特性空間中學習可變因素的性能顯著的下降[3]。為了減少在訓練和測試數據中可變因素的不匹配情況,在DNNs中常使用揚聲器適應。基于線性變換的自適應方法將依賴條件的線性層附加到原始模型。在子空間技術中,通過改變原模型中DNN的權重子集來完成適應,這能避免過度擬合。本文在不改變基礎學習模型的前提下提出了HVS技術,對訓練和測試的變化進行適應。在HVS中,估計不同條件參數后,重新將自適應訓練權重組合到DNN層。除了標準的聲學特征外,還包括話語信息。此方法被稱為話語(UaT)。UaT使DNNs能夠利用額外的信息來改變話語規范的模型參數。通過使用這些特征,可以更有效地捕捉到話語條件。使用這些特性來學習HVS(圖1中的M),通過轉換隱藏層表示來提供信道和噪聲條件的附加信息。本文方法定義了一種新的子空間,該子空間基于域不變低可變性特征空間來學習特征變換。
該方法與CAT(使用適應性訓練)有相似性,即共享在訓練的原權重,但在HVS中,每個測試話語的權重都進行了調整,而在CAT中,權重參數是通過將每個類的權重組合起來形成的。此外,將我們的方法與其他DNN的適應方法進行比較,主要在表示附加信息的結構和訓練過程中是有差別的。然而,在本文中,引入了一個參數基權矩陣表示話語/條件變化空間。信息作為一種插值矢量,將原有的基礎模型轉化為一種適應性的模型。

圖1

圖2 訓練和測試數據的比較
圖1 訓練和測試域都使用無監督變換映射到潛在空間。度量M是最小化不匹配,并最大化DNN中樣本之間的鑒別能力。用虛線橢球表示域分布。學習計劃是非線性的。
提出的HVS:如圖1所示。由許多隱藏層組成的DNN。任何隱藏的輸出層,由前一個隱層輸出決定:
hl=H(Wlh-1+bl)
(1)
其中和分別為權重矩陣和偏置向量。H為激活函數。HVS適應采用了一個依賴于條件的轉換,由現有的權重 (1)上的第l層上的表示依賴的(UD) 矩陣,如下所示:
hl=H(WlQlhl-1+bl)
(2)
通過引入了大量的UD參數估計整個矩陣,因此通過在訓練過程中對進行對角線的約束來減少話語表達。對角元素中的pl表現如下:
pl=H(Mlw+φl)
(3)
w是一個的特征向量。對于層l,Ml是定義的子空間,φl是殘差。pl是參數值估計的使用數據。w從DNN訓練中提取。此外,添加一個非線性激活H在(3)。此外,可以提高學習pl,使原款模型可伸縮。
實驗裝置:雖然HVS有許多可能的應用。但不匹配情況嚴重影語言識別(LID): 自動識別給定語音片段的語言。LID用不同的適應技術來減少由于各種情況變化所引起的訓練和測試數據之間的不匹配情況。即使有足夠的數據,當測試時,話語持續時間也很短。短時間的話語是最受影響的。實驗主要目的是為了說明與匹配的條件相比,HVS在不匹配的條件下更有效。
結果與分析:圖2展示了在(2)和(3)所提議的韓語轉換前和后的DNN的隱藏層輸出的分布情況。理想情況下,訓練(藍/左)和測試(棕色/右)特征分布應該在訓練和測試條件匹配的情況下重疊。在比較圖2 a(轉換之前)和b(在對韓語進行HVS轉換后)時,圖2b中的特征分布重疊更大,這意味著適應性有助于克服訓練和測試話語中特征向量之間的分布不匹配。KL散度是由訓練和測試話語中兩個分布的BLSTM(改進的雙向長期短期記憶結構)輸出特征向量的分布計算出來的。KL散度在變換前后的結果值分別為0.7084和0.2489,說明變換后的空間存在較低的失配。類似地,分析了所有其他語言的KL散度。當訓練和測試數據不匹配時,HVS轉換更有效。
表1描述了BLSTM系統的基線性能,以及通過附加的HVS轉換可以獲得的增益。可以看到,HVS顯著提高了1 s的持續時間(從73.2到79.1),容易受到不匹配條件的影響。與“匹配”的語言相比,細分在“不匹配”的條件語言(日語、俄語和韓語)中是非常重要的(14.92)。

結論
本文提出了不匹配適應的HVS適應方法。HVS方法估計了一個語音相關的參數,并使用新引入的自適應訓練權重連接到DNN層。我們已經在AP17-OLR 1s持續任務上評估了HVS方法,并表明它可以捕獲訓練和測試的可變性。實驗結果表明,HVS的學習優于標準的BLSTM系統,通過使用信道/噪聲條件的額外信息來實現語音語調的隱式特征化。
【參考文獻】
[1]Richardson, F., Reynolds, D., and Dehak, N.: ‘A unified deep neural network for speaker and language recognition’, arXiv preprint arXiv:1504.00923, 2015
[2]Fernando, S., Sethu, V., Ambikairajah, E., et al.: ‘Bidirectional modelling for short duration language identification’. Presented at the Interspeech 2017, Sweden, 2017
[3]Fainberg, J., Renals, S., and Bell, P.: ‘Factorised representations for neural network adaptation to diverse acoustic environments’.Presented at the Interspeech 2017,2017