李卓茜,高 鎮(zhèn),王 化,劉俊南,朱光旭
(1. 天津大學 電氣自動化與信息工程學院,天津 300072;2. 因諾微科技(天津)有限公司,天津 300392)
語種識別技術能夠根據(jù)給定語段判定語言的種類,在語音、語種、聲紋識別、機器翻譯、通信和信息檢索等領域有較為廣泛的應用[1],不僅為我們的生活帶來了便利,同時也為不同民族和國家之間的溝通架起了橋梁。當前語種識別技術對長語段識別的準確率已經(jīng)足夠好,但對短語音(時長小于10s)及易混淆語種的識別還有待提升。短語音存在語段特征中有效數(shù)據(jù)不足、易受多種噪音干擾、無法充分表達語種信息等問題;而易混淆語種存在語音特征中差異信息較弱的問題。本文針對時長小于等于1s的短語音及易混淆語音的語種識別進行了研究。
語音特征的選取是影響語種識別準確率的關鍵因素之一。語音中包含著豐富的信息,按照從低到高的層次可依次劃分為聲學層、韻律層、音素層、詞法層和句法層。語種識別主要采用聲學特征和音素特征。聲學特征為基礎特征,主要描述語音信號的物理特性(如強度、頻率)。常用的有基于人耳聽覺模型的梅爾倒譜系數(shù)(mel-frequency cepstral coefficient, MFCC)特征、梅爾濾波器組(mel-scale filter bank, Fbank)特征和移位差分譜特征[2]。相比聲學特征,音素特征能夠更有效地利用上下文的相關性。常用的有移位差分音素對數(shù)似然比特征(shifted delta-phone log likelyhood ratio,SD-PLLR)[3-4]和深度瓶頸層特征(deep bottleneck feature,DBF)[5]。
語音特征建模對于識別結果同樣至關重要,語種識別系統(tǒng)依據(jù)聲學單元的統(tǒng)計差異對聲學特征進行建模,依據(jù)不同語種間音素的搭配關系對音素特征進行建模。聲學特征建模的常用方法有高斯混合-通用背景模型、高斯混合-支持向量機模型及全差異變量(total variability, TV)模型。其中,TV模型因對語段信息具有良好的低維表征能力而成為目前主流的聲學建模方法[6-7]。音素特征建模的常用方法有音素識別器結合語言模型(phone recognizer followed by language model, PRLM),并行音素識別器集合語言模型(language recognizer followed by language model, PPRLM)和并行音素識別器結合支持向量機模型[8]。此外,近年來發(fā)展迅速的神經(jīng)網(wǎng)絡模型也被用于語音特征建模,包括針對聲學特征后驗概率建模的深度神經(jīng)網(wǎng)絡模型(deep neural network, DNN)、能夠獲取更好魯棒性特征的卷積神經(jīng)網(wǎng)絡、能夠更多考慮樣本間關聯(lián)性的循環(huán)神經(jīng)網(wǎng)絡以及具有一定動態(tài)記憶能力的長短時記憶網(wǎng)絡[9]等。
本文圍繞幾種語音特征的對比和語種識別中TV模型的應用優(yōu)化進行研究。全文安排如下: 第1節(jié)介紹SD-PLLR特征和DBF特征。第2節(jié)介紹DBF-I-VECTOR語種識別基線系統(tǒng)及改進系統(tǒng),提出適用于短語音和易混淆識別任務的變速均衡數(shù)據(jù)方法,并對比不同分類模型的性能。第3節(jié)介紹實驗設置、實驗結果及分析。第4節(jié)總結全文,并對下一步工作進行展望。
本節(jié)分別介紹SD-PLLR特征和DBF特征的原理及提取流程。
SD-PLLR特征為音素識別器輸出的幀級別特征。為了使識別出的音素盡可能均勻地覆蓋測試集中的各語種,需選取一種獨立于測試集語種的音素識別器。本研究主要針對東方語種,因而選取Buro科技大學研發(fā)的由英文數(shù)據(jù)訓練得到的PhnRec[10]解碼器。SD-PLLR特征的原理及具體的提取流程如下:
(1) 將音頻輸入音素識別器輸出第t幀音素單元i的狀態(tài)s對應的聲學后驗概率pi,s(t),累加音素對應狀態(tài)的后驗概率得到音素單元i的后驗概率,如式(1)所示。
(2) 將第t幀中音素單元i的后驗概率按照式(2)規(guī)整,將每幀得到的N個對數(shù)似然比率的值作為新的PLLR特征。其中,N對應英文音素識別器中音素的數(shù)量39。
(3) 對上述PLLR特征進行主成分分析[11],從而在保留原始信息的基礎上得到更加準確且能量更加集中的13維新特征,然后進行移位差分操作[12]中所述過程對該特征進行移位差分操作,最終得到23維的SD-PLLR特征。
神經(jīng)網(wǎng)絡具有良好的非線性表達能力。因此,從神經(jīng)網(wǎng)絡中較狹窄的一層中提取的特征可視為對底層輸入聲學特征的低維壓縮表示,該特征稱為DBF,是一種具有較好魯棒性的語音特征。本文希望提取DBF的神經(jīng)網(wǎng)絡在多個語種上訓練所得從而能夠均衡地表征各語種音素信息,減少由于音素出現(xiàn)的頻率差異造成最終提取的特征偏向個別語種。綜合考慮語料資源、時間因素等問題,本文選取開源工具BUT[13]來提取DBF。
BUT提供了3個訓練好的網(wǎng)絡,本文使用基于IARPA BABEL項目提供的17個語種訓練的網(wǎng)絡。BUT可提取語音信號的DBF或者對應音素狀態(tài)的后驗概率,采用兩級瓶頸神經(jīng)網(wǎng)絡堆疊的網(wǎng)絡結構(如圖1所示)。每級瓶頸網(wǎng)絡從輸入到輸出共6層,其中瓶頸層的維度為80,其余隱藏層維度為1 500。第一級網(wǎng)絡的輸入為11幀的Fbank加基頻特征。對第一級網(wǎng)絡的輸出進行t-10,t-5,t,t+5,t+10(其中t為當前幀)形式的采樣作為第二級神經(jīng)網(wǎng)絡的輸入,從而獲取到更廣泛的上下文信息。第二層網(wǎng)絡輸出的瓶頸特征作為最終提取的DBF。

圖1 DBF提取器網(wǎng)絡結構圖
為提升短語音和易混淆語種識別準確率,本文針對DBF-I-VECTOR基線系統(tǒng)前端數(shù)據(jù)準備和后端分類模型進行改進。前者使用變速均衡數(shù)據(jù)方法,后者使用支持向量機(support vector machine, SVM)、極端梯度提升(extreme gradient boosting,XGBoost)、隨機森林(random forest, RF)算法替代傳統(tǒng)的概率判別分析(probabilistic linear discriminant Analysis,PLDA)和余弦距離(cosine distance scoring,CDS)分類方法。下面首先介紹DBF-I-VECTOR基線系統(tǒng),然后介紹實驗訓練集OLR-2017并詳細介紹改進方法。
DBF-I-VECTOR語種識別基線系統(tǒng)如圖2所示。首先,將訓練和測試語音輸入1.2節(jié)介紹的BUT提取器。然后,使用TV模型對DBF特征進行建模。

圖2 DBF-I-VECTOR語種識別基線系統(tǒng)
2.2.1 OLR-2017數(shù)據(jù)集
本文的訓練集為海天瑞聲和清華大學聯(lián)合舉辦的 “東方多語種識別競賽(challenge-oriental language recognition challenge,OLR)”所提供的OLR-2017數(shù)據(jù)集。[14]該數(shù)據(jù)集采集了697名發(fā)音人的10萬條語音,數(shù)據(jù)總量達到116小時。數(shù)據(jù)集包含十個語種,分別為漢語普通話、粵語、維吾爾語、哈薩克語、藏語、日語、韓語、俄語、越南語、印尼語。本文實驗中統(tǒng)一選取OLR-2017數(shù)據(jù)集中的train和dev集合(共106 602句)為訓練集。
2.2.2 變速均衡數(shù)據(jù)方法
2.1節(jié)中的基線系統(tǒng)存在如下三個問題: 1)由于訓練數(shù)據(jù)集中各語種語段數(shù)量不均衡,會導致訓練得到的I-VECTOR模型統(tǒng)計量參數(shù)偏向語段數(shù)量多的語種,影響整體識別準確率;2)短語音時長過短,語段中能提取到的有效信息非常有限,易受噪音、信道等外界干擾的影響,這會造成測試集與訓練集語種的I-VECTOR向量匹配度降低,降低識別準確率;3)易混淆語種具有相似的語音特征。因此,從訓練語料中獲取的有效信息區(qū)分度有限。
本文擬使用均衡數(shù)據(jù)方法解決第一個問題。由于不同語速下同一特征向量所含信息有所不同,且語速的改變不會引入太多失真。所以,本文通過改變語段速度來擴充信息,從而解決后兩個問題。綜合考慮上述方案提出變速均衡數(shù)據(jù)方法,其流程如下:
(1) 若訓練集中語種n的語段數(shù)量為xn,使用sox工具將各語段分別變速至0.9、1.1倍速,得到各語種變速數(shù)據(jù)集yn=xn+0.9倍速xn+1.1倍速xn。
(2) 以變速數(shù)據(jù)集yn中語段數(shù)量最多的14 470*3=43 410(訓練集中藏語語段數(shù)量為14 470)為基準,計算藏語外的其余各語種變速數(shù)據(jù)集yn與43 410的語段數(shù)量差l,l=43 410-yn。
(3) 若l≤xn,則從xn中隨機取l段音頻,將其變0.8倍速得到0.8倍速l;若xn 該過程的流程圖如圖3所示。 圖3 變速均衡數(shù)據(jù)流程圖 2.2.3 改進的后端分類模型 基線系統(tǒng)后端采用傳統(tǒng)的余弦距離打分CDS和PLDA[15]模型。CDS為判別式模型,該模型通過將測試語段I-VECTOR矢量和語種注冊信息I-VECTOR矢量的余弦距離得分與閾值進行比較,從而判定測試語段所屬語種的類別。PLDA屬于生成式模型,能夠對I-VECTOR語種識別系統(tǒng)進行信道增益優(yōu)化。通過計算測試樣本矢量和語種均值矢量來自同一模型及來自不同模型的對數(shù)似然比對語段所屬語種類別進行判定。作為基于LDA[15]思想的概率擴展方法,PDLA方法具有一定的線性區(qū)分能力,相同條件下分類效果通常優(yōu)于CDS。 生成式模型基于數(shù)據(jù)的統(tǒng)計分布反映同類數(shù)據(jù)的相似度,判別式模型則通過尋找不同類別間最優(yōu)分類面反映異類數(shù)據(jù)的差異。傳統(tǒng)的PLDA分類模型假設語種的先驗概率和I-VECTOR的條件概率都是高斯分布,這種假設與實際情況不一定相符。而且,語種識別是一個區(qū)分目標語種和非目標語種的明確分類任務,采用相比CDS具有更好區(qū)分度的判別式模型將是一個更合理的選擇[16-17]。 典型的判別式模型包括SVM、XGBoost和RF。下面對這幾種算法的原理進行簡單的介紹: (1) SVM算法[18] SVM算法使用非線性變換將低維的輸入空間變換至高維,通過在高維空間中尋找最大分類間隔的分類面劃分類別。語種識別系統(tǒng)中,將訓練集語段的I-VECTOR作為輸入,訓練得到SVM模型,用于對測試語段進行分類。SVM算法中常用的核函數(shù)包括線性核函數(shù)、徑像核函數(shù)、多項式核函數(shù)和sigmod核函數(shù)。該算法是語種識別領域一種常規(guī)的建模方法,在小數(shù)據(jù)集情況下依然具有良好的泛化能力。 (2) XGBoost算法[19] XGBoost算法使用了提升樹模型,通過集成學習構架形成一個強分類器。其算法思想為:將給定的訓練集訓練得到k棵分類樹集合;將輸入樣本按照屬性值分割點劃分到不同的對應實時分數(shù)的葉子節(jié)點;最終,通過對各棵分類樹葉子節(jié)點預測分數(shù)加和確定最終的分類結果。該算法具備對稀疏數(shù)據(jù)的處理能力,相比神經(jīng)網(wǎng)絡具有可解釋、易于調參等優(yōu)點。又因其較高的運行效率和預測精度,在科學競賽和工業(yè)界取得了較好的分類效果。 (3) Random Forest算法[20] RF與XGBoost算法同屬于機器學習領域的集成算法,基本單元是決策樹,相比于單個決策樹來說具有更強的分類能力。該算法基于bagging思想: 每次從訓練樣本中等概率隨機選取部分特征來構建決策樹,每棵決策樹相互獨立,樣本的最終分類結果由這些樹的共同規(guī)則決定。對于一個輸入樣本、每棵決策樹都會得到一個分類結果。最終輸出的類別判定結果綜合所有決策樹的分類結果,將判定次數(shù)最多的類別做為輸出類別。該算法具有較好的抗噪聲能力、較高的靈活度、極好的準確率并能有效地運行在大數(shù)據(jù)集上。因而,在近幾年國內(nèi)外大賽如Kaggle數(shù)據(jù)科學競賽、2014年阿里巴巴天池數(shù)據(jù)競賽中被廣泛使用。 使用2.2.2節(jié)的變速均衡數(shù)據(jù)方法和2.2.3節(jié)的判別式模型后得到的DBF-I-VECTOR語種識別改進系統(tǒng)如圖4所示。 圖4 DBF-I-VECTOR語種識別改進系統(tǒng) 本節(jié)首先介紹實驗數(shù)據(jù)集,然后針對短語音和易混淆語音的語種識別任務,比較語音特征的性能及DBF-I-VECTOR基線系統(tǒng)與DBF-I-VECTOR改進系統(tǒng)的性能。 文中實驗所采用的訓練集為2.2.1節(jié)所述的OLR-2017數(shù)據(jù)集。測試數(shù)據(jù)集為短語音和易混淆數(shù)據(jù)集。其中,短語音測試集為OLR-2017[14]數(shù)據(jù)集中語段時長小于等于1s的test_1s(共22 051句)集合。由于2017年沒有發(fā)布易混淆的測試任務,所以選取2018年發(fā)布的易混淆測試任務task_2(共7 357句)集合為本文的易混淆測試數(shù)據(jù)集。易混淆集合中,包含中文普通話、粵語和韓語。 該部分對比MFCC特征、SD-PLLR特征和DBF在短語音和易混淆語種識別中的性能。使用TV模型對上述特征建模,綜合考慮識別準確度、計算復雜度、時間開銷及存儲空間的影響。實驗中統(tǒng)一設置UBM的維度為512,I-VECTOR度為400。實驗后端采用余弦距離打分(cosine distance scoring,CDS)、概率線性判別分析(probabilistic linear discriminant analysis, PLDA),各組實驗設置如下: 實驗一語音特征為常規(guī)的39維MFCC[21](13維MFCC +一階Δ+二階Δ)特征。 實驗二語音特征為1.1節(jié)中提取的SD-PLLR特征。 實驗三語音特征為1.2節(jié)中提取的DBF。 選取EER和平均代價(c-average,Cavg)作為實驗結果的評價指標,對test_1s和task_2的實驗結果分別如表1、表2所示。 表1 test_1s短語音語種識別特征對比 表2 task_2易混淆語音語種識別特征對比 基于表1和表2可得到如下結論: (1) 在短語音和易混淆語音語種識別中,MFCC特征優(yōu)于SD-PLLR特征。這是由于解碼音素序列的PhnRec解碼器是由英文數(shù)據(jù)訓練所得。解碼器中,音素數(shù)量較少且訓練解碼器的網(wǎng)絡結構相對簡單,造成提取音素信息的能力有限、不能夠突出語種間的差異和充分反映語段中的音素信息。若能夠提升解碼器中的音素數(shù)量或對網(wǎng)絡結構有更好的改善則SD-PLLR特征的識別效果將會提升。 (2) 短語音語段時長過短,噪音對語段中有效信息的影響更大。而DBF具有抗噪性,因此其在語段時長極短情況下具有更好的表現(xiàn)。DBF在易混淆語種識別中性能遠遠優(yōu)于MFCC和SD-PLLR,這是因為易混淆語段時長足夠保證了能夠提取到穩(wěn)定信息。DBF作為基于音素層的信息比聲學特征具有更好的區(qū)分度,因而有利于區(qū)分相似的語種。 該部分設置UBM的維度為512,I-VECTOR維度為400,測試集為test_1s和task_2, 選取EER和Cavg作為實驗結果的評價指標,各組實驗設置如下: 實驗一2.1節(jié)中所述的DBF-I-VECTOR語種識別基線系統(tǒng) 實驗二2.2節(jié)中所述的DBF-I-VECTOR語種識別改進系統(tǒng)。其中,各算法模型參數(shù)設置如下: SVM中的核函數(shù)為徑像核(即高斯核),XGBoost算法中學習率設置為0.1,決策樹個數(shù)為3 000,RF模型中子樹的個數(shù)設置為3 000,模型中其它參數(shù)采用默認設置。 對test_1s和task_2的識別結果分別如表3和表4所示, 表3 基于短語音test_1s的語種識別系統(tǒng)對比 表4 基于易混淆task_2的語種識別系統(tǒng)對比 對比表3和表4中的實驗一、實驗二可知,單獨使用變速均衡數(shù)據(jù)方法分別降低了短語音和易混淆語種識別的等錯誤率,該方法在提升兩種任務的識別準確率上均有不錯的效果。 由表3中實驗二的結果可知,SVM分類性能優(yōu)于LDA+CDS,但略差于LDA+PLDA。XGBoost和RF分類性能優(yōu)于LDA+CDS和LDA+PLDA。由表4中實驗二可知使用SVM、XGBoost、RF降低了CDS+LDA、PLDA+LDA的EER結果。綜上可知,改進系統(tǒng)中的分類模型在兩種任務中均具有較好的分類效果。 在短語音分類任務中RF算法獲得了最好的分類性能。這是由于RF算法結合了多個基學習器的預測結果,從而改善了單個學習器的泛化能力和魯棒性,是更適合多分類任務的分類模型。在易混淆語種的分類任務中,SVM分類結果最優(yōu)。在上述分類模型中,CDS、PLDA訓練速度較快,均在15分鐘內(nèi)完成了訓練;RF分類器訓練速度次之,大約需要40分鐘,但其占用的存儲空間較大;SVM分類方法的訓練速度略快于XGBoost方法,需要大約3個小時;XGBoost由于每輪迭代產(chǎn)生的弱分類器都依賴上一輪的迭代結果,因而需要的訓練時間最長,大約3個半小時。由上述結果可知,對于固定數(shù)據(jù)集樣本的分類任務,判別式模型具有更好的區(qū)分性,能夠提升識別的效果。這部分的實驗結果驗證了2.2節(jié)中的實驗思路。 本文通過實驗對比MFCC特征、SD-PLLR特征、DBF在不同測試任務中的表現(xiàn),證明了DBF是語種識別中適合短語音和易混淆任務的較好語音特征,其在易混淆語種識別中表現(xiàn)出突出的性能。 為提升識別準確率,本文提出DBF-I-VECTOR語種識別改進系統(tǒng)。該系統(tǒng)中的變速均衡數(shù)據(jù)方法在兩個語種識別任務中均能夠有效提升識別結果。在短語音識別任務中,XGBoost、RF模型均超越傳統(tǒng)的LDA+CDS、LDA+PLDA分類模型。其中,RF模型訓練速度快且分類結果最優(yōu),是適合短語音多分類任務中的較好模型。在易混淆識別任務中SVM、XGBoost、RF均超越傳統(tǒng)的LDA+CDS、LDA+PLDA分類模型。其中SVM分類結果最優(yōu),是適合此小數(shù)據(jù)集(易混淆測試集中只含3個語種,語段數(shù)較少)的分類模型。DBF-I-VECTOR改進系統(tǒng)相比基線DBF-I-VECTOR系統(tǒng)有效提升了識別結果。 后續(xù)工作將更多關注短語音和易混淆語種識別中語音特征及語種識別模型的改進、創(chuàng)新工作。值得一提的是,在對比引言所提到的PRLM、PPRLM、DBF-I-VECTOR、TDNN模型性能時,發(fā)現(xiàn)對短語音語種識別來說,PRLM、PPRLM模型均存在模型失配問題。EER打分結果較差,TDNN略遜色于DBF-I-VECTOR。更多有關語種識別模型的研究、創(chuàng)新工作將于后續(xù)工作中繼續(xù)展開。

3 實驗與分析
3.1 實驗數(shù)據(jù)集
3.2 語音特征的對比


3.3 DBF-I-VECTOR基線系統(tǒng)與改進系統(tǒng)性能比對


4 總結及展望