倪聞培 申小虎
摘 要:在語音同一鑒定案件中,自動語音識別方法逐漸被采用,但目前某些語音檢材存在質量下降無法進行有效語音識別等問題。文章通過研究網絡電話(VoIP)各特性因素(如語音編解碼、數據包丟失、數據包亂序、網絡抖動和外來串擾或回波),對自動語音識別系統(ASR)性能的影響做出系統分析。實驗表明,數據包亂序對語音識別性能影響較小。相比LPCC特征,MFCC特征更加能夠保證語音識別系統的魯棒性。文章的研究結果,對未來開發魯棒性強的自動語音識別系統,具有一定的借鑒價值。
關鍵詞:自動語音識別;質量下降;窄帶網絡;MFCC特征;魯棒性
中圖分類號:TP37 文獻標識碼:A文章編號:1674-1064(2021)03-037-03
DOI:10.12310/j.issn.1674-1064.2021.03.017
自動語音識別是指,利用軟件確定說話人身份的一種技術。低成本計算機和強大性能處理器的出現,使之成為一種經濟的語音生物學識別方式,特別是在銀行交易、司法科學和國土安全方面應用廣泛[1-3]。隨著互聯網和電子商務的迅速發展,人們對互聯網上具備語音功能的應用程序(如語音識別或說話人識別)越來越感興趣。
基于IP協議的IP電話(VoIP)也稱網絡電話,是目前最流行的一種網絡服務。正是由于其靈活性高、成本低、功能齊全的特點,網絡電話(VoIP)應用中的網絡呼叫中心、電話銀行、遠距離通信等,成為目前極具發展潛力的應用。另外,隨著網絡電話的廣泛使用,一些新型犯罪模式逐漸產生,使消費者的隱私無法得到有效保障,給執法人員提出了新的挑戰。因此,將合法竊聽得到的網絡電話(VoIP)錄音進行說話人自動識別,可以協助有關機構對利用VoIP網絡進行的相關犯罪活動開展調查[4]。然而,VoIP網絡并不穩定,存在諸如數據丟包、數據包重新排序、延遲、網絡抖動和外來串擾等因素的干擾[5]。在這種情況下,在VoIP網絡中引入ASR系統前必須要解決一個重要問題,即對影響ASR系統識別效果的各種因素,如窄帶VoIP網絡中的混合激勵線性預測(MELP)、數據包丟失、數據包重新排序、網絡抖動或延遲和外來串擾等開展深入研究。
1 關鍵技術方法
1.1 VoIP網絡環境下的語音傳輸
如圖1所示,想要通過網絡傳輸語音,從輸入端接收語音后,必須要先對語音樣本進行編碼。然后將其插入到有序列號和創建時間戳的數據包中,再通過網絡進行傳輸,之后在播放緩沖區接收后按時間順序解碼,最后從播放端開始播放。
1.2 ASR系統
ASR系統主要由特征抽取模塊和模式分類模塊兩部分組成[6],如圖2所示。特征提取模塊是將語音信號映射成說話人特有特征的數據集,簡稱為特征向量。在模式分類模塊中,則是通過機器訓練為每個說話人建立說話人模型。在進行說話人識別過程中,測試語音依次通過每個特征提取模塊,將測試語音特征與每個說話人的注冊模型進行比較,最后將該測試語音匹配給注冊模型中似然度[7]得分最高的說話人。
2 實驗條件
2.1 實驗設備
Skype、微信[8]或PJSIP[9]等公用網絡平臺;DET曲線繪制軟件:DETware。
2.2 語音樣本
該實驗語音樣本來自于由NIST、MIT林肯實驗室、執法部門三者協同合作構建的一個用于多語種與多信道說話人識別(MMSR)的新語料庫——DA-IICT語音庫。這個語料庫是由100個說話人(46名男性和54名女性,年齡范圍在18歲~22歲)所構成的語音數據庫。這些錄音使用創新HS-300降噪耳麥采錄得到。原始錄音的采樣頻率為22 050Hz,之后降采樣到8 000Hz。參與測試的說話人為無償并自愿參與到本次語音數據收集中來的。錄音的大部分時間段選擇在傍晚或夜里。
3 實驗方法
在未知說話人和已知說話人等兩種模式下進行說話人驗證,開展說話人識別任務。每一次測試都需將特定說話人與一段制定的測試語音進行比較,利用ASR系統對特定說話人是否出現在測試語音中,做出有效決策(真或假)。對于每次判斷決策,還要求系統為每次測試提供表示決策置信度的似然得分,分數越高表明說話人在測試語音中出現的可信度越高。
在實驗中,通過檢測錯誤權衡(DET)曲線(各軸正態偏離尺度均一的ROC變種)來衡量ASR在不同閾值下的系統性能指標。實驗中用于系統性能評估的另一種衡量指標是等誤識率(EER),其是錯誤接受率和錯誤拒絕率相等時的錯誤率。雖然DET曲線能夠從整體上直觀地衡量系統性能,顯示了在不同判定閾值下FR與FA的相互關系,但是檢測代價函數(DCF)能夠在特殊判定條件下對系統性能進行評估。
4 實驗分析
4.1 語音編解碼錯誤
實驗中,首先利用MELP語音編解碼V1.2對語音庫內的各樣本進行轉碼,從而實現在2.4kbps窄帶語音傳輸條件下的最佳語音質量。為比較MELP編碼與PCM編碼(8kHz)對ASR性能的影響,圖3中展示了在MFCC、LPCC和WLPC不同語音特征下的DET曲線,表1則列出了等誤識率(EER)和min.DCF的值。由于認定測試和否定測試共有600 000個測試項目,因此在本實驗中所有ASR測試的DET曲線均接近理想直線[10]。從DET曲線中可以清楚地看出,由于MELP編碼的影響,說話人識別和確認的性能均明顯下降。同時,與WLP(2.18%)和LPCC(2.29%)特征相比,MFCC特征的識別性能下降(0.93%)幅度略低。總之,低比特率編碼是導致ASR性能急劇下降的主要因素。
4.2 數據丟包
VoIP網絡中的數據包丟失,是由網絡擁堵或路由器問題引起的,這會導致某些數據包延遲到達或者根本不能到達目的地。本實驗中進行了模擬丟包的操作。從DET曲線、EER以及最小DCF值,如圖4和表2所示,可以清楚地看出,說話人辨識和驗證的正識率隨著丟包率的上升而下降。與WLP、LPCC特征相比,MFCC特征的性能下降幅度較小。
4.3 數據包亂序(無序數據包)
網絡擁塞時,數據包到達傳輸目的地的順序與發送順序可能會產生不同,導致合成器的狀態信息與語音合成出現錯誤。在本實驗中進行了數據包亂序的仿真測試,未考慮數據丟包的情況。圖5顯示了這種模擬數據包亂序對語譜圖的影響,可以明顯看出,數據包亂序對共振峰形態與頻譜能量分布(在較寬的頻率范圍內)均產生了顯著影響。實驗中對3個和20個數據包進行重新排序后,使用語音庫對ASR系統進行性能測試,得到不同語音特征對應的DET曲線,并獲取了EER與最小DCF值,如表3所示。從實驗中可以明顯看出,數據包亂序對說話人辨識與驗證的識別性能沒有太大影響。
4.4 網絡抖動
在VoIP中,網絡抖動是由網絡中的不同延遲引起的,導致某些數據包彼此之間彼此接近或遠離。實驗中設置的網絡抖動量分別為10、50、100條件,用來驗證ASR系統的識別性能。計算得到的EER和最小DCF值如表4所示。可以清楚地得出結論,說話人辨識和驗證的正識率隨著網絡抖動量的增加而下降。與WLP、LPCC特征相比,MFCC特征的性能下降幅度較小。
4.5 回波-遠端串音(FEXT)
在VoIP網絡中,回波是在說話人聲音傳播到接收端麥克風過程中的遠端串擾(FEXT)造成的。實驗中從語音樣本庫提取了不同的聲譜特征,并在仿真回波不同衰減系數條件下的ASR系統DET曲線。EER與最小DCF值如表5所示。實驗結果表明:回波或串擾可導致ASR識別性能下降,且性能下降幅度是以衰減系數為參量的函數。如果用相同的衰減系數(1或0.5)抑制目標說話人和背景說話人的語音振幅,所產生的ASR性能下降幅度幾乎也是相同的。
5 結語
本實驗是基于在MELP語音編碼的窄帶VoIP網絡上如何開展自動語音識別而開展的相關實驗。研究表明,語音識別性能不受數據包亂序的影響。此結論可有助于設計安全穩定、魯棒性較高的說話人識別系統。
本實驗的不足在于,實驗中測試和訓練所采用的數據包重排序仿真技術均針對單個語音會話,ASR系統的EER指標數據較高,且重新排序的數據包數目是隨意選擇的,并未依據標準或真實VoIP網絡環境。今后的研究將直接針對真實VoIP網絡下的數據包亂序錄音樣本開展,并嘗試盲源分離技術,盡量避免因回波產生而造成的識別性能下降。同時,使用不同的時間壓縮修正算法改變各個數據包的播放音長,減少由網絡抖動而導致的識別性能下降,保證語音播放流暢。
參考文獻
[1] Boe LJ.Forensic voice identification in France[J].Speech Commun,2000,31(23):205-224.
[2] Campbell JP Jr.Speaker recognition:a tutorial[J].Proc IEEE,1997,85(9):1437-1462.
[3] Campbell JP,Shen W,Campbell WM,et al.Forensic speaker recognition:a need for caution[J].IEEE Signal Process Mag,2009,26(2):95-103.
[4] 趙明.“互聯網+”背景下電信網絡詐騙案件偵防對策研究[D].蘭州:甘肅政法大學,2018.
[5] Mehta P,Udani S.Voice over IP[J].IEEE Potentials,2001,20:36-40.
[6] Duda RO,Hart PE,Stork DG.Pattern classification and scene analysis[M].2nd edition.New York:Wiley,2001.
[7] 王華朋,楊軍,許勇.應用似然比框架的法庭說話人識別[J].數據采集與處理,2013,28(2):239-243.
[8] 劉林強.微信語音通話作為定案證據的條件[J].商,2015(26):240.
[9] 杜奇才,鄧誠剛,劉熒,等.基于Android平臺的VoIP設計實現[J].微處理機,2017,38(2):41-44.
[10] Martin AF,Doddington G,Kamm T,et al.The DET curve in assessment of detection task performance[C].Rhodes:Proc Eurospeech97,1997,1899-1903.