基于翻轉梅爾頻率倒譜系數的語音變調檢測方法

2019-01-06 07:27:07林曉丹邱應強

計算機應用 2019年12期

林曉丹　邱應強

摘要：語音變調常用于掩蓋說話人身份，各種變聲軟件的出現使得說話人身份偽裝變得更加容易。針對現有變調語音檢測方法無法判斷語音是經過了何種變調操作（升調或降調）的問題，通過分析語音變調在信號頻譜，尤其是高頻區域留下的痕跡，提出了基于翻轉梅爾倒譜系數（IMFCC）統計矩特征的電子變調語音檢測方法。首先，提取各語音幀 IMFCC及其一階差分;然后，計算其統計均值;最后，在該統計特征上利用支持向量機（SVM）多分類器的設計來區分原始語音、升調語音和降調語音。在TIMIT和NIST語音集上的實驗結果表明，所提方法無論對于原始語音、升調語音還是降調語音都具有良好的檢測性能。與MFCC作為特征構造的基線系統相比，所設計的特征的方法明顯提高了變調操作的識別率。在較少的訓練資源的情況下，所提方法也獲得了比基于卷積神經網絡（CNN）的框架更好的性能;此外，在不同數據集和不同變調方法上也都取得了較好的泛化性能。

關鍵詞：語音變調;翻轉梅爾頻率;倒譜系數;統計矩;多分類

中圖分類號： TN912.3文獻標志碼：A

Disguised voice detection method based on inverted Mel-frequency cepstral coefficient

LIN Xiaodan*， QIU Yingqiang

（College of Information Science and Engineering， Huaqiao University， Xiamen Fujian 361021， China）

Abstract： Voice disguise through pitch shift is commonly used to conceal the identity of speaker. A bunch of voice changers substantially facilitate the application of voice disguise. To simultaneously address the problem of whether a speech signal is pitch-shifted and how it is modified （pitch-raised or pitch-lowered）， with the traces of the electronic disguised voice in the signal spectrum especially the high frequency region analyzed， an electronic disguised voice detection method based on statistical moment features derived from Inverted Mel-Frequency Cepstral Coefficient （IMFCC） was proposed. Firstly， IMFCC and its first-order difference of each voice frame were extracted. Then， its statistical mean was calculated. Finally， on the above statistical feature， the design of Support Vector Machine （SVM） multi-classifier was used to identify the original voice， the pitch-raised voice and the pitch-lowered voice. The experimental results on TIMIT and NIST voice datasets show that the proposed method has satisfactory performance on the detection of the original， pitch-raised and pitch-lowered voice signals. Compared with the baseline system using MFCC as feature construction， the method with the proposed features has significantly increased the recognition rate of the disguise operation. And the method outperforms the Convolutional Neural Network （CNN） based framework when limited training data is available. The extensive experiments demonstrate the proposed has good generalization ability on different datasets and different disguising methods.

Key words： voice disguise; inverted Mel-frequency; cepstral coefficient; statistical moment; multi-classification

0 引言

語音變調能夠改變說話人的聲音特征。變調語音除了具有娛樂功能外，還可用于說話人身份的偽裝。傳統的非電子變調方法是通過捏住鼻子或捂住嘴巴等物理方法來實現[1]。近年來，各種變聲軟件的出現，極大地方便了人們對聲音的變調處理。通過電子變聲的語音，還能獲得較好的語音自然度。已有的研究表明，變調偽裝語音將會嚴重影響說話人識別系統的性能[2]。倘若犯罪分子通過變聲器偽裝身份進行互聯網或電話詐騙，將給案件偵破和司法鑒定帶來前所未有的挑戰。因此，如何自動檢測語音是否經過變調是信息安全和司法取證領域一個亟待解決的問題。

在語音偽裝的檢測問題上，目前更多的研究針對的是語音合成和語音轉換的檢測[3-4]。這類語音偽裝的目標是為了提高說話人識別系統的錯誤接受率，即：偽裝語音可以欺騙說話人識別系統從而實現非法闖入的目的。本文的研究對象是另一類偽裝語音，即：通過電子變調的方法實現語音偽裝。這類偽裝的目標是提高人耳或說話人識別系統的錯誤拒絕率，從而掩飾說話人身份。文獻[5]提出了基于梅爾倒譜系數（Mel-Frequency Cepstral Coefficient， MFCC）的變調語音檢測方法，該方法通過多個支持向量機（Support Vector Machine， SVM）分類器的設計并采用投票表決機制在變調語音的檢測問題上取得了良好的效果。文獻[6]提出了一種將MFCC特征參數用于高斯混合模型的訓練從而獲得變調語音的檢測特征。該方法在少量的數據集上能夠鑒別語音是否經過變調，然而缺乏在更豐富的數據集上的驗證。文獻[7]在短時傅里葉譜的基礎上，將卷積神經網絡用于變調語音的鑒別并取得了優異的檢測性能。然而，上述方法缺乏對語音變調痕跡的分析，也無法進一步甄別語音是經過升調或者降調處理。通過語音的升調操作，可使男聲轉換成女聲;反之，利用降調操作，可使女聲轉換成男聲。因此，判斷語音經過了何種變調操作也具有重要的現實意義。文獻[8]探索了卷積神經網絡在原始語音、升調語音和降調語音檢測方面的應用，該方法依賴于大量的標注訓練樣本，并且在原始語音和升調語音的區分上仍存在較大的提升空間。

本文的研究表明，盡管MFCC在說話人識別等應用場合中取得了良好的性能，然而在語音變調檢測的問題上，該特征并非是最優的。針對語音是否經過變調以及經過了升調或者降調的問題，在深入研究語音變調原理的基礎上，本文提出了一種基于翻轉梅爾倒譜系數（Inverted MFCC， IMFCC）統計特征的方法用于語音變調操作的檢測。

1 語音變調的基本原理

基音是語音的一個重要參數，在語音識別、語音合成、說話人識別等應用中具有重要的意義。當前變聲軟件主要采用的是通過修改聲音基頻的方式進行變聲。語音變調方法基本可歸為兩類：時域變調和頻域變調。這兩類方法都能夠實現變調不變速，并保持變調后語音較高的自然度。典型的時域變調法有：SOLA-FS（Synchronized OverLap-Add and Fixed Synthesis）[9-10]、TD-PSOLA（Time-Domain Pitch Synchronized OverLap-Add）[11]、WSOLA（Waveform Similarity OverLap and Add）[12]等。其基本原理是通過信號在時域上抽取或內插改變語音信號音調，信號抽取可實現語音升調，信號內插實現降調。在此基礎上進行時長規整使語速保持不變，具體為：利用幀插入實現時域拉伸，利用幀刪除實現時域壓縮。頻域變調的典型方法有：FD-PSOLA（Frequency Domain Pitch Synchronized OverLap-Add）[13]、相位聲碼器法[14]等。這類方法直接在頻域中進行信號插值抽取，或通過調整信號幅度、頻率參數從而實現變調。為了保持相位連續性，頻域變調方法通常會引入幀間重疊處理技術。

在語言學中，基音通常被認為最高降低或升高一個八度。世界上普遍采用的是12平均律將一個八度音分成12個相等的半音，相鄰半音頻率相差21/12倍。如果原始基音為f0，那么按照12平均律修改后的基音為f0′，則f0′和f0應滿足如下關系：

f0′ = 2N/12×f0; N = ±1，±2，…，±11（1）

當N>0時為升調，N<0時為降調。N每升高或減少1，音調就升高或降低一個半音。文獻[6]指出，在取證應用中，N取[-8，-4]和[4，8]是較好的選擇。因為N太小變調不明顯，無法掩蓋說話人身份，N太大又容易引起懷疑，因此，本文僅考慮這一范圍的變調。圖1給出了使用Adobe Audition CS6軟件對語音進行N =6和N =-6變調前后的音調變化軌跡圖。由圖1可見，語音升調將導致基音頻率發生上移，降調將導致基音頻率發生下移。從圖1中還能發現變調前后的基音變化軌跡在時間軸上還存在一定程度的不同步現象。其中可能的原因是語音信號在時間規整過程采用的分析窗和合成窗長度、偏移量不一致。對于變調導致的時間軸失真可以利用頻譜的動態特性進行捕獲。

除了基音的變化，還能從語音的時頻譜變化中找到變調對于語音的影響。圖2給出了原始語音、同一語音經過N =6的升調語音、同一語音經過N =-6的降調語音的語譜圖，使用的變調工具為AUDICITY[15]、ADOBE AUDITION[16]、PRAAT[17]、RTISI（Real-Time Iterative Spectrogram Inversion）[18]。其中，PRATT和RTISI分別采用時域TD-PSOLA和頻域FD-PSOLA變調方法。而AUDICITY和ADOBE AUDITION所使用的變調方法未知。從圖2中可以看出，變調將使語音的頻譜發生搬移，具體為：降調語音的頻譜被壓縮，升調語音的頻譜被擴展。因此，降調語音在高頻區頻譜分布較為稀疏，而升調語音相對原始語音和降調語音具有更高的頻率分辨率。因此，高頻區域頻譜特征的分析在區分變調語音和原始語音時起了至關重要的作用。為了更好地捕獲變調語音和原始語音在高頻區的差異，本文使用在高頻區域計算精度更高的翻轉梅爾濾波器組并結合倒譜分析獲得語音的頻譜特性。

2 基于IMFCC的語音變調檢測

由于MFCC的設計是為了模擬人耳的聽覺特性，因此所使用的濾波器更注重低頻區，在低頻區具有更好的計算精度，而對于中高頻區的變化較不敏感。通過第1章的分析我們知道，提升高頻區的信息分辨能力對于鑒別變調語音至關重要。翻轉梅爾倒譜系數（IMFCC）能夠彌補MFCC在高頻區信息提取的不足，提高中高頻信息的計算精度[19]。IMFCC采用的是如式（2）所示的頻率變換：

使用的翻轉梅爾濾波器組如圖3所示。由圖3可知，隨著頻率的增大，濾波器的帶寬和間隔變小。翻轉梅爾濾波器組正是利用這一特點提升了高頻區的計算精度。此外，對于變調引起語音在時間軸上的不同步現象，將進一步利用IMFCC的動態特性進行描述。因此，本文選取19維的IMFCC系數（去除直流分量）和19維的差分特征ΔIMFCC用于區分原始語音、降調語音和升調語音。我們將變調語音的鑒別問題轉換成一個三分類問題，因此可以利用機器學習中多分類器的設計實現這三類語音的鑒別。

2.1 特征提取

本文使用IMFCC及其一階差分特征用于原始語音、升調語音和降調語音的識別。IMFCC特征提取方法如下：

1）對語音信號進行預加重、分幀和加窗處理。接著通過VAD（Voice Activity Detection）檢測算法[20]判斷語音幀是否為靜音，若為靜音則丟棄該幀。本文所用漢明窗長為512。

2）對加窗后的語音幀x（n）進行短時傅里葉變換，從而得到離散的功率譜X（k）。

3）由X（k）得到x（n）的能量譜，并采用圖3所示的翻轉梅爾濾波器組，按照式（3）進行濾波：

mi=∑N-1k=0X（k）2Hi（k）; i=1， 2， …， P（3）

式中：Hi（k）為濾波器的頻率響應;P為濾波器個數;N為傅里葉變換點數。

4）對mi進行對數變換得到輸出對數能量譜。

5）將上述對數能量譜進行離散余弦變換（Discrete Cosine Transform， DCT），得到前20個DCT系數，即IMFCC系數。

6）對所得IMFCC特征求取差分，得到ΔIMFCC。

7）求取各語音幀所得IMFCC系數（去除直流分量）和ΔIMFCC的統計平均共38維特征作為提取的特征。

上述的特征提取使不同時長的語音可獲得相同維度的統計特征，這些特征將被用于分類器的訓練。利用t分布隨機近鄰嵌入（t-distributed Stochastic Neighbor Embedding， t-SNE）算法[23]對上述38維特征進行降維并映射到二維平面上，得到如圖4所示的三類語音分布。圖4中可見，本文設計的基IMFCC的統計特征能夠將三類語音分離開來。相比降調語音，區分原始語音和升調語音的難度更大。

2.2 分類器設計

本文采用SVM用于原始語音、升調語音和降調語音的三分類。三分類SVM采用的實現方式是一對一方式，即：對于三分類問題將產生3個二分類器。對于待預測語音每個二分類器會產生一個輸出標簽0、1或2，把出現次數最多的標簽作為最終預測輸出。由于本文使用的變調語音共有10種變調因子，若訓練集原始語音樣本數是N，則對于同一種變調方法，升調樣本和降低語音樣本數各5N。由于變調語音樣本數比原始語音大很多，為了保持樣本平衡，從每種變調因子的語音中隨機選取N/5的樣本用作訓練集。SVM的訓練和測試流程如圖5所示。其中，使用的核函數為式（4）所示的多項式核，實驗中γ、C、d分別設置為1、1、2。

C（xi， xj） = （γxiTxj + C）d（4）

3 實驗與結果分析

實驗中使用兩個不同的數據庫TIMIT[21]和NIST[22]，所有音頻都是8kHz采樣率，16比特量化。兩個數據庫具有不同的錄音環境和錄音設備。其中：TIMIT數據庫包含630個不同的說話人，一共6300段音頻;NIST數據庫包括356個不同說話人，一共3560段音頻。使用的變調工具包括AUDICITY、ADOBE AUDITION、PRAAT、RTISI，變調因子有10種，包括±4、±5、±6、±7、±8。變調語音仍保持8kHz采樣率和16比特量化位數。3.1 同一數據集的檢測結果

把TIMIT和NIST分成說話人不重疊的兩部分，分別記為T1、T2和N1、N2。其中T1包含3000段語音，T2包含3300段語音;N1包含2000段語音，N2包含1560段語音。其中，TIMIT使用的變調方法是基于時域的PRAAT方法，NIST使用的變調方法是基于頻域的RTISI方法。在第一組實驗中，把T1及其對應的變調語音用作訓練集，T2及其對應的變調語音用作測試集;此時訓練集中的原始語音、升調語音、降調語音的樣本數各3000;測試集中三類樣本的數量各為3300。在第二組實驗中，把N1及其對應的變調語音用作訓練集，N2及其對應的變調語音用作測試集。此時訓練集中的原始語音、升調語音、降調語音的樣本數各2000;測試集中三類樣本的數量各為1560。兩組實驗得到的混淆矩陣如表1所示。由表1結果可見，當訓練集和測試集來源相同時，本文方法具有優異的檢測性能。尤其是對于降調語音的檢測，檢測準確率分別為99.18%和100%。

3.2 交叉數據集的檢測結果

為了驗證本文方法在不同數據集上的性能。本節實驗中，采用T2作為訓練集，N1作為測試集，變調所采用的方法為AUDACITY、ADOBE AUDITION、PRAAT、RTISI。利用上述SVM多分類器進行訓練和測試得到如表2所示的檢測準確率，準確率的定義如下：

Pr=y*o+y*L+y*Ryo+yL+yR（5）

其中：y*o、y*L和y*R分別表示測試集中被分類器正確檢測出的原始語音、降調語音、升調語音的數目;yo、yL和yR表示測試集原始語音、降調語音、升調語音的數目。由表2可見，對于不同的語音來源，采用同一種變調方法，本文方法皆可獲得90%左右的檢測準確率。與表1結果相比，測試語音和訓練語音不匹配時檢測性能有一定程度的下降。表2中，還以MFCC及其一階、二階差分特征為基準，測試了基于MFCC的SVM多分類器對于升調語音、原始語音和降調語音的鑒別能力。顯然，以MFCC作為基準特征的三分類器和本文方法有明顯的性能差距。這也進一步證明了選取合適的特征對于音頻取證的重要性。對于變調檢測問題，MFCC并非是最佳的特征。

以變調工具AUDACITY為例，還進一步給出了本文方法在不同數據集上更詳細的檢測性能，如表3所示的混淆矩陣。從表3結果可以看出，本文方法對于原始語音和降調語音仍具有良好的檢測性能，然而升調語音和原始語音在一定程度上會被混淆，這與圖4的分析結果是吻合的。對于其他三種變調方法，也發現了這一現象。這是因為變調前后使用了相同的采樣率導致升調語音在高于4kHz頻譜信息的丟失。

3.3 不同變調方法的檢測結果

為了進一步驗證本文方法對于未知變調方法的泛化能力，在本實驗中訓練數據和測試數據分別由不同的變調軟件得到，在訓練和測試語音集不匹配的場景下進行驗證。訓練數據為T2，測試數據為N1，得到如表4所示的檢測準確率。從表4結果可見，本文方法對于四種變調工具的檢測準確率均在80%以上。這也說明了對于未知的變調手段，本文提出的變調檢測方法的有效性。其中，使用AUDACITY作為訓練集所使用的變調方法，對其他三種不同的變調方法檢測準確率都在92%以上。

3.4 與卷積神經網絡方法的比較

近年來，深度學習技術在語音變調檢測方面也取得了一定的進展。從上面的分析中可以看到，語音來源和變調方法的不同都會對變調語音的檢測造成一定程度的影響。如何利用有限的資源提高語音變調檢測的泛化能力顯得尤其重要。由于本文的目標不僅是檢測語音是否經過了變調，還要判斷是經過了升調或是降調。在本節中，將本文方法與文獻[8]中的卷積神經網絡（Convolutional Neural Network， CNN）方法進行對比。這里僅考慮交叉數據集的性能，即：訓練樣本來自T2，測試樣本來自N1，仍采用上面所用的4種變調工具生成10種變調因子的語音，實驗結果如表5所示。由表5可見，在訓練樣本有限的低資源環境下，本文提取的基于非均勻濾波器的語音特征相較深層神經網絡自動學習的特征對于變調語音檢測及變調操作區分更具優勢。

4 結語

隨著各種變聲軟件的出現，電子偽裝語音將具有巨大的應用前景，然而也給司法鑒定帶來新的挑戰。本文針對電子變調語音的取證問題，在兩種不同的語音變調算法和兩種常用語音編輯軟件的基礎上提出了一種基于翻轉梅爾倒譜特征和多分類SVM的變調語音檢測方法。相較現有的研究，本文方法深入分析了語音變調原理，研究了變調在信號時域和頻域留下的痕跡，并在此基礎上找到更好的檢測特征。該特征不僅能檢測語音是否經過變調，對于變調語音，還能進一步區分語音是經過了升調或者降調操作。本文的研究結果為變調語音鑒定提出了新的思路，即：梅爾倒譜特征更注重人耳的聽覺特性，然而在取證問題方面并非是最佳的特征。此外，在訓練樣本有限的低資源環境下，本文方法獲得了比卷積神經網絡更好的性能。本文方法對不同說話人、不同錄音場景和未知變調方法也具有較好的泛化性能。

參考文獻（References）

[1]PERROT P， AVERSANO G， CHOLLET G. Voice disguise and automatic detection： review and perspectives [M]// STYLIANOU Y， FAUNDEZ-ZANUY M， ESPOSITO A. Progress in Nonlinear Speech Processing， LNCS 4391 . Berlin： Springer， 2007： 101-117.

[2]ZHANG C， TAN T. Voice disguise and automatic speaker recognition [J]. Forensic Science International， 2008， 175（2/3）： 118-122.

[3]MUCKENHIRN H， KORSHUNOV P， MAGIMAI-DOSS M， et al. Long-term spectral statistics for voice presentation attack detection [J]. IEEE/ACM Transactions on Audio， Speech， and Language Processing， 2017， 25（11）： 2098-2111.

[4]WANG L， NAKAGAWA S， ZHANG Z， et al. Spoofing speech detection using modified relative phase information [J]. IEEE Journal of Selected Topics in Signal Processing， 2017， 11（4）： 660-670.

[5]WU H， WANG Y， HUANG J. Identification of electronic disguised voices [J]. IEEE Transactions on Information Forensics and Security， 2014， 9（3）： 489-500.

[6]李燕萍，林樂，陶定元.基于GMM統計特性的電子偽裝語音鑒定研究[J].計算機技術與發展，2017，27（1）：103-106.（LI Y P， LIN L， TAO D Y. Research on identification of electronic disguised voice based on GMM statistical parameters [J]. Computer Technology and Development， 2017， 27（1）： 103-106.）

[7]LIANG H， LIN X， ZHANG Q， et al. Recognition of spoofed voice using convolutional neural networks [C]// Proceedings of the 2017 IEEE Global Conference on Signal and Information Processing. Piscataway： IEEE， 2017： 293-297.

[21]GAROFOLO J S， LAMEL L F， FISHER W M. TIMIT acoustic-phonetic continuous speech corpus [EB/OL]. [2019-02-20]. http：//www.ldc.upenn.edu/Catalog/CatalogEntry.jsp？catalogId=LDC93S1.

[22]NIST Multimodal Information Group. NIST speaker recognition evaluation database [EB/OL]. [2019-02-20]. http：//catalog.ldc.upenn.edu/LDC2010S03.

[23]VAN DER MAATEN L， HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research， 2008， 9： 2579-2605.

This work is partially supported by the National Natural Science Foundation of China （61871434）， the Scientific Research Fund of Huaqiao University （Y19060）.

LIN Xiaodan， born in 1983， Ph. D.， lecturer. Her research interests include multimedia forensics， signal processing.

QIU Yingqiang， born in 1981， Ph. D.， associate professor. His research interests include information hiding.

收稿日期：2019-05-23;修回日期：2019-06-20;錄用日期：2019-07-03。

基金項目：國家自然科學基金資助項目（61871434）;華僑大學科研基金資助項目（Y19060）。

作者簡介：林曉丹（1983—），女，福建泉州人，講師，博士，主要研究方向：多媒體取證、信號處理; 邱應強（1981—），男，福建龍巖人，副教授，博士，主要研究方向：信息隱藏。

文章編號：1001-9081（2019）12-3510-05DOI：10.11772/j.issn.1001-9081.2019050870

計算機應用2019年12期

計算機應用的其它文章: 多模態網絡融合在輕度認知障礙分類中的應用; 基于三維卷積神經網絡的航運監控事件識別; 基于多尺度卷積的船舶行為識別方法; 基于多前車信息融合的智能網聯車輛跟馳模型; 基于改進蟻群算法的鐵路乘務排班計劃編制; 方向感知的網格模型特征識別