999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于翻轉梅爾頻率倒譜系數的語音變調檢測方法

2019-01-06 07:27:07林曉丹邱應強
計算機應用 2019年12期

林曉丹 邱應強

摘 要:語音變調常用于掩蓋說話人身份,各種變聲軟件的出現使得說話人身份偽裝變得更加容易。針對現有變調語音檢測方法無法判斷語音是經過了何種變調操作(升調或降調)的問題,通過分析語音變調在信號頻譜,尤其是高頻區域留下的痕跡,提出了基于翻轉梅爾倒譜系數(IMFCC)統計矩特征的電子變調語音檢測方法。首先,提取各語音幀 IMFCC及其一階差分;然后,計算其統計均值;最后,在該統計特征上利用支持向量機(SVM)多分類器的設計來區分原始語音、升調語音和降調語音。在TIMIT和NIST語音集上的實驗結果表明,所提方法無論對于原始語音、升調語音還是降調語音都具有良好的檢測性能。與MFCC作為特征構造的基線系統相比,所設計的特征的方法明顯提高了變調操作的識別率。在較少的訓練資源的情況下,所提方法也獲得了比基于卷積神經網絡(CNN)的框架更好的性能;此外,在不同數據集和不同變調方法上也都取得了較好的泛化性能。

關鍵詞:語音變調;翻轉梅爾頻率;倒譜系數;統計矩;多分類

中圖分類號: TN912.3文獻標志碼:A

Disguised voice detection method based on inverted Mel-frequency cepstral coefficient

LIN Xiaodan*, QIU Yingqiang

(College of Information Science and Engineering, Huaqiao University, Xiamen Fujian 361021, China)

Abstract: Voice disguise through pitch shift is commonly used to conceal the identity of speaker. A bunch of voice changers substantially facilitate the application of voice disguise. To simultaneously address the problem of whether a speech signal is pitch-shifted and how it is modified (pitch-raised or pitch-lowered), with the traces of the electronic disguised voice in the signal spectrum especially the high frequency region analyzed, an electronic disguised voice detection method based on statistical moment features derived from Inverted Mel-Frequency Cepstral Coefficient (IMFCC) was proposed. Firstly, IMFCC and its first-order difference of each voice frame were extracted. Then, its statistical mean was calculated. Finally, on the above statistical feature, the design of Support Vector Machine (SVM) multi-classifier was used to identify the original voice, the pitch-raised voice and the pitch-lowered voice. The experimental results on TIMIT and NIST voice datasets show that the proposed method has satisfactory performance on the detection of the original, pitch-raised and pitch-lowered voice signals. Compared with the baseline system using MFCC as feature construction, the method with the proposed features has significantly increased the recognition rate of the disguise operation. And the method outperforms the Convolutional Neural Network (CNN) based framework when limited training data is available. The extensive experiments demonstrate the proposed has good generalization ability on different datasets and different disguising methods.

Key words: voice disguise; inverted Mel-frequency; cepstral coefficient; statistical moment; multi-classification

0 引言

語音變調能夠改變說話人的聲音特征。變調語音除了具有娛樂功能外,還可用于說話人身份的偽裝。傳統的非電子變調方法是通過捏住鼻子或捂住嘴巴等物理方法來實現[1]。近年來,各種變聲軟件的出現,極大地方便了人們對聲音的變調處理。通過電子變聲的語音,還能獲得較好的語音自然度。已有的研究表明,變調偽裝語音將會嚴重影響說話人識別系統的性能[2]。倘若犯罪分子通過變聲器偽裝身份進行互聯網或電話詐騙,將給案件偵破和司法鑒定帶來前所未有的挑戰。因此,如何自動檢測語音是否經過變調是信息安全和司法取證領域一個亟待解決的問題。

在語音偽裝的檢測問題上,目前更多的研究針對的是語音合成和語音轉換的檢測[3-4]。這類語音偽裝的目標是為了提高說話人識別系統的錯誤接受率,即:偽裝語音可以欺騙說話人識別系統從而實現非法闖入的目的。本文的研究對象是另一類偽裝語音,即:通過電子變調的方法實現語音偽裝。這類偽裝的目標是提高人耳或說話人識別系統的錯誤拒絕率,從而掩飾說話人身份。文獻[5]提出了基于梅爾倒譜系數(Mel-Frequency Cepstral Coefficient, MFCC)的變調語音檢測方法,該方法通過多個支持向量機(Support Vector Machine, SVM)分類器的設計并采用投票表決機制在變調語音的檢測問題上取得了良好的效果。文獻[6]提出了一種將MFCC特征參數用于高斯混合模型的訓練從而獲得變調語音的檢測特征。該方法在少量的數據集上能夠鑒別語音是否經過變調,然而缺乏在更豐富的數據集上的驗證。文獻[7]在短時傅里葉譜的基礎上,將卷積神經網絡用于變調語音的鑒別并取得了優異的檢測性能。然而,上述方法缺乏對語音變調痕跡的分析,也無法進一步甄別語音是經過升調或者降調處理。通過語音的升調操作,可使男聲轉換成女聲;反之,利用降調操作,可使女聲轉換成男聲。因此,判斷語音經過了何種變調操作也具有重要的現實意義。文獻[8]探索了卷積神經網絡在原始語音、升調語音和降調語音檢測方面的應用,該方法依賴于大量的標注訓練樣本,并且在原始語音和升調語音的區分上仍存在較大的提升空間。

本文的研究表明,盡管MFCC在說話人識別等應用場合中取得了良好的性能,然而在語音變調檢測的問題上,該特征并非是最優的。針對語音是否經過變調以及經過了升調或者降調的問題,在深入研究語音變調原理的基礎上,本文提出了一種基于翻轉梅爾倒譜系數(Inverted MFCC, IMFCC)統計特征的方法用于語音變調操作的檢測。

1 語音變調的基本原理

基音是語音的一個重要參數,在語音識別、語音合成、說話人識別等應用中具有重要的意義。當前變聲軟件主要采用的是通過修改聲音基頻的方式進行變聲。語音變調方法基本可歸為兩類:時域變調和頻域變調。這兩類方法都能夠實現變調不變速,并保持變調后語音較高的自然度。典型的時域變調法有:SOLA-FS(Synchronized OverLap-Add and Fixed Synthesis)[9-10]、TD-PSOLA(Time-Domain Pitch Synchronized OverLap-Add)[11]、WSOLA(Waveform Similarity OverLap and Add)[12]等。其基本原理是通過信號在時域上抽取或內插改變語音信號音調,信號抽取可實現語音升調,信號內插實現降調。在此基礎上進行時長規整使語速保持不變,具體為:利用幀插入實現時域拉伸,利用幀刪除實現時域壓縮。頻域變調的典型方法有:FD-PSOLA(Frequency Domain Pitch Synchronized OverLap-Add)[13]、相位聲碼器法[14]等。這類方法直接在頻域中進行信號插值抽取,或通過調整信號幅度、頻率參數從而實現變調。為了保持相位連續性,頻域變調方法通常會引入幀間重疊處理技術。

在語言學中,基音通常被認為最高降低或升高一個八度。世界上普遍采用的是12平均律將一個八度音分成12個相等的半音,相鄰半音頻率相差21/12倍。如果原始基音為f0,那么按照12平均律修改后的基音為f0′,則f0′和f0應滿足如下關系:

f0′ = 2N/12×f0; N = ±1,±2,…,±11(1)

當N>0時為升調,N<0時為降調。N每升高或減少1,音調就升高或降低一個半音。文獻[6]指出,在取證應用中,N取[-8,-4]和[4,8]是較好的選擇。因為N太小變調不明顯,無法掩蓋說話人身份,N太大又容易引起懷疑,因此,本文僅考慮這一范圍的變調。圖1給出了使用Adobe Audition CS6軟件對語音進行N =6和N =-6變調前后的音調變化軌跡圖。由圖1可見,語音升調將導致基音頻率發生上移,降調將導致基音頻率發生下移。從圖1中還能發現變調前后的基音變化軌跡在時間軸上還存在一定程度的不同步現象。其中可能的原因是語音信號在時間規整過程采用的分析窗和合成窗長度、偏移量不一致。對于變調導致的時間軸失真可以利用頻譜的動態特性進行捕獲。

除了基音的變化,還能從語音的時頻譜變化中找到變調對于語音的影響。圖2給出了原始語音、同一語音經過N =6的升調語音、同一語音經過N =-6的降調語音的語譜圖,使用的變調工具為AUDICITY[15]、ADOBE AUDITION[16]、PRAAT[17]、RTISI(Real-Time Iterative Spectrogram Inversion)[18]。其中,PRATT和RTISI分別采用時域TD-PSOLA和頻域FD-PSOLA變調方法。而AUDICITY和ADOBE AUDITION所使用的變調方法未知。從圖2中可以看出,變調將使語音的頻譜發生搬移,具體為:降調語音的頻譜被壓縮,升調語音的頻譜被擴展。因此,降調語音在高頻區頻譜分布較為稀疏,而升調語音相對原始語音和降調語音具有更高的頻率分辨率。因此,高頻區域頻譜特征的分析在區分變調語音和原始語音時起了至關重要的作用。為了更好地捕獲變調語音和原始語音在高頻區的差異,本文使用在高頻區域計算精度更高的翻轉梅爾濾波器組并結合倒譜分析獲得語音的頻譜特性。

2 基于IMFCC的語音變調檢測

由于MFCC的設計是為了模擬人耳的聽覺特性,因此所使用的濾波器更注重低頻區,在低頻區具有更好的計算精度,而對于中高頻區的變化較不敏感。通過第1章的分析我們知道,提升高頻區的信息分辨能力對于鑒別變調語音至關重要。翻轉梅爾倒譜系數(IMFCC)能夠彌補MFCC在高頻區信息提取的不足,提高中高頻信息的計算精度[19]。IMFCC采用的是如式(2)所示的頻率變換:

使用的翻轉梅爾濾波器組如圖3所示。由圖3可知,隨著頻率的增大,濾波器的帶寬和間隔變小。翻轉梅爾濾波器組正是利用這一特點提升了高頻區的計算精度。此外,對于變調引起語音在時間軸上的不同步現象,將進一步利用IMFCC的動態特性進行描述。因此,本文選取19維的IMFCC系數(去除直流分量)和19維的差分特征ΔIMFCC用于區分原始語音、降調語音和升調語音。我們將變調語音的鑒別問題轉換成一個三分類問題,因此可以利用機器學習中多分類器的設計實現這三類語音的鑒別。

2.1 特征提取

本文使用IMFCC及其一階差分特征用于原始語音、升調語音和降調語音的識別。IMFCC特征提取方法如下:

1)對語音信號進行預加重、分幀和加窗處理。接著通過VAD(Voice Activity Detection)檢測算法[20]判斷語音幀是否為靜音,若為靜音則丟棄該幀。本文所用漢明窗長為512。

2)對加窗后的語音幀x(n)進行短時傅里葉變換,從而得到離散的功率譜X(k)。

3)由X(k)得到x(n)的能量譜,并采用圖3所示的翻轉梅爾濾波器組,按照式(3)進行濾波:

mi=∑N-1k=0X(k)2Hi(k); i=1, 2, …, P(3)

式中:Hi(k)為濾波器的頻率響應;P為濾波器個數;N為傅里葉變換點數。

4)對mi進行對數變換得到輸出對數能量譜。

5)將上述對數能量譜進行離散余弦變換(Discrete Cosine Transform, DCT),得到前20個DCT系數,即IMFCC系數。

6)對所得IMFCC特征求取差分,得到ΔIMFCC。

7)求取各語音幀所得IMFCC系數(去除直流分量)和ΔIMFCC的統計平均共38維特征作為提取的特征。

上述的特征提取使不同時長的語音可獲得相同維度的統計特征,這些特征將被用于分類器的訓練。利用t分布隨機近鄰嵌入(t-distributed Stochastic Neighbor Embedding, t-SNE)算法[23]對上述38維特征進行降維并映射到二維平面上,得到如圖4所示的三類語音分布。圖4中可見,本文設計的基IMFCC的統計特征能夠將三類語音分離開來。相比降調語音,區分原始語音和升調語音的難度更大。

2.2 分類器設計

本文采用SVM用于原始語音、升調語音和降調語音的三分類。三分類SVM采用的實現方式是一對一方式,即:對于三分類問題將產生3個二分類器。對于待預測語音每個二分類器會產生一個輸出標簽0、1或2,把出現次數最多的標簽作為最終預測輸出。由于本文使用的變調語音共有10種變調因子,若訓練集原始語音樣本數是N,則對于同一種變調方法,升調樣本和降低語音樣本數各5N。由于變調語音樣本數比原始語音大很多,為了保持樣本平衡,從每種變調因子的語音中隨機選取N/5的樣本用作訓練集。SVM的訓練和測試流程如圖5所示。其中,使用的核函數為式(4)所示的多項式核,實驗中γ、C、d分別設置為1、1、2。

C(xi, xj) = (γxiTxj + C)d(4)

3 實驗與結果分析

實驗中使用兩個不同的數據庫TIMIT[21]和NIST[22],所有音頻都是8kHz采樣率,16比特量化。兩個數據庫具有不同的錄音環境和錄音設備。其中:TIMIT數據庫包含630個不同的說話人,一共6300段音頻;NIST數據庫包括356個不同說話人,一共3560段音頻。使用的變調工具包括AUDICITY、ADOBE AUDITION、PRAAT、RTISI,變調因子有10種,包括±4、±5、±6、±7、±8。變調語音仍保持8kHz采樣率和16比特量化位數。3.1 同一數據集的檢測結果

把TIMIT和NIST分成說話人不重疊的兩部分,分別記為T1、T2和N1、N2。其中T1包含3000段語音,T2包含3300段語音;N1包含2000段語音,N2包含1560段語音。其中,TIMIT使用的變調方法是基于時域的PRAAT方法,NIST使用的變調方法是基于頻域的RTISI方法。在第一組實驗中,把T1及其對應的變調語音用作訓練集,T2及其對應的變調語音用作測試集;此時訓練集中的原始語音、升調語音、降調語音的樣本數各3000;測試集中三類樣本的數量各為3300。在第二組實驗中,把N1及其對應的變調語音用作訓練集,N2及其對應的變調語音用作測試集。此時訓練集中的原始語音、升調語音、降調語音的樣本數各2000;測試集中三類樣本的數量各為1560。兩組實驗得到的混淆矩陣如表1所示。由表1結果可見,當訓練集和測試集來源相同時,本文方法具有優異的檢測性能。尤其是對于降調語音的檢測,檢測準確率分別為99.18%和100%。

3.2 交叉數據集的檢測結果

為了驗證本文方法在不同數據集上的性能。本節實驗中,采用T2作為訓練集,N1作為測試集,變調所采用的方法為AUDACITY、ADOBE AUDITION、PRAAT、RTISI。利用上述SVM多分類器進行訓練和測試得到如表2所示的檢測準確率,準確率的定義如下:

Pr=y*o+y*L+y*Ryo+yL+yR(5)

其中:y*o、y*L和y*R分別表示測試集中被分類器正確檢測出的原始語音、降調語音、升調語音的數目;yo、yL和yR表示測試集原始語音、降調語音、升調語音的數目。由表2可見,對于不同的語音來源,采用同一種變調方法,本文方法皆可獲得90%左右的檢測準確率。與表1結果相比,測試語音和訓練語音不匹配時檢測性能有一定程度的下降。表2中,還以MFCC及其一階、二階差分特征為基準,測試了基于MFCC的SVM多分類器對于升調語音、原始語音和降調語音的鑒別能力。顯然,以MFCC作為基準特征的三分類器和本文方法有明顯的性能差距。這也進一步證明了選取合適的特征對于音頻取證的重要性。對于變調檢測問題,MFCC并非是最佳的特征。

以變調工具AUDACITY為例,還進一步給出了本文方法在不同數據集上更詳細的檢測性能,如表3所示的混淆矩陣。從表3結果可以看出,本文方法對于原始語音和降調語音仍具有良好的檢測性能,然而升調語音和原始語音在一定程度上會被混淆,這與圖4的分析結果是吻合的。對于其他三種變調方法,也發現了這一現象。這是因為變調前后使用了相同的采樣率導致升調語音在高于4kHz頻譜信息的丟失。

3.3 不同變調方法的檢測結果

為了進一步驗證本文方法對于未知變調方法的泛化能力,在本實驗中訓練數據和測試數據分別由不同的變調軟件得到,在訓練和測試語音集不匹配的場景下進行驗證。訓練數據為T2,測試數據為N1,得到如表4所示的檢測準確率。從表4結果可見,本文方法對于四種變調工具的檢測準確率均在80%以上。這也說明了對于未知的變調手段,本文提出的變調檢測方法的有效性。其中,使用AUDACITY作為訓練集所使用的變調方法,對其他三種不同的變調方法檢測準確率都在92%以上。

3.4 與卷積神經網絡方法的比較

近年來,深度學習技術在語音變調檢測方面也取得了一定的進展。從上面的分析中可以看到,語音來源和變調方法的不同都會對變調語音的檢測造成一定程度的影響。如何利用有限的資源提高語音變調檢測的泛化能力顯得尤其重要。由于本文的目標不僅是檢測語音是否經過了變調,還要判斷是經過了升調或是降調。在本節中,將本文方法與文獻[8]中的卷積神經網絡(Convolutional Neural Network, CNN)方法進行對比。這里僅考慮交叉數據集的性能,即:訓練樣本來自T2,測試樣本來自N1,仍采用上面所用的4種變調工具生成10種變調因子的語音,實驗結果如表5所示。由表5可見,在訓練樣本有限的低資源環境下,本文提取的基于非均勻濾波器的語音特征相較深層神經網絡自動學習的特征對于變調語音檢測及變調操作區分更具優勢。

4 結語

隨著各種變聲軟件的出現,電子偽裝語音將具有巨大的應用前景,然而也給司法鑒定帶來新的挑戰。本文針對電子變調語音的取證問題,在兩種不同的語音變調算法和兩種常用語音編輯軟件的基礎上提出了一種基于翻轉梅爾倒譜特征和多分類SVM的變調語音檢測方法。相較現有的研究,本文方法深入分析了語音變調原理,研究了變調在信號時域和頻域留下的痕跡,并在此基礎上找到更好的檢測特征。該特征不僅能檢測語音是否經過變調,對于變調語音,還能進一步區分語音是經過了升調或者降調操作。本文的研究結果為變調語音鑒定提出了新的思路,即:梅爾倒譜特征更注重人耳的聽覺特性,然而在取證問題方面并非是最佳的特征。此外,在訓練樣本有限的低資源環境下,本文方法獲得了比卷積神經網絡更好的性能。本文方法對不同說話人、不同錄音場景和未知變調方法也具有較好的泛化性能。

參考文獻 (References)

[1]PERROT P, AVERSANO G, CHOLLET G. Voice disguise and automatic detection: review and perspectives [M]// STYLIANOU Y, FAUNDEZ-ZANUY M, ESPOSITO A. Progress in Nonlinear Speech Processing, LNCS 4391 . Berlin: Springer, 2007: 101-117.

[2]ZHANG C, TAN T. Voice disguise and automatic speaker recognition [J]. Forensic Science International, 2008, 175(2/3): 118-122.

[3]MUCKENHIRN H, KORSHUNOV P, MAGIMAI-DOSS M, et al. Long-term spectral statistics for voice presentation attack detection [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(11): 2098-2111.

[4]WANG L, NAKAGAWA S, ZHANG Z, et al. Spoofing speech detection using modified relative phase information [J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(4): 660-670.

[5]WU H, WANG Y, HUANG J. Identification of electronic disguised voices [J]. IEEE Transactions on Information Forensics and Security, 2014, 9(3): 489-500.

[6]李燕萍,林樂,陶定元.基于GMM統計特性的電子偽裝語音鑒定研究[J].計算機技術與發展,2017,27(1):103-106.(LI Y P, LIN L, TAO D Y. Research on identification of electronic disguised voice based on GMM statistical parameters [J]. Computer Technology and Development, 2017, 27(1): 103-106.)

[7]LIANG H, LIN X, ZHANG Q, et al. Recognition of spoofed voice using convolutional neural networks [C]// Proceedings of the 2017 IEEE Global Conference on Signal and Information Processing. Piscataway: IEEE, 2017: 293-297.

[21]GAROFOLO J S, LAMEL L F, FISHER W M. TIMIT acoustic-phonetic continuous speech corpus [EB/OL]. [2019-02-20]. http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93S1.

[22]NIST Multimodal Information Group. NIST speaker recognition evaluation database [EB/OL]. [2019-02-20]. http://catalog.ldc.upenn.edu/LDC2010S03.

[23]VAN DER MAATEN L, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.

This work is partially supported by the National Natural Science Foundation of China (61871434), the Scientific Research Fund of Huaqiao University (Y19060).

LIN Xiaodan, born in 1983, Ph. D., lecturer. Her research interests include multimedia forensics, signal processing.

QIU Yingqiang, born in 1981, Ph. D., associate professor. His research interests include information hiding.

收稿日期:2019-05-23;修回日期:2019-06-20;錄用日期:2019-07-03。

基金項目:國家自然科學基金資助項目(61871434);華僑大學科研基金資助項目(Y19060)。

作者簡介:林曉丹(1983—),女,福建泉州人,講師,博士,主要研究方向:多媒體取證、信號處理; 邱應強(1981—),男,福建龍巖人,副教授,博士,主要研究方向:信息隱藏。

文章編號:1001-9081(2019)12-3510-05DOI:10.11772/j.issn.1001-9081.2019050870

主站蜘蛛池模板: 91久久偷偷做嫩草影院电| 九九视频在线免费观看| 国产一区二区精品高清在线观看 | 日韩黄色在线| 日本免费a视频| 日韩精品免费一线在线观看| 欧美精品v欧洲精品| 亚洲色图欧美| 亚洲综合久久成人AV| 国产精品成人观看视频国产| 在线观看无码av五月花| 成年免费在线观看| 国产一级妓女av网站| 亚洲国产AV无码综合原创| 被公侵犯人妻少妇一区二区三区| 成人噜噜噜视频在线观看| 色AV色 综合网站| 激情无码字幕综合| 91精品国产福利| 3D动漫精品啪啪一区二区下载| 日韩小视频在线观看| 91免费国产在线观看尤物| 亚洲人成在线免费观看| 99精品国产自在现线观看| 91精品国产自产91精品资源| 亚洲欧美日韩天堂| 国产三级a| 天天躁夜夜躁狠狠躁躁88| 日韩天堂在线观看| 老熟妇喷水一区二区三区| 亚洲人成网站观看在线观看| 国产成人精品男人的天堂| 中国国产一级毛片| 国产69精品久久| 亚洲视频影院| 午夜国产理论| 一级片免费网站| 草逼视频国产| 欧美日韩国产成人高清视频| 一本大道香蕉高清久久| 91精品日韩人妻无码久久| 日韩毛片免费观看| 亚洲精品综合一二三区在线| 99视频在线免费观看| 一区二区三区四区在线| 色有码无码视频| 国产香蕉97碰碰视频VA碰碰看| 国产精品永久在线| 九九热精品视频在线| 天天躁夜夜躁狠狠躁图片| 无码免费视频| 在线观看免费黄色网址| 国产精品v欧美| 国产人妖视频一区在线观看| 91精品网站| 日韩欧美国产精品| 亚洲欧洲天堂色AV| av天堂最新版在线| 国产剧情无码视频在线观看| 91娇喘视频| 日本五区在线不卡精品| 国产真实自在自线免费精品| 麻豆AV网站免费进入| 久久动漫精品| 国产噜噜噜| 国产无人区一区二区三区| 亚洲中字无码AV电影在线观看| 亚洲一区二区无码视频| 亚洲三级a| 久久夜色精品国产嚕嚕亚洲av| 国产成人精品日本亚洲77美色| 在线观看视频一区二区| 久草视频一区| 国产欧美在线视频免费| 欧美第一页在线| 免费观看成人久久网免费观看| 国产拍在线| 日韩黄色在线| 91小视频在线播放| 狠狠色噜噜狠狠狠狠奇米777| 免费人成黄页在线观看国产| 中文字幕第4页|