基于SVM的錄音設備分類研究

2016-10-11 09:15:27杜狀狀高沖紅童茜雯

無線電通信技術 2016年5期

關鍵詞：分類設備方法

叢　韞，杜狀狀，高沖紅，童茜雯，鄭　義，仲　倩

(南京工程學院通信工程學院，江蘇南京 211167)

基于SVM的錄音設備分類研究

叢韞，杜狀狀，高沖紅，童茜雯，鄭義，仲倩

(南京工程學院通信工程學院，江蘇南京 211167)

為解決音頻取證中私錄音頻由何種錄音設備所錄的問題，針對不同設備所采用的壓縮算法不同，就會導致錄音信號中蘊含著區別于其他錄音設備的個性特征，本文從壓縮算法出發，提出了一種基于SVM對錄音設備的分類方法。首先獲取不同錄音格式的音頻，然后針對音頻分別用MATLAB對其求改進MFCC倒譜參數，接著選定測試集和訓練集，使用交叉驗證方法得到倒譜數據的最佳參數，之后用訓練集對SVM進行訓練，再用得到的模型來預測測試集的分類標簽。通過仿真與實驗，結果表明，該方法能夠較好的區分不同壓縮算法下的音頻特性，平均識別率達97%。

音頻取證；壓縮算法；改進MFCC；SVM；交叉驗證

0　引言

隨著數字媒體技術在日常生活中的使用和普及，國內外音頻證據在法庭證據、案件調查中出現的次數越來越多，所占比重也越來越大。錄音的來源往往是首先會關注的問題，尤其是錄音文件由何種錄音設備錄制，這是錄音文件具有合法性的前提。由于錄音設備種類繁多，而且在錄制過程中易受到環境和說話人特征的影響，國際上對錄音設備識別的研究還較少。在國外，Kraetzer、Bucholz等人和Garcia-Romera以及Espy-Wilson、Malik、Cemal對這方面展開了研究，國內南京大學聲學所、司法部司法鑒定科學技術研究所也對此展開了研究。以上這些研究，并未從算法出發分析錄音設備的內在特征。本文從壓縮算法出發，提出了一種基于SVM的錄音設備分類方法，在解決音頻取證中對錄音設備的識別研究提供了方向，值得進一步深入探索。

1　特征提取方法

音頻信號采用改進MFCC進行分析處理，具體步驟如圖1所示。對信號進行預處理，分幀、加窗，一般設一段語音存在X中，X長為N，采樣頻率Fs，幀長L，后一幀對前一幀位移量S，則將長為N的語音信號進行分幀，如式(1)所示：

Fn=(N-L)/S+1,

(1)

式中，x(m)為語音信號，w(m)為單位沖擊響應，n為整數。

加窗實際上就是乘以一個窗函數，窗函數如式(2)所示,在分幀時會有一定程度的幀移，加窗是為了增強連續性，然后進行FFT快速傅里葉變換，得到每幀信號的頻譜。式(2)求平方，得到每幀信號的功率譜：

(2)

圖1　提取改進MFCC的方案

根據每個通道的截止頻率截取Mel頻率尺度對Mel濾波器組進行歸一化，然后對Mel組進行歸一化，并對Mel濾波器組的輸出數據進行歸一化。將Mel濾波器組的輸出數據變換到對數域，再作離散余弦變換得到MFCC參數，結果如式(3)所示。式中N為三角濾波器個數，Xk為第K個濾波器的輸出，Ci即為所求的MFCC參數，P為其階數。

(3)

2　分類方法

2.1支持向量機基本原理

支持向量機的主要思想是建立一個分類超平面作為決策平面，使得正例與反例之間的隔離邊緣被最大化。支持向量機的理論基礎是統計學習理論，更精確地說，支持向量機是結構風險最小化的近似實現。這個原理基于這樣的事實：學習機器在測試數據上的誤差率(即泛化誤差率)以訓練誤差率和一個依賴于VC維數(Vapnik-Chervonenkis dimension)的項的和為界，在可分模式情況下，支持向量機對于前一項的值為零，并且使第二項最小化。因此，盡管它不利用問題的領域內部問題，但在模式分類問題上支持向量機能提供好的泛化性能，這個屬性是支撐向量機特有的。

支持向量機經歷了從二維分類到多維分類的發展過程，多維分類原理十分復雜，但是原理與二維分類原理相似，因此可以用線性可分的情況進行說明，基本思想如圖2所示。假設圖中有兩類樣本，分別用實心點和空心點表示；H代表將兩類樣本最大程度間隔開的分類線；H1、H2分別為過各類中離分類線最近的樣本，且平行于分類線的直線，它們之間的間隔叫做分類間隔。所謂最優分類線，就是要求分類線不但能將兩類正確分開，而且使分類間隔最大。引申到高維度分類問題中，能夠以最大間隔、最大限度分離兩類樣本的超平面就是最優超平面。

圖2　分類平面示意圖

支持向量機的體系結構如圖3所示，其中x(i)為支持向量，x為輸入空間抽取的向量，K為核函數，其種類主要有：① 線性核函數(Linear)：K(x，xi)=xTxi；② 多項式核函數(Polynomial)：K(x,xi)=(γxTxi+r)p,γ>0；③ 徑向基核函數(Radial basis function)：K(x,xi)=exp(-γ||x-xi||2),γ>0；④ S形函數(sigmoid):K(x,xi)=tanh(γxTxi+r)d。

圖3　支持向量機的體系結構

2.2SVM模型構造

SVM模型建立首先需要從原始數據里把訓練集和測試集提取出來，進行一定的預處理，之后用訓練集對SVM進行訓練，再用得到的模型來預測測試集的分類標簽，算法流程圖如圖4所示。

圖4　模型總體流程

2.2.1選定測試集和訓練集

本文選取總樣本數的4/5作為訓練樣本集，數據預處理后通過多次訓練求得支持向量并構造SVM模型，其余1/5作為測試樣本集，通過代入SVM模型檢驗對測試樣本的分類正確率，即模型的泛化能力。

2.2.2數據預處理

樣本數據中包含的先驗信息會對分類器的性能測試結果與測試數據的實驗效果產生直接的影響，因此有必要對數據進行歸一化處理，采用的歸一化映射如下：

式中，x,y∈Rn,xmin=min(x),xmax=max(x)，歸一化的效果是原始數據被規整到[0,1]范圍內，即yi∈[0,1],i=1,2.……n，這種歸一化方式稱為[0,1]區間歸一化。

2.2.3交叉驗證尋求最優參數

本文用SVM做分類預測時需要用到懲罰系數c和徑向基核函數參數g，采用LIBSVM3.20工具包使用交叉驗證的方法尋求最優參數，以得到比較理想的預測分類正確率。交叉驗證是用來驗證分類器性能的一種統計分析方法，基本思想是在某種意義下將原始數據進行分組，一部分作為訓練集，另一部分作為驗證集。其方法是首先用訓練集對分類器進行訓練，再利用驗證集來測試訓練得到的模型，以得到的分類準確率作為評價分類器的性能指標。采用交叉驗證的思想，可以有效地避免過學習和欠學習狀態的發生，最終對于測試集合的預測得到較理想的正確率。

3　測試方案

3.1數據采集

本實驗收集了10種不同的語音，手機設備和具體錄音格式如下:華為：m4a；oppo：wav、mp3和amr；三星：amr和m4a；魅族：mp3；小米：mp3；vivo：3gpp；聯想：ogg；每個手機設備錄一段音頻，每段音頻60s左右。

3.2實驗結果與分析

對于改進MFCC的提取方案如圖1所示，具體表達式如式(3)所示。下面以小米手機為例展開說明，將小米手機錄的語音信號導入到PC端通過matlab進行處理，進行分幀、加窗，幀長為400ms，幀移為260ms，窗函數采用漢寧窗，提取500組24維的改進MFCC特征參數，圖5為提取的MFCC倒譜圖。

在提取的5 000個樣本中，其中1～500屬于第1類(類別標簽為1)，501～1000為第2類(類別標簽為2)，1001～1500為第3類(類別標簽為3)，以此類推，4501～5000為第10類，現將每個類別分為2組，重新組合數據，一部分作為訓練集，一部分作為測試集。通過交叉檢驗的方法獲得最佳參數為c=2.2974，g=4，參數選擇結果圖如圖6所示，x軸表示c取以2為底的對數后的值，y軸表示g取以2為底的對數后的值，等高線表示取相應的c和g后對應的CV方法的準確率。3D視圖如圖7所示。

圖5　小米手機倒譜圖

圖6　參數選擇結果圖(等高線圖)

圖7　參數選擇結果圖(3D視圖)

運用上文選擇的最優化參數對測試樣本進行預測，即選用c=2.297 4，g=4，基于訓練樣本數據train_data提取相應的標簽train_data_labels建立模型svmtrain，系統的輸出結果如下所示：

optimization finished，#iter=192

nu=0.033 472

obj=-12.648 015,rho=-0.445 306，

nSV=52,nBSV=10，

Total nSV=2 012，

Accuracy=96.9% (969/1 000) (classfication)。

接著對測試樣本進行預測，得到的分類正確率為97%，分類結果如圖8所示，即1 000個樣本中有31個樣本識別錯誤，因此基于SVM的錄音設備分類方法具有較高的準確率，能夠準確地識別出對應錄音格式的手機設備。

圖8　測試集的分類結果圖

4　結束語

為解決音頻取證中私錄音頻由何種錄音設備所錄的問題，針對不同設備所采用的壓縮算法不同，就會導致錄音信號中蘊含著區別于其他錄音設備的個性特征，本文從壓縮算法出發介紹了一種基于SVM對錄音設備的分類方法，使用交叉驗證的方法獲得樣本數據最優參數，并給出了提取語音信號特征參數改進MFCC和構建SVM模型進行訓練分類的具體流程，實驗測試過程中，該方法在準確性方面滿足一定的要求。綜合來看，本文的方法具有較好的參考價值。

[1]Vapnik V.Statistical Learning Theory[M].New York:Wiley,1998.

[2]Cortes C,Vapnik V.Support-Vector network[J].Machine Learning,1995,20:273-297.

[3]Boser B,Guyon I,Vapnik V.ATraining Algorithm for Optional Margin Classifiers[C]//ACM press:In Proceeding of the Fifth Annual Workshop on Computerional Learning Theory,1992:144-152.

[4]Hsu C W,Lin C J.AComparsion of Methods for Multi-class Support Vector Machines[J].IEEE Transactions on Neural Network ,2002,13(2):415-425.

[5]Lin C J.Formulations ofSupport Vector Machines:a Note from an Optimization Point of View[J].Neu-ral Computation,2001,13(2):307-317.

[6]張慶，劉丙杰.基于PSO和分組訓練的SVM參數快速優化方法[J].科學技術與工程，2008,8(16):4613-4616.

[7]楊杰，鄭寧，劉董，等.基于遺傳算法的SVM帶權特征和模型參數優化[J].計算機仿真，2008,25(9):113-118.

[8]張小艷，李強.基于SVM的分類方法綜述[J].科技信息，2008(28):344-345.

[9]范昕煒，杜數新，吳鐵軍.粗SVM分類方法及其在污水處理過程中的應用[J].控制與決策，2004,19(5):573-576.

[10]陳光英，張千里，李星.基于SVM分類機的入侵檢測系統[J].通信學報，2002,23(5):51-56.

[11]雷英杰，張善文，李續武，等.MATLAB工具箱及應用[M].西安：西安電子科技大學出版社，2005.

[12]張雪英.數字信號處理與MATLAB仿真[M].北京：電子工業出版社，2010.

Recording Equipment Classification Study Based on SVM

CONG Yun，DU Zhuang-zhuang，GAO Chong-hong，TONG Qian-wen，ZHENG Yi，ZHONG Qian

(School of Communication Engineering，Nanjing Institute of Technology，Nanjing Jiangsu 211167，China)

To solve the problem of which kind of recording equipment is used for private audio recorded in audio forensic，the article presents a classification method for recording equipment based on SVM embarking from the compression algorithm，which is based on the fact that the recorded signals from different devices with different compression algorithms contain personality characteristics different from other recording devices.Audios in different format are collected at first.Then its improved MFCCs are extracted respectively by MATLAB and testing and training sets are selected.Then Cross Validation method is used to get the optimal parameters of cepstrum data.The SVM is trained with the training set and the classification label of the testing set is predicted with the model obtained.The simulation and test results show that the method can distinguish audio features among different compression algorithms better，and the average recognition rate is 97%.

audio forensic；compression algorithm；improved MFCC；SVM；Cross Validation

10.3969/j.issn.1003-3114.2016.05.17

引用格式:叢韞，杜狀狀，高沖紅，等.基于SVM的錄音設備分類研究[J].無線電通信技術,2016,42(5):68-70，84.

2016-05-09

江蘇省大學生創新創業訓練項目(201511276004z)

叢韞(1995—)，女，本科，主要研究方向：信號與信息處理。仲倩(1995—)，女，本科，主要研究方向：信號與信息處理。

TN912.3

1003-3114(2016)05-68-3

基于SVM的錄音設備分類研究

0 引言

1 特征提取方法

2 分類方法

3 測試方案

4 結束語

0　引言

1　特征提取方法

2　分類方法

3　測試方案

4　結束語