一種基于TCM-SVDD的樣本類別標注方法

2014-02-07 02:54:28朱海潮崔立林

中國艦船研究 2014年4期

關鍵詞：檢測方法

朱海潮，崔立林

1 海軍工程大學振動與噪聲研究所，湖北武漢430033

2 海軍工程大學船舶振動噪聲重點實驗室，湖北武漢430033

0 引言

船舶低速航行時的主要噪聲源是機械噪聲［1］，因此，辨識其主要機械噪聲源對于船舶噪聲狀態的動態管理及其控制非常重要。但由于全船機械噪聲的測試不易進行，且費用昂貴，通常難以得到足夠多的訓練樣本，因此是一個小樣本條件下的模式識別問題。

小樣本條件下的模式識別所面臨的主要問題是：一方面，由于訓練樣本不充分，導致通過學習機器得到的分類器難以獲得理想的泛化性能（Generalization Ability）［2］，即該分類器可能對已有的樣本能夠取得很好的分類效果，但不能保證對陌生樣本的辨別能力；另一方面，由于已有訓練樣本數據覆蓋的模式類別較少，導致對新出現的故障模式無法進行有效識別。

國內外對于小樣本問題早已開始研究［3］，并引入了神經網絡方法［4-6］。在現有方法中，增量學習是一條有效的途徑，通過對實際情況下新出現的樣本進行類別檢測，將與現有小樣本訓練集同類的樣本作為訓練集的擴充，可逐步解決小樣本問題。但在進行增量學習之前，必須對新增樣本的類別進行有效識別，這可歸結為一個異類樣本的識別問題。針對異類樣本的檢測問題，美國哥倫比亞大學的Eskin 等提出的基于聚類的估計算法、改進的k 近鄰方法以及one-class SVM 方法是其中具有影響力的3 種方法。但是，這些方法仍具有較高的誤報率，并且由于計算量過大而導致其實用性不強。針對這些情況，文獻［7］提出了一種新的基于TCM-KNN 算法的異類樣本檢測方法，并且通過引入遺傳算法［8］，對TCM-KNN 算法進行了改進，與上面給出的3 種常用方法相比，具有較高的檢測率和較低的誤報率。但該方法要窮盡未知樣本的所有可能分類，加之最近鄰分類器（KNN）自身的特點，導致該算法的計算量巨大，而且該方法對訓練集的質量要求較高，如果訓練集中混有異類樣本，會極大地影響最終的異類樣本檢測結果。為了克服以上兩個缺點，本文將提出一種新的TCM-SVDD 方法，并進行艙段模型試驗，結果將表明，該方法能夠快速、準確地識別異類模式樣本，并且該方法對訓練樣本集中混有少量異類模式樣本的情況不敏感。

1 支持向量數據描述算法簡介

支持向量數據描述算法（Support Vector Data Description，SVDD）是近年來興起的性能優越的單值分類法，是由Tax 和Duin［9］提出并發展起來的。它是通過正常樣本的訓練來尋找一個能包括全部或絕大部分正常樣本的、具有最小體積的超球體，落在超球體外的新樣本將被判斷為異常樣本。

假定一個目標集包含N 個目標樣本{xi，i=1，2，...，N}，SVDD 的基本思想是尋求一個最小容積的超球體，以使所有的（或者絕大多數）目標樣本都包含在該球體內。由于目標集的樣本分布有可能包含極少數極為偏遠的樣本，因此引入松弛因子ξi，允許部分數據點在球體以外，則超球體可以用式（1）表示：

式中：R 和a 分別為超球體的半徑和球心；變量C控制錯分樣本的比例和算法復雜程度之間的折中；松弛因子ξi用于控制超球體以外數據點與球心的距離。目標集形成的約束條件為

于是，問題轉換為在約束條件式（2）下求超球體的最小半徑，這是一個二次優化問題。構造拉格朗日算式：

式中，拉格朗日乘子αi≥0，γi≥0。求偏導，得

根據約束條件式（4）重構式（3），可得

對式（5）求最小值得出最優解αi。對于αi不為0 的對象就稱為支持向量，只用它們就可以進行超球體描述。一個測試點z 是否被接受為目標樣本，只需要看測試點到超球體中心的距離是否小于半徑R，即

式中，T 為轉置符號。

式（6）用支持向量表示即為

在最優分類面中采用適當的滿足Mercer 條件的內積核函數K(xi·xj)就可以實現從低維向高維空間的映射，從而實現某一低維空間的非線性問題向高維空間的線性問題轉換，相應地，式（5）與式（7）分別變為式（8）和式（9）：

2 TCM-SVDD 方法

TCM 的目標是獲得一般獨立同分布假設下可用的置信測量，這恰好與Kolmogorov 算法隨機性理論定義的隨機檢測（randomness test）緊密聯系［10］，該檢測不可計算但可以進行近似，其結果稱為P 值。P 值計算的基礎是奇異測量（strangeness measure），奇異測量的結果稱為奇異值。在實踐中，TCM 將已知樣本和未知樣本排列構成樣本序列，窮盡未知樣本的所有可能分類，并對每種可能分類下的樣本序列的隨機性進行檢測，然后根據P 值來估計未知樣本屬于不同類別的置信度，實現置信判斷。目前，常用的檢測函數是Saunders等［11］提出的P 典型性函數。

假設｛（x1，y1），（x2，y2），…，（xm，ym）｝是訓練樣本集，其中每一個樣本包括數據xi和它的標簽yi。因為本文只區分正常類樣本和異常類樣本，所以訓練樣本的標簽滿足y1=y2=…= ym=1，即全部為正常類。（xnew，y）為測試樣本，其標簽y 為未知。TCM-SVDD 方法的詳細步驟如下：

第1 步：將訓練樣本和測試樣本組成一個新的樣本集｛（x1，y1），（x2，y2），…，（xm，ym）,（xnew，y）｝。

第2 步：通過SVDD 方法計算樣本集｛（x1，y1），（x2，y2），…，（xm，ym）,（xnew，y））｝中每個樣本的拉格朗日乘子αi，獲得序列{α1，α2，…，αm，αnew}。

第3 步：每個樣本的拉格朗日乘子αi表征了該樣本的奇異程度，可以作為該樣本的奇異值，因此得到各個樣本的奇異值序列{α1，α2，…，αm，αnew}。

第4 步：使用Saunders 等提出的P 典型性函數計算測試樣本xnew被歸為正常類時的P 值，函數具體如下：

式中：#表示集合的基數；αnew為測試樣本xnew的奇異值；αi為第i個訓練樣本的奇異值。

第5 步：判斷樣本正常與否。預先確定置信水平，例如，假設1- δ 為置信水平，0＜δ ＜1，其中δ 被稱為顯著性水平。如果P(αnew)＜δ，則測試樣本被分為異常類樣本；如果P(αnew)＞δ，則測試樣本被分為正常類樣本。

3 試驗研究

為了驗證上述方法的可行性，采用1∶1 的雙層殼體艙段模型進行試驗，在模型內部布置電機、激振器和海水泵各1 臺，設備布置如圖1 所示。

試驗測試系統采用的設備包括：B&K 1049 信號發生器、B&K 2707 功率放大器、B&K 4801T 激振器、B&K 3560D+PULSE 8.0 信號采集系統及PCB 352C33 ICP 型加速度計。

為了驗證在較復雜工況下本文所提出方法的自動標注性能，在試驗中將3 臺設備全部開啟，通過調整激振器激勵電壓模擬3 種工況模式，具體如表1 所示。

圖1 試驗場景圖Fig.1 The experiment scene

表1 試驗工況表Tab.1 List of experimental conditions

3.1 數據預處理

試驗系統的分析頻率為800 Hz，采樣頻率為800×2.56=2 048 Hz，采樣時間為8 s，每類噪聲源模式分別采集16 384 個采樣點。以布置在殼體上的振動加速度測點采集的數據作為分析對象，隨機選取其中連續的1 024 個采樣點為一個樣本。每類工況生成200 個樣本。

對每個樣本計算其功率譜，頻率分辨率Δf=2 Hz，則每個樣本可轉化為一個400 維的特征向量。本文未對特征向量進行特征提取或特征選取的處理。

3.2 標注性能比較

通過工況2 模擬已有小樣本數據模式，選取該工作狀態下的10 個樣本作為訓練樣本。從3 個工況中各選100 個樣本組成測試樣本集，比較3 種方法的自動標注性能：

1）常用的SVDD 算法；

2）TCM-KNN 算法；

3）本文提出的TCM-SVDD 算法。

針對TCM-KNN 和TCM-SVDD 算法，設置置信水平為95%。在TCM-KNN 方法中，最近鄰參數k 從1～9 變化。自動標注結果和時間花費如表2所示。

其中，正確標注率表示對測試樣本集中工況2 樣本的正確識別率，錯誤標注率表示將測試樣本集中工況1 和工況3 的樣本標注為工況2 樣本的比例。當最近鄰參數k＞4時，TCM-KNN 方法的結果基本沒有變化，所以在表2 中沒有列出k＞4的計算結果。花費時間為在相同配置計算機上執行算法所需要的時間。

表2 不同方法的檢測準確性和時間花費比較結果Tab.2 Comparison of identification accuracy and time costs of different methods

因為對樣本進行標注的目的是為了實現小樣本訓練集的擴容，所以需要錯誤標注率越小越好。從上表中可以看出：

1）本文提出的TCM-SVDD 的標注效果是3種方法中最好的，在保證沒有錯誤標注的情況下，仍然能夠將96%的工況2 樣本標注出來，且時間開銷較TCM-KNN 方法大大減少。究其原因，是SVDD 方法將問題轉化為了不等式約束下二次函數尋優問題，其計算復雜度不再取決于空間維數，而是取決于樣本數，尤其是樣本中的支持向量數，這大大提高了運算速度，并且能夠有效解決特征參數的高維問題。

2）最近鄰參數k 的選取對TCM-KNN 方法有較大影響，在實際應用中，應該根據具體情況進行選擇。

3.3 低信噪比情況檢測結果

為測試不同信號干擾程度下TCM-SVDD 方法的性能，本文通過在采集的時域數據中人工加入白噪聲來模擬實現不同的信噪比，并將其與SVDD 方法和TCM-KNN 方法進行比較。數據處理方式與3.1 節相同，正確標注率和錯誤標注率的定義與3.2 節相同。SNR=5，0，-5 dB 這3 種情形下的檢測結果如表3 所示。

表3 不同信噪比條件下檢測結果Tab.3 Test results of different SNR

不難發現，隨著信噪比的降低，3 種方法的檢測準確率均出現了下降，尤其是當SNR=-5 dB時，此時白噪聲信號的能量已超過真實信號能量，真實信號已完全湮沒在白噪聲信號中，而此時TCM-SVDD 方法的正確標注率仍能達到86%，錯誤標注率為5%，明顯優于SVDD 方法和TCM-KNN 方法。

3.4 訓練樣本中混有非目標類樣本的檢測結果

以工況1 模擬目標類樣本，工況3 模擬非目標類樣本。從工況1 中選取50 個樣本與工況3 中的9 個樣本共同組成訓練樣本集，模擬訓練樣本集中存在非目標類樣本的情況。從工況1 和工況3中各選取100 個樣本組成測試樣本集，分別用TCM-SVDD 方法和TCM-KNN 方法進行自動標注。通過表2 可知，對于TCM-KNN 方法，當最近鄰參數k=4 時錯誤標注率為0，所以取k＝4 且置信水平設為95%。當訓練集中包含工況3 的樣本個數從0～9 變化時，對測試集樣本中目標類樣本的準確標識率結果如圖2 所示。

圖2 訓練集中非目標類樣本數量對標識準確率的影響結果Fig.2 Influence of the number of non-objective samples in the training set on the label right rate

從圖2 中可以看出，TCM-KNN 方法對于訓練集中包含非目標類樣本的情況非常敏感，當訓練集中混合的非目標類樣本個數小于參數k 時，該方法能夠對測試樣本集中的目標樣本進行有效標注，但當訓練集中非目標類樣本的數量接近或大于參數k 時，TCM-KNN 方法將得到錯誤的標注結果。而本文提出的TCM-SVDD 方法在這種情況下仍能夠保持較好的性能，說明本文方法對訓練集質量的魯棒性較好。

4 結論

本文提出了一種新的異類樣本檢測方法，艙段模型試驗驗證了該方法的可行性。試驗結果表明：

1）本文提出的TCM-SVDD 方法在樣本類別標注準確率和時間花費方面優于常用的TCM-KNN 和SVDD 方法，在低信噪比情況下仍能取得較好的結果。

2）TCM-KNN 方法是求解待檢測樣本與訓練樣本集中最近鄰樣本的距離，作為奇異值的表征，如果訓練樣本集中含有異類樣本，該方法將無法得到正確的結果；而TCM-SVDD 方法對訓練樣本集質量的魯棒性更好，當訓練集中含有少量異類樣本時，也可以獲得很好的效果。

3）由于本文方法引入了直推置信機理論，在保證對異類樣本檢測準確性可控的情況下（通過合理設定置信水平1-δ 進行控制），本文方法可自動完成異類樣本的檢測，有效降低了對人工干預進行異類樣本標注的需求。

［1］吳國清，李靖，陳耀明，等. 艦船噪聲識別（Ⅰ）——總體框架、線譜分析和提?。跩］. 聲學學報，1998，23（5）：394-400.WU Guoqing，LI Jing，CHEN Yaoming，et al. Ship ra?diated-noise recognition（Ⅰ）—the overall framework，analysis and extraction of line-spectrum［J］. Acta Acustica，1998，23（5）：394-400.

［2］CHAPELLE O，VAPNIK V，BENGIO Y. Model selec?tion for small sample regression［J］. Machine Learn?ing，2002，48（1/3）：9-23.

［3］RAUDYS S J，JAIN A K. Small sample size effects in statistical pattern recognition：recommendations for practitioners［J］. IEEE Transactions on Pattern Analy?sis and Machine Intelligence，1991，13（3）：252-264.

［4］HAMAMOTO Y，UCHIMURA S，KANAOKA T，et al. Evaluation of artificial neural network classifiers in small sample size situations［C］//Proceedings of 1993 International Joint Conference on Neural Networks（IJCNN' 93-Nagoya），1993：1731-1735.

［5］UEDA N，NAKANO R. Estimating expected error rates of neural network classifiers in small sample size situations：a comparison of cross-validation and boot?strap［C］// Proceedings of IEEE International Confer?ence on Neural Networks，1995：101-104.

［6］TWOMEY J M，SMITH A E. Bias and variance of vali?dation methods for function approximation neural net?works under conditions of sparse data［J］. Systems，Man，and Cybernetics，Part C：IEEE Transactions on Applications and Reviews，1998，28（3）：417-430.

［7］LI Y，FANG B X，GUO L，et al. A network anomaly detection method based on transduction scheme［J］.Journal of Software，2007，18（10）：2595-2604.

［8］李洋，方濱興，郭莉，等.基于TCM-KNN 和遺傳算法的網絡異常檢測技術［J］. 通信學報，2007，28（12）：48-52.LI Yang，FANG Binxing，GUO Li，et al. Network anomaly detection based on TCM-KNN and genetic al?gorithm［J］. Journal on Communications，2007，28（12）：48-52.

［9］TAX D M J，DUIN R P W. Support vector domain de?scription［J］. Pattern Recognition Letters，1999，20（11）：1191-1199.

［10］VOVK V，GAMMERMAN A，SAUNDERS C. Ma?chine-learning applications of algorithmic randomness［C］//Proceedings of the Sixteenth International Con?ference on Machine Learning（ICML-1999）. Bled，Slovenia，1999：444-453.

［11］SAUNDERS C，GAMMERMAN A，VOVK V. Com?putationally efficient transductive machines［C］//Algo?rithmic Learning Theory. Springer Berlin Heidelberg，2000：325-337.