張安安,鄭 萍,方 琳,彭嵩松
(1.江西省科學院能源研究所,330029,南昌;2.南昌師范學院,330032,南昌;2.江西警察學院刑事科學技術系,330100,南昌;4.井岡山大學電子與信息工程學院,343009,江西,吉安)
一種基于鄰域樣本密度的SVDD樣本剪輯方法及其應用
張安安1,鄭 萍2,方 琳3,彭嵩松4
(1.江西省科學院能源研究所,330029,南昌;2.南昌師范學院,330032,南昌;2.江西警察學院刑事科學技術系,330100,南昌;4.井岡山大學電子與信息工程學院,343009,江西,吉安)
通常對于大數據的學習問題,需要選擇一個訓練集的子集來進行學習,以降低問題本身的時間和空間復雜性。有很多學者從樣本的近鄰出發來選擇樣本,根據樣本的近鄰特點尋找位于靠近分類面的樣本。對于SVDD(Support Vector Data Description)算法而言,只有位于數據集邊緣區域的樣本對學習結果有影響。提出了通過估計樣本領域樣本概率的方式來判斷樣本在數據集里的位置,位于數據集邊緣區域的樣本概率要明顯小于位于數據集內部樣本的概率,通過刪除位于數據集內部的樣本可以大大降低數據集的規模,在不降低算法的性能時,降低訓練模型的復雜度,提高識別速度和算法的學習速度。并在實時性要求比較高的電能擾動信號識別方面,得到了很好的應用。
訓練集;樣本;SVDD;樣本剪輯;電能質量擾動信號識別
與SVM(Support Vector Machine)類似,一分類SVDD(Support Vector Data Description)[1-2]根據結構化風險最小化原理,通過求一個包含盡可能少的奇異點數據,并且體積盡可能小的球體來描述樣本數據,即求滿足下式的R和a:
s.t.:‖xi-a‖≤R2+ξi,ξi≥0
(1)
將式(1)化為Wolf對偶……