陳君, 彭小奇, 唐秀明, 宋彥坡, 劉征
(1.中南大學信息科學與工程學院,湖南長沙410083;2.湖南第一師范學院信息科學與工程系,湖南長沙,410205;3.湖南科技大學信息與電氣工程學院,湖南湘潭411201)
支持向量數據描述方法(support vector data description,SVDD)是一種源于統計學習理論和基于支持邊界對數據分布進行描述的方法[1-2],它通過構建圍繞目標數據的最小超球體邊界將目標數據包絡為一個封閉的超球體,而使非目標數據盡可能遠離超球體。SVDD在數據預處理、分類、異常樣本檢測和數據建模等領域有重要應用,是機器學習和模式識別領域的研究熱點之一[3-4]。Tax D M J,Juszczak P[5]提出使用核化的主元分析方法(核白化)作為SVDD的數據預處理方法,確保在所有維度上有統一的數據分布方差,以得到緊致的數據描述;Bo Liu,Yanshan Xiao 等[6]通過給每個正常樣本引入一個置信度來表征樣本屬于正常類的可能性,從而產生集成置信度的偽訓練集,再通過偽訓練集來訓練SVDD;文獻[7]引入密度權重概念,通過集成密度權重的新SVDD方法,使高密度區域的數據得到重視,以更好地描述不同區域的數據分布;Rehman Z,Li T等用邊界更靈活的超橢球[8]及最小體積閉包橢球[9]替代SVDD中的最小超球。這些方法都假定整體數據具有單一分布特性,故都使用全局相同的折衷參數,不適用于處理具有多模態性和局部分布非同一性的數據,即樣本數據具有不同分布特征時。文獻[10]提出了一種新穎的位置正則化的支持向量域描述,通過計算特征空間中每個數據點與其他數據點的距離分配給每個數據點不同的權重,但對折衷參數的調整只考慮了數據整體分布,忽略了決策邊界與局部數據分布密切相關的特點。文獻[11]提出了 LSVR(localized support vector regression)方法,將反映訓練樣本間變化趨勢的信息包含于其目標函數及約束條件中,以此自適應調整ε-不敏感帶的寬度,使超平面更為合理并提高模型的性能。
本文針對傳統的SVDD方法不適用于處理具有多模態性和局部分布非同一性數據的問題,借鑒論文[10-11]如何得到更平滑和緊致邊界的基本思路,提出一種局部優化邊界的SVDD方法(support vector data description with local optimization boundary,LOB-SVDD),通過求取局部數據樣本的分散程度獲取支持向量機算法中折衷參數的局部調整系數,以此優化求解決策邊界函數,達到對具有多模態性和局部分布非同一性數據的更有效的描述。

式中:ξi為松弛變量;C為折衷參數,超球體Ω的邊界直接依賴于C的取值。
式(1)的優化問題的解可通過求解式(2)所示的拉格朗日泛函的鞍點給出:

其中,Lagrange 乘子 μi≥0,αi≥0,i=1,…,n。
令L對r,a和ξi的偏導數分別為0,可得

由式(5)可得 αi=C - μi,結合 μi≥0 可得

將式(3)、式(4)、式(5)、式(6)代入式(2),并將F中某數據點的范數φ(xi=〈φ(xi),φ(xi)〉代以核函數,即 K(xi,xi)=〈φ(xi),φ(xi)〉,可得式(2)的對偶問題:


根據文獻[12]給出的離群點定義,圖1中,局部樣本分散程度低的區域γ中的樣本點應被更緊密的邊界函數包裹,而其外圍的樣本點?(xsus1)為離群點,但若認為區域γ與樣本分散程度高的區域β具有相同的樣本分布特征,則樣本點?(xsus1)將被誤認為正常樣本點,即產生異常樣本被劃為正確類(false positive,FP)的現象。對區域β,其邊界函數的緊密程度應被放松,因樣本點?(xsus2)與區域β內的樣本具有相同的分布特性,故其應為正常樣本,若邊界函數取值不當,則樣本點?(xsus2)可能被劃為離群點,即產生正確樣本被劃為異常類(False negative,FN)的現象。顯然,FP和FN現象的出現是因為傳統的SVDD認為樣本集具有單一分布特性,忽略了不同樣本子集可能具有不同分布特性所造成的。

圖1 特征空間SVDD邊界數據分布特性Fig.1 Distribution features of SVDD boundary data in feature space
SVDD的特征空間邊界特性如圖1所示。
(1)若映射到特征空間F的樣本點φ(xi)在超球體Ω=(a,r)的內部,則ξi=0,由原始優化問題式(1)的約束條件可得‖φ(xi)-a‖2<r2,據Karush-Kuhn-Tucker(KKT)最優化條件可得

則ai必等于0,再由式(5)推出μi=C。
(2)若映射到特征空間F的樣本點φ(xi)在超球體Ω=(a,r)的表面,則 ξi=0,由原始優化問題(1)的約束條件可得‖φ(xi)-a‖2=r2,據KKT最優化定理,拉格朗日參數不為零的必要條件是對應的不等式約束在解中都是等式形式?,F原始優化問題(1)的約束條件以等式出現,所以參數αi,μi不為0;在保證式(5)成立的條件下可得

(3)若映射到特征空間F的樣本點φ(xi)在超球體Ω=(a,r)的表面外,則ξi>0。由原始優化問題(1)的約束條件可知‖φ(xi)-a‖2>r2,由式(2),據KKT最優化條件可得

結合條件 ξi>0,得 μi=0,再由式(5)可得αi=C。
(4)據邊界函數的條件式(11),以及KKT最優化條件式(3),折衷參數應滿足C>。
由以上分析可知,由SVDD的邊界函數式(9)所確定的SVDD的最小超球體對折衷參數C的選擇很敏感[9]:當C增大時,式(9)的取值增大,離群點數目減少;C減小時,式(9)的取值減小,離群點數目增加。由于C的設置與數據的分布密切相關,故為獲得更緊致和平滑的邊界函數,有必要對折衷參數C予以優化。
由1.2節分析知,SVDD在特征空間的決策邊界函數直接受控于折衷參數C,傳統的SVDD[1]的邊界能較好包絡目標數據,但當樣本數據體現出多模態特性,即樣本數據具有不同分布特征時,若仍用唯一的折衷參數C去求取決策邊界函數,則所求結果將是次優化的決策邊界,以其為基礎建立的數學模型難以正確反映建模對象在空間不同區域的局部變化規律。顯然,對不同模態的數據樣本,折衷參數C應取不同值才能獲得全局最優決策邊界。為此,提出如下的LOB-SVDD方法。
對映射到高維特征空間F的數據點φ(xi),運用K近鄰方法找到其K個近鄰數據φ(xiN)∈F,N=1,…,k,構成局部數據集 NNK(xi)={φ(xi),φ(xiN),N=1,…,k},其局部期望中心為

局部數據的分散程度可表示為

其中,

核函數 K(x,x)選用高斯徑向基核函數,因K(x,x)=〈φ(x),φ(x)〉=1,故

由式(14)有

式中,M為近鄰數目,M=1,…,k。把式(18)代入式(17)得

同理得

把式(19)、式(20)代入式(15)得局部數據的分散程度:

定義折衷參數局部調整系數w(xi)為

考慮數據樣本局部分布的支持向量邊界函數優化問題可表示為

采用與求解優化問題(1)類似的方法,引入Lagrange 乘子 μi≥0,ai≥0,i=1,…,n。式(23)的對偶形式為

同樣,通過利用KKT條件可以得到問題(23)關于a和r的最優解:

從式(24)的約束條件可見,決定邊界函數的支持向量的上邊界不再是唯一值C,而是受到局部調整系數w(xi)的控制。若邊界內的K近鄰數據點分散度小,則w(xi)的存在將減小局部決策邊界區域,否則將擴大局部決策邊界區域,從而使決策邊界函數最優化。
為驗證本方法,從常用機器學習數據庫UCI(http://archive.ics.uci.edu/ml/datasets.html)中選取 4種有代表性的用于測試分類算法性能的數據集,取其中一類為目標數據集,其余類為異常類數據集。數據取值全部歸一化到[-1,1]之間,其具體描述見表1。同時,為了使實驗具有直觀性,人工構造具有不同分布特性的數據集Data來進行訓練和測試。人工訓練集由均值 u1=[5;7],協方差矩陣為∑1=和均值為u=[8;12],協方差矩陣為的120個兩維正態隨機數構成;測試集由同樣均值u1,u2和協方差矩陣∑1,∑2的120個兩維正態隨機數以及其邊緣外側分布的20個離群點構成。核函數選用高斯徑向基核函數k(xi,xj)=

表1 標準數據集的構成特點Table 1 Details of training and testing datasets
考慮單分類問題,其可能的分類結果如表2所示,離群點檢測評價指標[6]主要通過假正率(false positives rate,FPR)和假負率(false negatives rate,FNR)最小化來衡量。
FPR,FNR分別定義如下:

為實現SVDD單分類器假正率和假負率的最小化,通過交叉驗證法進行參數優化;近鄰值K的選取,在很大程度上與數據樣本的局部分散程度的具體情況相關,目前還沒有即定的準則來指導K的選取,本文方法在實驗過程中將K的取值設在樣本數目10到30之間,在不同的K值下找到一個較優的K值。在最優化參數條件下,本文LOB-SVDD方法與傳統的SVDD對測試樣本的FPR和FNR性能比較如表3所示。
為更直觀比較LOB-SVDD方法與傳統的SVDD方法對具有不同分布特性數據的決策性能,對人工數據集沒有進行歸一化處理,其決策邊界結果如圖2所示。可見,在數據分散程度小的區域,LOB-SVDD方法所確定的決策邊界被緊縮,從而能減少FP現象,提高對正常樣本的識別率;在數據分布的過渡區域,LOB-SVDD方法所確定的決策邊界能依據數據分布特點更平滑地包裹正常樣本集;在數據分散度較大的區域,LOB-SVDD方法所確定的決策邊界被適當擴大,從而能減少FN現象。因此,與傳統的SVDD方法相比,本文LOB-SVDD方法能得到更加優化的決策邊界。

表3 LOB-SVDD與傳統SVDD的性能比較Table 3 Performance comparisons between LOB-SVDD and SVDD

圖2 在人工數據傳統SVDD與LOB-SVDD的決策邊界Fig.2 Decision boundary of SVDD and SVDD in simulated dataset
銅锍吹煉是硫化銅精礦火法冶煉工藝流程中的最后工序,是一個典型的復雜工業過程,主要由S1和S2兩個造渣期和B1和B2兩個造銅期分階段組成[13-14]。在S1期加入適量的銅锍和熔劑鼓風吹煉,銅锍中的FeS優先氧化,生成FeO并與加入的石英熔劑反應生成爐渣。當銅锍中的FeS氧化殆盡時,S1期結束,倒出爐渣,根據出渣量和轉爐的容量再次加入銅锍,開始第二個造渣期—S2期的吹煉。在造銅期B1和B2期,Cu2S氧化生成Cu2O并進而與未被氧化的Cu2S發生交互反應,產出金屬銅。未通過造渣脫除的Fe及造銅期加入的冷料中所含Fe被氧化生成Fe3O4,Fe3O4與Cu2O等形成底渣,由于底渣含銅高,故吹煉結束后,該爐次的底渣并不排除,而是留待下一爐次繼續吹煉。吹煉過程發生的硫化物氧化反應和FeO與熔劑的造渣反應,全部是放熱反應,對耐火磚爐襯不斷的侵襲,引起生產過程狀態的變化,在熱量富余的情況下需要投入冷料以避免熔體溫度過高。
因有色冶金過程數據受采集環境和采集手段的影響,一般都需要經過數據預處理才能用于基于數據驅動的過程優化與決策控制。深入分析轉爐吹煉過程機理,可知其是典型的多模態、間歇式工業過程,給其數據的噪聲和離群值處理帶來很大困難,為此,應用LOB-SVDD方法對來自實際生產過程的數據進行數據離群點處理。
取某銅冶煉廠1#爐一個爐齡周期中217爐次的銅锍吹煉原始數據,每個爐次的數據中均包括兩個造渣期S1和S2、兩個造銅期B1和B2共42個屬性數據;根據銅锍吹煉工藝機理和分析目的對有關屬性進行選擇和合并,剔除有缺失數據的樣本,構成由每一爐次10個屬性數據構成的1#爐一個爐齡周期的原始樣本集,數據取值全部歸一化到[-1,1]之間,其具體特征見表4。根據吹煉機理,渣含Cu≤5%為正常數據集,所以在渣含Cu≤5%的129個原始樣本中隨機抽取100個構成正常數據樣本集,用于訓練決策邊界函數,再從中隨機抽取70個樣本和渣含Cu>5%的85個樣本構成測試集。

表4 銅锍吹煉數據特征表Table 4 Details of Copper-Matte Converting datasets
在訓練階段,以正常命中率FNR最小為目標,采用交叉驗證法進行參數優化,其中核參數為0.25,折衷參數為0.02。分別使用傳統SVDD和本文LOBSVDD方法,通過樣本點到球心之距離比較,如圖3所示,兩種方法的偽命中率FP均為0,即都能對渣含Cu>5%樣本進行正確識別,但在渣含Cu≤5%的樣本中,由于銅锍吹煉過程的多模態性以及硫化物氧化反應和FeO與熔劑的造渣反應放出大量熱,爐襯耐火材料因過度受熱而加快損壞,引起吹煉工藝過程外在環境的變化,數據的分布特性因而發生改變,傳統SVDD的FNR(正確樣本被劃分異常類)達到0.285 7,而本文LOB-SVDD方法的FNR為0.171 4。

圖3 傳統SVDD與LOB-SVDD方法在銅轉爐吹煉樣本離群點檢測性能對比Fig.3 Performance comparisons between LOB-SVDD and SVDD at detecting outliers in copper converter samples
1)本文提出了一種基于局部優化邊界的全局支持向量數據描述(LOB-SVDD)方法。首先求取局部數據樣本的分散程度,然后基于數據樣本的局部分散程度確定支持向量機算法中折衷參數的局部調整系數,最后通過求解支持向量機獲得優化決策邊界函數。利用所求取的優化決策邊界函數可實現數據分類、離群點檢測和數據建模等。
2)利用UCI數據集、人工雙模態數據集及實際生產運行數據集進行的驗證結果表明,與傳統方法相比,LOB-SVDD方法可獲得更優的決策邊界,作為分類器有更低的假正率和假負率,能有效檢測離群點,剔除異常樣本,實現數據潔凈化,適用于數據分布具有多模態性和局部分布具有非同一性的數據描述。
[1]TAX D M J,DUIN R P W.Support vector domain description[J].Pattern Recognition Letters,1999,20(11):1191-1199.
[2]TAX D M J,DUIN R P W.Support vector data description[J].Machine Learning,2004,54(1):45-66.
[3]方景龍,王萬良,王興起,等.求解多示例問題的支持向量數據描述方法[J].電子學報,2013,41(4):763-767.FANG Jinglong,WANG Wanliang,WANG Xingqi,et al.Support vector data description method for solving multiple instance problems[J].Acta Electronica Sinica,2013,41(4):763 -767.
[4]曲建嶺,孫文柱,邸亞洲,等.面向新異檢測的啟發式約減支持向量數據描述[J].控制與決策,2014,29(10):1783-1787.QU Jianling,SUN Wenzhu,DI Yazhou,et al.Heuristic reduction support vector data description for novelty detection[J].Control and Decision,2014,29(10):1783-1787.
[5]TAX D M J,JUSZCZAK P.Kernel whitening for one-class classification[J].International Journal of Pattern Recognition and Artificial Intelligence,2003,17(03):333-347.
[6]LIU B,XIAO Y,CAO L,et al.SVDD-based outlier detection on uncertain data[J].Knowledge and Information Systems,2013,34(3):597-618.
[7]CHA M,KIM J S,BAEK J G.Density weighted support vector data description[J].Expert Systems with Applications,2014,41(7):3343-3350.
[8]REHMAN Z,LI T,YANG Y,et al.Hyper-ellipsoidal clustering techniquefor evolving data stream[J]. Knowledge-Based Systems,2013.
[9]MIZUTANI T.Ellipsoidal rounding for nonnegative matrix factorization under noisy separability[J].Journal of Machine Learning Research,2014,15:1011-1039.111.
[10]WANG C D,LAI J H.Position regularized support vector domain description[J].Pattern Recognition,2013,46(3):875 -884.
[11]YANG H,HUANG K,KING I,et al.Localized support vector regression for time series prediction[J].Neurocomputing,2009,72(10):2659 -2669.
[12]CHANDOLA V,BANERJEE A,Kumar V.Anomaly detection:A survey[J].ACM Computing Surveys(CSUR),2009,41(3):15.
[13]SONG Y,PENG X,DONG W,et al.Data driven optimal decision making modelling for copper-matte converting process[J].Journal of Computational Information Systems,2011,7(3):754 -761.
[14]KING,MATTHEW J.,KATHRYN C.Sole,and William GI Davenport.Extractive metallurgy of copper.Elsevier,2011.