摘 要:無論是Fisher判別分析(FDA)還是基于核的FDA(KFDA),在小樣本情況下都會面臨矩陣的病態(tài)問題,正則化技術(shù)是解決該問題的有效途徑。為了便于研究正則化FDA與支持向量機(SVM)的關(guān)系,推導(dǎo)了一種正則化FDA的核化算法。將約束優(yōu)化問題轉(zhuǎn)換為對偶的優(yōu)化問題,得到了與SVM相似的形式,分析了該核化算法與SVM的聯(lián)系。針對Tenessee-Eastman(TE)過程的故障診斷結(jié)果表明,正則化KFDA的診斷效果明顯好于LS-SVM。
關(guān)鍵詞:正則化; Fisher判別分析; 核方法; 凸優(yōu)化; 支持向量機
中圖分類號:TP18文獻標(biāo)志碼:A
文章編號:1001-3695(2010)03-0897-02
doi:10.3969/j.issn.1001-3695.2010.03.024
Kernel form of regularized FDA and comparison study with SVM
YU Chun-mei, PAN Quan, CHENG Yong-mei, ZHANG Hong-cai
(College of Automation, Northwestern Polytechnical University, Xi’an 710072, China)
Abstract:Whereas small sample size (3S) problem will be arose in both FDA and KFDA. Regularized FDA is an effective solution for this problem. To study the comparison of regularized FDA and support vector machine (SVM), this paper derived a novel kernel form of regularized FDA, which transfered optimization problem with constraint to optimization problem in dual space. Obtained the kernel form which similar to SVM and gave the links with SVM. Simulation results for Tenessee-Eastman(TE) process show that regularized KFDA get better diagnosis effects than least squares SVM(LS-SVM).
Key words:regularization; Fisher discriminant analysis; kernel methods; convex optimization; SVM
0 引言
FDA是一種常用的線性分類算法,它通過尋找從原始空間到新空間的線性變換,使得變換后的數(shù)據(jù)類內(nèi)離散度最小、類間離散度最大,是一種在故障診斷、模式分類領(lǐng)域廣泛應(yīng)用的降維技術(shù)。雖然FDA具有概念簡單、易于實現(xiàn)的優(yōu)點,但其無法提取數(shù)據(jù)中的非線性關(guān)系。Mika等人[1]首先提出將核函數(shù)引入FDA,其基本思想是首先將數(shù)據(jù)從原始輸入空間非線性地映射到某一個高維的特征空間中,在高維特征空間中設(shè)計一個線性算法,并用滿足Mercer條件的核函數(shù)來代替內(nèi)積運算,從而推導(dǎo)出一個與樣本數(shù)有關(guān)、與樣本維數(shù)無關(guān)的優(yōu)化問題,這稱為線性問題的核化算法。只有推導(dǎo)出核化算法,才能將其應(yīng)用于實際程序。正是基于這個原因,許建華等人[2]給出了經(jīng)典線性算法的核形式。也有不少文獻將核化算法應(yīng)用于模式識別領(lǐng)域,取得了較好的效果[1,3]。但FDA和KFDA在離散度矩陣奇異(小樣本)時難以應(yīng)用,尤其是KFDA,其小樣本問題更為突出。對于多數(shù)工業(yè)過程來說,獲取各種工況的數(shù)據(jù)樣本通常是比較困難的,而且要耗費大量人力和財力。因此如何在數(shù)據(jù)量有限或者小樣本下取得較為滿意的結(jié)果,這是值得研究的課題。
正則化技術(shù)是為了專門處理該問題而提出來的數(shù)學(xué)方法,其作用是控制算法的泛化能力、提高數(shù)值計算的穩(wěn)定性、改善迭代算法的收斂性。O’Sullivan[4]的綜述中給出了不少正則化技術(shù)成功應(yīng)用的例子。對于正則化Fisher判別式的核化,典型的方法是轉(zhuǎn)換為廣義特征值問題的求解[5],但這種方法不方便研究其與SVM的關(guān)系。本文提出了一種將約束優(yōu)化問題轉(zhuǎn)換為對偶優(yōu)化問題的方法,便于研究其與支持向量機的關(guān)系。
已經(jīng)有不少學(xué)者對KFDA與其他核方法的關(guān)系進行了研究,Gestel等人[6]將KFD和LS-SVM統(tǒng)一在Bayesian框架下;Xu Jian-hua等人[7]推導(dǎo)了KFD、LS-SVM及KRR三者的關(guān)系;孫平等人[8]得出了核典型相關(guān)分析與KFD幾乎是完全等價的結(jié)論。這些文獻都是從不同核方法的解的形式而得出的結(jié)論。本文則從優(yōu)化問題本身理論上得出KFDA與SVM的關(guān)系,還以TE過程[9]故障0、故障1、故障2數(shù)據(jù)為例,給出正則化KFDA與SVM的故障診斷結(jié)果比較。
1 Fisher判別式的正則化
考慮兩類分類問題,樣本X={x1,x2,…,xl}。類1的樣本
數(shù)量為l1個,表示為{x11,x12,…,x1l1};類2的樣本數(shù)量為l2個,表示為{x21,x22,…,x2l2};輸出y=[y1,y2,…,yl]T;x1i,x2j,xk∈Rn,yk∈{±1},i=1,2,…,l1,j=1,2,…,l2,k=1,2,…,l,l1+l2=l。為了衡量類內(nèi)、類間數(shù)據(jù)的分離程度,定義類間離散度矩陣為
Sb=(m1-m2)(m1-m2)T(1)
類內(nèi)離散度矩陣為
Sw=∑l1i=1(x1i-m1)(x1i-m1)T/l1+∑l2i=1(x2i-m2)(x2i-m2)T/l2(2)
其中:m1、m2分別為兩類數(shù)據(jù)的均值向量,m1=1l1∑l1i=1x1i,m2=1l2∑l2i=1x2i。
FDA的任務(wù)是尋找從原始空間到新空間的線性變換w,使得wTSbw盡量大,同時wTSww最小,即FDA最大化Fisher準(zhǔn)則函數(shù)(廣義Rayleigh商)。
J(w)=wTSbwwTSww(3)
對高維數(shù)據(jù),類內(nèi)離散度矩陣Sw可能是病態(tài)的(如果l 針對該問題的一個有效解決方案是對Sw增加一個對角陣的方法,即對Fisher判別式進行正則化處理[7],問題重新描述為 maxw J(w)=wTSbwwT(Sw+μI)w(4) 考慮到FDA不能提取數(shù)據(jù)的非線性特征,其對應(yīng)的核化算法應(yīng)運而生。對于該問題,一般采用先將FDA核化,再正則化的策略。本文推導(dǎo)一種新的正則化FDA的核化算法。 2 正則化FDA的凸優(yōu)化解法 根據(jù)優(yōu)化理論,正則化Fisher判別式還可等價地由下式來描述: minw J(w)=wT(Sw+μI)ws.t. wTSbw=D(5) 考慮最大間隔分類器的約束條件 s.t. yi(〈w,xi〉-b)≥1,i=1,2,…,l(6) 將上式分開寫成等價的兩個式子 〈w,x1i〉-b≥1,i=1,2,…,l1〈w,x2i〉-b≥1,i=1,2,…,l2(7) 整理得wT(m1-m2)≥2(8) 即wTSbw≥4(9) 若將式(5)的約束條件用上式代替,其解即最優(yōu)超平面的方向不變(不考慮偏置項b),而且因為不等式約束解滿足KKT條件,因而具有稀疏性。優(yōu)化問題重新描述為 minw J(w)=12wT( Sw+μI)w(10) s.t. yi(〈w,xi〉-b)≥1,i=1,2,…,l 下面仿照支持向量機的方法求解上述優(yōu)化問題的核化算法。設(shè)Sw=Sw+μI,w=S1/2ww,xi=S-1/22xi,則有 12wT(Sw+μI)w=12(S1/2ww)T(S1/2ww)=12wTw(11) 和 〈w,xi〉=〈S1/2ww,S-1/2wxi〉=〈w,xi〉(12) 式(10)的優(yōu)化問題重新寫成 minw J(w)=12wTw s.t. yi(〈w,xi〉-b)≥1,i=1,2,…,l 上式可轉(zhuǎn)換為對偶優(yōu)化問題 maxα L(α)=∑li=1αi-12∑li=1αiαjyiyj〈xi,xj〉(13) s.t. ∑ni=1yiαi=0,αi≥0 這樣,根據(jù)Schlkopf等人的理論[8],可將上式的點積運算用核函數(shù)代替,從而得到正則化FDA的核化算法,分類函數(shù)的形式可用線性分類器或者Bayes分類器。 式(10)的實質(zhì)是對分類間隔和類內(nèi)離散度矩陣指標(biāo)的折中,這與Xiong Tao等人[10]提出的混合LDA/SVM方法等價;μ的大小決定了正則作用的強弱,也即對結(jié)構(gòu)風(fēng)險控制的程度,μ越大,算法的泛化能力越強。硬間隔SVM與式(13)在類內(nèi)離散度矩陣為單位陣且取μ=0時等價;或者也可以將算法看成經(jīng)驗風(fēng)險為類內(nèi)離散度矩陣的SVM,兩者的折中由正則項調(diào)節(jié)。 3 仿真比較 以TE過程故障0、故障1、故障2數(shù)據(jù)為例,采用核Bayes分類函數(shù)直接進行三類故障的診斷[11],在正則參數(shù)取0.01時的最優(yōu)核參數(shù)c、降維矩陣維數(shù)a及相應(yīng)的誤分率如表1所示。最優(yōu)參數(shù)同樣采用網(wǎng)格法選取,其中核參數(shù)從50變化到2 000,間隔50;降維矩陣維數(shù)從2變化到17,間隔3。特征的選擇另外詳細描述,選擇的結(jié)果是變量44、47和1。表1中誤分率代表漏報、誤警及錯分之和的百分比,ss代表樣本數(shù)量。 表1 正則化KFDA的最優(yōu)參數(shù)及誤分率(μ=0.01) 最優(yōu)參數(shù)ss=20ss=30ss=40ss=50ss=70ss=100ss=200 c1450165085016009002000150 a2222252 誤分率/%2.081.461.091.151.091.041.09 作為核方法的最早應(yīng)用,近十多年來,SVM得到了飛速的發(fā)展,尤其被公認(rèn)為對解決小樣本問題特別有效。為了比較KFDA與SVM的診斷效果,表2中列出了LS-SVM在不同樣本下的最優(yōu)參數(shù)及誤分率。這里的程序采用陸振波博士公開的LS-SVM代碼[12]。最優(yōu)參數(shù)同樣采用網(wǎng)格法選取,經(jīng)多次仿真,選擇核參數(shù)在0.5~50變化,間隔0.5;折中參數(shù)在0.01~0.2變化,間隔0.01。特征的選擇與KFDA相同,二類到多類的編碼采用最小誤分率方案。 表2 SVM的最優(yōu)參數(shù)及誤分率 最優(yōu)參數(shù)ss=20ss=30ss=40ss=50ss=70ss=100ss=200 核參數(shù)c45.535210.5 折中參數(shù)0.20.110.110.080.20.180.19 誤分率/%42.0341.2540.4720.363.131.511.56 比較表1和2可以看出,無論正則化, KFDA的診斷效果都明顯優(yōu)于LS-SVM,尤其在小樣本情形。 4 結(jié)束語 算法首先對輸入數(shù)據(jù)進行線性變換,變換后再映射到特征空間,當(dāng)μ→∞時,算法與硬間隔SVM等價,其實質(zhì)是對分類間隔和類內(nèi)離散度矩陣指標(biāo)的折中,這與Xiong Tao等人提出的混合LDA/SVM方法等價;μ的大小決定了正則作用的強弱,也即對結(jié)構(gòu)風(fēng)險控制的程度,μ越大,算法的泛化能力越強。針對TE過程的仿真結(jié)果表明,正則化KFDA診斷效果明顯好于LS-SVM,尤其在小樣本情形。需要說明的是,由于本文沒有對SVM進行深入的研究,所用的是最簡單的LS-SVM方法,不能排除在SVM算法改進后效果好于正則化KFDA的情況。 參考文獻: [1]MIKA S, RATSCH G, WESTON J, et al. Fisher discriminant analysis with kernels[C]//Proc ofIEEE Signal Processing Society Workshop. 1999:41-48. [2]許建華,張學(xué)工. 經(jīng)典線性算法的非線性核形式[J]. 控制與決策, 2006,21(1):1-12. [3]YE Jie-ping, CHEN Jian-hui, JI Shui-wang. Discriminant kernel and regularization parameter learning via semidefinite programming[C]//Proc of the 24th International Conference on Machine Learning. 2007:1095-1102. [4]O’SULLIVAN F. A statistical perspective on ill-posed inverse problems[J]. Statistical Science, 1986,1(4):502-527. [5]CHEN W S, YUEN P C, HUANG J, et al. Kernel machine-based one-parameter regularized Fisher discriminant method for face recognition[J]. IEEE Trans on Systems, Man and Cybernetics, 2005,35(4):659-669. [6]GESTEL T V, SUYKENS J A K, LANCKRIET G, et al. Bayesian framework for least squares support vector machine classifiers, Gaussian processes and kernel Fisher discriminant analysis[J]. Neural Computation, 2002,14(5):1115-1147. [7]XU Jian-hua, ZHANG Xue-gong, LI Yan-da. Kernel MSE algorithm: a unified framework for KFD, LS-SVM and KRR[C]//Proc ofInternational Joint Conference on Neural Networks. New York:IEEE Press, 2001:1486-1491. [8]孫平,徐宗本,申建中. 基于核化原理的非線性典型相關(guān)判別分析[J]. 計算機學(xué)報, 2004,27(6):789-795. [9]BRAATZ R. Software[EP/OL]. http://brahms.scs.uiuc.edu. [10]XIONG Tao, CHERKASSKY V. A combined SVM and LDA approach for classification[C]//Proc of International Joint Conference on Neural Networks. 2005:1455-1459. [11]YU Chun-mei,PAN Quan,CHENG Yong-mei,et al.A kernel-based Baye-sian classifier for fault detection and classification[C]//Proc of the 7th World Congress on Intelligent Control and Automation. 2008:124-128. [12]陸振波. 四種支持向量機工具箱[EP/OL]. http://luzhenbo.88uu.com.cn.