施久玉 姜蘇迪
(哈爾濱工程大學 理學院,哈爾濱 150001)
核主成分分析(KPCA)的方法是近年來才提出的一種特征提取方法,主要利用了核函數對數據進行降維的思想。通常我們所用的主成分分析方法是在輸入空間進行特征提取然后再進行降維,而核主成分分析是在特征空間進行內積運算后提取特征值和特征向量,然后再進行降維。
KPCA的基本思想是存在一個映射,使得樣本數據被映射到特征空間中,且特征空間的維數很高,通過在特征空間中進行內積計算,從而不需要知道具體的映射是怎樣的就可以做到特征提取,算法比較簡單,容易操作。
設輸入空間Rp中的n個樣本數據向量xk(k=1,2,…,n),xk∈Rp。

Rp中的PCA求解特征方程
λv=Cv
獲得貢獻率較大的特征值(對應著較大的特征值)及與之對應的特征向量。
引入非線性映射函數φ,使輸入空間Rp中的樣本數據向量xk(k=1,2,…,n)變換為特征空間F中的樣本數據向量φ(xk)(k=1,2,…,n),并假設

則在特征空間F中的協方差矩陣為

特征空間F中的PCA是求解特征方程

中的特征值λ和特征向量V∈F{0},進而有

其中,v可由φ(xi),i=1,2,…,n線性表示出,即

得


k=1,2,…,n
定義核函數
K(xi,xj)=φ(xi)φ(xj)
得
nλKα=K2α
即
nλα=Kα

對于主成分的選取,只需要計算一個測試樣本數據向量φ(x)在F空間向量vk上的投影

類似于PCA中的綜合指標,稱為核主成分分析(KPCA)的第k個主成分。KPCA的綜合評價函數定義為


在KPCA中,不需要知道映射φ的具體形式,就可以進行特征提取,最后都會轉化為求Kij=(φ(xi)·φ(xj)),所以選擇不同的核函數,可能會得到不同的結果,因而核函數的選擇是非常重要的,常見的核函數有:
(1)多項式核:K(x,y)=[s(x·y)+c]d


(4)神經網絡核:K(x,y)=tanh[s(x·y)+c]
另外,還有一些核函數,例如傅里葉級數核函數、樣條核函數以及張量積核函數等[2~3]。
當選取核函數解決數據問題時,通常采用的方法有:一是利用Cross-Validation方法,選取不同的核函數,找出結果誤差最小的核函數,這個稱之為有效核函數;二是應用專家通過多次試驗而給定的核函數;三是利用由Smits等人提出的混合核函數方法,這個方法有效地避免了單一核函數的廣譜或分散特性,也為關于如何構造核函數的工作起到了一個開創作用。
下面是2008年某省某市機械設備制造業的主要經濟指標,如表1
表1

企業指標工業總值(萬元)工業產品銷售率(%)產品銷售收入(萬元)利潤總額(萬元)利稅合計(萬元)兩項資金占用(萬元)企業11404692.14129427309001800企業2291896.59281953162742企業3700104.13540136357企業41808296.0016676186419002296企業58011113.008311825826532企業61999100.0019994453292企業789391.2081491451企業81016099.411010058810131032企業9179798.79157413414097企業102612100.0011899381457160

綜上,多項式核函數具有良好的全局性,局部性比較差;高斯核函數的局部性比較好,它的外推能力隨著σ的增大而慢慢降低;神經網絡核函數有一定的局限性,式中s,c只對某些值滿足Mercer定理。
Smits G F和Jordon E M在2002年提出的混合核函數方法,該方法較前面提到的兩個方法更科學。將不同的核函數結合起來后會有更好的特性,這是混合核函數方法的基本思想[4]。
現在來構造混合核函數,前面提到多項式核函數全局性好,局部性差,高斯核函數局部性較好,外推能力差,可以將這兩個核函數混合在一起組成新的混合核函數:
ω為調節兩個核函數之間的權數。
針對2008年某省某市機械設備制造業的企業經濟指標來確定s,c,d,σ的取值,前面已經確定了當核函數選為多項式核函數和高斯核函數時,s,c,d,σ的合理取值為s=0.05,c=0,d=5,σ=50。
采用MPEC模型來優化選取核參數確定ω=0.8

表2選取混合核函數時的特征值和貢獻率
如表2,第一主成分貢獻率為99.65%。

表3選取三種不同核函數時的主成分貢獻率
從表3我們可以看出,當選取混合核函數時,第一主成分貢獻率高于由多項式核函數算出的值,也就是針對此數據應用混合核函數要比多項式核函數更為恰當。
由于混合核函數的第一主成成分的貢獻率已達到99.65%,也就是說的貢獻率最大,工業總產值占了主導地位。
本文采用了混合核函數的核主成分分析法分析了2008年我國某省某市機械設備制造業的一些企業的經濟效益,結果表明混合核函數的第一主成分貢獻率高于單一核函數的主成分貢獻率,具有較好的明確的分析效果,可以更好地分析企業經濟效益,得到的結果與實際情況完全吻合。該市在“十二五”規劃中加大了結構調整力度,優先發展重點投資高端制造業、新型企業。
[1]朱幫助,林健.區域經濟社會發展綜合評價與預測[J].遼寧工程技術大學學報,2009,28(1):123~126.
[2]鄧乃揚,田英杰.數據挖掘中的新方法——支持向量機[M].北京:科學出版社,2004:98~100.
[3]李國正,王猛,曾華軍.支持向量機導論[M].北京:電子工業出版社,2004:30~39.
[4]劉明.支持向量機中sigmoid核函數的研究[D].西安:西安電子科技大學學位論文,2009.
[5]Smits G F,Jordan E M.Improved SVM Regression using Mixtures of Kernels.Proceedings of the 2002 International Joint Conference on Neural Net works,2002.
[6]Dong Yulin,Xia Zunquan,Wang Mingzheng.An MPEC Model for Selecting Optimal Parameter in Support Vector Machines.The First International Symposium on Optimization and Systems Biology,2007:351~357.
[7]郭小明.支持向量機中核函數的選取方法的研究[D].大連:遼寧師范大學學位論文,2008.