摘要:簡要介紹了Bayes判別分析模型的特點及存在的問題,概括了獨立成分分析(ICA)的特點及發展現狀,提出了基于ICA與Bayes的判別分析模型——IBD模型。該模型首先利用ICA的方法將相關性數據指標轉換為互相獨立的數據指標,并通過卡爾曼濾波方式濾去高頻數據,有效地去除了噪聲,最后利用Bayes方法對轉換的數據進行判別分析。實驗結果表明,當數據之間存在相關關系時,IBD模型的判別分析效果要優于Bayes與Fisher判別分析模型。
關鍵詞: 獨立成分分析; 貝葉斯; 相關關系
中圖分類號:O212; TP301.6文獻標志碼:A
文章編號:1001-3695(2007)08-0058-02
在數據挖掘領域中,人們經常要對某一研究現象的歸屬作出判斷,以發現有價值的信息[1]。例如在醫療診斷上,根據病人的各項檢查指標來判斷病情或病因;在企業客戶關系管理系統中,根據客戶的收入、年齡、購買企業產品的總價值、次數等來判斷客戶所屬類別(如重點客戶、非重點客戶等);在金融學中,根據上市公司的財務狀況指標來判定該公司的股票是否有投資價值等。這些都是數據挖掘中判別分析方法可以解決的問題。
數據挖掘中的判別分析是在研究對象分類已知的情況下,根據樣本數據推導出一個或一組判別函數,同時指定一種判別規則用于確定待判別樣本所屬類別,使錯誤率最小的一種數據分析方法。判別分析按判別準則不同分為距離判別、費歇爾(Fisher)判別、貝葉斯(Bayes)判別等。Fisher判別準則是根據線性Fisher函數值進行判別,使用此準則要求各組變量的平均值有顯著差異。Bayes判別準則是根據各樣本空間的先驗概率,使誤判的平均損失最小而進行判別,一般用于多組判別問題。使用此準則要求各組變量滿足多元正態分布、各組方差矩陣相等、各組變量平均值有顯著差異三個假設條件。實際上很多數據并不滿足多元正態分布,因此一般意義上的Bayes判別分析方法很難進行實際的應用。
獨立成分分析(ICA)是近幾年才發展起來的一種新的統計方法。其目的是為非高斯分布數據找到一種線性變換,這樣成分與成分之間是統計獨立的或盡可能獨立的。ICA最早由Jutten等人[2]提出, Kocsor和Shi等人[3,4]對Fast ICA算法進行了相關研究。支持向量機(SVM)由Cotes等人于1995年首先提出[5],是近年來機器學習的一項重大成果。SVM基于結構風險最小化原理,與傳統神經網絡相比,它不僅結構簡單,而且各種技術性能尤其是泛化能力明顯提高,是求解模式識別和密度函數估計問題的一種有效方法。ICA方法的興起及SVM技術為克服一般意義上Bayes判別分析方法的缺陷提供了基礎。
1標準ICA模型及Fast ICA算法
算法最后給出的向量g(k)等于正交混合矩陣中的一列,在獨立分離中意味著分離了其中一個非高斯獨立成分。
為了估計n個獨立成分,必須運行上面算法n次。為了保證每次估計的都是不同的獨立成分,需要增加一個正交化投影操作。混合矩陣G的列是正交的,這樣就能對獨立成分一個一個地進行估計,通過投影當前的g(k)解到混合矩陣G的列上。定義矩陣G的列是目前已找到的混合矩陣G的列,增加投影操作到c)開始:
3實驗結果
實驗中采用鳶尾花資料數據集。數據集中包括三類:第1類為剛毛鳶尾花,第2類為變色鳶尾花,第3類為弗吉尼亞鳶尾花。每個類由50組數據組成,每組數據包含四個數據指標,即花瓣長度、花瓣寬度、花萼長度、花萼寬度;第2、3類是線性不可分的;通過統計檢驗,四個指標數據都存在一定的相關性,且都為非高斯分布數據。由于實驗數據量較小,故未做抽樣操作。需要注意的是,當數據量較大時,為節省運算開銷,抽樣操作這一步不能省略。實驗所用設備為一臺PC機,所用系統為Windows XP,運行工具為SAS 9.0中文版。
4結束語
數據挖掘是信息時代發展很快的一個領域,高維數據的判別分析是其中一個很重要的方面。本文在ICA與Bayes的基礎上提出了一種新的數據判別分析模型IBD。從實驗結果可以看出,當數據之間存在一定相關性時,IBD分析模型的判別效果要優于一般意義上的Bayes判別分析模型與Fisher模型,從而為數據挖掘提供了一種有效的高維數據判別分析技術。
參考文獻:
[1]HAND D,MANNILA H,SMITH P. Principles of data mining[M]. Cambrige: MIT Press, 2001.
[2]JUTTEN C,HERAULT J. Independent component analysis versus PCA[C]//Proc of European Symposium on Signal Processing. 1988:287-314.
[3]KOCSOR A,CSIRIK J. Fast independent component analysis in kernel feature spaces [C]//Proc of SOFSEM.[S.l.]:SpringerVerlag, 2001:271-281.
[4]SHI Zhenwen,TANG Huawen,TANG Yiyuan.A fast fixedpoint algorithm for complexity pursuit[J].Neurocomputing, 2005, 64:529-536.
[5]COTES C,VAPNIK V. Support vector networks[J]. Machine Lea ̄ning,1995,20(3):273-295.
[6]瓦普尼克.統計學習理論[M]. 許建華,張學工,譯. 北京:電子工業出版社,2004.
[7]彭紅毅,蔣春福,朱思銘. 基于ICA與SVM的孤立點挖掘模型[J]. 計算機科學, 2006,33(9):175177.
[8]鄧自立. 卡爾曼濾波與維納濾波——現代時間序列分析方法[M]. 哈爾濱:哈爾濱工業大學出版社,2001.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”