摘要:利用SVM對大規(guī)模數(shù)據(jù)進行訓練時,需要占用很大的內(nèi)存空間,甚至會因內(nèi)存不夠而無法訓練。為此,提出了將大規(guī)模數(shù)據(jù)分塊求解,然后將分塊求解的結(jié)果進行信息融合的新方法。首先訓練得到各模塊的支持向量,將所有支持向量進行融合,得到?jīng)Q策模型和一組支持向量。當有新的數(shù)據(jù)加入時,將其作為一個子模塊,訓練得到該模塊的支持向量,與原模型中獲得的支持向量進行融合,訓練得到新的決策模型。利用KDD CUP99數(shù)據(jù)進行實驗,結(jié)果表明該方法的測試精度與在所有數(shù)據(jù)集上訓練的精度相當,花費時間少,適用于增量學習。
關(guān)鍵詞:支持向量機; 信息融合; 增量學習
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2007)12-0051-03
SVM[1,2]是最近發(fā)展起來的一種分類方法。它基于統(tǒng)計學習理論,根據(jù)結(jié)構(gòu)風險最小化原則,在經(jīng)驗風險和模型的復雜度之間折中,有較強的泛化能力,且具有全局最優(yōu)、與維數(shù)無關(guān)等特性。當數(shù)據(jù)線性不可分時,通過核函數(shù),將數(shù)據(jù)映射到高維特征空間,使得數(shù)據(jù)線性可分。它本質(zhì)上是一個凸二次規(guī)劃問題,當訓練規(guī)模很大時,求解此最優(yōu)化問題要占用很大的內(nèi)存空間,會因內(nèi)存空間不夠而導致無法訓練。解決此類問題的有效方法是將大規(guī)模數(shù)據(jù)進行分塊,然后將各模塊的信息進行融合,從而得到最終結(jié)果。
信息融合[3]又稱數(shù)據(jù)融合,是利用計算機技術(shù)對獲得的若干節(jié)點的觀測信息在一定準則下加以自動分析、綜合以完成所需的決策和估計任務而進行的信息處理過程。文獻[4]提出了用神經(jīng)網(wǎng)絡的方法來實現(xiàn)信息融合,在預測精度上獲得較好的效果。SVM是繼神經(jīng)網(wǎng)絡后,分類性能較好的一種技術(shù)。它在信息融合領(lǐng)域也逐漸得到應用,文獻[5~7]提出了多種基于SVM的信息融合方法,用各模塊訓練得到的模型對測試集進行判別,然后融合各模型的判別結(jié)果。但這些方法不適合增量學習。當有新的數(shù)據(jù)源加入時,融合模塊需重新執(zhí)行。
決策輸出融合方法和投票數(shù)融合方法用各模塊訓練得到的分類器對測試集進行判別,再根據(jù)判別結(jié)果進行融合,分類精度上不如后兩種方法,所花費的時間也較多。而且這兩種方法在增量學習中要對信息融合模塊重新處理,不能有效利用已有的信息。
對支持向量直接融合的方法在精度、漏報率和誤報率上均與在所有數(shù)據(jù)集上得到的結(jié)果相接近。說明在分類中起作用的只是其中占少數(shù)的支持向量,如表3所示。每個模塊得到的支持向量是很少的,大約占0.6%。所以信息融合模塊的規(guī)模相對較小,花費時間少。本文提出的方法預測精度甚至超過了對所有支持向量融合的結(jié)果,與在所有數(shù)據(jù)集上得到的結(jié)果最接近。說明本文方法在增量式學習中是有效的,具有較好的泛化能力。
4結(jié)束語
隨著網(wǎng)絡和數(shù)據(jù)庫技術(shù)的發(fā)展,對大規(guī)模數(shù)據(jù)處理的要求會越來越高。本文在研究了現(xiàn)有的基于SVM的信息融合方法的基礎(chǔ)上,提出了一種新的基于SVM融合的模型。通過實驗表明,這種方法在入侵檢測問題中得到了較高的分類精度,與在所有數(shù)據(jù)或所有支持向量上預測得到的精度相當,而且與其他信息融合方法相比,能利用已經(jīng)融合的信息,進行增量式學習。但如何使數(shù)據(jù)分解后仍保證它的全局最優(yōu)及如何推廣到分布式應用仍有待解決。
參考文獻:
[1]VAPIK V. 統(tǒng)計學習理論的本質(zhì)[M]. 張學工,譯.北京:清華大學出版社,2000.
[2]BURGES C J C. A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-167.
[3]HALL D L,LLINAS J. An introduction to multisensor data fusion[J].Proceedings of IEEE, 1997, 85(1):6-23.
[4]WANG Mei, HOU Yuanbin. Neural network model based on anti-error data fusion[C]//Proc of the 4thInternational Conference on Machine Learning and Cybernetics.[S.l.]:IEEE Press,2005:18-21.
[5]YAN Weiwu, SHAO Huihe, WANG Xiaofan. Parallel decision models based on support vector machines and their application to distributed fault diagnosis[C]//Proc of American Control Conference. Denver:[s.n.],2003:1770-1775.
[6]ZHAO Shuhe. Remote sensing data fusion using support vector machine[C]//Proc of 2004 Geoscience and Remote Sensing Symposium.Anchorage:[s.n.],2004:2575-2578.
[7]HU Zhonghui, CAI Yunze, LI Yuangui, et al. Data fusion for fault diagnosis using multiclass support vector machines[J].Journal of Zhejiang University Science,2005,6A(10):1030-1039.
[8]PLATTJ C. Fast training of support vector machines using sequential minimal optimization[C]//Proc of Advances in Kernel Methods:Support Vector Learning. Cambridge:MIT Press,1999:185 -208.
[9]HSU C W,LIN C J. A comparison of methods for multiclass support vector machines[J].IEEETransactions on Neural Networks,2002, 46(13):415-425.
[10][DB/OL].[2006].http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[11]CHANG C C, LIN C J. LIBSVM:a library for support vector machines[EB/OL].[2006].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”