摘要:支持向量機(SVM)是一種準確度高的分類器,具有很好的容錯和歸納能力;粗糙集理論方法在處理大數據量、消除冗余信息等方面具有優勢。將兩者相結合提出一種改進的SVM分類算法ISVM,并將其應用于乳腺X光圖像分類。實驗結果表明,ISVM的分類精確度可達到96.56%,比SVM的分類精確度(92.94%)要高3.42%,同時錯誤分辨率也平均接近100%。
關鍵詞:改進的支持向量機方法; 粗糙集; 乳腺X光圖像
中圖分類號:TP31文獻標志碼:A
文章編號:1001-3695(2008)01-0053-03
0引言
支持向量機(SVM)是一種建立在統計學習理論基礎之上的機器學習方法,其最大的特點是根據Vapnik[1]結構風險最小化原則,盡量提高學習機的泛化能力,即由有限的訓練集樣本得到小的誤差仍然能夠保證對獨立的測試集保持小的誤差。另外,由于支持向量算法是一個凸優化問題,所以局部最優解一定是全局最優解,這是其他學習算法所不及的[2]。SVM已被廣泛應用于模式匹配、分類、聚類、回歸估計等領域,但它仍存在一些缺點。經典的SVM算法建立在二次規劃基礎之上,它無法區分訓練集樣本屬性的重要性;同時,對于大數據量的模式分類和時間序列預測等問題,如何提高它的數據處理的實時性、縮短訓練樣本的時間、減少大訓練樣本集所占用的空間等方面仍是亟待解決的問題。目前已有幾種技術用來降低SVM的復雜度[3],主要是通過最小化核展開式來表示SVM的解,因為在執行這種預處理技術之前要先計算SVM的解,這些方法對降低訓練階段的復雜度并不合適。由波蘭科學家Pawlak于1982年提出的粗糙集理論(rough sets theory)[4],在知識約簡、消除冗余信息、處理不確定和不完整知識等方面具有巨大的優勢:a)粗糙集僅利用數據本身提供的信息,不需要任何先驗知識;b)粗糙集能夠表達和處理不完備信息,能在保留關鍵信息的前提下對數據進行約簡并求得知識的最小表達;c)能夠識別和評估數據之間的依賴關系,揭示出概念簡單的模式,同時能從經驗數據中獲取易于證實的規則知識。
本文將粗糙集理論和支持向量機相結合,提出了ISVM算法。利用粗糙集理論處理大數據量、消除冗余信息等方面的優勢,減少SVM的訓練數據,不但提高了SVM的分類能力,而且增強了SVM的分辨率。最后在乳腺X光圖像標準數據集MIAS[5]上做實驗,與單獨使用SVM方法相比較,比SVM的分類精確度92.94%高3.42%,同時分辨率也平均接近100%,這更加有利于醫學診斷。
1SVM的基本原理
SVM方法是在統計學習理論之上的一種機器學習方法,它建立在VC理論和結構風險最小化原理基礎上,根據有限樣本信息在模型的復雜性和學習能力之間尋求最佳折中,以期獲得更好的泛化能力。用SVM算法來估計回歸函數時,其基本思想就是通過一個非線性映射φ,把輸入空間的數據x映射到一個高維特征空間中,然后在這一高維空間中作線性回歸[2]。
其中:第一列是對數據集的10次隨機劃分;第二列是SVM的10次分類精確度;第三、四列分別給出了ISVM經約簡后的條件屬性數量以及10次分類精確度。表1的最后一行是相應列的平均值。從表1中可以看出,雖然SVM的平均分類精確度也達到了92.94%,但仍比ISVM的平均分類精確度96.56%低3.42%。同時由于先使用粗糙集原理對原數據集進行了約簡,最終輸入SVM作分類的數據集的平均條件屬性數量只有18.6個,遠遠小于提取的69個特征屬性,從而簡化了后繼SVM的處理過程。
筆者還通過實驗對兩種算法在MIAS數據集上的小樣本的錯誤分辨率以及訓練所需時間作了比較。圖2是訓練樣本數從20到100個的錯誤分辨率比較,圖3是訓練樣本數從10到50個的訓練所需時間的比較。從圖2可以看到,在MIAS數據集上,ISVM的錯誤分辨率明顯高于SVM,平均都接近100%;而SVM的錯誤分辨率變化比較大,尤其是在小樣本階段,樣本數小于50時錯誤分辨率達不到90%。實驗結果說明使用ISVM分類器將非正常乳腺X光圖像錯誤分類的可能性很小,這正是醫學專家所期望的。從圖3可以看到,SVM和ISVM訓練所需時間很接近,ISVM花費的時間要比SVM略多一些,主要原因是ISVM算法首先要對數據集作約簡。因為時間是以秒計,實際應用中時間的差別非常小。
4結束語
本文將粗糙集屬性約簡原理與SVM相結合,構造了改進的SVM分類器ISVM。首先用粗糙集的屬性約簡原理將數據集中不確定的、冗余的信息去除掉,然后將數據集中確定的部分交給SVM作分類,從而增強了SVM的分類能力。本文將ISVM應用于乳腺X光圖像標準數據集MIAS的分類。實驗結果表明,ISVM在MIAS數據集上的分類效果優于SVM。這種分類方法還可以應用于其他領域。
參考文獻:
[1]VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer Verlag,1995:4-80.
[2]WANG L P. Support vector machine: theory and application[M]. New York: Springer Verlag,2005:1-66.
[3]SCHLKOPF B,SMOLA A J. Learning with kernels[M].Cambridge:MIT Press,2002:54-62.
[4]PAWLAK Z W. Rough sets[J]. International Journal of Information and Computer Science, 1982,11(5):341-356.
[5]The mammographic image analysis society[DB/OL].[2006-09].http://www.wiau.man.ac.uk/services/MIAS/MIASweb.html.
[6]PAWLAK Z W. Rough sets and intelligent data analysis[J]. Information Sciences, 2002,147(1-4):1 12.
[7]ANTONIE M L,ZAIANE O R,COMAN A.Application of data mining techniques for medical image classification[C]//Proc of the 2nd International Workshop on Multimedia Data Mining.San Francisco:[s.n.],2001:94 101.
[8]HU Xiao hua, CERCONE N. Data mining via generalization, discretization and rough set feature selection[J]. Knowledge and Information System: An International Journal, 1999,1(1):135 149.
[9]CHANG C, LIN C. LIBSVM[DB/OL].[2006-09].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”