摘 要:隨著大量基因表達數據的涌現,把海量的數據劃分成數量相對較少的組,有助于提取對生理學和醫藥學等有價值的生物信息。基因分類技術能夠很好地處理和分析這些基因數據。提出了一種應用于基因分類的模糊最小二乘支持向量機方法,通過設置模糊隸屬度改變分類中樣本的貢獻屬性。該方法不僅考慮了樣本與類中心點的距離關系,還充分考慮樣本與樣本之間的關系,減弱噪聲或野值樣本對分類的影響。采用美國威斯康星乳腺癌數據和皮馬印第安人糖尿病數據進行實驗檢測,均取得了很好的效果。
關鍵詞:基因微陣列; 基因分類; 最小二乘; 隸屬度函數; 模糊支持向量機
中圖分類號:TP18
文獻標志碼:A
文章編號:1001-3695(2010)02-0459-03
doi:10.3969/j.issn.1001-3695.2010.02.014
Classification of genes based on least squares fuzzy support vector machines
LUO Jia-wei, SU Han-mu, CHEN Tao
(College of Computer Communications, Hunan University, Changsha 410082, China)
Abstract:With the emergence of a large amount of genetic data, divided the mass of data into a relatively small number of group can help to extract of physiology and medicine and other valuable biological information. Gene classification techniques can be very good at handling and analyzing the genetic data. This paper proposed fuzzy least squares support vector machine method which applied to gene classification. Defined the contribution of each sample by setting the fuzzy memberships.By considering the distance not only between the types of samples and the center of classification, but also between the samples and samples, noises and outliers were removed. The performance of the proposed method on the United States Wisconsin breast cancer database (WDBC) data and Pima Indians diabetes(PID) data are all achieved very good results.
Key words:gene microarray; gene classification; least squares; membership function; fuzzy support vector machine
0 引言
20世紀80年代,生物學已進入基因組時代,每天都有大量的DNA序列數據涌現。如何有效地處理和分析這些生物數據,以發現和預測對預防和治療人類疾病有用的知識和信息,成為生命研究者關注的焦點。為研究癌癥與基因之間存在的關聯問題,基于微陣列[1]的癌癥基因芯片得到了廣泛的研究。這種基因表達數據[2]具有數據量大、樣本維數非常高、非線性等特點,每個樣本都記錄了組織細胞中所有測試基因的表達水平,但實際上只有少數基因才真正與樣本類別相關,這些包含了樣本分類信息的基因被稱為分類特征基因。如何有效分析癌癥基因表達數據,并利用分類特征基因找出決定樣本類別的一系列基因表達規則,對于癌癥的診斷與治療以及藥物發現都具有重要意義。
近年來基于數據挖掘技術中傳統的分類方法如最小生成樹[3]、粗糙集[4]、神經網絡[5]和遺傳算法[6]等被廣泛地應用到基因的分類中。劉建麗等人又把Vapnik[7]提出的標準的支持向量機(SVM)方法應用了基因分類,取得了較好的分類效果。
SVM也存在著一些問題:當樣本數據越大,求解相應的二次規劃問題越復雜,計算速度越慢,就存在著魯棒性、稀疏性和大規模運算問題。為了解決這個問題,Suykens等人[8,9]提出了最小二乘SVM算法(LS-SVM)。LS-SVM與標準SVM 的主要區別在于目標函數中增加誤差平方和項,以及用等式約束代替不等式約束,求解過程變成了解一組等式方程,避免了求解耗時的受約束的二次型規劃(QP)問題,求解速度相對加快。由于LS-SVM不能保證解是全局最優,LS_SVM所確定的分隔面并非最優。為減少噪聲影響,張英等人[10]在LS_SVM中引入模糊隸屬度[11~16],根據樣本點偏離數據域的程度賦予不同隸屬度,以提高LS_SVM的抗噪能力。隸屬度函數的構建是基于樣本到類中心之間的距離來度量其隸屬度的大小[11]。然而,在根據樣本到樣本類中心之間距離來確定樣本的隸屬度時,有時并不能很好地將含噪聲或野值樣本從正常樣本集中區分出來,以致將含噪聲或野值樣本與正常樣本賦予相同的隸屬度。其主要原因在于:在依據樣本到樣本類中心之間距離的角度確定樣本的隸屬度時,沒有考慮樣本之間的關系,而僅僅考慮樣本與類中心之間的距離。
針對這種情況。安金龍等人[17]提出了一種基于密度的隸屬度設計方法,在確定樣本的隸屬度時,不僅要考慮樣本與所在類中心之間的距離,還要考慮類中樣本與樣本之間的關系。本文在密度的基礎上提出了一種新的隸屬度設計方法,改進了樣本與樣本之間距離的計算,特別在閾值的計算中,對于每個樣本均生成一個特有的閾值,增加了抗噪聲能力,提高了分類精度。本文構建的最小二乘模糊支持向量機算法,通過UCI機器學習數據庫中乳腺癌數據(WDBC)和皮馬印第安人糖尿病(PID)的真實數據進行實驗檢測,分類精度均得到明顯地提高。
1 最小二乘模糊支持向量機
1.1 LS-FSVM
設給定訓練集{xi,yi}Ni=1Rn×R, 利用非線性映射φ(#8226;):Rn→Rnh,將輸入空間映射為高維特征空間,再進行線性回歸,對未知函數進行回歸估計可表達為
y(x)=ωTφ(x)+b(1)
其中:權向量ωRn;偏置量bR。這樣構造的函數y(x)可使得對于樣本集之外的輸入x,也能精確地估計出相應的輸出y。
在模糊支持向量機中,當面對大量的數據樣本時,求解(QP)問題非常困難,為此,筆者構建一個最小二乘模糊支持向量機[18,19],約束優化問題可表示為
min φ(ω,b,ξi,si)=12ωTω+C2∑Ni=1siξ2i,C>0s.t yi(ωTφ(xi)+b)=1-ξi fori=1,…,N(2)
其中:C為處罰因子(正則化參數);ξi為不敏感損失函數的松弛因子;si為隸屬度函數。
為了求解上面的約束優化問題,把約束優化問題變為無約束優化問題。這里構造拉格朗日函數:
L(ω,b,ξ,α)=12ωTω+C2∑Ni=1siξ2i-
∑Ni=1αiyi(ωTφ(xi)+b)-1+ξi(3)
式中αi是拉格朗日乘子。
根據KTT最優條件[11],可得
dLdω=ω-∑Ni=1αiyiφ(xi)=0dLdb=-∑Ni=1αiyi=0dLdξi=αi-siCξi=0dLdαi=yiωTφ(xi)+b+1-ξi=0(4)
此優化問題的解用矩陣形式表示為
bα=01T1→Ω+S-10y(5)
其中:
y=(y1,y2,…,yN)T(6)
S=((s1C)-1,(s2C)-1,…,(sNC)-1)T(7)
1→=(1,1,…,1)T(8)
這里Ω為方陣,第K行L列的元素為Ωkl=K(xk,xl)=φ(xk)T#8226;φ(xl);K(xk,xl)為核函數,它滿足Mercer條件。由式(5)可知,最小模糊支持向量機的訓練問題歸結為一個線性方程組的求解問題,而不是一個二次規劃(QP)問題,從而降低了大規模數據的計算復雜性問題。
1.2 模糊隸屬度的設計
文獻[17]在隸屬度的計算過程中提出了密度的概念,本文采用文獻[17]中密度的定義,并重新設計樣本與樣本之間距離的求解和閾值T的確定。在本設計當中,使用一個樣本的某一周圍鄰域內的樣本數量作為此樣本的密度。 其計算公式為
ρ(xi)=Mxjd(xi,xj)≤T d(xi,xj)∈D(xi)j=1,2,…,Nj≠i(9)
其中:xi和xj為樣本;ρ(xi)為樣本xi的密度;M(X)為樣本集合X的樣本數量;d(xi,xj)為一個測量函數;T為控制樣本周邊范圍的閾值。如圖1所示,圓內的樣本數量即為樣本xi的正密度ρ+(xi)。
將一個樣本周圍(一定范圍內)同類樣本的密度定義為正密度ρ+(xi), 而將異類樣本的密度定義為負密度ρ-(xi),正樣本平均密度為ρ+。當一個樣本為孤立點時,其正密度和負密度的值都很小;當一個樣本的負密度很大而正密度很小,其噪聲點的可能性很大;對于正常樣本,其正密度很大而負密度很小。 因此,可以通過一個樣本周圍樣本的正負密度,反映出此樣本在整個樣本集合中的相對位置情況。為計算不超過距離閾值的樣本數量,設其他樣本到樣本xi的距離集合為
D(xi)=d(xi,xj)d(xi,xj)=∑Nk=1(xik-xjk)212
j=1,2,3,…,Ni≠j(10)
文獻[17]閾值T是通過計算兩類樣本中心點的距離來確定的,并且對于所有的數據樣本都采用相同的閾值,這對于分類貢獻不同的樣本是不合理的。為了更好地區分有效樣本和噪聲或野值樣本,閾值T取單個樣本到其他所有樣本的距離的中間值,如圖2所示。圖中dmin表示樣本xi到同類樣本距離的最小值;dmax表示樣本xi到同類樣本距離的最大值。
閾值T具體計算為
T=t(i)t(i)=max D(xi)+min D(xi)2(11)
模糊隸屬度設計的規則是:a)盡量使支持向量的模糊隸屬度接近于s=1 ,其他正常樣本的模糊隸屬度大于等于1。,這樣就不會因為模糊隸屬度的選擇影響支持向量對分類的作用。b)隨著孤立點和噪聲點的孤立、噪聲程度的加大, 模糊隸屬度要逐漸減小,以減小其對支持向量機分類的影響。
在圖1中,在圓的邊界上的點即為訓練中的支持向量,計算隸屬度接近于1,圓外的點根據離樣本xi的遠近賦予較小的隸屬度,離得越遠隸屬度越小。
定義隸屬度函數為
s(i)=2ρ+(xi)ρ+(xi)+ρ-(xi)×ρ+(xi)ρ+(12)
2 實驗及分析
2.1 實驗環境
本文實驗在Intel Pentium 4 3.00 GHz CPU、512 MB內存、Windows XP操作系統、MATLAB 7.0語言編程環境下進行,采用RBF核函數。
2.2 美國威斯康星乳腺癌數據實驗及結果分析
實驗數據取自UCI機器學習數據庫的實際數據集——美國威斯康星乳腺癌數據庫(WDBC)[20],共有569組數據樣本。其中357個良性樣本,212個是惡性樣本。每個樣本由31個屬性和1個類別構成。其中第1個屬性是樣本代碼,第2個屬性是樣本的類別,另外30個屬性是一些乳房細胞核提取物的測量數據。
本文取569組數據樣本中的前300組作為訓練樣本,其中146個良性樣本,154個惡性樣本。另外269組數據作為測試樣本,并與LS-SVM的實驗結果進行比較。圖3是LS-FSVM訓練過程中每個樣本對應的模糊因子。大部分的有效樣本的模糊因子都是大于或等于1,噪聲或野值點的模糊隸屬度遠低于1。本方法通過設置模糊隸屬度,有效地降低了噪聲和野值樣本的隸屬度,從而減小了噪聲和野值點對于分類結果的影響作用,提高了分類精度。
選擇不同的參數組合,對乳腺癌數據分類的結果對比如表1所示。
表1 LS-SVM與LS-FSVM分類結果對比(WDBC)
參數
gamsig2
LS_SVM
正確率/%時間/s
LS_FSVM
正確率/%時間/s
0.251297.771.82898.141.984
540 00097.401.89197.772.016
103 00098.511.81298.511.984
1030 00097.771.85998.142.078
10050 00097.771.84498.512.016
2.3 皮馬印第安人糖尿病數據實驗及結果分析
實驗數據同樣取自UCI機器學習數據庫的實際數據集——皮馬印第安人糖尿病數據集(PID)[21],共有768組數據樣本。每個樣本由8個屬性和1個類別構成。
本文取768組數據樣本中的前500組作為訓練樣本,其中182個良性樣本,318個惡性樣本。另外268組數據作為測試樣本。同樣與LS_SVM的實驗結果對比如表2所示。當gam取100,sig2取3 000時,LS_SVM和LS_FSVM的分類的正確率相對較高,這時分類的正確率LS_FSVM比LS_SVM高5.72%。對于其他不同的參數組合,LS_FSVM的分類結果也都優于LS_SVM的結果。
表2 LS_SVM與LS_FSVM分類結果對比(PID)
參數
gamsig2
LS_SVM
正確率/%時間/s
LS_FSVM
正確率/%時間/s
251280.975.09484.275.297
103 00079.855.10983.875.250
1030 00072.394.92279.445.296
1003 00080.975.07986.695.407
10030 00079.485.09384.275.297
3 結束語
本文提出了一種基于最小二乘模糊支持向量機的基因分類方法。該方法融合了最小二乘支持向量機與模糊技術兩者的優點,它既有支持向量機的泛化能力強、全局最優等優點,又有模糊技術的不依賴被控對象模型、魯棒性強等優點。在模糊隸屬度設計過程中,充分地考慮了樣本與類中心以及樣本與樣本之間的關系,很好地減小了噪聲或野值樣本對分類的影響。計算的結果和分析表明該方法有較高的分類精度。
參考文獻:
[1]BRAZMA A,HINGAMP P, QUACKENBUSH J, et al. Minimum information about a microarray experiment(MIAME) toward standards for microarray data[J]. Nature Genetics, 2001, 29(4):365-371.
[2]孫嘯,陸祖宏,謝建明.生物信息學基礎[M]. 北京: 清華大學出版社,2005:282-285.
[3]易葉青,劉云如.基于最小生成樹的基因分類算法[J]. 湖南人文科技學院學報,2004,81(12):131-133.
[4]孫麗君. 基于粗糙集的基因表達數據分類研究[J]. 計算機工程,2007,16(8):183-185.
[5]馬燕,范植華.基于神經網絡的基因分類器[J]. 計算機工程與設計,2005,26(2):308-311.
[6]蔡立軍,林亞平,盧新國,等.基于遺傳算法的基因分類[J]. 電子學報,2006,34(11):2115-2119.
[7]VAPNIK V N. The nature of statistical learning theory [M]. New York: Spring-Verlag, 1995.
[8]SUYKENS J A K, VANDERWALLE J. Least squares support vector machine classifiers [J]. Neural Processing Letters, 1998, 9(3):293-300.
[9]SUYKENS J A K, LUKAS L, VANDERWALLE J. Sparse approximation using leastsquares support vector machine[C]//Proc of IEEE International Symposium on Circuit and Systems. Geneva, Switzerland:IEEE, 2000:757-760.
[10]張英,蘇宏業,褚健.基于模糊最小二乘支持向量機的軟測量建模[J].控制與決策,2005,20(6):621-624.
[11]LIN Chun, WANG Sheng-de. Fuzzy support vector machines[J]. IEEE Transactions on Neural Networks. 2002,13(2):464- 471.
[12]HUANG Han-pang, LIU Y H. Fuzzy support vector machines for pattern recognition and data mining[J]. International Journal of Fuz-zy Systems, 2002,4(3):826-835.
[13]ZHANG Xue-gong. Using class-center vectors to build support vector machines[C]//Proc of IEEE NNSP’99. Washington DC:[s.n.],1999: 3-11.
[14]WANG Y Q, WANG S Y, LAI K K. A new fuzzy support vector machine to evaluate credit risk[J]. IEEE Trans on Fuzzy System, 2005,13(6):820-831.
[15]ZADEH L A. Fuzzy sets[J]. Information and Control, 1965, 8(3):338-353.
[16]PLATT J C. Fast training of support vector machines using sequential minimum optimization[C]//Proc of Advance in Kernel Methods-support Vector Learning. Cambridge:MIT Press, 1999:185-208.
[17]安金龍,王正歐,馬振平.基于密度法的模糊支持向量機[J].天津大學學報,2004,37(6):544-547.
[18]JAYADEVA R, CHANDRA S. Regularized least squares fuzzy support vector regression for time series forecasting[C]//Proc of International Joint Conference on Neural Networks. 2006:593-598.
[19]YU L, LAI K K, WANG S. Credit risk assessment with least squares fuzzy support vector machines[C]//Proc of the 6th IEEE Internatio-nal Conference on Data Mining-Workshops.2006: 823-827.
[20]UCI machine learning repository[EB/OL].(1996). http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29.
[21]UCI machine learning repository[EB/OL]. (1990). http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes.