潘雪航





摘 要:高維數據存在大量的冗余變量和噪聲,傳統的分類方法在高維情況下通常效果不佳。為提高分類性能,將迭代稀疏組套索和支持向量機結合,提出了一種新的高維分類方法iSGL-SVM。分別在prostate和Tox_171數據集上驗證了所提出的方法,并與其它三種方法進行比較。實驗結果表明,該方法具有更好的變量選擇效果和較高的分類精度,可廣泛應用于高維小樣本數據集的分類。
關鍵詞:迭代稀疏組套索;支持向量機;高維分類;變量選擇
中圖分類號:O212 ? ? ?文獻標識碼:A
Abstract:There are a lot of redundant variables and noise in high-dimensional data, and traditional classification methods usually do not work well in high-dimensional situations. In order to improve the classification performance, the iterative sparse group lasso is combined with support vector machine, and a new high-dimensional classification method iSGL-SVM is proposed. The proposed method was verified on the prostate and Tox_171 datasets respectivelyand compared with the other three methods. The experimental results showed that the method has better variable selection effects and higher classification accuracy, which can be widely used for classification of high-dimensional small sample datasets.
Key words:iterative sparse group lasso; support vector machine; high-dimensional classification; variable selection
近年來,機器學習、生物信息學等各領域都出現了高維數據,并且已經很大程度上超過了以往的規(guī)模。如何從高維數據中提取重要信息,獲得特征子集來進行數據分析一直是學者們面臨的挑戰(zhàn)。
通常情況下,高維數據包含成千上萬個變量和少量樣本,即p>>n,同時存在大量的冗余變量和噪聲。在進行分類時,分類模型的性能依賴于選擇合適的特征變量,同時去除不相關的特征變量。通過剔除冗余變量,能夠帶來更低的過擬合風險,更少模型的復雜性(因此提高了泛化能力)以及更低的計算成本[1]。因此,從高維小樣本數據中去除冗余變量和選擇相關變量可以提高分類模型的學習效率和分類準確率,從而有效地預測和制定政策。通常,在數萬個變量中,只有一小部分變量起到關鍵性作用。換句話說,大多數變量與數據分類無關,這產生了噪聲和降低了分類準確性。從機器學習的角度來看,變量太多總是會導致過擬合,對分類產生負面影響。因此,具有高預測精度的變量選擇方法對于有效的高維數據分類是理想的[2]。
在科學研究中,分類模型已成為人工智能各個領域的有用工具,例如金融信用風險評估[3],信號處理和模式識別[4]。為了避免維數災難,從高維、海量的高維數據中選擇有效的特征變量是分類的關鍵[5]。近年來,越來越多的學者熱衷于使用稀疏方法作為分類的特征變量選擇方法,因為它不僅能有效地解決維數災難問題,而且能消除冗余變量和噪聲,顯著提高分類效果[6-8]。
Liu等人[9]提出了一種數據自適應核懲罰SVM 方法,這是一種同時實現特征選擇和分類的新方法,特別是在數據不平衡的情況下;Li等[10]提出了一個用于精神分裂癥疾病分類的深度經典相關稀疏自動編碼器模型,并將提出的稀疏自動編碼器模型應用于SNP數據和功能磁共振成像數據以檢驗其性能;Mohammed等人[11]使用了空間結構化的spike-and-slab先驗,開發(fā)了一種貝葉斯方法來對多主體高維腦電圖數據進行分類。Huo等[12]將Sparse Group Lasso與支持向量機結合,提出了一種新的高維分類SGL-SVM方法。
本研究的創(chuàng)新點在于改進了Huo提出的SGL-SVM分類方法,將SGL方法替換成iSGL[13],提出了一種新的高維數據分類方法iSGL-SVM。該方法的優(yōu)勢是在變量選擇部分,能夠自動選擇所有正則化參數,選擇的特征變量更加準確可靠,提高了變量選擇效果。
1 iSGL-SVM分類方法
傳統的分類方法,如Fisher判別、邏輯回歸等,在低維的情況下,即樣本量大于變量個數時,能夠很好地將不同標簽的樣本分類,分類效果較好。但是,當出現高維情況時,由于存在大量的冗余變量和噪聲,如果使用傳統的分類方法進行分類,分類效果會大大下降。所以需要使用高效的變量選擇方法選擇特征變量,然后使用分類器進行分類。
通常情況下,高維數據以分組形式出現[14],例如單核苷酸多態(tài)性(SNP)和功能性磁共振成像數據(fMRI)。一個來解釋預測變量群體結構的常用方法是Group Lasso(簡稱GL)。但這種方法只能實現組間稀疏,無法實現組內稀疏,因此往往會選擇過多冗余變量。
2 實證分析
2.1 數據來源
實證分析使用兩個數據集,一個二類prostate數據集和一個四類Tox_171數據集。Prostate數據集來源Singh等人[16]的研究。包含102例樣本數據,其中正常人50例,患者52例,每個樣本包含12600個變量,樣本標簽分別記為0和1。TOX_171數據集來源Stienstra等人[17]的研究。包含171例樣本數據,每個樣本包含5748個變量,樣本標簽分別記為1、2、3和4。
兩個數據集具有以下特點: (1)所有實驗數據均為真實的高維小樣本數據;(2)變量數量遠大于樣本數量,即p>>n。(3)這些數據集包含大量冗余和不相關的變量。
2.2 評價指標
模型評價使用包括ACC、AUC、Kappa、召回率和F1評分等在內的評價指標。分類精度ACC定義如下:
根據表1,兩個數據集的結果同時表明,使用RBF核函數時,分類性能最好。因此,在之后的實驗中,支持向量機選擇RBF核函數進行分類。
在兩個數據集上,首先對歸一化后的數據集采用Kruskal-Wallis秩和檢驗。KW檢驗能夠檢驗多個總體分布是否存在顯著差異,依次對不同總體的第i個變量進行KW檢驗。這個步驟能夠除去數據集中大量的冗余變量,便于后續(xù)的變量選擇。
然后,對處理后的數據集使用現有的iSGL-SVM方法進行分類,同時與EN-SVM、GL-SVM和SGL-SVM方法進行對比,選擇RBF徑向基核函數的支持向量機作為分類算法。
對于prostate數據集,使用5倍交叉驗證對數據集進行測試和預測。對于TOX_171數據集,使用10倍交叉驗證進行訓練。使用R語言編程,計算出ACC等分類指標,比較兩個數據集上四種不同算法對分類的影響。對于不同方法的平均精確率ACC值見表2。
根據表2,prostate數據集上,iSGL-SVM的分類精度達到了95%,而其他三種方法都在92%左右。由于該數據集只有兩類,iSGL-SVM和其余三種方法的差別較小,優(yōu)勢并不明顯;TOX_171數據集上,iSGL-SVM的分類精度達到了86%,EN-SVM的精度在83%左右,其余兩種方法的準確度都低于80%,說明iSGL-SVM在多類數據集上分類效果更好,更具有優(yōu)勢。
同時,分別對prostate數據集上進行的20次5倍交叉驗證和TOX_171數據集上進行的20次10倍交叉驗證計算了AUC、precision(陽性預測值)、F1評分和recall(召回率)四個評價指標。取AUC和Kappa值20次實驗的均值作了箱線圖,見圖1和圖2。20次實驗的F1評分、recall和precision指標均值見表3和表4。
由圖1和圖2,iSGL-SVM方法在prostate數據集的AUC均值為0.9665,在TOX_171數據集的Kappa均值為0.8196,均高于其他分類方法,說明iSGL-SVM選擇的特征變量更加準確可靠,獲得了更高的分類效果。同時,由表3和表4,iSGL-SVM很好地獲得了陽性預測值和召回率之間的權衡,而且從最高的F1評分(召回率和陽性預測值的加權調和平均)可以知道iSGL-SVM分類方法在高維數據分類上優(yōu)于其他分類方法。這表明iSGL-SVM分類方法改善了高維數據的分類和預測。
3 結 論
將迭代稀疏組套索與支持向量機結合,提出了一種新的高維分類方法iSGL-SVM。實驗結果表明,所提出的iSGL-SVM 方法在高維小樣本數據中的分類表現優(yōu)于其他三個相關方法。選擇的變量更可靠,準確率更高。因此,所提出的方法在數據分類和預測方面顯示出很大的前景,可廣泛應用于高維小樣本數據集的分類。
本研究只選擇了支持向量機這一類分類方法,為此,可研究不同分類方法的影響,從而提高原方法的變量選擇效果及預測效果。
參考文獻
[1]BLUM A L, LANGLEY P. Selection of relevant features and examples in machine learning[J]. Artificial Intelligence, 1997, 97(1-2): 245-271.
[2]WANG Y, LI X, RUIZ R. Weighted general group lasso for gene selection in cancer classification[J]. IEEE Transactions on Cybernetics, 2018, 49(8): 2860-2873.
[3]ZHANG L, HU H, ZHANG D. A credit risk assessment model based on SVM for small and medium enterprises in supply chain finance[J]. Financial Innovation, 2015, 1(1): 14.
[4]KHOKHAR S, ZIN A A B M, MOKHTAR A S B, et al. A comprehensive overview on signal processing and artificial intelligence techniques applications in classification of power quality disturbances[J]. Renewable and Sustainable Energy Reviews, 2015, 51: 1650-1663.
[5]BHARAT S. A meta-heuristic regression-based feature selection for predictive analytics[J]. Data Science Journal, 2014, 13: 106-118.
[6]BORGI M A, LABATE D, EL ARBI M, et al. Sparse multi-stage regularized feature learning for robust face recognition[J]. Expert Systems with Applications, 2015, 42(1): 269-279.
[7]ALGAMAL Z Y, LEE M H. Penalized logistic regression with the adaptive LASSO for gene selection in high-dimensional cancer classification[J]. Expert Systems with Applications, 2015, 42(23): 9326-9332.
[8]GAO J, KWAN P W, SHI D. Sparse kernel learning with LASSO and bayesian inference algorithm[J]. Neural Networks, 2010, 23(2): 257-264.
[9]LIU X, ZHAO B, HE W. Simultaneous feature selection and classification for data-adaptive kernel-penalized SVM[J]. Mathematics, 2020, 8(10): 1846.
[10]LI G, HAN D, WANG C, et al. Application of deep canonically correlated sparse autoencoder for the classification of schizophrenia [J]. Computer Methods and Programs in Biomedicine, 2020, 183: 105073.
[11]MOHAMMED S, DEY D K,ZHANG Y. Classification of high-dimensional electroencephalography data with location selection using structured spike-and-slab prior[J]. Statistical Analysis and Data Mining: The ASA Data Science Journal, 2020, 13(5): 465-481.
[12]HUO Y, XIN L, KANG C, et al. SGL-SVM: A novel method for tumor classification via support vector machine with sparse group Lasso [J]. Journal of Theoretical Biology, 2020,486: 110098.
[13]LARIA J C, CARMEN A M, LILLO R E. An iterative sparse-group Lasso [J]. Journal of Computational and Graphical Statistics, 2019, 28(3): 722-731.
[14]GOSSMANN A, CAO S, BRZYSKI D, et al. A sparse regression method for group-wise feature selection with false discovery rate control [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2018, 15(4): 1066-1078.
[15]SIMON N, FRIEDMAN J, HASTIE T, et al. A sparse-group Lasso [J]. Journal of Computational and Graphical Statistics, 2013, 22(2): 231-245.
[16]SINGH D, FEBBO P G, ROSS K N, et al. Gene expression correlates of clinical prostate cancer behavior [J]. Cancer Cell, 2002, 1(2): 203-209.
[17]STIENSTRA R, SAUDALE F, DUVAL C, et al. Kupffer cells promote hepatic steatosis via interleukin-1beta-dependent suppression of peroxisome proliferator-activated receptor alpha activity [J]. Hepatology, 2010, 51(2): 511-522.