尚志剛,董永慧,李蒙蒙,李志輝
(鄭州大學 電氣工程學院,鄭州 450001) (*通信作者電子郵箱lizhrain@zzu.edu.cn)
基于偏最小二乘回歸的魯棒性特征選擇與分類算法
尚志剛,董永慧,李蒙蒙,李志輝*
(鄭州大學 電氣工程學院,鄭州 450001) (*通信作者電子郵箱lizhrain@zzu.edu.cn)
提出一種基于偏最小二乘回歸的魯棒性特征選擇與分類算法(RFSC-PLSR)用于解決特征選擇中特征之間的冗余和多重共線性問題。首先,定義一個基于鄰域估計的樣本類一致性系數;然后,根據不同k近鄰(kNN)操作篩選出局部類分布結構穩定的保守樣本,用其建立偏最小二乘回歸模型,進行魯棒性特征選擇;最后,在全局結構角度上,用類一致性系數和所有樣本的優選特征子集建立偏最小二乘分類模型。從UCI數據庫中選擇了5個不同維度的數據集進行數值實驗,實驗結果表明,與支持向量機(SVM)、樸素貝葉斯(NB)、BP神經網絡(BPNN)和Logistic回歸(LR)四種典型的分類器相比,RFSC-PLSR在低維、中維、高維等不同情況下,分類準確率、魯棒性和計算效率三種性能上均表現出較強的競爭力。
偏最小二乘回歸;k近鄰;噪聲樣本;特征選擇;魯棒性
由于原始數據集中常常存在大量無關或冗余特征,因此在特征選擇時,獲取魯棒性較強的結果變得很困難。針對這一難題,蔡哲元等[1]提出的基于核空間距離測度的特征選擇方法、成衛青等[2]提出的基于改進互信息和信息熵的文本特征選擇方法、Liu等[3]提出的特征選擇的全局和局部結構保存方法等,從不同角度有效地實現了特征選擇,但針對多重共線性問題,這些方法還需進一步改進。偏最小二乘回歸(Partial Least Squares Regression, PLSR) 在自變量間存在較高相關性時,提供了一種多因變量對多自變量的回歸建模方法,可以有效地解決多重共線性難題。基于這種優勢,許多學者提出了一系列數據降維模型,如李建更等[4]提出的基于逐步提取偏最小二乘主成分的特征選擇方法、李勝等[5]提出基于改進的量子遺傳偏最小二乘的特征選擇方法、Nagaraja 等[6]利用偏最小二乘回歸和優化實驗設計特征選擇算法,實現了對多維特征的降維。同時由于PLSR運行速度快,且可應用于分類,因此也有很多學者利用PLSR建立分類模型,如馬宗杰等[7]提出基于奇異值分解和偏最小二乘回歸的分類模型,Eroglu等[8]將PLSR分類模型應用于睡眠腦電信號分類。簡彩仁等[9]提出了基于稀疏表示和偏最小二乘回歸的分類方法,Li等[10]將偏最小二乘回歸應用于腫瘤分類;但是文獻[9-10]只是將PLSR應用于數據降維,并沒有用偏最小二乘回歸作進一步的分類,而是采用傳統的支持向量機(Support Vector Machine, SVM)方法和最近鄰子空間準則。
在建立PLSR特征選擇和分類模型時,模型輸入矩陣直接來源于樣本數據,而輸出矩陣的構建對模型的性能至關重要。文獻[4]和[11]的模型輸出都是類別標簽,操作簡單,但結果的分類準確性不好;文獻[5]根據量子遺傳問題,以適用度函數的適應度值作為模型輸出,提高了準確率,縮短了運行時間,但分類的魯棒性有待提高;文獻[9]以最近鄰子空間的度量余量作為模型輸出,雖克服了傳統分類方法存在的過擬合問題,但分類模型并沒有考慮魯棒性需求。另外在模型建立過程中,噪聲樣本對優選特征子集的選擇有一定的影響,但很多文獻并沒有考慮到這一點。文獻[6]、[10]、[12-13]在用PLSR進行特征選擇時,都沒有把噪聲樣本的干擾考慮進去,在一定程度上存在魯棒性不強的缺點;而文獻[9]用稀疏表示的方法去除了噪聲樣本的干擾,但是卻沒有進行特征選擇,所以運算代價較大。
針對上述文獻提出的方法中存在的問題,本文旨在提出一種在PLSR模型下同時實現魯棒性特征選擇和分類的模型,既能剔除噪聲樣本的干擾,解決特征選擇中特征之間的冗余和多重共線性問題,得到魯棒性較強的優選特征子集,又能實現基于偏最小二乘回歸的快速準確分類。
1.1 偏最小二乘回歸
設有p個自變量{x1,x2,…,xp}和q個因變量{y1,y2,…,yq}。偏最小二乘回歸分別在輸入矩陣X與輸出矩陣Y中提取出成分t1和u1(t1是x1,x2,…,xp的線形組合,u1是y1,y2,…,yq的線形組合)。在提取這兩個成分時,為了回歸分析的需要,有下列兩個要求:
1)t1和u1應盡可能多地攜帶它們各自數據表中的變異信息;
2)t1和u1的相關程度能夠達到最大。
在第一個成分t1和u1被提取后,偏最小二乘回歸分別實施X對t1的回歸以及Y對u1的回歸。如果回歸方程已經達到滿意的精度,則算法終止;否則,將利用X被t1解釋后的殘余信息以及Y被u1解釋后的殘余信息進行第二輪的成分提取。如此往復,直到能達到一個較滿意的精度為止。若最終對X共提取了m個成分t1,t2,…,tm,偏最小二乘回歸將通過實施yr對t1,t2,…,tm的回歸,然后再表達成yr關于原變量x1,x2,…,xm的回歸方程[14],其中r=1,2,…,q。
目前的研究者多將研究視角針對基于偏最小二乘回歸的數據降維,也有涉及到偏最小二乘回歸直接用于分類的研究,但是還沒有一種能在PLSR模型下同時實現特征選擇和分類,且具有較好魯棒性的系統模型,因此這一思路是對相關研究領域的補充,在獲得合理有效的模型這一層面上也是很有意義的。
1.2 類一致性系數
在建立偏最小二乘回歸模型時,一般均是將類別標簽直接作為模型輸出,這種處理方式是較不穩定的,因此為改善模型性能,提高算法的魯棒性,本文根據Logistic回歸(Logistic Regression, LR)的模型特點,同時結合k近鄰(kNearest Neighbor,kNN)思想,定義了一個類一致性系數C作為模型的輸出變量。首先定義了一個類一致性概率P,其表達式為:
P=a/k
(1)
類一致性系數的表達式為:
C=ln(P/(1-P))=ln(a/(k-a))
(2)
其中:k為所取的鄰域大小,a為該鄰域內同類樣本的個數。原理如圖1所示。某1類樣本(圖中實心圓形)的3鄰域中所有樣本均與它是同一類,那么其類一致性系數可表示為C=ln(3/(3-3))=ln(3/0);同理,某2類樣本(圖中實心菱形)的7鄰域里只有1個與它不同類,則其類一致性系數為C=ln(6/(7-6))=ln(6)。

圖1 類一致性系數的原理
本文在進行參數k值的選取時,為了準確估計每個樣本的局部類分布概率密度,在不同的鄰域范圍內構建模型。經過對數值實驗的結果分析,當k≤2時,由于尺度過小的原因使得概率估計局限在非常微小的區間中,易受到噪聲樣本點影響,造成估計的結果不理想,準確率偏低;當k取10以上的值時,由于鄰域范圍內包含的樣本數量過多而失去了局部類分布概率密度估計的意義,造成細節信息的丟失并引起平滑噪聲,降低了模型的可靠性,尤其是在靠近分類邊界的區域會造成估計結果較差。常規的k近鄰算法常采用奇數作為備選k值進行分類以便于投票決定類別,因此本文借鑒了k近鄰的思想選取k=3,5,7作為本次實驗的鄰域范圍取值。對于任意一個樣本,本文以3個類一致性系數C1,C2,C3作為模型的輸出矩陣。
為了實現在PLSR模型下同時進行特征選擇和分類,提高分類精度和運行效率,并在特征選擇之前剔除噪聲樣本的影響,提高特征選擇的魯棒性,本文提出了基于偏最小二乘回歸的魯棒性特征選擇與分類算法(RobustFeatureSelectionandClassificationalgorithmbasedonPartialLeastSquaresRegression,RFSC-PLSR)。
2.1 基于偏最小二乘回歸的特征選擇
由于原始數據集中可能存在的大量相關或冗余特征[15],因此在模式識別中,特征選擇顯得特別重要;同時原始數據集中還可能存在一些噪聲樣本[16],它們會直接影響特征選擇的效果,造成結果的魯棒性不強,因此本文算法在特征選擇時首先考慮根據類一致性概率進行保守樣本篩選,剔除噪聲樣本,以避免噪聲樣本對特征選擇的不利影響。這里,定義3鄰域時所有近鄰樣本都為同一類的樣本為保守樣本,即類一致性概率P=1時,判定該樣本為保守樣本。
以得到的保守樣本作為模型輸入,保守樣本在鄰域范圍k=3,5,7時的類一致性系數作為模型輸出建立偏最小二乘回歸模型,得到回歸系數矩陣?;貧w系數對應每維特征的權重,故回歸系數越大,說明其對模型的貢獻越大。這里,定義一個累計貢獻率為:
(3)
其中:n為特征總數,m為入選特征數,回歸系數α從大到小排列。為確定合適的閾值進行了多次數值實驗,結果表明當sp達到95%時,特征選擇的效果最好,此時前m個回歸系數α對應的特征進入優選特征子集。
2.2 基于偏最小二乘回歸的分類
將上述得到的優選特征子集應用于訓練數據集中的所有樣本訓練偏最小二乘分類模型,此時的模型輸入是所有訓練樣本的優選特征子集,輸出是所有訓練樣本在鄰域范圍k=3,5,7時的類一致性系數。將測試樣本集輸入訓練好的偏最小二乘回歸分類模型得到3個不同鄰域下的類一致性系數預測值,并結合該測試樣本在訓練集中的k(k=3,5,7)個近鄰樣本類別標簽來確定測試樣本的類別標簽。這樣既可以保證用到樣本數據的局部結構信息,又兼顧了其全局結構信息。
3個類一致性系數表征了在由小到大變化的3個鄰域里,與該測試樣本具有相同類別標簽的訓練樣本的概率分布,保證了在全局結構上對樣本分布的綜合考察;而在局部結構角度上,選擇測試樣本在訓練集中的k個近鄰中多數樣本的類別標簽對其類別標簽進行合理估計。首先將預測值類一致性系數C轉換為類一致性概率P,轉換公式為:
(4)
之后將得到的P作為k近鄰方法預測結果的置信度,定義:

(5)
其中:θ=1表示接受k近鄰方法估計出的類別標簽;反之,θ=-1表示拒絕k近鄰方法估計出的類別標簽。這樣在3個鄰域范圍取值下得到3個類別標簽預測值,最終根據多數原則確定測試樣本的類別標簽。
2.3RFSC-PLSR方法的步驟
RFSC-PLSR算法流程如圖2所示。

圖2 RFSC-PLSR算法流程
具體算法步驟描述如下:
1)對于給定樣本集X0={xr,r=1,2,…,n},設X1={xi,i=1,2,…,n}為訓練樣本,X2={xj,j=1,2,…,n-i}為測試樣本。
2)根據式(1)計算3鄰域時X0的類一致性概率P。如果P=1,那么xr為保守樣本;否則xr為噪聲樣本。
3)以保守樣本為輸入,3、5、7三種鄰域下的類一致性系數為輸出建立PLSR方程,得到保守樣本的回歸系數矩陣rc,并模歸一化rc。
4)根據式(3)計算出回歸系數矩陣rc的累計貢獻率sp。如果sp≥0.95,則選擇前m個回歸系數α對應的特征進入優選特征子集。
5)用X1和優選特征子集作輸入,3、5、7三種鄰域下的類一致性系數為輸出建立并訓練PLSR分類模型。
6)把X2輸入到訓練出的分類模型,得到3種不同鄰域下的類一致性系數預測值C1,C2,C3,根據式(4)轉換為類一致性概率P1,P2,P3。
7)通過k近鄰方法得出測試樣本在訓練集中的3、5、7個近鄰樣本的類別標簽Y1,Y2,Y3。
8)根據6)的結果,如果P1≥0.5,那么接受Y1;否則拒絕Y1,即類別標簽為另一類別標簽。同理,應用于Y2,Y3。
9)根據7)的結果,由多數原則確定測試樣本空間X2的預測類別標簽Y0。
本文以二分類問題為例,在偏最小二乘回歸的基礎上進行建模。通過多組數值實驗來驗證本文提出的RFSC-PLSR算法的有效性,并與支持向量機(SVM)[17]、樸素貝葉斯(NaiveBayes,NB)[18]、BP神經網絡(BPNeuralNetwork,BPNN)[19]和Logistic回歸(LogisticRegression,LR)[20]等四種常用的典型分類器進行對比、分析和討論。
3.1 數據集
考慮在特征維度多樣化的條件下對比實驗結果,本文從UCIMachineLearningRepository(http://archive.ics.uci.edu/ml/index.html)中選擇5個不同維度的數據分別進行數值實驗,數據集詳情及特征選擇結果如表1所示。

表1 數據集詳情及特征選擇結果
3.2 實驗結果分析
對上述數據集采用十折交叉驗證法,以10次的平均結果作為不同方法的最終結果并加以比較,分類精度和運行時間分別如表2所示,魯棒性效果對比如圖3所示。
觀察表2分類精度發現,全部特征時RFSC-PLSR和四種典型的分類器相比較,準確率沒有明顯低于其他四種,且方差較小。如在ionosphere數據中,RFSC-PLSR的準確率雖比BPNN低,但其方差明顯比BPNN小,且分類精度相對其他三種方法較好,在sonar數據中,RFSC-PLSR的分類精度明顯比其他四種方法好;在優選特征下,RFSC-PLSR的分類精度相對較高,表中加下劃線的分類精度分別是5種分類器中表現最好的和次好的,可以看出,RFSC-PLSR的分類精度都表現較好。如在ionosphere、sonar和musk3個數據中,RFSC-PLSR的分類精度都相對其他四種方法較好,在breast和MultiFeat數據中,RFSC-PLSR的準確率雖不如BPNN和SVM好,但方差都比它們小??梢钥闯?,本文算法不管在全部特征下,還是優選特征下,都有較好的分類精度。

表2 RFSC-PLSR與典型的四種分類器的分類精度和運行時間比較

圖3 不同數據集在全部特征和優選特征時的魯棒性效果對比
比較五種分類器在全部特征和優選特征下的精度變化情況,發現五種分類器精度沒有發生顯著性的變化,且RFSC-PLSR在進行特征選擇之后分類精度的波動情況明顯比其他四種分類器上較小。這一則說明本文的特征選擇方法較好地去除了冗余無關特征,選出的特征子集能較完整保留數據的信息;一則說明本文結合特征選擇與分類的PLSR模型的魯棒性強。
從表2運行時間可以看出,在5個數據集中,與SVM和BPNN相比,RFSC-PLSR在全部特征和優選特征時能保證較好的運行效率,雖然NB以及LR處理多維數據時的運行效率優勢非常明顯,但是在分類精度上的表現不盡如人意。如在sonar和musk數據下,NB的運行速度很快,但是其分類精度明顯比RFSC-PLSR低很多;在ionosphere和sonar數據下,LR的運行速度也很快,但是其分類精度也明顯比RFSC-PLSR低。
圖3給出了5個數據在全部特征和優選特征時的5種分類器的魯棒性效果對比,從圖3中可以看出,在全部特征和優選特征時RFSC-PLSR在前四個數據中準確率都較集中,魯棒性明顯好于其他四種分類器。在MultiFeat數據中,在全部特征時,雖其魯棒性效果和SVM差不多,但明顯好于其他三種方法;在優選特征時,RFSC-PLSR的魯棒性和SVM、BPNN差不多,但也明顯好于其他兩種分類器。說明RFSC-PLSR的魯棒性較好。
綜合以上三點,表明本文算法處理不同維度的數據集時,在分類精度、運行效率和魯棒性三個方面均有良好的表現,能在保證算法精度和運行效率的前提下增強魯棒性,具有一定的優越性。
本文利用偏最小二乘回歸分析的優勢,結合k近鄰算法,提出一種基于偏最小二乘回歸的魯棒性特征選擇與分類算法。通過在多種維度數據集上的應用得到如下結論:
1)RFSC-PLSR算法,兩次結合PLSR模型,有效解決了特征之間的多重共線性問題,同時排除了噪聲樣本的影響,提高了系統的魯棒性。
2)定義的類一致性系數從全局信息考慮,并結合k近鄰兼顧局部信息,敏感地感知出類別的變化,更好地體現數據集的真實結構。
3)RFSC-PLSR算法選用PLS回歸模型,有效去除了冗余和無關特征,提高了運行效率,具有較好的推廣性。
本文中RFSC-PLSR算法處理的問題相對簡單,當遇到復雜的非線性問題時,若擴展到核空間上可能會有更好的表現;如何根據數據集的結構自適應地確定特征選擇閾值sp很有意義;分類模型中P的閾值選擇,本文也沒有作細致的討論。故上述問題將成為作者下階段的重點研究方向。
)
[1] 蔡哲元,余建國,李先鵬,等.基于核空間距離測度的特征選擇[J].模式識別與人工智能,2010,23(2):235-240.(CAIZY,YUJG,LIXP,etal.Featureselectionalgorithmbasedonkerneldistancemeasure[J].PatternRecognitionandArtificialIntelligence, 2010, 23(2): 235-240.)
[2] 成衛青,唐旋.一種基于改進互信息和信息熵的文本特征選擇方法[J].南京郵電大學學報(自然科學版),2013,33(5):63-68.(CHENGWQ,TANGX.Atextfeatureselectionmethodusingtheimprovedmutualinformationandinformationentropy[J].JournalofNanjingUniversityofPostsandTelecommunications(NaturalScienceEdition), 2013, 33(5): 63-68.)
[3]LIUX,WANGL,ZHANGJ.Globalandlocalstructurepreservationforfeatureselection[J].IEEETransactionsonNeuralNetworksandLearningSystems, 2013, 25(6): 1083-1095.
[4] 李建更,耿濤,阮曉鋼.基于逐步提取偏最小二乘主成分的特征選擇方法[J].生物學雜志,2010,27(4):85-87.(LIJG,GENGT,RUANXG.Featureselectionbasedonstep-wiseextractionofpartialleastsquareprincipalcomponents[J].JournalofBiology, 2010, 27(4): 85-87.)
[5] 李勝,張培林,李兵,等.改進的量子遺傳偏最小二乘特征選擇方法應用[EB/OL].[2015- 09- 09].http://xueshu.baidu.com/s?wd=paperuri%3A%2860c46a5aa2660e17695da55a04fd240c%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fd.wanfangdata.com.cn%2FPeriodical_pre_c9928afb-7542-4d5f-930a-e367c2695add.aspx&ie=utf-8&sc_us=6354191550128628502.(LIS,ZHANGPL,LIB,etal.Applicationforfeatureselectionmethodofimprovedquantumgeneticalgorithm-partialleastsquare[EB/OL]. [2015- 09- 09].http://xueshu.baidu.com/s?wd=paperuri%3A%2860c46a5aa2660e17695da55a04fd240c%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fd.wanfangdata.com.cn%2FPeriodical_pre_c9928afb-7542-4d5f-930a-e367c2695add.aspx&ie=utf-8&sc_us=6354191550128628502.)
[6]NAGARAJAVK,ABD-ALMAGEEDW.Featureselectionusingpartialleastsquaresregressionandoptimalexperimentdesign[C]//Proceedingsofthe2015InternationalJointConferenceonNeuralNetworks.Piscataway,NJ:IEEE, 2015: 1-8.
[7] 馬宗杰,劉華文.基于奇異值分解—偏最小二乘回歸的多標簽分類算法[J].計算機應用,2014,34(7):2058-2060.(MAZJ,LIUHW.Multi-labelclassificationbasedonsingularvaluedecomposition-partialleastsquaresregression[J].JournalofComputerApplications, 2014, 34(7): 2058-2060.)
[8]EROGLUK,MALEKIM,KAYIKCIOGLUT.FastandhighaccuracyclassificationofsleepEEGusingPLSRmethod[C]//Proceedingsofthe2013 21stSignalProcessingandCommunicationsApplicationsConference.Piscataway,NJ:IEEE, 2013: 1-4.
[9] 簡彩仁,陳曉云.基于稀疏表示和最小二乘回歸的基因表達數據分類方法[J].福州大學學報(自然科學版),2015,43(6):738-741.(JIANCR,CHENXY.Geneexpressiondataclassificationmodelbasedonsparserepresentationandleastsquareregression[J].JournalofFuzhouUniversity(NaturalScienceEdition), 2015, 43(6): 738-741.)
[10]LIJG,GENGT.Tumorclassificationbasedonpartialleastsquareregression[C]//Proceedingsofthe2010InternationalConferenceonBiomedicalEngineeringandComputerScience.Piscataway,NJ:IEEE, 2010: 1-6.
[11] 金志超,陸健,吳騁,等.兩種基于偏最小二乘法的分類模型對腫瘤基因表達數據行多分類的比較研究[J].中國衛生統計,2009,29(5):450-454.(JINZC,LUJ,WUC,etal.Twomultipleclassificationmethodsbasedonpartialleastsquaresusingtumormicroarraygeneexpressiondataonacomparativestudy[J].ChineseJournalofHealthStatistics, 2009, 29(5): 450-454.)
[12]ZENGXQ,LIGZ.Dimensionreductionforp53proteinrecognitionbyusingincrementalpartialleastsquares[J].IEEETransactionsonNanoBioscience, 2014, 13(2):73-79.
[13] 曾雪強,李國正.基于偏最小二乘降維的分類模型比較[J].山東大學學報(工學版),2010,40(5):41-47.(ZENGXQ,LIGZ.Anexaminationofaclassificationmodelwithpartialleastsquarebaseddimensionreduction[J].JournalofShandongUniversity(EngineeringScience), 2010, 40(5): 41-47.)
[14]ABDIH.Partialleastsquaresregressionandprojectiononlatentstructureregression(PLSregression) [J].WileyInterdisciplinaryReviews:ComputationalStatistics, 2010, 2(1):97-106.
[15] 周城,葛斌,唐九陽,等.基于相關性和冗余度的聯合特征選擇方法[J].計算機科學,2012,39(4):181-184.(ZHOUC,GEB,TANGJY,etal.Jointfeatureselectionmethodbasedonrelevanceandredundancy[J].ComputerScience, 2012, 39(4): 181-184.)
[16] 車凱,郭茂祖,劉曉燕,等.植物抗性基因識別中樣本選擇的一種新方法[J].智能計算機與應用,2012,2(4):31-34.(CHEK,GUOMZ,LIUXY,etal.Anovelsampleselectionmethodforplantresistancegenerecognition[J].IntelligentComputerandApplications, 2012, 2(4): 31-34.)
[17]CHERKASSKYV,MAY.PracticalselectionofSVMparametersandnoiseestimationforSVMregression[J].NeuralNetworks, 2004, 17(1): 113-126.
[18] 李文進,熊小峰,毛伊敏.基于改進樸素貝葉斯的區間不確定性數據分類方法[J].計算機應用,2014,34(11):3268-3272.(LIWJ,XIONGXF,MAOYM.ClassificationmethodforintervaluncertaindatabasedonimprovednaiveBayes[J].JournalofComputerApplications, 2014, 34(11): 3268-3272.)
[19]YULL,TANBX,MENGTX.TheautomaticclassificationofECGbasedonBPneuralnetwork[J].AdvancedMaterialsResearch, 2010, 121/122: 111-116.
[20]CHENGQ,VARSHNEYPK,ARORAMK.Logisticregressionforfeatureselectionandsoftclassificationofremotesensingdata[J].IEEEGeoscienceandRemoteSensingLetters, 2006, 3(4): 491-494.
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(U1304602, 61473266, 61305080),theKeyScientificResearchProgramofHenanUniversity(15A120016).
SHANG Zhigang, born in 1975, Ph. D., associate professor. His research interests include data mining, signal processing.
DONG Yonghui, born in 1993, M. S. candidate. Her research interests include signal processing, pattern recognition.
LI Mengmeng, born in 1990, M. S. candidate. His research interests include image processing, feature selection.
LI Zhihui, born in 1978, Ph. D., lecturer. Her research interests include signal processing, pattern recognition.
Robust feature selection and classification algorithm based on partial least squares regression
SHANG Zhigang, DONG Yonghui, LI Mengmeng, LI Zhihui*
(CollegeofElectricalEngineering,ZhengzhouUniversity,ZhengzhouHenan450001,China)
A Robust Feature Selection and Classification algorithm based on Partial Least Squares Regression (RFSC-PLSR) was proposed to solve the problem of redundancy and multi-collinearity between features in feature selection. Firstly, the consistency coefficient of sample class based on neighborhood estimation was defined. Then, thekNearest Neighbor (kNN) operation was used to select the conservative samples with local class structure stability, and the partial least squares regression model was used to construct the robust feature selection. Finally, a partial least squares classification model was constructed using the class consistency coefficient and the preferred feature subset for all samples from a global structure perspective. Five data sets of different dimensions were selected from the UCI database for numerical experiments. The experimental results show that compared with four typical classifiers—Support Vector Machine (SVM), Naive Bayes (NB), Back-Propagation Neural Network (BPNN) and Logistic Regression (LR), RFSC-PLSR is more efficient in low-dimensional, medium-dimension, high-dimensional and other different cases, and shows stronger competitiveness in classification accuracy, robustness and computational efficiency.
Partial Least Squares Regression (PLSR);kNearest Neighbor (kNN); noise sample; feature selection; robust
2016- 08- 05;
2016- 10- 18。
國家自然科學基金資助項目(U1304602,61473266,61305080);河南省高等學校重點科研項目(15A120016)。
尚志剛(1975—),男,甘肅蘭州人,副教授,博士,主要研究方向:數據挖掘、信號處理; 董永慧(1993—),女,安徽宿州人,碩士研究生,主要研究方向:信號處理、模式識別; 李蒙蒙(1990—),男,河南商丘人,碩士研究生,主要研究方向:圖像處理、特征選擇; 李志輝(1978—),女,河南濮陽人,講師,博士,主要研究方向:信號處理、模式識別。
1001- 9081(2017)03- 0871- 05
10.11772/j.issn.1001- 9081.2017.03.871
TP181
A