999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的最大相關最小冗余特征選擇算法

2021-09-11 03:13:16李順勇王改變
智能系統學報 2021年4期
關鍵詞:分類特征

李順勇,王改變

(山西大學 數學科學學院,山西 太原 030006)

特征選擇是數據挖掘、機器學習和模式識別中的一項重要技術,是當前信息領域的研究熱點之一[1-3]。它在數據分析和預處理過程中起著非常重要的作用。特征選擇在不改變特征原始表達的基礎上,僅從特征集中篩選最能代表數據特點的最優特征子集。因此,不僅可以去除不相關和冗余信息,降低訓練樣本的維度和分類樣本的復雜度,而且能很好地保持原始特征包含的信息,對于人們理解和判斷觀測來說更加容易。特征選擇根據其是否與后續學習算法獨立可以分為過濾式和封裝式兩種。過濾式特征選擇方法獨立于后續的學習算法,通過數據的本質屬性對所有特征進行評分,在此評價過程中不會借用分類模型來完成[4-5]。其中具有代表性的方法有T 檢驗(Ttest)[6]、Fisher score[7]、信息增益(information gain,IG)[8]等。但是,過濾式特征選擇方法往往會忽略特征之間的相關性。封裝式特征選擇算法與后續學習算法相關,利用學習算法的性能評價所選特征子集的好壞,因此在精度方面要優于過濾式特征選擇[8-12]。基于特征選擇的目的,已經有部分學者做了相關研究。例如,傳統的基于空間搜索的最大相關最小冗余(minimal redundancy maximal relevance,MRMR)[13]算法,使用互信息來度量特征之間的冗余度以及與類別之間的相關度,并且利用信息熵和信息差兩個函數來選取最優特征子集。但是,由于冗余度和相關度的評價準則單一,所以使得該特征選擇算法的使用范圍較窄。2018 年,郭凱文等[14]提出了基于特征選擇和聚類的分類算法,特征選擇標準采用的是傳統的基于空間搜索的最大相關最小冗余準則,將信息差作為目標函數來求解最優特征子集。雖然該算法在目標函數中增加了相關度和冗余度的權重因子,但是,在求解最優特征子集的過程中需要對權重因子不斷地賦值以尋求最優子集,計算量較大;2020 年,李純果等[15]提出的基于排序互信息的無監督特征選擇,是基于排序互信息反應的兩屬性之間的單調關系,用每個屬性與其他屬性之間的平均互信息,來衡量每個屬性與排序學習的相關度,平均互信息最高的視為排序最相關的屬性。但是,該算法忽略了特征與特征之間的冗余度,只在低維度且樣本量較少的模擬數據集上進行了有效性驗證,對真實數據集的特征選擇效果不明了;2020 年,劉云等[16]提出了混合蒙特卡羅搜索的特征選擇算法的優化,根據蒙特卡羅樹搜索方法生成了一個初始特征子集,然后利用ReliefF 算法選擇前k個特征組成候選特征集,最后,用KNN 分類器的分類精度評估候選特征,選擇高精度的候選特征作為最佳特征子集。然而,ReliefF 算法是從同類和不同類中各選取k個近鄰樣本,求平均值得到各個特性權值,即特征與類別之間的相關性,并沒有考慮特征與特征之間的冗余度。2020 年,周傳華等[17]提出的最大相關與獨立分類信息最大化特征選擇算法,用互信息度量特征與類別之間的相關性,用獨立分類信息綜合衡量新分類信息和特征冗余,盡管在特征選擇過程中綜合考慮了特征與類別的相關性、特征之間的冗余性,以及特征包含的新分類信息,并結合最大最小準則對特征的重要性進行了非線性評價,但其目標函數與傳統的MRMR 算法的目標函數類似,依然不能根據客戶的實際需求進行特征選擇。

針對上述特征選擇算法中存在的冗余度和相關度的度量準則單一以及評價函數問題,提出了新方案。在冗余度度量準則方面引入了2 種不同的方法,在相關度度量準則方面引入了4 種不同的方法,從而組合衍生出8 種特征選擇算法,提出了新的目標函數。

1 新的特征選擇算法

MRMR 算法是最常用、最典型的基于空間搜索的特征選擇算法。其中,最大相關即特征與類別間的相關度要最大,最小冗余即特征與特征之間的相關度要最小[18-19],該算法中,冗余度和相關度均是利用互信息作為度量準則,就效能而言,比只考慮特征與類別之間的相關度,或者只考慮特征之間冗余度的特征選擇算法要好。但是,在現實生活中,我們面臨的數據往往紛繁復雜,面對不同的數據,MRMR 算法呈現出的效果有較大差異,從而降低了該算法的適用范圍。

針對MRMR 算法存在的問題,提出一種新的最大相關最小冗余特征選擇算法(new algorithm for feature selection with maximum relation and minimum redundancy,New-MRMR)。這里New-MRMR 算法僅是新提出的一個特征選擇的框架,在度量特征與特征之間冗余度時選用了2 種評價準則,在度量特征與特征之間相似度時選用了4 種評價準則,從而衍生出8 種特征選擇算法,當面對不同的用戶需求時,選用不同特征選擇算法,使得新提算法的適用范圍更廣。具體的特征選擇流程見圖1。

圖1 可以看出,特征選擇算法的基本流程為:先對原始數據集進行預處理,將原始數據集分為測試集和訓練集,然后,在訓練集上選擇不同的冗余度和相關度評價準則來訓練模型,進行特征選擇,得到最優特征子集,最后,利用測試集來驗證模型的有效性。

圖1 New-MRMR 特征選擇流程Fig.1 New-MRMR feature selection flow

1.1 冗余度評價準則

特征選擇是為了去除原始特征集中的冗余特征,達到降維目的。因此,利用冗余度評價可以作為New-MRMR 特征選擇算法的一部分,其基本思想是:兩個特征的相關度越大,則這兩個特征冗余度也越高。但是,由于評價特征之間冗余度以及特征與類別之間相關度的準則眾多,且目前缺乏相關研究給出具體哪種方法更適用于哪種數據類型。所以,本文新提出的算法僅采用了Pearson 相關系數[14]以及互信息[14]兩種準則來度量特征之間的冗余度。

1.2 相關度評價準則

在特征選擇過程中,通常優先選擇與類別相關度較大的特征,而特征的重要度在一定程度上反映了與類別的相關度大小,因此,相關度的度量準則就轉化成了特征重要度的衡量。衡量特征重要度的評價準則有很多,例如:Fisher score[7]、信息增益(information gain,IG)[8]、Laplacian Score[20]、Chi-squar Test[21-22]等。Fisher score 主要是按照類內距離小,類間距離大的原則,選出包含鑒別信息比較多的特征,其值越大,說明該特征越重要,與類別的相關度越大;信息增益是通過計算某特征被使用前后的信息熵來為該特征進行打分,信息增益越大,說明該特征越重要,與類別的相關度越大;Laplacian Score 是根據拉普拉斯特征映射等對單個特征評分,然后選出方差和局部幾何結構保持能力較強的特征,其分值越高,特征越重要。New-MRMR 算法也采用這4 種評價準則作為相關度的度量準則。

1.3 目標函數

基于特征選擇和聚類的眾多分類算法中,目標函數常采用加權的信息差方式,并且通過對權重信息不斷賦值來求解最優特征子集,不能根據不同用戶實際需求的維度求解最優特征子集。因此,本文提出了一種新的目標函數,引入了一個指示向量 λ 以及參數k來表示所選的特征維度。具體目標函數如下:

式中:k為用戶需求的實際數據維度;D為冗余度矩陣;C為特征與類別之間的相關性矩陣。λ=[λ1λ2··· λn]T,n為原始特征集的特征數。當λi取值為0 時,說明對應的特征不會被選擇進最終的特征子集,λi取值越大時,表明其對應的特征越容易被選進最終的特征子集。

對于該目標函數的求解,與最優化標準二次規劃問題[23]相似,本文采用成對更新方法[24]來求解以上目標函數的最優解。

2 實驗結果與分析

2.1 數據集信息及評價指標

為驗證New-MRMR 算法的有效性,本文使用了4 個真實的UCI 數據集。先利用新提出的算法處理原始特征,進而使用支持向量機對所得到的特征子集進行分類實驗,最后比較各種算法在測試集上的分類準確率(classification precision,CP)。相關定義如下:

式中:CC(correct classification,CC)為正確分類的樣本數量;Num 為樣本數量總數。

表1 為4 個UCI[25]數據集的具體信息:

表1 實驗數據集Table 1 Experimental data set

實驗中,與新提算法進行對比的特征選擇算法分別是:Fisher Score、基于Information Gain 的方法、基于Laplacian Score 的方法、基于Chi-squar Test 的方法、基于MRMR 的方法。表2 列出了以上方法。

表2 新提出的8 種特征選擇算法與其他算法對比Table 2 Comparison of 8 newly proposed feature selection algorithms with other algorithms

2.2 實驗結果對比分析

特征選擇過程是剔除原始數據集中的不相關以及冗余特征,達到數據降維目的。為驗證以上各種算法在數據降維和用支持向量機分類后的分類準確率,表3 給出了以上各種算法在數據集isolet上的實驗結果,即經支持向量機分類后,計算得到的分類準確率達到最大時所選擇的特征數。

表3 分類準確率最大時,數據集isolet 上各種算法分別所選擇的特征數Table 3 Number of features selected by various algorithms when the Classification precision is maximum on the isolet dataset

由表3 可以看出,由以上各種算法對數據集isolet 進行特征選擇后,利用支持向量機對所選特征子集進行分類,本文新提出的8 種特征選擇算法的分類準確率,均高于傳統的5 種特征選擇算法,尤其是新提出的算法New-MRMR-IG-P,其分類準確率達到了0.963 5,遠高于傳統的5 種特征選擇算法。在保證準確率的情況下,其所選的特征數也均小于傳統的5 種特征選擇算法。可見,本文新提出的特征選擇算法在數據降維方面效果更佳。

圖2 是在數據集isolet 上,本文新提出的特征選擇算法New-MRMR-F-NI、New-MRMR-F-P,傳統特征選擇算法MRMR、Fisher Score 在不同維度下的分類準確率變化趨勢。

圖2 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、MRMR 在數據集isolet 上分類準確率的變化趨勢Fig.2 Correct classification trend of New-MRMR-F-NI,New-MRMR-F-P,Fisher-Score,MRMR on the dataset isolet

從圖2 可以看出,對于在不同維度下的分類準確率,新提出的特征選擇算法New-MRMR-FNI、New-MRMR-F-P 明顯高于傳統算法Fisher Score、MRMR。所以,對于減少原始特征集中的冗余和不相關特征,New-MRMR-F-NI、New-MRMR-F-P 有更好的優勢。

不同維度下,本文新提算法New-MRMR-KNI、New-MRMR-K-P,傳統算法MRMR、Chi-Square-Test 在數據集isolet 上的分類準確率變化趨勢見圖3。

圖3 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR 在數據集isolet 上分類準確率的變化趨勢Fig.3 Correct classification trend of New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR on the dataset isolet

圖3 顯示,不同維度下,New-MRMR-K-P 的分類準確率曲線明顯高于傳統特征選擇算法,并且,在所選特征子集數為289 時,其分類準確率達到了最高,既很好地去除了原始特征集中的冗余和不相關特征,又保證了分類準確率。此外,算法New-MRMR-K-P 除了在維度為195 時的分類準確率與傳統算法MRMR 相近之外,在其他維度上的分類準確率均高于Chi-Square-Test、MRMR。可見,本文新提出的特征選擇算法效果更佳。

不同維度下,新提出的特征選擇算法New-MRMR-L-NI、New-MRMR-L-P,傳統特征選擇算法MRMR、Laplacian-Score 的分類準確率變化趨勢見圖4。

圖4 New-MRMR-L-NI、New-MRMR-L-P、Laplacian-Score、MRMR 在數據集isolet 上,分類正確的變化趨勢Fig.4 Correct classification trend of New-MRMR-L-NI、New-MRMR-L-P,Laplacian-Score,MRMR on the dataset isolet

圖4 顯示,在特征維度為342 的時候,算法New-MRMR-L-P 的分類準確率就已經達到了最高,并且大于傳統算法Laplacian-Score、MRMR 的最大分類準確率。此外,在分類準確率達到最高時,算法New-MRMR-L-NI 所選的特征子集數僅為288,遠小于傳統算法Laplacian-Score、MRMR 所選的特征子集數。因此,新提出的算法New-MRMR-L-NI、New-MRMR-L-P 對于特征選擇效果更好。

不同維度下,新提出的特征選擇算法New-MRMR-IG-NI、New-MRMR-IG-P,傳統特征選擇算法MRMR、Laplacian-Score 的分類準確率變化趨勢見圖5。

由圖5 可以看出,在不同維度下,算法New-MRMR-IG-NI、New-MRMR-IG-P 分類準確率的曲線,均高于傳統的兩種特征選擇算法Information-Gain、MRMR 所代表的曲線。分類準確率越高,表明所選特征子集越好。可見,新出的算法New-MRMR-IG-NI 以及New-MRMR-IG-P 在特征選擇方面更加有效。

圖5 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在數據集isolet 上,分類準確率的變化趨勢Fig.5 Correct classification trend of New-MRMR-IG-NI,New-MRMR-IG-P,Information-Gain,MRMR on the dataset isolet

表4 給出了以上各種算法在數據集waveform 上的實驗結果,即經支持向量機分類后計算得到的分類準確率達到最大時所選擇的特征數。

表4 顯示,在數據集waveform 上,本文新提出的算法New-MRMR-F-P 的最大分類準確率達到了0.953 4,遠大于傳統特征選擇算法的分類準確率;并且New-MRMR-F-P 在分類準確率達到最大時,所選的特征子集數僅為17,小于傳統的5 種特征選擇算法在分類準確率達到最大時所選的特征子集數。除此之外,本文新提出的其余特征選擇算法的分類準確率,也均大于傳統的特征選擇算法的分類準確率,且所選特征子集數相對來說較小。因此,綜合考慮分類準確率以及所選特征子集維度兩個方面,本文新提算法特征選擇效果更加明顯。

表4 分類準確率最大時數據集waveform 上各種算法分別所選擇的特征數Table 4 Number of features selected by various algorithms when the Classification precision is maximum on the waveform dataset

不同維度下,本文新提出的特征選擇算法New-MRMR-F-NI、New-MRMR-F-P,傳統特征選擇算法MRMR、Fisher Score 在數據集waveform 上的分類準確率變化趨勢見圖6。

由圖6 看出,在數據集waveform 上,New-MRMR-F-P 的表現最好,其所代表的曲線遠高于傳統的特征選擇算法MRMR、Fisher-Score 所代表的曲線。此外,雖然在維度為24 時,算法New-MRMR-F-NI的分類準確率低于傳統算法MRMR、Fisher-Score。但是,在其余維度上,New-MRMR-F-NI 的分類準確率均高于MRMR、Fisher-Score。綜合分析,本文新提算法New-MRMR-FNI、New-MRMR-F-P 的特征選擇效果更好。

圖6 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、MRMR 在數據集waveform 上,分類準確率的變化趨勢Fig.6 Correct classification trend of New-MRMR-F-NI New-MRMR-F-P,Fisher-Score,MRMR on the dataset waveform

不同維度下,算法New-MRMR-K-NI、New-MRMR-K-P 以及傳統特征選擇算法MRMR 以及Chi-Square-Test 在數據集waveform 上的分類準確率變化趨勢見圖7。

圖7 顯示,維度為20 時,New-MRMR-K-NI 的分類準確率就達到了最大,大于MRMR、Chi-Square-Test 的最大分類準確率。并且其所選特征子集數小于MRMR、Chi-Square-Test 的最優特征子集數。此外,算法New-MRMR-K-P 的分類準確率曲線高于MRMR、Chi-Square-Test 的分類準確率曲線。所以,在waveform 數據集上,本文新提出的算法New-MRMR-K-NI、New-MRMR-K-P 的特征選擇效果更好。

圖7 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR 在數據集waveform 上,分類準確率的變化趨勢Fig.7 Correct classification trend of New-MRMR-K-NI,New-MRMR-K-P,Chi-Square-Test,MRMR on the dataset waveform

不同維度下,算法New-MRMR-L-NI、New-MRMR-L-P,傳統特征選擇算法MRMR、Laplacian-Score 在數據集waveform 上的分類準確率變化趨勢見圖8。

圖8 顯示,New-MRMR-L-NI 的分類準確率高于傳統算法MRMR、Laplacian-Score。在分類準確率達到最大時,New-MRMR-L-NI 所選特征子集數僅為20,小于MRMR、Laplacian-Score 的最優特征子集數。另外,新提算法在多數維度上均大于傳統算法MRMR、Laplacian-Score 的分類準確率。由于分類準確率越高,特征選擇效果越好,所以,在數據集waveform 上,New-MRMR-L-NI、New-MRMR-L-P 的特征選擇效果更好。

圖8 New-MRMR-L-NI、New-MRMR-L-P、Laplacian-Score、MRMR 在數據集waveform 上,分類準確率的變化趨勢Fig.8 Correct classification trend of New-MRMR-L-NI,New-MRMR-L-P,Laplacian-Score,MRMR on the dataset waveform

不同維度下,New-MRMR-IG-NI、New-MRMRIG-P、傳統算法MRMR、Information-Gain 在數據集waveform 上分類準確率變化趨勢見圖9。

圖9 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在數據集waveform 上,分類準確率的變化趨勢Fig.9 Correct classification trend of New-MRMR-IG-NI,New-MRMR-IG-P,Information-Gain,MRMR on the dataset waveform

圖9 顯示,在數據集waveform 上,算法New-MRMR-IG-NI 的分類準確率的曲線高于傳統的算法MRMR、Information-Gain 的分類準確率。且算法New-MRMR-IG-P 的分類準確率在維度為24 時達到最大。維度為11 時,New-MRMR-IGP 的分類準確率略低于MRMR、Information-Gain,但是,在其余維度上均大于MRMR、Information-Gain。綜上分析,在數據集waveform 上,本文新提出的特征選擇算法效果明顯。

表5 給出了以上各種算法在數據集clean 上的實驗結果,即經支持向量機分類后,得到的分類準確率達到最大時所選擇的特征數。

表5 分類準確率最大時數據集clean 上各種算法分別所選擇的特征數Table 5 Number of features selected by various algorithms when the Classification precision is maximum on the clean dataset

由表5 可以看出,在分類準確率方面,本文新提出的算法的最大分類準確率均高于5 種傳統的特征選擇算法。在分類準確率達到最優時所選的特征子集數方面,尤其是算法New-MRMR-K-NI,其所選的特征子集數僅20,遠小于原始的特征子集數。所以,對于數據集clean 而言,本文新提出的特征選擇算法更加有效。

不同維度下,算法New-MRMR-F-NI、New-MRMR-F-P、傳統特征選擇算法MRMR、Fisher Score 在數據集clean 上的分類準確率變化趨勢見圖10。

圖10 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、MRMR 在數據集clean 上分類準確率的變化趨勢Fig.10 Correct classification trend of New-MRMR-F-NI,New-MRMR-F-P,Fisher-Score,MRMR on the dataset clean

由圖10 可以看出,本文新提算法New-MRMRF-NI、New-MRMR-F-P 的分類準確率曲線均MRMR、Fisher-Score 的分類準確率的曲線之上。由此可見,在數據集claen 上,算法New-MRMR-FNI、New-MRMR-F-P 的特征選擇結果更優。

不同維度下,算法New-MRMR-K-NI、New-MRMR-K-P、傳統特征選擇算法MRMR、Chi-Square-Test 在數據集clean 上的分類準確率變化趨勢見圖11。

圖11 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR 在數據集clean 上,分類準確率的變化趨勢Fig.11 Correct classification trend of New-MRMR-K-NI,New-MRMR-K-P,Chi-Square-Test,MRMR on the dataset clean

圖11 中,New-MRMR-K-NI、New-MRMR-KP 的分類準確率的曲線均在傳統的特征選擇算法MRMR、Chi-quare-Test 之上,尤其是New-MRMRK-NI,當分類準確率達到最大時,所選的特征子集數為20,遠小于兩種傳統算法所選擇的最優特征子集數。可見,在數據集clean 上,算法New-MRMRK-NI、New-MRMR-K-P 的特征選擇效果更優。

不同維度下,算法New-MRMR-L-NI、New-MRMR-L-P、傳統特征選擇算法MRMR、Fisher Score 在數據集clean 上的分類準確率變化趨勢見圖12。

圖12 New-MRMR-L-NI、New-MRMR-L-P、Laplacian-Score、MRMR 在數據集clean 上分類準確率的變化趨勢Fig.12 Correct classification trend of New-MRMR-L-NI,New-MRMR-L-P,Laplacian-Score,MRMR on the dataset clean

圖12 可以看出,維度為40 時,算法New-MRMRL-NI 就達到了最大分類準確率,且高于傳統算法MRMR、Laplacian-Score 的分類準確率。此外,雖然在維度為110 時,New-MRMR-L-P 的分類準確率略低于MRMR,但在其余維度上的分類準確率均高于MRMR、Laplacian-Score 的分類準確率。

可見,在數據集clean 上,新提算法New-MRMR-L-NI、New-MRMR-L-P 的特征選擇效果更好。

不同維度下,算法New-MRMR-IG-NI、New-MRMR-IG-P、傳統特征選擇算法MRMR、Fisher Score 在數據集clean 上的分類準確率變化趨勢見圖13。

圖13 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在數據集clean 上分類準確率的變化趨勢Fig.13 Correct classification trend of New-MRMR-IG-NI,New-MRMR-IG-P,Information-Gain,MRMR on the dataset clean

圖13 顯示,本文新提算法New-MRMR-IGNI、New-MRMR-IG-P 的分類準確率曲線均在傳統算法的分類準確率曲線之上。所以,對于數據集clean,本文新提出的兩種特征選擇算法New-MRMR-IG-NI、New-MRMR-IG-P 所選擇的特征子集更加有效。

表6 給出了以上各種算法在數據集Parkinson’s Disease 上的實驗結果,即經支持向量機分類后,得到的分類準確率達到最大時所選擇的特征數。

表6 分類準確率最大時,數據集Parkinson’s Disease 上各種算法分別所選擇的特征數Table 6 Number of features selected by various algorithms when the Classification precision is maximum on the Parkinson’s Disease dataset

續表 6

表6 顯示,算法New-MRMR-F-P 的分類準確率高達0.912 4,且此時所選擇的特征子集數僅為150,遠小于傳統的5 種算法的最優特征子集數。另外,除了New-MRMR-K-P 的分類準確率略低于傳統算法MRMR 的分類準確率之外,新提出的其余算法均大于傳統特征選擇算法。由此可見,本文新提出的特征選擇算法在數據集Parkinson’s Disease 上的特征選擇效果更好。

不同維度下,算法New-MRMR-F-NI、New-MRMR-F-P,傳統特征選擇算法MRMR、Fisher-Score 在數據集Parkinson’s Disease 上的分類準確率變化趨勢見圖14。

圖14 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、MRMR 在數據集Parkinson’s Disease 上分類準確率的變化趨勢Fig.14 Correct classification trend of New-MRMR-F-NI,New-MRMR-F-P,Fisher-Score,MRMR on the Parkinson’s Disease dataset

圖14 顯示,算法New-MRMR-F-NI 的分類準確率曲線在傳統算法MRMR、Fisher-Score 的分類準確率曲線之上。在維度為540 時,New-MRMRF-P 的分類準確率略低于MRMR 的分類準確率。但是,在其余維度上,New-MRMR-F-P 的分類準確率均高于傳統算法MRMR、Fisher-Score 的分類準確率。更重要的是,在達到最大分類準確率時,New-MRMR-F-NI 所選的特征子集數僅為210,遠低于MRMR、Fisher-Score 的最優特征子集數。所以,在數據集Parkinson’s Disease 上,本文新提出的算法特征選擇效果更好。

不同維度下,本文新提算法New-MRMR-FNI、New-MRMR-F-P、傳統算法MRMR、Fisher-Score 在數據集Parkinson’s Disease 上的分類準確率變化趨勢見圖15。

圖15 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR 在數據集Parkinson’s Disease 上分類準確率的變化趨勢Fig.15 Correct classification trend of New-MRMRK-NI,New-MRMR-K-P,Chi-Square-Test,MRMR on the Parkinson’s Disease dataset

由圖15 可見,在絕大多數維度上,New-MRMRF-NI、New-MRMR-F-P 的分類準確率均高于MRMR、Chi-Square-Test 的分類準確率。在維度為120 時,New-MRMR-F-NI 就已然達到了最大分類準確率,大于MRMR、Chi-Square-Test 的最大分類準確率。由此可見,在數據集Parkinson’s Disease 上,本文新提算法特征選擇效果更好。

不同維度下,本文新提出的特征選擇算法New-MRMR-F-NI、New-MRMR-F-P 以及傳統特征選擇算法MRMR 以及Fisher Score 在數據集Parkinson's Disease 上的分類準確率變化趨勢見圖16。

由圖16 可以看出,算法New-MRMR-L-P 的分類準確率的曲線高于傳統算法MRMR、Laplacian-Score 的分類準確率曲線,并且,在維度為240 時,New-MRMR-L-NI 就已經達到了最大分類準確率,遠小于MRMR 達到最大分類準確率時所選擇的特征子集數(540)。由此可見,在數據集Parkinson’s Disease 上,本文新提算法特征選擇效果更好。

圖16 New-MRMR-L-NI、New-MRMR-L-P、Laplacian-Score、MRMR 在數據集Parkinson’s Disease上分類準確率的變化趨勢Fig.16 Correct classification trend of New-MRMR-L-NI,New-MRMR-L-P,Laplacian-Score,MRMR on the Parkinson’s Disease dataset

不同維度下,本文新提算法New-MRMR-FNI、New-MRMR-F-P 以及傳統算法MRMR、Fisher Score 在數據集Parkinson’s Disease 上的分類準確率變化趨勢見圖17。

由圖17 可以看出,在維度為120 和540 時,New-MRMR-IG-P 的分類準確率與算法MRMR 的分類準確率較為接近,但在其余維度上,其分類準確率均大于MRMR 的分類準確率。而且,在分類準確率達到最大時,New-MRMR-IG-P 所選擇的特征子集數僅為180,遠小于MRMR 的最優特征子集數。此外,New-MRMR-IG-NI 的分類準確率的曲線高于算法MRMR、Information-Gain 的分類準確率曲線。由上述分析可知,針對數據集Parkinson’s Disease 而言,本文提出算法在整體上比傳統算法選擇結果更好。

圖17 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在數據集Parkinson’s Disease 上分類準確率的變化趨勢Fig.17 Correct classification trend of New-MRMRIG-NI,New-MRMR-IG-P,Information-Gain,MRMR on the Parkinson’s Disease dataset

2.3 實驗結果的T 檢驗

為更加有效地證明本文新提的8 種特征選擇算法的有效性,以下采用成對單邊T 檢驗來證明其有效性。原假設為:本文新提算法與傳統算法的特征選擇效果相同;備擇假設為:本文新提算法的特征選擇效果優于傳統特征選擇算法。表7為假設檢驗結果,其中包含了檢驗的統計量,置信區間以及P值。

表7 新提算法與傳統算法的成對單邊T 檢驗的檢驗結果Table 7 Test results of paired unilateral T-test between the new algorithm and the traditional algorithm

由表7 可以看出,成對單邊T 檢驗的P值均小于0.05,所以拒絕原假設,故認為本文新提出的8 種特征選擇算法的特征選擇結果優于傳統特征選擇算法的特征選擇結果。

綜上分析,從分類準確率以及假設檢驗的結果可以看出,本文新提出的8 種特征選擇算法所選擇的特征子集更優,特征選擇效果更好。

3 結束語

雖然傳統的基于特征選擇的分類算法的理念已較為新穎,但是還是存在一定的提升空間。一方面,傳統的基于特征選擇的分類算法在特征選擇過程中采用的度量特征之間冗余度以及與類別的相關度的評價準則單一;另一方面,它只考慮了特征與類別之間的相關度而忽略了冗余度;最后,其目標函數也存在缺陷,不能根據用戶實際的維度需求來選擇特征子集。本文針對這些問題引入了4 種不同的相關度評價準則以及兩種不同的冗余度評價準則,目標函數中引入了指示向量λ來刻畫用戶實際的數據維度需求,從而組合成8 種新的特征選擇算法,利用支持向量機對這8 種算法選擇得到的特征子集分類。在4 個真實的UCI 數據集上進行了實驗,利用分類準確率和T 檢驗驗證了新提出的算法的有效性。

最后需要指出,評價特征冗余度和相關度的方法有多種,本文僅用了2 種評價冗余度的方法和4 種評價相關度的方法,但是其他評價冗余度和相關度的方法也可以適用于New-MRMR 框架,此外,新提特征選擇算法在不同數據集上表現性能不同。因此,后續研究中,會更深入地研究和挖掘數據本質,嘗試利用足夠多的數據集以及評價相關度和冗余度的方法來深入探索具體哪種算法更適合哪種領域。

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 久久精品亚洲中文字幕乱码| 国产精品成人一区二区不卡 | 亚洲国产精品日韩av专区| 国产精品久久久久无码网站| 亚洲一区二区视频在线观看| 欧美在线视频不卡| 激情亚洲天堂| 精品无码国产一区二区三区AV| 国产精品自拍合集| 欧美在线伊人| 色综合成人| 情侣午夜国产在线一区无码| 国产精品99r8在线观看| 香蕉视频在线观看www| a毛片免费在线观看| 国产亚洲精品无码专| 999国内精品久久免费视频| 国产精品成人一区二区不卡| 99ri国产在线| 精品国产中文一级毛片在线看 | 久久夜色撩人精品国产| 午夜啪啪网| 国产成人精品一区二区秒拍1o| 久热中文字幕在线| 女同国产精品一区二区| 亚洲性视频网站| 国产乱码精品一区二区三区中文 | 国产精品手机在线观看你懂的 | 国产免费高清无需播放器| 欧美视频在线不卡| 亚洲色成人www在线观看| 国产亚洲精品在天天在线麻豆 | 乱人伦视频中文字幕在线| 99热这里只有精品5| 国产亚洲精| www.精品国产| 免费毛片在线| 在线观看国产一区二区三区99| 欧美日韩国产在线人| 亚洲成人动漫在线观看| 日本欧美一二三区色视频| 久久综合结合久久狠狠狠97色| 激情综合网激情综合| 无码中文字幕乱码免费2| 丰满的熟女一区二区三区l| 狠狠五月天中文字幕| 国产内射在线观看| 国产成人精品综合| 国产成人免费手机在线观看视频| 国产成人av一区二区三区| 欧美成a人片在线观看| 亚洲精品日产AⅤ| 成人午夜在线播放| 国产亚洲精久久久久久久91| 成人自拍视频在线观看| 丁香婷婷综合激情| 国产精品嫩草影院视频| 日本午夜精品一本在线观看| 亚洲日韩在线满18点击进入| 国产一区三区二区中文在线| 久久 午夜福利 张柏芝| 99精品视频播放| 国产又色又爽又黄| 视频二区国产精品职场同事| 欧美高清国产| 亚洲第一网站男人都懂| 欧美有码在线| 亚洲黄网在线| 在线视频亚洲欧美| 亚洲资源站av无码网址| 国产在线日本| 精品成人一区二区三区电影| 成人亚洲国产| 91午夜福利在线观看| 国产哺乳奶水91在线播放| 亚洲aaa视频| 2021国产精品自产拍在线| 亚洲日韩精品无码专区97| 亚洲伦理一区二区| 在线观看视频一区二区| 国产午夜福利在线小视频| 欧美a在线|