999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于偽標(biāo)簽一致度的不平衡數(shù)據(jù)特征選擇算法

2022-03-01 12:34:16李懿恒杜晨曦楊燕燕李翔宇
計算機(jī)應(yīng)用 2022年2期
關(guān)鍵詞:特征

李懿恒,杜晨曦,楊燕燕,李翔宇

(北京交通大學(xué)軟件學(xué)院,北京 100044)

0 引言

隨著傳感器技術(shù)、計算機(jī)技術(shù)、通信技術(shù)和數(shù)據(jù)存儲等技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)、過程工業(yè)、電力系統(tǒng)、軌道交通等應(yīng)用領(lǐng)域產(chǎn)生并存儲了大量數(shù)據(jù)[1]。這些實際應(yīng)用中的數(shù)據(jù)往往具有類別不平衡的特性,即數(shù)據(jù)集中某一類樣本數(shù)量要小于其他類別樣本數(shù)量,易引發(fā)學(xué)習(xí)過程中多數(shù)類別樣本覆蓋少數(shù)類別樣本的現(xiàn)象,而實際中小類樣本往往是關(guān)鍵樣本[2]。如在故障診斷中,故障樣本通常少于正常運行數(shù)據(jù),將“故障”誤診為“正常”使故障系統(tǒng)繼續(xù)工作,會導(dǎo)致無法預(yù)計的后果和損失。因此,如何提高類別不平衡數(shù)據(jù)中少數(shù)類別樣本的分類學(xué)習(xí)精度具有重要意義。

為了提高類別不平衡數(shù)據(jù)集中少數(shù)類別樣本的準(zhǔn)確率,學(xué)者們研究了類別不平衡數(shù)據(jù)的特征選擇問題,其目的在于選擇能在多數(shù)類別和少數(shù)類別之間獲得最高區(qū)分能力的特征[3-5]。文獻(xiàn)[6]通過組合預(yù)先分別選擇的正特征和負(fù)特征,以期改善文本分類中類不平衡數(shù)據(jù)的分類性能;文獻(xiàn)[7]對高維類別不平衡數(shù)據(jù)中使用的6 個常用filter 方法和3 個使用分類結(jié)果矩陣的filter 方法進(jìn)行了詳細(xì)比較,該文分析認(rèn)為特征選擇有利于處理大多數(shù)高度不平衡的數(shù)據(jù)集;文獻(xiàn)[8]首次對不平衡數(shù)據(jù)分類問題的重采樣法、分類算法和特征選擇算法進(jìn)行了系統(tǒng)比較,并在來自于不同應(yīng)用的小樣本數(shù)據(jù)集上評估了7 個特征選擇度量方法,結(jié)果表明,在大多數(shù)不平衡應(yīng)用中,信噪相關(guān)系數(shù)和滑動閾值特征評估特別適用于特征選擇;文獻(xiàn)[9]提出了一種基于連續(xù)支撐步驟的后向消除方法,其特征貢獻(xiàn)度量是基于一個在獨立子集上獲得的平衡損失函數(shù);文獻(xiàn)[10]使用K-means 聚類算法將多數(shù)類樣例平均分成同尺寸的子集,將其貼上偽標(biāo)簽,并在分割后的數(shù)據(jù)上執(zhí)行傳統(tǒng)特征選擇算法;文獻(xiàn)[11]極小化了多數(shù)類別樣本和少數(shù)類別樣本之間的重合度,并基于此提出了兩個類別不平衡數(shù)據(jù)的特征選擇算法。然而,上述類別不平衡數(shù)據(jù)特征選擇算法旨在改進(jìn)現(xiàn)有特征選擇算法,并未考慮類別不平衡數(shù)據(jù)中的不一致性問題。

在處理數(shù)據(jù)不一致等不確定性數(shù)據(jù)的方法中,粒計算[12]在處理不同類型數(shù)據(jù)的分析與挖掘方面顯示出了獨特優(yōu)勢。它通過相似關(guān)系對樣本空間進(jìn)行粒化聚類,并對樣本標(biāo)簽進(jìn)行近似,進(jìn)而刻畫了條件特征與標(biāo)簽之間的不一致性[13]。一些學(xué)者將粒計算與類別不平衡數(shù)據(jù)的學(xué)習(xí)問題結(jié)合起來,構(gòu)建了幾個類別不平衡數(shù)據(jù)的特征選擇算法。如,文獻(xiàn)[14]將樣本的權(quán)重引入經(jīng)典粗糙集模型中,平衡了數(shù)據(jù)集的類別分布,并構(gòu)造了一個加權(quán)粗糙集模型來處理類別不平衡數(shù)據(jù)集,進(jìn)而設(shè)計了加權(quán)粗糙集模型的特征選擇算法和分類器算法;文獻(xiàn)[15]通過重構(gòu)鄰域粗糙集下近似算子,提出了基于特征和標(biāo)記之間依賴關(guān)系的在線特征選擇框架,旨在處理流特征環(huán)境下的類不平衡問題;文獻(xiàn)[16]提出了基于鄰域粗糙集的類別不平衡數(shù)據(jù)特征選擇算法,該算法通過研究下、上邊界域的方式定義了類別不平衡數(shù)據(jù)集的特征重要性。

數(shù)值實驗已經(jīng)表明,上述類別不平衡數(shù)據(jù)特征選擇算法可有效提高少數(shù)類別樣本的分類精度。然而它們大多是從算法層面進(jìn)行研究的,并沒有對數(shù)據(jù)進(jìn)行再平衡化處理。文獻(xiàn)[17]指出類別不平衡數(shù)據(jù)的再平衡化可有效提高判別分析算法的性能;文獻(xiàn)[18]也指出數(shù)據(jù)的再平衡化可有效改進(jìn)類別不平衡學(xué)習(xí)問題的性能。因此,將類別不平衡數(shù)據(jù)再平衡化對于提高少數(shù)類別樣本的性能具有重要意義,也是本文的一個重要思路。另外,偽標(biāo)簽策略常見于無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),可有效提高類別標(biāo)簽的預(yù)測精度[19-20],因此,本文通過偽標(biāo)簽的策略將類別不平衡數(shù)據(jù)進(jìn)行平衡化,進(jìn)而基于粒計算的思想構(gòu)建了一種新的類別不平衡數(shù)據(jù)的特征選擇算法。

本文主要工作如下:

1)重新定義了樣本的一致度,研究了該一致度的單調(diào)性,從而設(shè)計了一種貪婪前向搜索的特征選擇算法。

2)通過學(xué)習(xí)算法學(xué)習(xí)類別不平衡數(shù)據(jù)集的偽標(biāo)簽,用以平衡類別不平衡數(shù)據(jù)的樣本類別分布。

3)將所學(xué)樣本的偽標(biāo)簽融入一致性的測度中,構(gòu)造了偽標(biāo)簽一致度的概念,用于評估類別不平衡數(shù)據(jù)集的特征,研究了偽標(biāo)簽一致度的單調(diào)特性。

4)通過保持類別不平衡數(shù)據(jù)的偽標(biāo)簽一致度,構(gòu)造了基于偽標(biāo)簽一致度的類別不平衡數(shù)據(jù)的特征選擇算法PLCFS(Pseudo-Label Consistency based Feature Selection),數(shù)值實驗也表明了該算法的有效性。

1 基于一致性測度的特征選擇算法

對于監(jiān)督分類任務(wù)而言,每個數(shù)據(jù)集可表示為一個決策表(U,A∪D),其中:U為數(shù)據(jù)集中所有樣本的集合;A是數(shù)據(jù)集中描述樣本的所有特征構(gòu)成的集合;D=g0gggggg用于確定數(shù)據(jù)中樣本的標(biāo)簽或者類別。對于每個樣本x∈U,a(x)是樣本x關(guān)于特征a∈A的取值,d(x)是樣本x的標(biāo)簽。

對于?B?A,定義特征子集B的等價關(guān)系RB={(x,y):a(x)=a(y),?a∈B}。RB可將樣本集合U劃分為等價類的集合U/RB={[x]B:x∈U},其中[x]B={y∈U:(x,y)∈RB}是由RB確定的等價類。

樣本x∈U的廣義決策[21-22]定義為:

d([x]B)={d(y):y∈[x]B}。

若|d([x]B)|=1,則樣本x關(guān)于特征子集B是一致的,即[x]B中所有樣本具有相同標(biāo)簽;若|d([x]B)|>1,則樣本x關(guān)于B是不一致的,即[x]B中有樣本的標(biāo)簽不同。根據(jù)廣義決策,本文給出樣本一致度的概念。

定義1設(shè)(U,A∪D)是決策表,樣本x∈U關(guān)于B?A的一致度定義為:

一致度的概念刻畫了樣本關(guān)于特征子集的一致性。為了刻畫數(shù)據(jù)集中所有樣本關(guān)于特征子集的一致度,本文引入了數(shù)據(jù)集一致度的概念。

定義2設(shè)(U,A∪D)是決策表,U關(guān)于特征子集B?A的一致度定義為:

樣本集合U關(guān)于B的一致度consB(U)反映了特征子集與決策標(biāo)簽之間的一致性。

定理1設(shè)(U,A∪D) 是決策表,B?C?A,則對于?x∈U,有consB(x)≤consC(x)。

證明 由廣義決策的定義以及定義1,易證該定理成立。

定理1 表明樣本關(guān)于特征子集的一致度是單調(diào)遞增的,即隨著特征的增加,數(shù)據(jù)中每個樣本的一致度增大。

推 論1設(shè)(U,A∪D)是決策表,B?C?A,則consB(U)≤consC(U)。

證明 有定理1 和定義2,可證該推論成立。

推論1 表明數(shù)據(jù)集的一致度關(guān)于特征子集單調(diào)遞增,即隨著特征的增多,數(shù)據(jù)集的一致度增大。

定理2設(shè)(U,A∪D)是決策表,若對于P?A,有consP(U)=consA(U),則對?B?P且B?A,有consB(U)=consA(U)。

證明 由推理1 易證該定理成立。

該定理表明若P能保持?jǐn)?shù)據(jù)集的一致度,則任意包含P的特征子集仍能保持?jǐn)?shù)據(jù)集的一致度,因此,本文總能找到一個極小特征子集,使其能保持?jǐn)?shù)據(jù)集的一致度,這一極小特征子集就是數(shù)據(jù)集的最優(yōu)特征子集,其具體定義如下。

定義3設(shè)(U,A∪D)是決策表,特征子集P?A是一個最優(yōu)特征子集,如果它滿足下列條件:

1)consP(U)=consA(U);

2)?a∈P,consP-{a}(U)≠consA(U)。

在定義3 中,條件1)表明P能保持?jǐn)?shù)據(jù)集的一致度;條件2)表明P是保持?jǐn)?shù)據(jù)集一致度不變的極小特征子集,即從P中去掉任何一個特征都不能保持?jǐn)?shù)據(jù)集的一致度。

通過前向搜索的方式,在每次迭代時添加使一致度增加最大的特征,直至一致度保持不變,從而獲得數(shù)據(jù)集的最優(yōu)特征子集。該特征選擇算法的具體過程如下。

算法1 的時間復(fù)雜度為O(|U|2|A|),空間復(fù)雜度為O(|U|2)。然而,該算法的前提假設(shè)是數(shù)據(jù)中樣本類別分布是均衡的。當(dāng)處理類別不平衡數(shù)據(jù)時,盡管數(shù)據(jù)集的整體分類精度有所改善,但卻忽略少數(shù)類別樣本的分類精度。鑒于此,本文提出了基于偽標(biāo)簽的類別不平衡數(shù)據(jù)特征選擇算法。

2 本文算法

將偽標(biāo)簽策略融入一致性測度中,本文提出了融合偽標(biāo)簽策略的類別不平衡數(shù)據(jù)特征選擇算法——PLCFS。首先,引入了偽標(biāo)簽策略用于平衡數(shù)據(jù)的類別標(biāo)簽;接著,將偽標(biāo)簽引入一致性測度的計算公式中,構(gòu)造了一種新的一致性測度,用于度量不平衡數(shù)據(jù)集的一致性;最后,通過保持新的一致性測度不變,設(shè)計了類別不平衡數(shù)據(jù)的特征選擇算法。

假設(shè)通過學(xué)習(xí)算法,如聚類算法、主動學(xué)習(xí)、K最近鄰(K-Nearest Neighbor,KNN)算法,可學(xué)得類別不平衡數(shù)據(jù)的新標(biāo)簽,該標(biāo)簽為一種偽標(biāo)簽,它使得不平衡數(shù)據(jù)集的樣本標(biāo)簽平衡化。對任意樣本x∈U,本文將通過某一學(xué)習(xí)算法所學(xué)的偽標(biāo)簽記作PL(x)。

由于樣本的偽標(biāo)簽可使類別不平衡數(shù)據(jù)達(dá)到平衡,故原有一致度的概念就不適用了。因此,本文需要給出新的一致度概念,在此之前,通過考慮類別不平衡數(shù)據(jù)集中每個樣本的偽標(biāo)簽,本文引入了樣本的偽標(biāo)簽廣義決策的概念。

定義4設(shè)(U,A∪D)是決策表,PL(x)是通過學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽。樣本x∈U的偽標(biāo)簽廣義決策定義為dPL([x]B)={d(y):y∈[x]B,PL(x)=PL(y)}。

樣本的偽標(biāo)簽廣義決策同時考慮了具有相同特征描述和相同偽標(biāo)簽的樣本。利用偽標(biāo)簽廣義決策,本文給出了類別不平衡數(shù)據(jù)集的偽標(biāo)簽一致度的概念,具體定義如下。

定義5設(shè)(U,A∪D)是決策表,PL(x)是通過學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽。樣本x相較于特征子集B?A的偽標(biāo)簽一致度定義為:

樣本的偽標(biāo)簽一致度度量了該樣本關(guān)于特征子集、真實標(biāo)簽和偽標(biāo)簽之間的一致性。

定義6設(shè)(U,A∪D)是決策表,PL(x)是通過學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽。樣本x相較于特征子集B?A的偽標(biāo)簽一致度定義為:

偽標(biāo)簽一致度反映了不平衡數(shù)據(jù)的特征所導(dǎo)出的樣本分布、真實標(biāo)簽的樣本分布和偽標(biāo)簽的樣本分布之間的一致性。

定理3設(shè)(U,A∪D)是決策表,B?C?A,PL(x)是通過學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽,則對于?x∈U,有。

定理3 表明,不平衡數(shù)據(jù)中每個樣本的偽標(biāo)簽一致度關(guān)于特征子集單調(diào)遞增。

推論2設(shè)(U,A∪D)是決策表,B?C?A,則。

證明 由定理3 和定義6,可證該推論成立。

推論2 表明,類別不平衡數(shù)據(jù)集的一致度隨特征子集單調(diào)遞增,即隨著特征的增多,其一致度單調(diào)增加。

定理4設(shè)(U,A∪D)是決策表,B?C?A,PL(x)是通過學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽,若對于P?A,有,則對?B?P且B?A,有。

證明 證明過程類似與定理2。

定理4 表明,對于類別不平衡數(shù)據(jù)集而言,若P可保持樣本的偽標(biāo)簽一致度,則在后續(xù)增加特征的過程中,數(shù)據(jù)集的偽標(biāo)簽一致度仍能被保持,因此,本文總能找到類別不平衡數(shù)據(jù)集的一個極小特征子集,使其能保持偽標(biāo)簽一致度。

定理5 表明,若一個特征的加入不增加某一樣本的偽標(biāo)簽一致度,則后續(xù)增加特征的過程中,該特征依然不增加這一樣本的偽標(biāo)簽一致度。

推論3設(shè)(U,A∪D)是決策表,PL(x)是通過學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽,B1?A,a?B1,若,則對于?B2?B1,有。

證明 由定義6 和定理5,可證該定理成立。

推論3 表明,在特征選擇的過程中,若一個特征的加入不增加數(shù)據(jù)集的偽標(biāo)簽一致度,則在后續(xù)特征選擇的過程中該特征依然不增加數(shù)據(jù)集的偽標(biāo)簽一致度。基于此定理,本文可以在特征選擇的過程中,刪去這種特征,從而有效減少特征空間的搜索范圍,進(jìn)而提高特征選擇的計算效率。

利用前向搜索的方式,本文設(shè)計了如下類別不平衡數(shù)據(jù)集的特征選擇算法。

算法2 的時間復(fù)雜度為O(|U|2|A|),空間復(fù)雜度為O(|U|2)。它通過保持類別不平衡數(shù)據(jù)集的偽標(biāo)簽一致度不變的方式計算了一個最優(yōu)特征子集。

3 實驗與結(jié)果分析

3.1 實驗數(shù)據(jù)

為驗證算法的有效性,本文選取了10 個公開數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets.php)進(jìn)行實驗,詳細(xì)情況見表1,其中:高維數(shù)據(jù)集arrythmia 的特征個數(shù)高達(dá)279,數(shù)據(jù)集segmentation 具有2 308 個樣本,實驗所使用的數(shù)據(jù)具有高維或大規(guī)模特征;數(shù)據(jù)集的不平衡率最小為1.25,最大為19.2;I是樣本數(shù),F(xiàn)是特征數(shù)量,IR(Imbalanced Ratio)是數(shù)據(jù)集的不平衡率,P是正類樣本所占比例,N是負(fù)類樣本所占比例。

表1 實驗數(shù)據(jù)集Tab.1 Experimental datasets

3.2 評價指標(biāo)

傳統(tǒng)的性能評價指標(biāo)有接受者操作特征曲線下方的面積(Area Under Curve,AUC)、查準(zhǔn)率、查全率等,但在高維不平衡數(shù)據(jù)的分類學(xué)習(xí)中,若采用傳統(tǒng)性能評價指標(biāo),則會對小類樣本的分類造成誤判,但算法仍能保持較高的精度,這顯然是不合理的。因此,實驗采用F1-Score 和G-mean 作為分類器對類別不平衡數(shù)據(jù)進(jìn)行分類的性能度量指標(biāo)。

在處理多分類問題時,仍然需要對樣本進(jìn)行正反類的劃分。通過對樣本的正反類劃分,可以得到多個二分類混淆矩陣。首先,對各個混淆矩陣的對應(yīng)元素進(jìn)行平均,得到真正例(True Positive,TP)、假正例(False Positive,F(xiàn)P)、真反例(True Negative,TN)和假反例(False Negative,F(xiàn)N)的平均值;然后基于平均值,求得查準(zhǔn)率P=,查全率R=和micro?F1=。

另一個是先求出各混淆矩陣的查準(zhǔn)率P=和查全率R=,再計算平均值Pˉ和Rˉ,用平均值計算macro?F1=。

3.3 實驗設(shè)置

為驗證算法2 的性能,實驗將算法應(yīng)用于10 個數(shù)據(jù)集進(jìn)行特征提取,然后用支持向量機(jī)(Support Vector Machine,SVM)、KNN、隨機(jī)森林(Random Forest,RF)、邏輯回歸(Logistic Regression,LR)、決策樹(Decision Tree,DT)共五個傳統(tǒng)分類器,分別對原始數(shù)據(jù)和特征提取后的數(shù)據(jù)進(jìn)行分類,比較其F1-Score 和G-mean 值。本實驗在操作系統(tǒng)為Windows 10,CPU 主頻為2.60 GHz,內(nèi)存為8 GB 的計算機(jī)上完成,編程語言為Python3.8。

為了檢驗算法2 的有效性,對所選數(shù)據(jù)集采用k折交叉驗證。由于D3、D5 的不平衡度較大,因此采用2 折交叉驗證,其他數(shù)據(jù)集采用5 折交叉驗證。同時,用最大相關(guān)最小冗余(max-Relevancy and Min-Redundancy,mRMR)算法[23]、特征權(quán)重算法Relief[24]以及本文算法1(CFS)作為對比算法,盡管mRMR 和Relief 提出時間較早,卻具有較好的性能,并已被學(xué)者們廣泛應(yīng)用和研究。在確定mRMR 參數(shù)時,以SVM 為基分類器,對數(shù)據(jù)集的樣本進(jìn)行遍歷,選取分類性能最好的特征數(shù)作為mRMR 算法的參數(shù)。

3.4 實驗分析

3.4.1 算法參數(shù)k分析

本實驗采用k-means 聚類算法對類別不平衡數(shù)據(jù)貼上偽標(biāo)簽,將樣本進(jìn)行了k個劃分,為了分析k對分類結(jié)果的影響,選擇k分別為2、3、4、5、6、7、8、9,分析不同取值的k對micro-F1 值、macro-F1 值和G-mean 值的影響,結(jié)果如圖1~3所示。

從圖1 可看出,隨著k值的變化,算法2 在不同分類器上的micro-F1 值也是改變的。有些數(shù)據(jù)集上的micro-F1 值隨k值波動較大,如數(shù)據(jù)集D1、D3、D10,這說明k值的選取對算法2 的性能影響較大;而有些數(shù)據(jù)集上的micro-F1 值隨k值改變而平穩(wěn)變化,如數(shù)據(jù)集D5 和D9,這說明在這些數(shù)據(jù)集上k值的選取對算法2 的性能影響較小。此外,從圖1 也可看出,不同類別不平衡數(shù)據(jù)集有不同分類器的micro-F1 值,如對于數(shù)據(jù)集D4,SVM 分類器普遍有較好的分類性能;對于數(shù)據(jù)集D6,KNN 分類器具有較好的分類性能;對于數(shù)據(jù)集D9,SVM 分類器和邏輯回歸具有相當(dāng)?shù)姆诸愋阅堋?/p>

圖1 不同k值下的micro-F1值Fig.1 micro-F1 values under different k values

從圖2 可看出,隨著k值的變化,算法2 在不同分類器上的macro-F1 值也是改變的。有些數(shù)據(jù)集上的macro-F1 值隨k值波動較大,如數(shù)據(jù)集D1、D2、D3、D9、D10,這說明k值的選取對算法2 的性能影響較大;而有些數(shù)據(jù)集上的macro-F1 值隨k值改變而平穩(wěn)變化,如數(shù)據(jù)集D5,D7 和D8,這說明在這些數(shù)據(jù)集上k值的選取對算法2 的性能影響較小。此外,從圖2 也可看出,不同類別不平衡數(shù)據(jù)集有不同分類器的macro-F1 值,如對于D4 和D8,SVM 分類器普遍有較好的分類性能;對于D6 而言,KNN 分類器具有較好的分類性能;對于數(shù)據(jù)集D5,隨機(jī)森林具有較好的分類性能。

圖2 不同k值下的macro-F1值Fig.2 macro-F1 values under different k values

從圖3 可以看出,隨著k值的變化,算法2 在不同分類器上的G-mean 值也在改變。有些數(shù)據(jù)集上的G-mean 值隨k波動較大,如數(shù)據(jù)集D1、D2、D3、D6、D10,這說明k值的選取對算法2 的性能影響較大。而有些數(shù)據(jù)集上的G-mean 值隨k值的變化而平穩(wěn)改變,如數(shù)據(jù)集D5 和D9,這說明在這些數(shù)據(jù)集上k值的選擇對算法2 的性能影響較小。此外,從圖3也可看出,不同類別不平衡數(shù)據(jù)集有不同分類器的G-mean值,如對于數(shù)據(jù)集D4,SVM 分類器普遍有較好的分類性能;對于數(shù)據(jù)集D6,KNN 分類器具有較好的分類性能。

圖3 不同k值下的G-mean值Fig.3 G-mean values under different k values

綜上所述,聚類個數(shù)k影響著類別不平衡數(shù)據(jù)集的分類精度,并不能得出一個好的選擇或者取值范圍。

3.4.2 與傳統(tǒng)特征選擇算法對比

表2 給出了各算法在各數(shù)據(jù)集上選擇出的特征數(shù)。從表2 可以看出,算法mRMR 和Relief 均在4 個數(shù)據(jù)集上選擇最少特征,算法PLCFS 在3 個數(shù)據(jù)集上選擇最少特征,而算法CFS 僅在1 個數(shù)據(jù)集上選擇最少特征。算法mRMR 和Relief 在更多數(shù)據(jù)集上選擇最少特征,是因為算法mRMR 的特征個數(shù)由分類器決定,在預(yù)選的特征基礎(chǔ)上加入了相應(yīng)的分類器,最終所選特征個數(shù)為最優(yōu)分類精度對應(yīng)的特征子集;而算法Relief 的特征個數(shù)由迭代次數(shù)和分類性能決定,它先根據(jù)迭代個數(shù)預(yù)選一些特征,再利用相應(yīng)的分類器選擇最優(yōu)分類精度所對應(yīng)的特征子集。算法PLCFS 通過保持偽標(biāo)簽一致度選擇特征,無需借助于分類器,若借助分類器選擇特征,PLCFS 也有望選擇較少的特征個數(shù),這將在后續(xù)研究中融合分類器再設(shè)計一個新的不平衡數(shù)據(jù)特征選擇算法。與算法CFS 相比,PLCFS 所選特征個數(shù)明顯較少,這表明改進(jìn)CFS 來處理類別不平衡數(shù)據(jù)集是有必要的。總體來看,與先進(jìn)算法mRMR 和Relief 相比,所提算法PLCFS 在去除類別不平衡數(shù)據(jù)集的冗余特征方面具有一定效果。

表2 四種算法在10個數(shù)據(jù)集上選擇的特征數(shù)Tab.2 Numbers of features selected by four algorithms on 10 datasets

表3~7 給出了不同分類器在經(jīng)過特征選擇的數(shù)據(jù)集上的micro-F1 值、nacro-F1 值、G-mean 值。從表3~7 的整體結(jié)果來看:算法mRMR 具有最優(yōu)分類性能,是由于其借助于分類器,所選的特征具有最高的分類精度;PLCFS 算法的性能僅次于mRMR 的性能,這說明PLCFS 在不借助于任何分類器的前提下,所選特征可在一定程度上改善類別不平衡數(shù)據(jù)集的分類性能;算法Relief 的性能較算法mRMR 和PLCFS 遜色,這說明算法Relief 刪去的一些特征可能對提高分類性能是有益的,盡管該算法所選特征的個數(shù)在一些數(shù)據(jù)集上比算法PLCFS 和mRMR 少;算法PLCFS 的性能明顯優(yōu)于CFS,這說明CFS 不適合處理類別不平衡數(shù)據(jù)集,CFS 的改進(jìn)算法PLCFS 在一定程度上提高了類別不平衡數(shù)據(jù)集的分類性能。

表3 十個數(shù)據(jù)集在SVM分類器上的指標(biāo)得分Tab.3 Index scores of 10 datasets under SVM classifier

綜上所述,mRMR 通過借助于分類器選擇具有較高分類精度的特征,從而在幾個比較算法中具有最佳性能和最少所選特征個數(shù)。本文算法PLCFS 的性能僅次于mRMR,該算法無需借助任何分類器,僅通過保持偽標(biāo)簽一致度來選擇特征,若在該算法基礎(chǔ)上加入分類器,有望進(jìn)一步提高類別不平衡數(shù)據(jù)的分類性能。

表4 十個數(shù)據(jù)集在KNN分類器上的指標(biāo)得分Tab.4 Index scores of 10 datasets under KNN classifier

3.4.3 統(tǒng)計性檢驗

為更好地比較各算法所選特征對分類性能的影響,實驗采用非參數(shù)統(tǒng)計Friedman 檢驗對上述實驗結(jié)果進(jìn)行統(tǒng)計性檢驗。Friedman 檢驗使用不同算法在數(shù)據(jù)集上的排序?qū)λ惴ㄐ阅苓M(jìn)行比較分析,定義如下:

其中:N為實驗所用數(shù)據(jù)集的個數(shù);k為所比較算法的個數(shù);rj表示第j個算法性能的平均序值。服從自由度為k-1 的χ2分布,τF服從自由度為k-1 和(k-1)(N-1)的F分布。若“所有算法性能相同”這個假設(shè)被拒絕,則說明算法性能顯著不同,這時需要進(jìn)行后續(xù)檢驗來進(jìn)一步區(qū)分各算法。實驗采用Nemenyi 檢驗。Nemenyi 檢驗可計算出平均序值差別的臨界值域CD=,qα是Tukey 分布的臨界值。

為更好地比較實驗所對比的四個算法在不同分類器上的測試性能,本實驗獨立進(jìn)行了3 次Friedman 檢驗。Friedman 檢驗的空假設(shè)為所有特征選擇算法在不同分類器上的性能相同。設(shè)置信水平為α=0.05,置信度為95%。實驗部分比較了4 個算法在10 個數(shù)據(jù)集上的測試性能,因此τF的自由度為4 -1=3 和(4-1)(10-1)=27。當(dāng)α=0.05,F(xiàn)(3,27)=3.56。根據(jù)Friedman 檢驗,CFS、PLCFS、mRMR、Relief 對應(yīng)的τF值分別為0.46、0.87、0.56,均小于3.56,因此無法拒絕零假設(shè)。由Nemenyi 檢驗,得CD=1.48。

統(tǒng)計檢驗的實驗結(jié)果如圖4 所示,其中,縱軸表示各個算法,橫軸表示平均序值,以原點為中心的橫線但表示臨界值域的大小。通過圖4 所示,本文算法PLCFS 的性能與當(dāng)下流行的幾個特征選擇算法Relief、mRMR 和CFS 相比,統(tǒng)計上并沒有太大差異。

表5 十個數(shù)據(jù)集在RF分類器上的指標(biāo)得分Tab.5 Index scores of 10 datasets under RF classifier

表6 十個數(shù)據(jù)集在DT分類器上的指標(biāo)得分Tab.6 Index scores of 10 datasets under DT classifier

表7 十個數(shù)據(jù)集在LR分類器上的指標(biāo)得分Tab.7 Index scores of 10 datasets under LR classifier

圖4 不同分類器上的Friedman檢驗結(jié)果Fig.4 Friedman test results under different classifiers

4 結(jié)語

本文通過融合偽標(biāo)簽策略和一致性測度,提出了一種新的類別不平衡數(shù)據(jù)集的特征選擇算法。首先,重新給出了樣本一致度的概念,研究了一致度的單調(diào)性,從而構(gòu)造了基于一致度的特征選擇算法;其次,通過學(xué)習(xí)算法學(xué)習(xí)了類別不平衡數(shù)據(jù)集的偽標(biāo)簽,引入了偽標(biāo)簽策略,從而使得類別不平衡數(shù)據(jù)集的樣本標(biāo)簽分布平衡化;接著,將偽標(biāo)簽策略融入一致度的概念中,構(gòu)造了偽標(biāo)簽一致度的概念,研究偽標(biāo)簽一致度的性質(zhì),構(gòu)造了基于偽標(biāo)簽一致度的類別不平衡特征選擇算法;最后通過實驗驗證了算法的有效性。

本文僅僅是在離散型數(shù)據(jù)集上進(jìn)行了研究,因此未來將拓展本文的研究范圍到更復(fù)雜的數(shù)據(jù)類型,如數(shù)值型數(shù)據(jù)、文本數(shù)據(jù)、視頻數(shù)據(jù)、多模態(tài)數(shù)據(jù)等。本文的數(shù)值實驗的規(guī)模不夠大,盡管維數(shù)最高達(dá)279 個特征,但缺乏上千上萬的超高維特征,因此,在未來的研究工作中將致力于超高維類別不平衡數(shù)據(jù)的處理問題。進(jìn)一步,本文的兩個算法無需借助任何分類器就能選擇一個最優(yōu)特征子集,在未來的研究工作中,可以借助分類器設(shè)計一個新的偽標(biāo)簽一致度的類別不平衡數(shù)據(jù)的處理算法。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠的四個特征
詈語的文化蘊含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 成人日韩视频| 天天躁夜夜躁狠狠躁图片| 亚洲αv毛片| 亚洲成av人无码综合在线观看 | 国产美女精品在线| 欧美精品在线视频观看| 亚洲三级成人| 在线免费看黄的网站| 亚洲日本精品一区二区| 亚洲视频无码| 97亚洲色综久久精品| 制服丝袜 91视频| 青青草原国产av福利网站| 亚洲欧美日韩成人高清在线一区| 夜夜爽免费视频| 国产尤物jk自慰制服喷水| 亚洲妓女综合网995久久| 亚洲中文无码av永久伊人| 国产麻豆aⅴ精品无码| 国产日韩欧美视频| 国产高清在线观看91精品| 熟女成人国产精品视频| 国产成人欧美| 免费国产福利| 国产欧美一区二区三区视频在线观看| 午夜精品区| 亚洲精品动漫| 久久精品国产免费观看频道| 亚洲欧美成人| 国产亚洲欧美在线视频| 中文字幕人妻av一区二区| 国产特级毛片aaaaaa| 99久久亚洲综合精品TS| 亚洲性视频网站| 国产视频一二三区| www.日韩三级| 最新国产精品第1页| 日韩精品一区二区三区中文无码 | 色悠久久久| 国产v精品成人免费视频71pao| 成人欧美在线观看| 露脸一二三区国语对白| 永久在线精品免费视频观看| 动漫精品啪啪一区二区三区| 国产欧美日韩在线一区| 欧美色香蕉| 欧美成人亚洲综合精品欧美激情| 日韩精品毛片| 99视频免费观看| 日韩二区三区无| 亚洲最大在线观看| 在线观看国产精品日本不卡网| 免费毛片a| 国产精品欧美日本韩免费一区二区三区不卡 | 98超碰在线观看| 亚洲日韩日本中文在线| 免费可以看的无遮挡av无码| 亚洲啪啪网| 黄色成年视频| 亚洲欧美精品日韩欧美| 内射人妻无码色AV天堂| 亚洲视频免费在线看| 国产成人三级| 国产亚洲精久久久久久无码AV| 国产一区二区三区在线观看视频| 国产亚洲欧美日本一二三本道| 亚洲高清无码精品| 午夜视频在线观看免费网站| 国产精品网址在线观看你懂的| 久久99国产乱子伦精品免| 狠狠色综合网| 亚洲精品不卡午夜精品| 久久亚洲精少妇毛片午夜无码| 91九色最新地址| 精品午夜国产福利观看| 四虎影视8848永久精品| 永久成人无码激情视频免费| 日韩免费视频播播| 国产原创第一页在线观看| 亚洲欧美成人综合| 午夜国产小视频| 午夜视频在线观看区二区|