999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不平衡數(shù)據(jù)類分布學(xué)習(xí)的特征選擇方法?

2019-10-08 07:12:44李克文路慎強(qiáng)
關(guān)鍵詞:分類特征方法

李克文 謝 鵬 路慎強(qiáng)

(1.中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院 青島 266580)(2.中國石化勝利油田分公司物探研究院 東營 257000)

1 引言

在許多應(yīng)用領(lǐng)域當(dāng)中存在著不平衡數(shù)據(jù),例如信息檢索、信用卡欺騙、醫(yī)療診斷、文本分類等,其中少數(shù)類的識別更加重要。例如醫(yī)療診斷中如果把正常人誤診為病人固然會給他帶來負(fù)擔(dān)并且對醫(yī)生造成不好的影響,如果把一個(gè)病人誤診為正常,那么可能會錯(cuò)過最佳診療時(shí)期,從而造成嚴(yán)重后果。傳統(tǒng)的分類方法對多數(shù)類有較高的識別率,對于少數(shù)類的識別率卻較低[1]。因此不均衡數(shù)據(jù)集的分類問題需要尋求新的方法和判別方式。

特征選擇,即從原始特征集合中選擇使得評價(jià)準(zhǔn)則最大化的最小特征子集,通過運(yùn)用特征選擇可以減少原始數(shù)據(jù)獲取的時(shí)間,縮減數(shù)據(jù)的存儲空間,提高分類模型的可解釋性,更快地獲得分類模型,提高分類性能,并且有助于對數(shù)據(jù)和知識進(jìn)行可視化[2]。但在某些領(lǐng)域,不平衡數(shù)據(jù)下的特征選擇十分關(guān)鍵[3],但是目前對不平衡數(shù)據(jù)下的特征選擇的研究相對較少[4~8]。

無論是哪種特征選擇方法,它們本質(zhì)都是描述“如何用更少的特征來涵蓋數(shù)據(jù)集的大部分信息”,但是傳統(tǒng)的特征選擇算法并不能適應(yīng)不平衡數(shù)據(jù)問題,即樣本點(diǎn)中不同類別的數(shù)量比例差距過大。在實(shí)際情況中,大部分特征選擇是為了用更少的特征重構(gòu)數(shù)據(jù)集,然而少數(shù)類的樣本點(diǎn)相對于多數(shù)類差距過大,所以會導(dǎo)致在特征選擇時(shí)為了包涵數(shù)據(jù)更多的信息會選擇對多數(shù)類樣本點(diǎn)更加重要的特征而忽略了對少數(shù)類樣本點(diǎn)重要的特征,這樣的特征選擇結(jié)果會嚴(yán)重丟失少數(shù)類樣本點(diǎn)的信息。

基于此,本文提出一種基于不平衡數(shù)據(jù)類分布學(xué)習(xí)的特征選擇方法,該方法使用每個(gè)類的先驗(yàn)分布和學(xué)習(xí)分布的相對熵的乘積來評判分類器在不平衡數(shù)據(jù)下的性能并更新梯度,同時(shí)采用了自適應(yīng)步長的方法使得算法最后能收斂在一個(gè)穩(wěn)定的值,并通過設(shè)置閾值挑選出一個(gè)優(yōu)選的屬性集合,去除冗余屬性。

本文采用了邏輯回歸、隨機(jī)森林、支持向量機(jī)和梯度提升決策樹四種分類器,F(xiàn)SLDL(Feature Selection Method By Label Distribution Learning Based On Imbalanced Data)、PCA、SVM-RFE和F_classify四種特征選擇方法,SMOTENN、NearMiss和ADASYN三種不平衡數(shù)據(jù)采樣方法在NASA故障數(shù)據(jù)集的KC1數(shù)據(jù)集上做了對比分析。

2 相關(guān)工作

目前,解決分類不平衡問題的方法有很多,主要分為三類[9]:第一類是采樣法[10~11],包括過采樣和欠采樣兩種,它們分別通過增加少數(shù)類樣本和減少多數(shù)類樣本得到分類相對平衡的新數(shù)據(jù)集。第二類是代價(jià)敏感學(xué)習(xí)[12~13],在分類不平衡問題中,正確識別少數(shù)類比正確識別多數(shù)類更有價(jià)值,即錯(cuò)分少數(shù)類比錯(cuò)分多數(shù)類要付出更大的代價(jià),但傳統(tǒng)的分類模型認(rèn)為所有類別的錯(cuò)分類代價(jià)是相同的[14]。因此,代價(jià)敏感學(xué)習(xí)通過為不同類別賦予不同的錯(cuò)分類代價(jià)來提高少數(shù)類的分類性能。第三類是集成學(xué)習(xí)[9,15],通過聚集多個(gè)模型的預(yù)測結(jié)果來提高分類性能。一般地,集成模型的性能要優(yōu)于單個(gè)模型的性能。雖然集成學(xué)習(xí)并不是為了解決分類不平衡問題而提出的,但其在處理分類不平衡問題時(shí)卻能夠取得較好的效果。

特征選擇的目的是用更少的特征來構(gòu)建原始數(shù)據(jù)的信息,少數(shù)類樣本點(diǎn)個(gè)數(shù)遠(yuǎn)少于多數(shù)類樣本點(diǎn)個(gè)數(shù),如果通過常規(guī)的特征選擇算法所選出來的特征將會缺失對少數(shù)類樣本點(diǎn)分類緊密相關(guān)的特征,這對之后的分類過程會造成影響,進(jìn)一步降低分類器對不平衡數(shù)據(jù)的分類性能。

FSLDL算法是為了不平衡數(shù)據(jù)問題所提出的算法,Xin Geng在提出了一種基于相對熵的多標(biāo)簽類分布學(xué)習(xí)算法(LDL)[16],采用累加信息熵的形式可以學(xué)習(xí)到一個(gè)屬性和類標(biāo)記之間的重要性分布。本文在LDL的基礎(chǔ)上,針對不平衡數(shù)據(jù)特征選擇中存在的問題,提出了一種基于不平衡數(shù)據(jù)類分布學(xué)習(xí)的特征選擇方法,考慮了傳統(tǒng)的特征選擇算法會更側(cè)重于多數(shù)類數(shù)據(jù)而忽略少數(shù)類數(shù)據(jù),從而降低對少數(shù)類的選擇效果。

3 基于不平衡數(shù)據(jù)類分布學(xué)習(xí)的特征選擇方法

本文中樣本用x表示,對i個(gè)樣本表示為xi,類標(biāo)簽用 y表示,第 j個(gè)類表示為 yj,樣本x屬于x類表示為,所以xi的類標(biāo)簽分布可以表示為,其中c是類的個(gè)數(shù)。

圖1 三種情況下的類分布狀況

在傳統(tǒng)的學(xué)習(xí)算法中,無論是單分類還是多分類,它們的學(xué)習(xí)結(jié)果如圖1所示。(a)是單分類結(jié)果 ,其。(b)是 多 分 類 結(jié) 果 ,其。(c)是一個(gè)全局的類分布概率,其中。由此可得類標(biāo)簽分布相隨與傳統(tǒng)分類算法具有更好的靈活性和真實(shí)性。

相對熵(KL距離)是表示兩個(gè)分布之間差別大小的常用度量,所以我們可以使用式(1)來計(jì)算最優(yōu)θ*使得實(shí)際分布與預(yù)測分布之間的相對熵最小化。

相對熵可以表示兩個(gè)分布之間的距離,然而存在不平衡數(shù)據(jù),少數(shù)類的樣本個(gè)數(shù)遠(yuǎn)少于多數(shù)類樣本的個(gè)數(shù),分類器對少數(shù)類的錯(cuò)誤分類也不會使得相對熵產(chǎn)生很大的波動(dòng),其在梯度空間內(nèi)是一個(gè)梯度下降的過程,分類器會偏向消除多數(shù)類產(chǎn)生的誤差。所以單純使用相對熵來學(xué)習(xí)兩個(gè)分布之間的差異在不平衡數(shù)據(jù)下不能取得很好的結(jié)果。

本文提出的FSLDL算法是基于一種改進(jìn)的相對熵學(xué)習(xí)指標(biāo)(Improved Kullback-Leibler,IKL)以適用不平衡數(shù)據(jù),指標(biāo)如下:

該評價(jià)指標(biāo)先計(jì)算樣本數(shù)據(jù)在某類上的預(yù)測值與實(shí)際值之間的相對熵,然后將所有類的相對熵進(jìn)行累乘,這樣的評價(jià)指標(biāo)考慮到了不平衡數(shù)據(jù)在分類器學(xué)習(xí)過程中造成的影響。由于可能等于0從而影響評價(jià)指標(biāo),所以學(xué)習(xí)指標(biāo)可用式(3)表示:表示預(yù)測概率,即 xi屬于 yj類的概率。每個(gè)類之間都會有互相聯(lián)系,一個(gè)樣本屬于yj的結(jié)果可能是有幾個(gè)不同類共同的影響結(jié)果[17~18]。所以本文預(yù)測概率可以由式(4)表示:

通過以上迭代方法可以學(xué)習(xí)到適應(yīng)數(shù)據(jù)分布的θ,θy,k是分布θ中的一個(gè)元素,表示第k個(gè)特征對第y類的權(quán)重大小,針對每個(gè)的類別 yi?Y,設(shè)置閾 值 ε,遴 選 出的屬性集合,表示特征集合中的第k個(gè)特征。最后我們可以獲得一個(gè)優(yōu)化的特征集合,即當(dāng)時(shí)。

通過上述特征選擇的結(jié)果計(jì)算類分布概率。

FSLDL算法過程如下:

輸入:訓(xùn)練數(shù)據(jù)集S,閾值ε

輸出:L

1.初始化分布θ(0)

2.數(shù)據(jù)正則化

3.l←0;

4.Repeat

5. l←l+1

6. 通過式(7)計(jì)算目標(biāo)函數(shù)的梯度

7. 通過sigmoid函數(shù)計(jì)算步長

4 仿真實(shí)驗(yàn)

本文采用了邏輯回歸、隨機(jī)森林、支持向量機(jī)和梯度提升決策樹四種分類器,F(xiàn)SLDL、PCA、SVM-RFE和F_classify四種特征選擇方法,SMOTENN、NearMiss和ADASYN三種不平衡數(shù)據(jù)采樣方法在NASA故障數(shù)據(jù)集的KC1數(shù)據(jù)集上做了對比分析。

圖2 邏輯回歸在KC1數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

圖3 隨機(jī)森林在KC1數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

圖4 支持向量機(jī)在KC1數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

圖5 GBDT在KC1數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

本文采用了邏輯回歸、隨機(jī)森林、支持向量機(jī)和GBDT四種分類算法,分別對比了無特征工程和有特征選擇所得到的結(jié)果、各特征選擇方法與各不平衡數(shù)據(jù)采樣方法交叉結(jié)合的結(jié)果,可以看出,四種分類方法通過FSLDL特征選擇方法在KC1實(shí)驗(yàn)數(shù)據(jù)集中的 precision、recall、f_measure和auc值均優(yōu)于PCA、RFE和F_classify特征選擇方法及無特征工程的分類結(jié)果。此外,本文將特征選擇方法與不平衡數(shù)據(jù)采樣方法進(jìn)行結(jié)合,對比分析可得FSLDL特征選擇方法與不平衡數(shù)據(jù)采樣方法的結(jié)合效果最佳,優(yōu)于其他方法與不平衡數(shù)據(jù)采樣方法結(jié)合的效果。

5 結(jié)語

本文提出了一種基于不平衡數(shù)據(jù)類分布學(xué)習(xí)的特征選擇方法,它比傳統(tǒng)的特征選擇算法具有更適應(yīng)不平衡數(shù)據(jù)的特點(diǎn)。FSLDL算法是針對不平衡數(shù)據(jù)優(yōu)化的特征算法,該算法在平衡數(shù)據(jù)下能取得不劣于傳統(tǒng)學(xué)習(xí)算法的效果,在不平衡數(shù)據(jù)下能取得比傳統(tǒng)算法更好的分類結(jié)果。

本文采用了邏輯回歸、隨機(jī)森林、支持向量機(jī)和梯度提升決策樹四種分類器,F(xiàn)SLDL、PCA、SVM-RFE和F_classify四種特征選擇方法,SMOTENN、NearMiss和ADASYN三種不平衡數(shù)據(jù)采樣方法在NASA故障數(shù)據(jù)集的KC1數(shù)據(jù)集上做了對比分析,結(jié)果表明本文提出的FSLDL在只進(jìn)行特征選擇的情況下對不平衡數(shù)據(jù)分類效果優(yōu)于其他特征選擇方法,在與不平衡數(shù)據(jù)采樣方法結(jié)合時(shí)效果優(yōu)于其他特征選擇與不平衡數(shù)據(jù)采樣結(jié)合的方法。

猜你喜歡
分類特征方法
分類算一算
如何表達(dá)“特征”
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 综合天天色| Jizz国产色系免费| 久久五月视频| 亚洲无限乱码一二三四区| 国产日韩欧美在线视频免费观看| 久久精品66| 国产免费一级精品视频| 黄色片中文字幕| 蜜桃视频一区二区| 麻豆国产精品| 一区二区影院| 免费又爽又刺激高潮网址| 国产综合网站| 欧美有码在线观看| 精品免费在线视频| 国产aaaaa一级毛片| 播五月综合| 欧美一级99在线观看国产| 日本AⅤ精品一区二区三区日| 国产自无码视频在线观看| 露脸国产精品自产在线播| 亚洲AⅤ无码国产精品| 国产a网站| 亚洲成a∧人片在线观看无码| 免费人成在线观看视频色| 国产精品久久自在自线观看| 久久精品国产精品青草app| 亚洲av无码片一区二区三区| 国产成人91精品| 丁香五月婷婷激情基地| 亚洲欧美综合在线观看| 亚洲国产成人久久77| 免费人成视网站在线不卡| 无码日韩精品91超碰| 日本成人一区| 亚洲浓毛av| 日本高清免费不卡视频| 色婷婷天天综合在线| 国产精品人成在线播放| 亚洲第一成网站| 国内熟女少妇一线天| 91欧洲国产日韩在线人成| 欧美成人午夜视频免看| 91九色最新地址| 一级做a爰片久久免费| 91福利一区二区三区| 色AV色 综合网站| 97国产精品视频自在拍| 幺女国产一级毛片| 久久99精品久久久久纯品| 夜夜爽免费视频| 国产精品自拍露脸视频| 亚洲最大在线观看| 国产日韩欧美在线播放| 麻豆精品久久久久久久99蜜桃| 欧美一区日韩一区中文字幕页| 麻豆国产原创视频在线播放| 久久亚洲国产最新网站| 国产日韩欧美精品区性色| 成人国产精品2021| 亚洲人成网18禁| 91亚瑟视频| 国内精品伊人久久久久7777人| 国产精品yjizz视频网一二区| 天堂在线www网亚洲| 国产高清在线观看91精品| 久久毛片基地| 高潮爽到爆的喷水女主播视频 | 99九九成人免费视频精品| 国产在线视频欧美亚综合| 波多野结衣第一页| 欲色天天综合网| 午夜不卡视频| 亚洲国产精品成人久久综合影院| 亚洲日韩精品综合在线一区二区| 国产免费怡红院视频| 亚洲区视频在线观看| 色婷婷成人| 国产va视频| 天天操精品| 亚洲色图欧美视频| 国产白浆视频|