999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊粗糙最近鄰算法的不平衡數(shù)據(jù)分類

2020-01-05 07:00:06章春梅
軟件導(dǎo)刊 2020年11期

摘 要:為了提升不平衡數(shù)據(jù)中少數(shù)類的分類精度,利用SMOTE采樣方法對數(shù)據(jù)集進(jìn)行平衡化預(yù)處理;為了減輕樣本重新合成過程中產(chǎn)生的類重疊和噪聲對分類精度的影響,選擇模糊粗糙最近鄰算法(FRNN)作為分類器。在14個不平衡數(shù)據(jù)集上進(jìn)行的仿真實驗表明,該方法具有較好的分類表現(xiàn),F(xiàn)值和G值最高分別可達(dá)0.965、0.932,是一種適用于不平衡率偏高數(shù)據(jù)集的分類方法。

關(guān)鍵詞:不平衡數(shù)據(jù);分類器;SMOTE;模糊粗糙最近鄰算法

DOI:10. 11907/rjdk. 201674

中圖分類號:TP301 ??? 文獻(xiàn)標(biāo)識碼:A ?????? 文章編號:1672-7800(2020)011-0037-05

A Classification Method for Imbalanced Data Based on

Fuzzy Rough Nearest Neighbor

ZHANG Chun-mei

(Institute of Artificial Intelligence, Nanjing Vocational College of Information Technology, Nanjing 210023,China)

Abstract: In order to improve the classification accuracy of the minority classes in imbalanced data, the paper employs synthetic minority over - sampling technique(SMOTE) to balance data set firstly. Considering that the process of sample re-synthesis always leads to some noises such as class overlapping, fuzzy rough neareswast neighbor algorithm (FRNN) is selected as the classifier to alleviate the effect of noise. Classification experiment conducted on 14 unbalanced data sets shows that the proposed method performs well,? and the F value and G value can reach 0.965 and 0.932 respectively. It reveals that the proposed method is suitable for the classification on data sets with high imbalance rate.

Key Words: imbalanced data; classifier;SMOTE;fuzzy rough nearest neighbor algorithm

0 引言

在機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,不平衡數(shù)據(jù)分類受到研究者的廣泛關(guān)注。與一般意義上的數(shù)據(jù)分類不同,本文研究的不平衡分類更看重整體中的個別:少數(shù)類的分類準(zhǔn)確率。同時,在異常檢測[1]、市場行情判斷[2]、精準(zhǔn)醫(yī)療[3]等諸多數(shù)據(jù)分析實際應(yīng)用中,重要的決策信息往往蘊藏在少數(shù)類樣本中。因此,對這些樣本進(jìn)行正確地判斷歸類更具實際價值。

SMOTE(Synthetic Minority Over-sampling Technique)[4]及其衍生方法[5-10]是一種被廣泛使用的改善數(shù)據(jù)不平衡分布的重采樣方法,其基本思想是對少數(shù)類樣本進(jìn)行過采樣,并在此基礎(chǔ)上合成新的樣本。與其它方法相比, SMOTE對數(shù)據(jù)的預(yù)處理更為有效, 因而引起研究者的廣泛興趣。SMOTE這類方法的不足之處在于新樣本的合成過程中會產(chǎn)生樣本重疊和噪聲。模糊粗糙最近鄰(Fuzzy Rough Nearest Neighbor,F(xiàn)RNN)[11-13]是一種在特征不完備數(shù)據(jù)集上有良好分類性能的算法,該算法能有效減少重疊和噪聲對分類的影響。在實際數(shù)據(jù)中,不僅存在不平衡現(xiàn)象,而且存在屬性不足問題,即數(shù)據(jù)集本身具有粗糙性[14]。因此,將這兩類方法相結(jié)合實現(xiàn)不平衡數(shù)據(jù)分類頗具意義。

1 不平衡問題產(chǎn)生的原因

不平衡問題產(chǎn)生的主要原因是類與類之間的樣本數(shù)量不均衡,某個類的樣本數(shù)量明顯少于其它類樣本數(shù)量。一般而言,高的總體分類精度是各種經(jīng)典以及衍生分類模型的追逐目標(biāo),在這種目標(biāo)驅(qū)動下,訓(xùn)練模型將著重去擬合多數(shù)類樣本,勢必導(dǎo)致分類器在少數(shù)類樣本上的分類性能下降。一個大家熟知的例子是:對于一個不平衡率為? 99∶1的數(shù)據(jù)集而言,分類器在將少數(shù)類樣本完全誤判為多數(shù)類的情況下,所獲總體分類精度仍然很高,為99%,而此時少數(shù)類樣本的錯分率卻是100%。此外,相關(guān)研究也指出,在某類樣本中間由于存在樣本重疊現(xiàn)象,也可能導(dǎo)致一種不平衡,稱之為類內(nèi)不平衡[15]。類內(nèi)不平衡現(xiàn)象也是造成分類器性能下降、泛化能力減弱的一個原因。

2 不平衡問題處理辦法

不平衡數(shù)據(jù)分類性能提升方法主要有兩種:數(shù)據(jù)層面和算法層面。數(shù)據(jù)層面就是改善數(shù)據(jù)分布,使數(shù)據(jù)重新趨于平衡,主要是重新采樣技術(shù);算法層面是優(yōu)化分類算法,關(guān)注點是提高算法在少數(shù)類上的分類精度。

2.1 數(shù)據(jù)層面

重采樣技術(shù)是處理不平衡數(shù)據(jù)分類的一類主要技術(shù),重采樣是對訓(xùn)練樣本集中多數(shù)類樣本采用欠采樣方法,對訓(xùn)練樣本集中少數(shù)類樣本采用過采樣方法,從而達(dá)到提高訓(xùn)練樣本類分布均衡程度的目的,是當(dāng)前提高不平衡數(shù)據(jù)分類器性能的一種有效途徑。其中,欠采樣技術(shù)基本思想是刪除部分多數(shù)類樣本,故而會造成分類信息丟失;過采樣技術(shù)主要是增加少數(shù)類樣本,原始分類信息能夠得到較好保留。因此,在某些對各類樣本分類準(zhǔn)確率均要求較高的領(lǐng)域,通常選擇過采樣技術(shù)[16]。

5.2 評價指標(biāo)

考慮不平衡數(shù)據(jù)集上的二分類問題:設(shè)P為少數(shù)類,N 代表多數(shù)類,F(xiàn)P代表多數(shù)類樣本錯分?jǐn)?shù)目;FN指少數(shù)類樣本錯分?jǐn)?shù)目;FP和TN分別表示少數(shù)類和多數(shù)類樣本被正確分類的數(shù)目。如式(18)—式(22)所示,TPR為少數(shù)類樣本正確率(或稱召回率);TNR為多數(shù)類樣本正確率;Precision為少數(shù)類分類精度;G為幾何平均正確率;F是少數(shù)類樣本正確率和分類精度的調(diào)和均值。

G和F是兩個常用不平衡數(shù)據(jù)分類性能的評價標(biāo)準(zhǔn),指標(biāo)G綜合考慮了少數(shù)類和多數(shù)類兩類樣本的分類性能,F(xiàn)能全面反映分類器性能[19]。由式(22)可以看出,只有Precision和TPR同步增大時,F(xiàn)才會相應(yīng)增大,非常適合評價不平衡數(shù)據(jù)分類質(zhì)量。

5.3 結(jié)果分析

本文在Win10平臺下采用Eclipse 4.13,實現(xiàn)了EUSBOOST、HDDT+Bagging及SMOTE+FRNN 3種算法。其中,前兩種是頗具有代表性算法,每種算法在各數(shù)據(jù)集上運行10次,取G和F值的平均結(jié)果作比較,如表2、表3所示。

綜合表2、表3數(shù)據(jù)發(fā)現(xiàn),在對不平衡數(shù)據(jù)集中的少數(shù)樣本進(jìn)行分類時,相比其它已有方法,本文方法分類精度更高,且數(shù)據(jù)集不平衡率越高,分類優(yōu)勢越明顯。據(jù)此可以認(rèn)為,在不平衡數(shù)據(jù)分類問題上,先使用SMOTE方法作預(yù)處理,再使用FRNN算法進(jìn)行分類確實是一種有效的組合方案,值得進(jìn)一步研究。

6 結(jié)語

在不平衡數(shù)據(jù)分類問題上,將重采樣技術(shù)和分類算法結(jié)合使用不是一個新的研究課題,已出現(xiàn)了很多有價值的研究文獻(xiàn),文獻(xiàn)中的方法在實驗中也取得了較好效果。開展這類嘗試性研究的關(guān)鍵是要在掌握有關(guān)方法內(nèi)在機理的基礎(chǔ)上,有針對性地進(jìn)行選取并優(yōu)化組合,而不是為了組合而組合。真實數(shù)據(jù)中往往不僅存在不平衡現(xiàn)象,往往還伴有重疊和噪聲,其中的屬性特征也經(jīng)常不完整。FRNN算法既可以對屬性不足的數(shù)據(jù)進(jìn)行分類,又能有效地對抗樣本重疊和噪聲。該方法的不足就在于它對于所有類的關(guān)注是等同的,缺乏將多數(shù)類和少數(shù)類區(qū)別處理的機制,因此在對不平衡數(shù)據(jù)分類問題上,它與SMOTE方法具有明顯契合性,這也是本文研究的立足點所在。本文目前關(guān)注的僅是不平衡數(shù)據(jù)二分類問題,在多分類問題上還未作進(jìn)一步研究。此外,減小FRNN算法計算開銷也是需考慮的問題。

參考文獻(xiàn):

[1] LUO M,WANG K,CAI Z,et al.Using imbalanced triangle synthetic data for machine learning anomaly detection[J]. Computers,Materials & Continua,2019,58(1):15-26.

[2] CAHYA R A,BACHTIAR F A. Weakening feature independence of na?ve bayes using feature weighting and selection on imbalanced customer review data[C]. The 5th International Conference on Science in Information Technology(ICSITech),2019:182-187.

[3] 陳旭,劉鵬鶴,孫毓忠,等. 基于不平衡醫(yī)療數(shù)據(jù)集的疾病預(yù)測模型研究[J]. 計算機學(xué)報,2019,42(3):596-609.

[4] FERNANDEZ A,GARCIA S,CHAWLA N V,et al. SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary[J]. Journal of Artificial Intelligence Research,2018,61:863-905.

[5] GEORGIOS D,F(xiàn)ERNANDO B,F(xiàn)ELIX L. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information Sciences,2018,465:1-20.

[6] DOUZAS G,BACAO F,LAST F.Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information sciences,2018,465:1-20.

[7] DOUZAS G,BACAO F. Geometric SMOTE a geometrically enhanced drop-in replacement for SMOTE[J]. Information sciences,2019,501:118-135.

[8] QI W,ZHIHAO L,JINCAI H,et al.A Novel ensemble method for imbalanced data learning: bagging of extrapolation-SMOTE SVM[J]. Computational Intelligence & Neuroence,2017:1827016.

[9] MA L,F(xiàn)AN S.CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests[J]. BMC Bioinformatics,2017,18(1):1-18.

[10] GONG C,GU L.A Novel SMOTE-Based classification approach to online data imbalance problem[J].? Mathematical Problems in Engineering,2016(5):1-14.

[11] JENSEN R,CORNELIS C. Fuzzy rough nearest neighbour classification and prediction[J]. Theoretical Computer Science,2011,412(42):5871-5884.

[12] JENSEN R,CORNELIS C.Fuzzy-rough nearest neighbor classification[M]. Berlin: Springer Berlin Heidelberg,2011.

[13] SARKAR M. Fuzzy-rough nearest neighbor algorithms in classification[J]. Fuzzy Sets and Systems,2007,158(19):2134-2152.

[14] 何力,盧冰原. 基于EM 的模糊-粗糙集最近鄰算法[J]. 計算機工程,2010,36(24):136-138.

[15] 陶新民,郝思媛,張冬雪,等. 不均衡數(shù)據(jù)分類算法的綜述[J]. 重慶郵電大學(xué)學(xué)報( 自然科學(xué)版), 2013,25(1): 101-121.

[16] 王超學(xué),張濤,馬春森. 面向不平衡數(shù)據(jù)集的改進(jìn)型SMOTE算法[J]. 計算機科學(xué)與探索,2014,8(6):727-734.

[17] 劉余霞,劉三民,劉濤,等. 一種新的過采樣算法DB_SMOTE[J]. 計算機工程與應(yīng)用,2014,50(6):92-95.

[18] ENISLAY R,SARAH V,NELE V,et al.IFROWANN:Imbalanced fuzzy-rough ordered? weighted average nearest neighbor classification[J]. IEEE Transactions on Fuzzy Systems,2014(99):1-15.

[19] LEE Y H,HU P J H,CHENG T H,et al. A preclustering-based ensemble learning technique for acute appendicitis diagnoses[J]. Artificial Intelligence in Medicine,2013,58(2):115-12.

(責(zé)任編輯:孫 娟)

收稿日期:2020-07-09

作者簡介:章春梅(1979-),女,碩士,南京信息職業(yè)技術(shù)學(xué)院人工智能學(xué)院講師,研究方向為網(wǎng)絡(luò)應(yīng)用程序開發(fā)、數(shù)據(jù)挖掘。

主站蜘蛛池模板: 欧美三级不卡在线观看视频| 尤物成AV人片在线观看| 亚洲日本在线免费观看| 日韩a级毛片| 国产麻豆精品久久一二三| 日韩国产无码一区| 欧亚日韩Av| 亚洲欧美在线综合图区| 麻豆国产精品| 亚洲精品无码不卡在线播放| 中文字幕无码电影| 99无码中文字幕视频| 欧美亚洲第一页| 国产日韩欧美在线播放| 青青久在线视频免费观看| 2021国产v亚洲v天堂无码| 成年午夜精品久久精品| 国产精品成人一区二区不卡 | 色综合狠狠操| 亚洲日本韩在线观看| 国产制服丝袜91在线| 成年人免费国产视频| 亚洲成年网站在线观看| 久久鸭综合久久国产| 国产一级在线播放| 国产99久久亚洲综合精品西瓜tv| 国产精品第页| 免费观看三级毛片| 国产精品午夜福利麻豆| 国产精品视频第一专区| 亚洲天堂久久| 国产欧美中文字幕| 伊人中文网| 久久久久人妻精品一区三寸蜜桃| 亚洲高清免费在线观看| 欧美日韩福利| 精品一区二区三区波多野结衣| 日本在线欧美在线| 六月婷婷综合| 国产福利拍拍拍| 亚洲女同欧美在线| 在线99视频| 国产午夜精品一区二区三区软件| 国产91丝袜在线播放动漫 | 久青草国产高清在线视频| 99无码熟妇丰满人妻啪啪| 在线色综合| 精品小视频在线观看| 国产男女免费完整版视频| 91精品啪在线观看国产91| 国产成人无码AV在线播放动漫 | 伊人久久大线影院首页| 国产真实乱了在线播放| 青草精品视频| 91精品国产无线乱码在线| 亚洲第一区精品日韩在线播放| 日本伊人色综合网| 97狠狠操| 国产精品区网红主播在线观看| 欧美啪啪精品| 五月激情婷婷综合| 精品1区2区3区| 亚洲国产综合精品一区| 亚洲一道AV无码午夜福利| 伊人天堂网| 午夜视频www| 国产成人无码综合亚洲日韩不卡| 日日拍夜夜操| 又爽又大又光又色的午夜视频| 欧美另类图片视频无弹跳第一页 | 日韩精品成人在线| 全部免费毛片免费播放| 中文字幕日韩丝袜一区| 国产精品自在自线免费观看| 日本在线免费网站| 午夜啪啪网| 亚洲二区视频| 91亚瑟视频| 国产麻豆精品在线观看| 伊人成人在线视频| 国产日本一线在线观看免费| 国产日产欧美精品|