999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不平衡數據分類問題解決辦法

2018-02-26 07:53:50季晨雨
電子技術與軟件工程 2018年15期
關鍵詞:分類

季晨雨

摘要

不平衡數據分類是指數據集中某一類的樣本數量遠小于其他類的樣本數量。由于傳統分類算法在設計時,通常假定用于訓練的數據集各類樣本數大致相等,所以利用傳統的分類方法對數據集進行分類時,會出現少數類的分類準確率較低的問題因此,如何解決不平衡數據分類問題是數據挖掘研究領域的一個熱點和難點。本文對不平衡數據分類問題進行了研究,從數據層面、算法層面、評價指標三個層面分別對目前存在的各種解決不平衡數據分類問題的方法進行介紹及比較,最后指出了不平衡數據分類在未來研究中的值得關注的一些研究方向。

【關鍵詞】分類 不平衡數據 采樣 集成學習

1 引言

不平衡數據分類問題,是指數據集中某類樣本的數目遠遠少于其他類的樣本數目,即樣本分布不平衡。由于傳統分類算法在設計時,通常假定用于訓練的數據集各類樣本數大致相等,所以利用傳統的分類方法對數據集進行分類時,會出現少數類的分類準確率較低的情況。然而,在現實生活中,我們往往關注的是少數類樣本是否能被正確分類。例如在信用卡欺詐識別中,屬于欺詐行為的交易樣本的數量要遠遠小于正常交易的樣本數量,屬于不平衡分類問題,且關注的重點是欺詐行為的交易樣本能否被正確識別。

在實際應用中,還有許多分類問題,屬于不平衡分類問題,比如網絡入侵檢測,醫療疾病診斷、客戶流失預測、廣告點擊預測、衛星圖像油井噴發檢測等等。

2 不平衡數據分類問題解決辦法

不平衡數據的分類器性能較差的原因主要包括絕對樣本缺失、相對樣本缺失,評價指標選取不當,噪聲數據影響,不恰當的歸納偏置以及分而治之的分類算法帶來的數據碎片問題。

解決不平衡數據分類問題,可以從數據、算法、評價指標三個層面著手。

2.1 從數據的角度

通過改變原始數據集的樣本分布,采用過采樣方法或欠采樣方法,即對少數類樣本數目進行增加或對多數類樣本數目進行減少,使不平衡數據集的正負類樣本數達到平衡。欠采樣包括隨機欠采樣,即隨機選擇部分多數類樣本作為訓練集中的多數類樣本,但隨機選擇多數類樣本會使整個數據集多數類的信息不完整,可能丟失一些很重要的多數類樣本,比如一些恰好處于決策邊界的樣本,對決策邊界的確定有很大影響。因此又提出了根據少數類樣本相鄰的多數類樣本來訓練決策邊界。隨機過采樣作為最簡單的過采樣方法,生成的樣本和原數據集的相似程度過大,可能會出現比較嚴重的過擬合問題,為了避免這一問題,提出了樣本生成技術SMOTE。但是由于SMOTE在生成新樣本時沒有參考多數類樣本,因此可能會出現新生成的樣本與原有的多數類樣本發生重疊的現象。Borderline-SMOTE方法通過區分邊界樣本、安全樣本和噪聲樣本,僅對邊界少數類樣本進行過采樣,有利于識別多數類和少數類的決策邊界。

2.2 在算法上

修改己有的分類器,使之適應不平衡數據的特征。主要包括代價敏感分類器,集成學習等方法。代價敏感分類器區分少數類樣本和多數類樣本誤分代價,對少數類樣本誤分將付出更大代價。集成學習是在訓練集上訓練多個分類模型,預測時根據每個分類器的分類結果進行投票,得到最終的預測結果。常用的組合方法,包括Bagging,Boosting以及隨機森林等。

SMOTEBoost算法是一種通過將SMOTE與Boosting技術融合來處理類不平衡問題的方法,相比于傳統的Boosting算法通過改變每一個樣本的權重調整訓練集樣本的分布策略,SMOTEBoosting算法利用SMOTE過采樣來增加新的少數類樣本來改變樣本的分布。

J.V.Hulse等人對EasyEnsemble、Partition和RUSBoost二種方法進行了對比和驗證,實驗證明這二種算法與RUS算法相比,在不平衡數據集分類問題上表現更好。P.Yao針對傳統的分類方法沒有區別對待多數類樣本與少數類樣本的不足之處,提出了對C4.5支持向量化模型進行加權的算法。X.Y.Liu等人基于欠抽樣法的不足,提出了兩種欠抽樣法的改進算法EasyEnsemble和BalancdCascadeoEasyEnsemble算法多次利用隨機欠抽樣生成多個訓練子集來構建分類子模型,再將構建的分類子模型組成最終的分類模型;BalancedCascade算法依靠分類器反復預測訓練集,將預測正確的多數類樣本去除生成新的訓練集,再通過新訓練集訓練新分類器,經過多次重復訓練形成最終分類器。潘俊等人通過減少過擬合及控制少數類的F-measure值來改進Boosting算法,提出了一種改進算法RIFBoost。

2.3 從評價指標上

分類模型的評價指標包括:

(1)正確率(Precision),TP/(TP+FP),給出的是預測為正類的樣本中實際為正樣本的比例。

(2)召回率(Recall),又稱查全率,TP/(TP+FN),給出的是預測為正類的真實正樣本占所有真實正樣本的比例。

(3)準確率(accuracy),(TP+TN)/(P+N),即模型預測正確的樣本占所有樣本的比例

傳統的分類模型通常使用模型的準確率進行評估。分類模型的準確率反映了分類模型對數據集整體的分類性能。但只使用準確率來衡量對不平衡數據集的分類效果,并不能反映對少數類的分類性能。利用少數類的召回率(查全率)可以反映正確判別的少數類占所有少數類的比例。F1分數同時考慮了分類模型的準確率和召回率,是處理不平衡數據分類問題時的有效評價指標。

F1分數可以看作是模型準確率和召回率的一種加權平均,F1分數的分布在0-1之間。

還可以采用ROC曲線下的面積AUC作為評價指標。因為ROC曲線有一個很好的性能,當測試集中的正負樣本的分布變化時,ROC曲線能夠保持不變,因此適合作為不平衡數據集分類時的評價指標。

ROC曲線是一系列threshold下的(FPR,TPR)數值點的連線。

其中,

AUC被定義為ROC曲線下的面積,使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數值,對應AUC更大的分類器效果更好

3 總結

本文對不平衡數據分類問題進行了研究,從數據層面、算法層面、評價指標二個層面分別對目前存在的各種解決不平衡數據分類問題的方法進行介紹及比較。對于不平衡數據集分類問題,以后的研究可以從以下幾個方面進行:

(1)當前的研究大多著眼于采樣方法、決策樹、支持向量機算法以及Boosting等集成方法,很少從其他傳統分類算法的原理入手研究傳統分類算法如何處理不平衡數據分類問題,因此如何利用決策樹,支持向量機之外的傳統分類算法解決不平衡數據分類問題有待研究;

(2)不平衡數據分類問題的研究大多是針一對類間樣本數目不平衡的問題而很少關注類內樣本數目不平衡問題,因此可以圍繞類內樣本的不平衡問題進行研究。

參考文獻

[1]李元菊.數據不平衡分類研究綜述[J].現代計算機,2016(04):30-33.

[2]陳湘濤,高亞靜.不平衡數據分類研究綜述[J].邵陽學院學報(自然科學版),2017,14(02):1-11.

[3]溫雪巖,陳家男,景維鵬等.面向不平衡數據集分類模型的優化研究[J].計算機工程,2018,44(04).

[4]易未,毛力,孫俊,改進Smote算法在不平衡數據集上的分類研究[J].計算機與現代化,2018(03).

[5]徐麗麗.面向不平衡數據集的分類算法研究[D].遼寧師范大學,2016.

[6]葉楓,丁鋒.不平衡數據分類研究及其應用[J].計算機應用與軟件,2018(01):132-136.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 国产在线视频福利资源站| 丁香婷婷激情网| 日韩国产 在线| 精品福利视频导航| 亚洲午夜18| 亚洲国产日韩欧美在线| 国产精品九九视频| 久久精品亚洲热综合一区二区| 狠狠ⅴ日韩v欧美v天堂| 嫩草在线视频| 精品无码人妻一区二区| 亚洲中文在线视频| 欧美19综合中文字幕| 欧美视频在线第一页| 国产精品夜夜嗨视频免费视频| 国产精品男人的天堂| 国产一区二区三区在线观看视频| 成人午夜免费观看| 伊人激情综合网| 国产免费高清无需播放器| 免费a在线观看播放| 88av在线播放| 天天综合色网| 国产乱人伦AV在线A| 国产草草影院18成年视频| 国产剧情一区二区| 亚国产欧美在线人成| 伊人天堂网| 强奷白丝美女在线观看| 免费又爽又刺激高潮网址 | 亚洲无码精品在线播放| 激情无码视频在线看| 2021国产精品自产拍在线| 国产夜色视频| 午夜啪啪网| 国产亚洲精品97在线观看| 永久免费精品视频| 福利在线不卡一区| 欧美成人国产| 久草美女视频| 国产精品一线天| 日韩欧美在线观看| 亚洲最黄视频| 波多野结衣一区二区三区88| 精品第一国产综合精品Aⅴ| 亚洲精品视频免费观看| 日韩精品无码免费一区二区三区| 白浆免费视频国产精品视频| 亚洲成人高清无码| 日本午夜网站| 97成人在线视频| 亚洲精品国产成人7777| 欧美成在线视频| 人妻21p大胆| 亚洲综合极品香蕉久久网| 欧美人与性动交a欧美精品| 欧美日韩国产在线人成app| 91麻豆精品国产高清在线| 国产理论一区| 国产欧美日韩va另类在线播放| 无码'专区第一页| 欧美第二区| 97人人做人人爽香蕉精品| 一级一级一片免费| 51国产偷自视频区视频手机观看| 亚洲第一精品福利| 伊人福利视频| 久久99久久无码毛片一区二区| 天天综合网亚洲网站| 在线播放精品一区二区啪视频 | 国产精品自拍合集| 91在线中文| 中文字幕1区2区| 久久国产亚洲偷自| 欧美成人精品高清在线下载| 毛片在线看网站| 69国产精品视频免费| 国产欧美精品一区aⅴ影院| 欧美不卡视频在线观看| 精品无码日韩国产不卡av| 国产97公开成人免费视频| 免费a在线观看播放|