999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不平衡統計數據分類
——基于最近鄰降噪濾波器

2019-01-23 07:41:44
福建質量管理 2019年1期
關鍵詞:分類模型

(廣東財經大學 廣東 廣州 510320)

引言

隨著大數據時代的到來,現實生活中充斥著各種各樣結構化與非結構化的數據,如何有效的處理各種不同類型的數據顯得極為關鍵。數據分類作為數據挖掘體系中極為重要的一部分,雖然傳統的分類算法對于各類別分布較為均勻的數據能表現出較好的分類性能,但對于類別分布極不均勻的數據,其中傳統分類算法以總體精度作為優化目標,很容易造成大量的少數類樣本被錯誤分類的現象。例如在金融信用違約用戶監測的過程中,樣本中未違約用戶的數量遠遠高于違約用戶,傳統分類算法極易傾向于將所有樣本均判定為多數類,由此模型可以得到較高的總體分類精度。對于異常檢測等問題,無法將少數類樣本準確識別出來,模型具有再高的總體分類精度都沒有實際應用價值。這類數據廣泛的存在于現實應用領域,包括癌癥監測、金融欺詐監測、網絡入侵監測等。在癌癥監測問題上,如果將癌癥病人錯誤分類,錯過了醫治的最佳時間,將會付出更大的代價。因此不平衡數據分類的研究具有很強的社會意義,可以廣泛應用于社會中的各個領域并產生價值。

目前應用比較成熟的分類算法有決策樹、K近鄰、樸素貝葉斯分類器、SVM、神經網絡以及集成學習等,傳統算法都是基于兩個前提假設:1.樣本數據內各個類的分布情況大致均勻。2.各個類別被錯誤分類的代價基本相同。對于分類模型的性能評價指標以總體分類準確率作為核心指標,由此會對不平衡數據會產生較高的少數類樣本錯分率。國內外學者對于不平衡數據分類總要從數據預處理、代價敏感參數、單類別學習與集成學習四個方面展開。本文通過構建不平衡數據框架的分類器來處理UCI中近5個不平衡數據集,通過與傳統分類算法進行比較驗證有效性。

一、最近鄰降噪濾波不平衡數據處理框架

最近鄰降噪濾波不平衡數據處理框架包括對于多數類樣本進行欠采樣與對于少數類樣本進行降噪濾波處理,然后將處理后的數據進行分類并通過交叉驗證計算分類的性能。傳統的欠采樣往往會全部使用少數類樣本來進行模型的訓練,但少數類樣本中存在一些噪聲會降低分類器的性能。通過構建KNN降噪濾波過濾器來剔除噪聲以提高分類器的整體性能。

(一)少數類樣本降噪濾波處理。對于不平衡數據最基本的處理就是將多數類樣本通過欠采樣,由此使數據中各類樣本的分布基本均勻。但往往忽視了少數類樣本中存在的噪聲,有效確認少數類樣本中的噪聲并剔除將提高對于不平衡數據的分類性能。基本思路為判斷某個少數類樣本附近的K個近鄰樣本中少數類樣本的占比將此少數類樣本劃分為有效少數類樣本、相對有效少數類樣本、噪聲少數類樣本三類。其中有效少數類樣本的K個近鄰全是少數類樣本而噪聲少數類樣本的K個近鄰全是多數類樣本。

算法步驟:輸入不平衡樣本數據,少數類樣本記為Sm,多數類樣本記為SM,其中選擇的近鄰數記為K。對于i=1∶|Sm|,計算少數類Sm中各個樣本的K個近鄰以及其中含有多數類樣本的個數。將其中K個近鄰全是多數類的樣本進行標記,然后剔除。輸出通過降噪濾波過后的樣本數據。

二、多數類欠采樣方法

經典的欠采樣方法包括Undersampling、RUSBoost、UnderBagging、EasyEnsemble等。但欠采樣存在一個缺點是隨機欠采樣過程中容易將有價值的樣本點給遺漏,使得樣本失真,無法最大程度還原樣本原始特征。

Undersampling通過隨機從多數類中隨機抽取樣本從而減少多數類中的樣本數量來實現樣本內各類數據均衡。EasyEnsemble通過不斷從多數類中抽取樣本,使得每個模型的多數類和少數類樣本數量基本均衡,然后將多個模型集成起來。RUSBoost通過Adaboost作為基礎分類器對樣本進行集成學習進行樣本欠采樣。UnderBagging通過bagging的方式有放回地采樣進行,來實現樣本的欠采樣。

三、實驗與結果分析

為了證明降噪濾波器的有效性,選擇了5組UCI標準數據集進行測試,通過十折交叉驗證計算出AUC值。AUC指標是Roc曲線下面所包含的面積,AUC指標越大表示分類的性能越好,通常AUC等于1為完美分類器,AUC位于0.5至1之間優于隨機分類器,AUC位于0至0.5之間差于隨機分類器。

數據集UBUB-KFRUSBRUSB-KFUBUB-KFEEEE-KFPrima0.7570.7830.7450.760.7230.7330.8120.813Haberman0.6190.6450.660.660.6010.6250.6640.689Cmc0.6630.690.680.7010.6330.6510.70.735Yeast0.9540.9640.950.9630.9200.9270.9620.978Zernike0.8710.8740.870.8340.8360.8510.9010.989

四、實驗結論

從各個數據集的AUC值可以發現,KF最近鄰降噪濾波器的效果顯著,提高的傳統分類算法的性能,其中結合了EasyEnsemble的的分類器性能在各個數據中都表現優異。對于不平衡數據,多數類通過EasyEnsemble方法欠采樣并且對于少數類樣本通過最近鄰降噪濾波器來消除噪聲可以顯著提高分類器的性能。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲经典在线中文字幕| 777午夜精品电影免费看| 中文无码影院| 亚洲一级无毛片无码在线免费视频| 亚洲人成成无码网WWW| 真实国产精品vr专区| 国产福利小视频在线播放观看| 天天摸夜夜操| 国产真实二区一区在线亚洲| 欧美人与牲动交a欧美精品| 毛片一区二区在线看| 中文字幕人成人乱码亚洲电影| 国产精品亚洲αv天堂无码| 国产午夜不卡| 真实国产乱子伦视频| 亚洲精品自拍区在线观看| 久久超级碰| 黑色丝袜高跟国产在线91| 热思思久久免费视频| 99人妻碰碰碰久久久久禁片| 99国产在线视频| 亚洲成综合人影院在院播放| 久久久久国产一级毛片高清板| 国产大片黄在线观看| 国产不卡网| 午夜日韩久久影院| 一本一道波多野结衣av黑人在线| 成人福利在线视频免费观看| 亚洲精品免费网站| 色综合天天娱乐综合网| 人妻熟妇日韩AV在线播放| 在线精品亚洲一区二区古装| 国产精品无码AⅤ在线观看播放| 国产精品视频猛进猛出| 青青草综合网| 久久人与动人物A级毛片| 国产一区二区视频在线| 午夜精品国产自在| 免费又黄又爽又猛大片午夜| 日韩毛片免费观看| 中文字幕自拍偷拍| 亚洲无码视频图片| 91探花国产综合在线精品| 九九热视频精品在线| 亚洲激情99| 99精品视频九九精品| 色婷婷在线播放| 永久在线精品免费视频观看| 日韩欧美91| 波多野吉衣一区二区三区av| 国产黄在线免费观看| 欧美a级完整在线观看| 亚洲美女高潮久久久久久久| 天堂成人av| 久久婷婷五月综合色一区二区| 成人福利一区二区视频在线| 成人午夜天| 欧美天天干| 国产精品一区在线麻豆| 亚洲无码在线午夜电影| 国产精品乱偷免费视频| 好久久免费视频高清| 1769国产精品免费视频| 国产精品污视频| 在线观看免费AV网| 国产丰满大乳无码免费播放| 中国国语毛片免费观看视频| 欧美午夜视频在线| 中文字幕免费播放| 手机永久AV在线播放| 免费网站成人亚洲| 2019国产在线| 天天做天天爱天天爽综合区| 萌白酱国产一区二区| 亚洲欧洲日产国产无码AV| 久久综合激情网| 99久久精品免费看国产免费软件| 欧美中文字幕在线二区| 高清无码手机在线观看| 夜夜高潮夜夜爽国产伦精品| 大香网伊人久久综合网2020| 欧美另类第一页|