999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R的過采樣方法在非平衡數(shù)據(jù)中的應(yīng)用

2012-09-19 03:44:50蘇加強(qiáng)丁柳云
常州工學(xué)院學(xué)報 2012年6期
關(guān)鍵詞:方法

蘇加強(qiáng) 丁柳云

(1.寧德職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系,福建 寧德 355000;2.寧德職業(yè)技術(shù)學(xué)院教務(wù)處,福建 寧德 355000)

1 背景

R是一個有著統(tǒng)計(jì)分析功能及強(qiáng)大制圖功能的軟件系統(tǒng),是由奧克蘭大學(xué)統(tǒng)計(jì)學(xué)系的Ross Ihaka和Robert Gentleman共同創(chuàng)立的。該軟件屬于GNU系統(tǒng)的一個自由、免費(fèi)、源代碼開放的軟件,用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖。R以包的形式內(nèi)建多種統(tǒng)計(jì)學(xué)及數(shù)字分析功能,透過安裝套件Packages增強(qiáng)。KDnuggets曾調(diào)查了實(shí)際項(xiàng)目使用了哪些數(shù)據(jù)挖掘軟件,底層語言使用頻率最高的依舊是 R語言、SQL、Java和Python。而從軟件工具角度上看,R、Excel和RapidMiner則名列三甲。

傳統(tǒng)的分類實(shí)驗(yàn)中,都假定學(xué)習(xí)的數(shù)據(jù)集為分布平衡的,即數(shù)據(jù)集中各類樣本的數(shù)目大體一致。但是在現(xiàn)實(shí)情況中平衡數(shù)據(jù)集幾乎是不存在的。在真實(shí)世界中,通常標(biāo)號不同的類所含有的樣本數(shù)目是不等的,甚至有著很大的差別,這樣的數(shù)據(jù)集為不平衡數(shù)據(jù)集。

在不平衡數(shù)據(jù)集的分類學(xué)習(xí)過程中,少數(shù)類樣本被誤分的幾率通常要高于多數(shù)類。現(xiàn)實(shí)應(yīng)用中,少數(shù)類樣本通常比多數(shù)類樣本重要,故少數(shù)類被誤分所帶來的損失相對較大。因此,對不平衡數(shù)據(jù)分類的研究就致力于提高數(shù)據(jù)集中少數(shù)類的識別效率,以減少少數(shù)類被錯分所帶來的損失。

2 數(shù)據(jù)挖掘任務(wù)和所用數(shù)據(jù)

一些公司售貨員要報告商品的交易情況,公司需檢測售貨員所提交的交易情況報表中的異常值,目的是檢查售貨員所提交的交易報表中的異常現(xiàn)象,給出一種異常概率排序,該排序可以讓公司以優(yōu)化的方法應(yīng)用于檢查工作。售貨員出售公司產(chǎn)品,每月末,售貨員需向公司提交交易情況。售貨員可以根據(jù)營銷策略和市場情況自由設(shè)定產(chǎn)品的交易價格。數(shù)據(jù)挖掘應(yīng)用的目的是幫助公司根據(jù)過去的檢測錯誤和異常交易報表的經(jīng)驗(yàn)來核實(shí)報表的真實(shí)性,提供交易報表異常概率排序,此排序使公司將有限的檢查資源用于系統(tǒng)給出的可疑報表。

如,以某公司售貨員提交的交易報表為分析數(shù)據(jù),數(shù)據(jù)總共401 146行,每行信息包括售貨員ID(ID)、產(chǎn)品 ID(Prod)、產(chǎn)品數(shù)量(Quant)和總價(Val)。這些數(shù)據(jù)已經(jīng)通過公司的一些分析,并把分析的結(jié)果顯示在最后一列(Insp)。Insp可能有以下情況:ok,即交易被檢查并認(rèn)為有效;fraud,即交易被發(fā)現(xiàn)是異常的;unkn,即交易未檢查。

R語言中提供一個包DMwR,里面有需要的數(shù)據(jù)。首先通過以下命令加載包和數(shù)據(jù)。

然后查看sales數(shù)據(jù)的前6行,如表1所示。

表1 實(shí)驗(yàn)所用數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)集報表中正常和異常的比例非常不平衡,異常報表為少數(shù),只有8.1%。在獲取預(yù)測模型的任務(wù)中,這種類型的問題可以導(dǎo)致各種困難。首先,它們需要恰當(dāng)?shù)脑u定指標(biāo),因?yàn)楸绢I(lǐng)域中標(biāo)準(zhǔn)誤差是明顯不足的。實(shí)際上,應(yīng)用可較易得到大約90%的精確度。類型不平衡的另一問題是對缺少統(tǒng)計(jì)的支持而趨向忽略少數(shù)類的學(xué)習(xí)算法的性能有強(qiáng)烈的影響。應(yīng)用中,重點(diǎn)研究對象是不平衡數(shù)據(jù)集中的少數(shù)樣本時,就特別成問題。

3 樸素貝葉斯和ORh方法

3.1 樸素貝葉斯

樸素貝葉斯(Naive Bayes)是基于貝葉斯定理的概率分類器,其嚴(yán)格限定預(yù)測器之間的獨(dú)立性。這些限定很少適用于真實(shí)世界的問題,所以命名為樸素。

貝葉斯定理:

使用這一定理,樸素貝葉斯分類器用式(2)計(jì)算給定測試集用例每個類的概率:

c為一個類;X1,…,Xp為給定測試用例預(yù)測器的觀察值;P(c)的概率可以視為類c的先驗(yàn)期望;P(X1,…,Xp|c)是類c中給定測試用例的似然;分母是觀察證據(jù)的概率。用式(2)計(jì)算所有可能的類的值來判定測試用例的最可能的類,這一判定取決于式(2)的分子,因?yàn)榉帜冈谒械挠美惺浅A俊@脳l件概率和預(yù)測器間樸素的條件獨(dú)立的統(tǒng)計(jì)定義,把分?jǐn)?shù)的分子變?yōu)?

樸素貝葉斯使用相對頻率評價訓(xùn)練樣本的概率,使用這些評價,根據(jù)式(2)輸出每個測試用例的類概率。

R有幾種方法實(shí)現(xiàn)樸素貝葉斯方法,它們分別是:使用包e1071中的函數(shù)Naive Bayes();使用樸素貝葉斯來獲得報表測試集的排序值;使用給定訓(xùn)練樣本中檢查過的報表來建立一個樸素貝葉斯模型。

從Hold-out程序中調(diào)用函數(shù),獲得樸素貝葉斯預(yù)測器的選擇評價統(tǒng)計(jì)。

最后,調(diào)用holdOut()函數(shù)來執(zhí)行此模型的實(shí)驗(yàn)。

3.2 ORh方法

基于聚類算法ORh方法,使用層次凝聚聚類算法來獲得給定數(shù)據(jù)的系統(tǒng)樹圖,系統(tǒng)樹圖是聚類方法融合過程的可視化表現(xiàn)形式。不同高度等級的消減樹產(chǎn)生數(shù)據(jù)的不同聚類,在最低等級有個解,給定的訓(xùn)練集數(shù)據(jù)中每個觀察值都是一個組,這是這個模型迭代算法的初始解。算法的下一步是決定前面第一步中哪兩組合并成一個簡單聚類,這個融合過程被試圖把彼此間有相似性放到一起的準(zhǔn)則操縱,直到所有觀察值的最后兩組被合并成一個簡單聚類迭代過程才停止,基本包stats中函數(shù)hclust()實(shí)現(xiàn)了這種類型的聚類方法。

樸素貝葉斯模型對10%檢查結(jié)果如表2所示。

表2 樸素貝葉斯模型對10%檢查結(jié)果

與未監(jiān)督式ORh方法獲取的最好的分?jǐn)?shù)相比,就查準(zhǔn)率和查全率而言結(jié)果不理想。圖1清晰地顯示,在本應(yīng)用中,樸素貝葉斯方法劣于ORh方法。

圖1 樸素貝葉斯和ORh性能對比圖

4SMOTE算法及應(yīng)用

用于幫助學(xué)習(xí)算法克服類型不平衡問題的技術(shù)通常可歸為兩類:一類是傾向于用對少數(shù)類采樣敏感的特別的評定指標(biāo)評定學(xué)習(xí)過程;另一類是處理訓(xùn)練數(shù)據(jù)來改變類型分布的采樣方法。在使用監(jiān)督式分類方法的嘗試中,使用第二類方法。

有多種采樣方法可以改變一個數(shù)據(jù)集的類型不平衡。如,欠采樣方法(Under-sampling methods),即選擇多數(shù)類的一小部分,并添加到少數(shù)類用例中,因此建立一個平衡類分布的數(shù)據(jù)集;過采樣(Over-sampling),即用一些方法來重復(fù)少數(shù)類采樣。然而以上方法的許多變種已經(jīng)存在。由Chawla等人提出的SMOTE(Synthetic Minority O-ver-sampling Technique)算法是一種成功的采樣方法,該方法的主要思想是利用k近鄰和線性插值,在相距較近的兩少數(shù)類樣本間按照一定的規(guī)則人為地插入新的樣本,以達(dá)到使少數(shù)類樣本數(shù)目增加,數(shù)據(jù)集趨于平衡的目的。基本思想是用樣例的最近鄰居人為地產(chǎn)生少數(shù)類的新樣本,而且多數(shù)類樣例也是欠采樣的,產(chǎn)生一個平衡的數(shù)據(jù)集。

使用函數(shù)SMOTE()實(shí)現(xiàn)這種采樣方法,給定一個不平衡的采樣,此函數(shù)產(chǎn)生一個較平衡類分布的新的數(shù)據(jù)集。

用iris創(chuàng)建一個帶有兩個預(yù)測變量和一個未平衡類分布的目標(biāo)變量的人工數(shù)據(jù)集。調(diào)用函數(shù)SMOTE()時,變量perc.over賦值為600,即在屬于少數(shù)類的初始數(shù)據(jù)集的每個用例中創(chuàng)建6個采樣。這些新的用例通過用例和其最近領(lǐng)域之間的隨機(jī)插值創(chuàng)建。圖2為原始數(shù)據(jù)信和使用SMOTE后的數(shù)據(jù)集。

圖2 原始數(shù)據(jù)集和使用SMOTE后的數(shù)據(jù)集圖

在監(jiān)督式分類算法中,使用此方法的變形。首先用SMOTE方法獲取的訓(xùn)練集來應(yīng)用樸素貝葉斯分類器,然后用修改后的訓(xùn)練集應(yīng)用于navieBayes()函數(shù)來獲得異常值排序。

下面的語句獲得SMOTE版本的樸素貝葉斯Hold-out評價。

5 結(jié)果評價

此版本樸素貝葉斯模型對10%檢查的結(jié)果如表3所示。

表3 SMOTE方法的樸素貝葉斯模型檢查結(jié)果

此結(jié)果與正常樸素貝葉斯結(jié)果基本相同,結(jié)果稍好,但仍低于未監(jiān)督式方法的最好結(jié)果。盡管SMOTE方法對少數(shù)類過采樣,樸素貝葉斯依然不能正確地預(yù)測哪些是異常的報表。用圖形方式以全局的視角來查看此變種方法的性能,如圖3所示。

圖3 性能對比圖

SMOTE算法提出前,對非平衡數(shù)據(jù)的處理一般采用隨機(jī)采樣方法,SMOTE算法在相距較近的少數(shù)類之間人為地增加其虛擬樣本,在某種程度上規(guī)避了過學(xué)習(xí)的問題,提高了數(shù)據(jù)集的分類性能。

[1]Chawla N.The Data Mining and Knowledge Discovery Handbook:Data Mining for Imbalanced Datasets[M].Heidelberg:Springer,2005:853 -867.

[2]Seeger M.Technicalreport:Learning With Labeled and Unlabeled Data:Institute for Adaptive and Neural Computation[J].U-niversity of Edinburgh,2002:5 -27.

[3]Sing T,Sander O,Beerenwinkel N.ROCR:Visualizing the Performance of Scoring Classiers.R Package Version 1.0 - 4[J].Heidelberg:Springer,2012:2 - 10.

[4]Breunig M,Kriegel H,NG R.Management of Data:LOF:Identifying Density-based Local Outliers[M].New York ACM,2000:93-104.

[5]Chambers J.Software for Data Analysis:Programming With R[M].Heidelberg:Springer,2008:166 -221.

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日本人又色又爽的视频| 精品国产91爱| 热re99久久精品国99热| 影音先锋丝袜制服| 1769国产精品视频免费观看| 久久无码av三级| 亚洲精品无码日韩国产不卡| 精品乱码久久久久久久| 久久久久国产精品嫩草影院| 亚洲综合二区| 久久精品只有这里有| 国产欧美日韩18| 在线免费观看a视频| 亚洲日韩每日更新| 日韩区欧美国产区在线观看| 国产亚洲精品自在线| 免费不卡视频| 人妻无码一区二区视频| 色综合中文综合网| 久久香蕉国产线看观看亚洲片| 久久亚洲国产最新网站| 麻豆国产精品视频| 亚洲日韩图片专区第1页| 欧美不卡视频一区发布| 成人精品免费视频| www.亚洲一区| 日韩精品免费在线视频| 99久久国产精品无码| 国产超薄肉色丝袜网站| www.91中文字幕| 亚洲欧美日韩色图| 色婷婷成人网| 色亚洲成人| 偷拍久久网| 538国产视频| 国产精品嫩草影院av| 久久一日本道色综合久久| 伊人久久久久久久| 人人妻人人澡人人爽欧美一区| 国产精品美女免费视频大全 | 暴力调教一区二区三区| 国产成人一区免费观看| 色视频国产| 国产欧美精品一区aⅴ影院| 欧美色视频日本| 久久国产精品电影| 日本黄色不卡视频| 亚洲色图综合在线| 久久青青草原亚洲av无码| 欧美午夜在线播放| 久久久久88色偷偷| 日韩精品久久无码中文字幕色欲| 国产9191精品免费观看| 日本在线欧美在线| 国产成人无码久久久久毛片| 性视频久久| 老色鬼久久亚洲AV综合| 全裸无码专区| 国产男女免费视频| 一级一级一片免费| 毛片免费视频| 中文无码毛片又爽又刺激| 亚洲精品国产日韩无码AV永久免费网| 日韩在线播放中文字幕| 一级爱做片免费观看久久| 中文一级毛片| 国产91丝袜| 波多野结衣中文字幕久久| 亚洲 欧美 偷自乱 图片| 色综合手机在线| 99久久精彩视频| 2021精品国产自在现线看| 伊人色综合久久天天| 亚洲一级毛片在线观| 国产精品自拍合集| 911亚洲精品| 麻豆精品在线| 国产亚洲欧美在线专区| 91久久夜色精品国产网站| 国产v欧美v日韩v综合精品| 精品伊人久久大香线蕉网站| 人妻中文久热无码丝袜|