999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于間隔理論的過采樣集成算法

2019-08-01 01:48:57張宗堂陳喆戴衛國
計算機應用 2019年5期
關鍵詞:機器學習

張宗堂 陳喆 戴衛國

摘 要:針對傳統集成算法不適用于不平衡數據分類的問題,提出基于間隔理論的AdaBoost算法(MOSBoost)。首先通過預訓練得到原始樣本的間隔; 然后依據間隔排序對少類樣本進行啟發式復制,從而形成新的平衡樣本集; 最后將平衡樣本集輸入AdaBoost算法進行訓練以得到最終集成分類器。在UCI數據集上進行測試實驗,利用Fmeasure和Gmean兩個準則對MOSBoost、AdaBoost、隨機過采樣AdaBoost(ROSBoost)和隨機降采樣AdaBoost(RDSBoost)四種算法進行評價。實驗結果表明,MOSBoost算法分類性能優于其他三種算法,其中,相對于AdaBoost算法,MOSBoost算法在Fmeasure和Gmean準則下分別提升了8.4%和6.2%。

關鍵詞:不平衡數據;間隔理論;過采樣方法;集成分類器;機器學習

中圖分類號:TP181

文獻標志碼:A

Abstract: In order to solve the problem that traditional ensemble algorithms are not suitable for imbalanced data classification, Over Sampling AdaBoost based on Margin theory (MOSBoost) was proposed. Firstly, the margins of original samples were obtained by pretraining. Then, the minority class samples were heuristic duplicated by margin sorting thus forming a new balanced sample set. Finally, the finall ensemble classifier was obtained by the trained AdaBoost with the balanced sample set as the input. In the experiment on UCI dataset, Fmeasure and Gmean were used to evaluate MOSBoost, AdaBoost, Random OverSampling AdaBoost (ROSBoost) and Random UnderSampling AdaBoost (RDSBoost). The experimental results show that MOSBoost is superior to other three algorithm. Compared with AdaBoost, MOSBoost improves 8.4% and 6.2% respctively under Fmeasure and Gmean criteria.

英文關鍵詞Key words: imbalanced data; margin theory; over sampling method; ensemble classifier; machine learning

0 引言

近些年,不平衡數據分類問題成為了機器學習的熱點問題,它廣泛存在于現實生產生活中,例如郵件過濾[1]、圖像分類[2]、軟件缺陷預測[3]、醫療診斷[4]、基因數據分析[5]等。對于二分類問題,不平衡數據中多類的樣本數量遠大于少類。傳統的分類方法以總體分類精度為目標,忽視了類別不平衡性,從而導致少類樣本分類準確率降低,然而少類樣本往往具有較高的價值,這使得錯分代價較大。

針對不平衡數據的處理方法大致分為算法層面和數據層面: 算法層面指構造新的算法或對原有算法進行改造以偏向少類; 數據層面主要是利用重采樣方法獲得平衡樣本集,再結合現有分類器進行分類。重采樣方法,包括欠采樣法和過采樣法,形式上比較簡練,且不影響分類器設計,因此得到了廣泛的研究。根據采取的策略,它又可分為隨機采樣和啟發式采樣: 隨機采樣不依據數據信息,只是簡單地隨機刪除或添加樣本; 啟發式采樣則是在利用數據內部特性的基礎上進行采樣。典型的啟發式欠采樣方法如Tomek links[6]、One sided selection[7]、Neighborhood Cleaning Rule[8]等克服了隨機欠采樣中容易缺失有用信息的缺點,一定程度上提高了算法性能。而啟發式過采樣中比較有代表性的是SMOTE(Synthetic Minority Oversampling TEchnique)[9]方法及其改進算法[10-12]。SMOTE方法的基本假設是相同類別的鄰近數據點所生成的凸集也屬于同一類別。啟發式重采樣方法基本都是在某種準則下對樣本進行篩選,對數據集的依賴性較強,然而不平衡數據集往往存在類內不平衡、小析取項、高噪聲等特點,使得其難以滿足準則要求,進而降低了算法性能。表面上看,這是數據集與準則之間的適配性問題,實際上是這些方法缺乏理論基礎,泛化性較低。

AdaBoost算法是一種經典的集成分類算法,在機器學習中有廣泛的應用[13-15]。AdaBoost以最小化總體分類誤差為目標,忽視了類別間的不平衡性,因而不適用于不平衡數據分類。間隔理論是AdaBoost算法的重要理論基礎,成功解釋了AdaBoost算法不易過擬合等現象。本文從間隔理論出發,定義了少類間隔和多類間隔,對少類間隔樣本依據符號正負進行篩選,對正的少類間隔樣本進行啟發式復制,形成新的平衡樣本集,在此樣本集上進行AdaBoost訓練,形成了MOSBoost算法,從而提高了不平衡數據分類性能。

1 相關工作

1.1 AdaBoost算法

AdaBoost算法將訓練樣本集{(x1,y1),(x2,y2),…,(xN,yN)}作為輸入,其中xi是樣本,yi為其類標,對于二分類問題,yi∈{-1,1}。然后根據已知的基分類算法在t=1,2,…,T輪中不斷地運算。Dt(i)表示第t輪中第i個訓練樣本的權重。基分類算法的任務是在權重分布Dt的基礎上得到基分類器ht來最小化分類誤差。當ht訓練完成,AdaBoost選擇一個參數αt∈R來衡量ht的分類性能。然后更新權重分布Dt。最終的集成分類器F是T個基分類器的加權輸出。具體算法如算法1所示。

參考文獻 (References)

[1] DAI H L. Class imbalance learning via a fuuzy total margin based support vector machine[J]. Applied Soft Computing, 2015, 31(C): 172-184.

[2] 譚潔帆,朱焱,陳同孝,等.基于卷積神經網絡和代價敏感的不平衡圖像分類方法[J].計算機應用,2018,38(7):1862-1865,1871.(TAN J F, ZHU Y, CHEN T X, et al. Imbalanced image classification approach based on convolution network and costsensitivity[J]. Journal of Computer Applications,2018,38(7):1862-1865,1871.)

[3] WANG S, YAO X. Using class imbalance learning for software defect prediction[J]. IEEE Transactions on Reliability, 2013, 62(2): 434-443.

[4] OZCIFT A, GULTEN A. Classifer ensemble construction with rotation forest to improve medical diagnosis performance of machine learning algorithms[J]. Computer Methods and Programs in Biomedicine, 2011, 104(3):443-451.

[5] YU H, NI J, ZHAO J. ACOSampling: an ant colony optimizationbased undersampling method for classifying imbalanced DNA microarray data[J]. Neurocomputing, 2013,101:309-318.

[6] TOMEK I. Two modifications of CNN[J]. IEEE Transactions on Systems, Man and Cybernetics, 1976, SMC6(11): 769-772.

[7] KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: onesided selection[C]// Proceedings of the 14th International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 1997: 179-186.

[8] LAURIKKALA J. Improving identification of difficult small classes by balancing class distribution[C]// Proceedings of the 8th Conference on Artificial Intelligence in Medicine in Europe. Berlin: Springer, 2001: 63-66.

[9] CHAWLA N, BOWYER K, HALL L, et al. SMOTE: synthetic minority oversampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.

[10] RIVERA W A. Noise reduction a priori synthetic oversampling for class imbalanced data sets[J]. Information Sciences, 2017, 408(C): 146-161.

[11] MA L, FAN S. CURESMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests [J]. BMC Bioinformatics, 2017,18(1): 169.

[12] BOROWSKA, K, STEPANIUK J. Imbalanced data classification: a novel resampling approach combining versatile improved SMOTE and rough sets[C]// CISIM 2016: IFIP International Conference on Computer Information Systems and Industrial Management. Berlin: Springer, 2016: 31-42.

[13] BAIG M M, AWAIS M M, ELALFY E S M. AdaBoostbased artificial neural network learning[J]. Neurocomputing, 2017, 248(C): 120-126.

[14] MINZ A, MAHOBIYA C. MR image classification using Adaboost for brain tumor type[C]// Proceedings of the 2017 IEEE 7th International Advance Computing Conference. Washington, DC: IEEE Computer Society, 2017:701-705.

[15] 王軍,費凱,程勇.基于改進的AdaboostBP模型在降水中的預測[J]. 計算機應用, 2017, 37(9):2689-2693.(WANG J,FEI K,CHENG Y. Prediction of rainfall based on improved AdaboostBP model[J]. Journal of Computer Applications, 2017, 37(9):2689-2693.)

[16] SCHAPIRE R E, FREUND Y, BARTLETT P, et al. Boosting the margin: a new explanation for the effectiveness of voting methods[J]. Annals of Statistics, 1998, 26(5): 1651-1686.

[17] GAO W, ZHOU Z H. On the doubt about margin explanation of boosting[J]. Artificial Intelligence, 2013,203:1-18.

[18] BACHE K, LICHMAN M. UCI repository of machine learning databases[DB/OL].[2018-06-20].http://www.ics.uci.edu/~mlearn/MLRepository.html.

[19] van HULSE J, KHOSHGOFTAAR T M, NAPOLITANO A. Expertimental perspectives on learning from imbalanced data[C]// Proceedings of the 24th International Conference on Machine Learing. New York: ACM, 2007: 935-942.

[20] LIU N, WEI L W, AUNG Z. Handling class imbalance in customer behavior prediction[C]// Proceedings of the 2014 International Conference on Collaboration Technologies and Systems. Piscataway, NJ: IEEE, 2014: 100-103.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产高清又黄又嫩的免费视频网站| 在线观看亚洲人成网站| 久久青草免费91线频观看不卡| 国产一区二区免费播放| 国产91久久久久久| 在线欧美一区| a级毛片免费网站| 中文字幕亚洲第一| 凹凸国产分类在线观看| 久久美女精品| 亚洲av无码久久无遮挡| 国产成人亚洲无码淙合青草| 久无码久无码av无码| 97se亚洲综合不卡| 热re99久久精品国99热| 欧美亚洲激情| 亚洲欧美日韩成人在线| 国产精品偷伦视频免费观看国产| 亚洲精品777| 亚洲中文字幕久久无码精品A| 亚洲成人黄色在线| 欧美亚洲国产一区| 亚洲另类国产欧美一区二区| 国产欧美高清| 亚洲av色吊丝无码| 91欧美亚洲国产五月天| 国产成人高清精品免费软件| 国产精品免费电影| 国模视频一区二区| 亚洲一区二区成人| 亚洲第一中文字幕| 久久婷婷六月| 国产第一页屁屁影院| 高h视频在线| 亚洲资源站av无码网址| 国产免费羞羞视频| 欧美在线三级| 欧美日韩国产在线人| 欧美精品啪啪| 亚洲第一色网站| 亚洲性日韩精品一区二区| 在线播放91| 精品国产福利在线| 人人艹人人爽| 五月激情综合网| 天天躁日日躁狠狠躁中文字幕| 日韩高清中文字幕| 免费国产黄线在线观看| 18禁不卡免费网站| 成人亚洲视频| 四虎成人精品在永久免费| 国产精品视频观看裸模| 少妇露出福利视频| 欧美天堂久久| 欧美亚洲一区二区三区在线| 国产一区二区网站| 国产精品成人免费视频99| 久久久精品无码一二三区| 久久午夜夜伦鲁鲁片无码免费 | 国产一级毛片在线| 天天色综网| 欧美日韩国产系列在线观看| 精品乱码久久久久久久| 无码区日韩专区免费系列| 国产97公开成人免费视频| 香蕉eeww99国产精选播放| 日韩免费视频播播| 天堂av综合网| 亚洲综合九九| 尤物精品视频一区二区三区| 国产一级一级毛片永久| 一本大道香蕉中文日本不卡高清二区| 亚洲欧美自拍一区| 欧美日韩国产在线人成app| 熟妇丰满人妻| 久久久国产精品无码专区| 国产精品成人一区二区不卡| 熟妇丰满人妻| 欧美一级黄色影院| 久久久久九九精品影院| 91精品国产麻豆国产自产在线| 国产精品成|