999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進的MDSMOTE與FC睸VM在不平衡數據集分類中的應用

2018-11-24 07:32:26溫雪巖趙麗影徐克生陸光
哈爾濱理工大學學報 2018年4期

溫雪巖 趙麗影 徐克生 陸光

摘 要:針對于MDSMOTE算法在生成部分新樣本時沒有將錯分樣本納入其中的問題,將對錯分樣本修正的方法加入到現有的MDSMOTE算法中,提高樣本的質量;對于傳統FSVM在對不平衡數據集分類時,不能解決超平面偏向少數類的問題,將正負懲罰系數、模糊因子加入到FSVM中,提高不平衡數據的識別率。將改進的算法用于京東網購評語數據集分類中,該算法的分類性能較其他算法平均提升了9.13%,表明了該方法的可行性和有效性,具有實際應用價值。

關鍵詞:不均衡數據集;支持向量機;SMOTE算法;文本分類

DOI:10.15938/j.jhust.2018.04.016

中圖分類號: TP311

文獻標志碼: A

文章編號: 1007-2683(2018)04-0087-08

Abstract:On the network shopping evaluation data sets appear the phenomenon of extreme imbalance, in order to improve the classification accuracy of the unbalanced data set, It should be improved from both the sample and the algorithm For one of the problem in MDSMOTE algorithm that when generating part of the new samples, wrong points sample can′t be contained, the correct classification of the wrongly classified sample is added to the existing MDSMOTE algorithm to improve the quality of the samples. For that we can′t solve the problem of the hyper plane bias of the minority class in traditional FSVM on imbalanced data sets classification, positive and negative penalty coefficient and fuzzy factor are added the FSVM to improve the recognition rate of unbalanced data. The improved algorithm is used in the classification of JingDong online shopping commentary data set. The fmeasure value of this algorithm is increased by 9.13% on average, which indicates the feasibility and effectiveness of this method.

Keywords:imbalanced data sets; support vector machines; SMOTE algorithm; text categorization

0 引 言

網絡平臺上的店鋪都會將顧客的評語羅列出來,供給潛在的購買客戶進行參考[1-2]。但對于產品的評語,尤其是那些主流的、受大家親睞的產品,往往會呈現出非常極端的現象,即好評數遠超過其他類型的評語。而生產商,銷售商和潛在的購買者更關注的是那些負面的評語。通過分析這些負面評語,生產商需要找出商品的潛在的問題或缺陷去改進,銷售商可以根據用戶詬病最頻繁的地方進行修繕,而潛在的購買者可以通過分析負面的評語進而做出自己的選擇。大量“濫竽充數”“弄虛作假”的累積評論,致使整個評語數據集呈現出極度不均衡的現象。

在機器學習過程中,一般將數據集中關于類別分布的不均衡問題稱為數據集的不均衡問題(class imbalance problem of data set, CIPD),體現在樣本的數量差異較大。由于目前標準的機器學習算法均是基于數據平衡的理論,導致這些機器學習算法對于不平衡數據的學習存在不同程度的缺陷[3-5]。對CIPD學習效果進行改善,提高CIPD的分類準確率是當前機器學習算法領域的熱點之一[6-8]。

在目前主流的機器學習算法中,SVM作為一種分類效果和穩定性較好的機器學習算法得到了廣泛應用。盡管如此,針對于不平衡數據,支持向量機也只能得到次優的分類結果,表現為支持向量機學習得到的超平面偏向少類樣本,導致對少類樣本的分類結果較差。針對以上問題,為了獲得更好的預測結果,當前的SVM算法通常從以下兩個方面進行改進:

1)樣本處理方面。數據重采樣是指對訓練樣本進行重采樣,讓多數類樣本的數量和少數類的達到一種平衡。現有的數據重采樣方法主要有兩種,分別是欠采樣和過采樣。傳統的隨機欠采樣(random undersampling,RAMU)技術可能會將一些重要信息進行刪除,傳統的隨機過采樣(random oversampling,RAMO)技術則經常會導致過擬合[9]。因此,各種改進的數據重采樣方法相繼出現。RAMU中,GSVMRU[10]首先通過對原多類樣本不斷使用欠采樣,接著與原少類樣本組成多個子訓練模型,然后將多個子訓練模型中的多類支持向量收集起來,作為多類樣本,最后將該多類樣本與原少類樣本進行訓練得到最終的預測模型;RAMO中,ADASYN[11]通過對少類樣本的密度分布情況進行分析,將樣本點加入到密度分布較少的樣本附近;趙清華等人提出的MDSMOTE算法[12],摒棄了傳統SMOTE算法將正類樣本點分組的思想,不僅有效解決了過擬合問題,而且大大減輕了算法復雜度。

2)算法改進方面。改進算法是指針對樣本數量存在的差異,優化訓練方式,加強算法本身對CIPD的學習效果。比如Vapnik提出的Chunking算法,通過對核函數矩陣的調整,把大型的二次規劃問題分解為小規模的問題[13];而DEC算法[14]則通過在訓練過程中對少類樣本和多類樣本使用不同的懲罰因子C+和C-,進而解決了超平面偏向少類樣本的問題。

本文在融合現有算法優點的基礎上,加入了一些相關要素和理論模型,形成了面向不平衡數據集的分類算法。改進的分類算法有以下2個創新點:

1)針對傳統數據重采樣方法進行了改良。在用MDSMOTE算法進行過采樣的基礎上,也將錯分樣本進行人工合成,形成新樣本,提高這些關鍵樣本在分類過程中的重要程度。

2)提升了支持向量機的分類性能。把FSVM算法與DEC算法結合(FCSVM)起來,將正負懲罰系數、模糊因子加入到FSVM中,并在懲罰系數C+和C-的選擇上采用了更客觀的熵值法進行了選取,提高了分類的精確度,進一步改善SVM算法本身在不平衡數據的學習上的缺陷。

1 改進的數據重采樣方法

2 不平衡數據集分類算法的改進

2.1 改進的模糊支持向量機

支持向量機方法( support vector machines,

SVM) 作為機器學習的一個熱點領域,具有良好的泛化能力以及較好的分類精確性,根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折衷,以期獲得最好的推廣能力。傳統的SVM 是針對兩類的分類問題[17-18]。圖2表示的是在二維空間中兩類線性可分的情況。圖中的三角形和實心圓分別代表正反兩類訓練樣本。其中分類線H將兩類樣本正確的分開。H1□H2分別代表過兩類樣本中離H最近的點,且平行于H的直線。定義H1,H2之間的距離為分類間隔,用Marin表示。

SVM分為線性可分、非線性可分以及需要核函數映射三種情況。設訓練樣本T=(xi,yi)(i=1,2,...l),xi為SVM的輸入特征且xi∈Rn,yi∈{+1,-1}為類別標簽,l為訓練樣本個數。基于二分類目標核函數SVM實現非線性劃分的分類算法,其模型的原始問題可表示為:

3 實驗與分析

3.1 數據來源

本文數據集通過手工收取京東商城的數據集的六類不同類型的產品,分別是蘋果手機(iphone7),愛氏晨曦牛奶(Arla),羅萊床上用品(SAIN),喬丹運動鞋(Jordan),蘇泊爾(supor),SKII化妝品(SKII)。從2017125日開始一直到201825日的所有商品的評價數量,通過人工對數據進行分析刪除一些噪聲樣本并進行分類,將分類后的數據的80%作為樣本的訓練集,20%作為樣本的測試集。利用當前流行的word2vec對樣本進行詞向量的訓練,生成向量空間,向量空間的維數為150維。該數據的具體分布如表1所示,其中有樣本的個數,樣本總數,正負樣本的比例。實驗中所有的數據集都采用了5折交叉驗證,以便于驗證分類器的性能。

為了更好的驗證本文提出的改進分類算法(MDSMOTE+FCSVM,MD+FC)的性能,在標準SVM的基礎上加入DEC、MDSMOTE、FSVM、FCSVM作為實驗對比,并且這幾種算法也使用5折交叉驗證,所有算法均使用5次結果的平均值作為最終結果。

3.2 分析指標

在CIPD中,把分類的準確率當做分類效果的評價標準是不合理的。這主要是因為正類樣本所占的比例較少,倘若以整體的準確率作為樣本分類效果的評判標準,就會使算法忽略少數類而提高對多數類的分類能力,因此在不平衡數據集中,人們常常選用Fmeasure作為評價標準。

實驗指標采用查準率(precision,PRE)與敏感度(sensitivity,SE)進行衡量。PRE與SE的表達式分別為:

PRE=TPTP+FP(19)

SE=TPTP+FN(20)

其中數據集中的正類用P表示,負類用N表示。FP(False Positives)表示將負類樣本錯分成正類的數目,FN(False Negative)是指將正類樣本錯分成負類的數目,TP(True Positives)表示正類樣本被正確分類的個數。

查準率PRE,反映了被分類器判定的正類中真正的正類樣本的比重。分類的靈敏度SE,反映了被正確判定的正例的比重。

F度量(Fmeasure):

Fmeasure=2·Sensitivity·PrecisionSensitivity+Precision=

21/Sensitivity+1/Precision(21)

Fmeasure表示的是分類精度和靈敏度的調和平均值,用來評判分類器在正負兩類之間的辨別能力,Fmeasure的值越大說明分類精確度和靈敏度的值越接近1,分類器的性能越好。

3.3 實驗結果分析

表2顯示了各個算法對6個數據集進行預測的實驗結果。實驗結果表明,本文提出的MD+FC算法在5個數據集的的預測結果中,均占據最高Fmeasure,剩下一個接近最好算法的Fmeasure,該算法的Fmeasure值也基本上比其他算法平均提高了9.13%。同時,除了MD+FC算法,FCSVM算法和其他算法比較,有5組數據具有最高Fmeasure,剩下的一組也與最好結果的Fmeasure接近,這說明本文對原有模糊支持向量機的改進較為理想。對比MD+FC算法和FCSVM算法,結果顯示,MD+FC算法在5個數據集上的Fmeasure值均高于FCSVM算法,即使是低的那一個數據集,二者在數值上也是幾乎接近,因此可以說明將MDSMOTE過采樣、錯分樣本人工合成新樣本的方法、FCSVM三者相結合的算法,可以更好的提高預測模型的準確率。綜上所述,本文在樣本重采樣和算法兩方面的改進是有一定成效的。

圖3將FCSVM算法對各個產品的的分類效果和其他幾種算法進行對比,通過折線圖更直觀的表現出來,通過觀察可以發現,FCSVM算法的Fmeasure折線在圖像的最上邊,說明了改進后的模糊支持向量機(FCSVM)在分類的精確度方面效果更好。

圖4將MDSVM算法與FCSVM算法對各產品的分類效果進行對比,通過觀察發現,MDSVM的折線幾乎在FCSVM上方,即使是稍低的那一點,二者也是幾乎重合,由此可以得出,利用錯分樣本修正MDSMOTE算法形成的新樣本后,樣本的重要程度得到明顯提升。

4 結 語

本文針對傳統支持向量機在不平衡數據集分類時所存在的缺陷,在樣本處理和算法兩方面進行了改進。在樣本重采樣方面,利用錯分樣本修正,對MDSMOTE算法合成的新樣本進行及時更新,得到了更具有價值的樣本集。在算法的改進上,將DEC算法和FSVM相結合,把正負懲罰系數加入到傳統的模糊支持向量機中,同時引入正負模糊因子與之對應,構成了新的算法模型,解決了超平面偏向少類樣本的問題,彌補了傳統模糊支持向量機在不平衡數據集分類中的不足,提高了魯棒性。在正負懲罰系數的選擇上,用更客觀的熵值法來代替傳統方法,避開主觀因素的干擾,更具說服力。實驗結果顯示,在6組數據集上與其他幾種算法的比較,在絕大多數情況下MD+FCSVM算法具有最高的Fmeasure,證明了MD+FCSVM算法分類性能的優越。把算法應用到網購評語分類中,讓人們從少數類(負面評語)中獲取到更精準,更詳細,更具有價值的信息。根據這些精確分類的負面評語,生產商們可以總結出自身產品的不足,包括性能上,外觀上和價格上的,然后進行改進;售前售后的服務人員會根據顧客的負面反映,對營銷策略和方案做出相應的調整,以期望在特定的“雙十一”和“雙十二”時期獲得更可觀的銷量;而潛在的購買者通過分析負面評語,充分了解到其他購買者對產品詬病的地方,做出是否購買的決定,從而做到了理智購物,杜絕上當受騙。在以后的工作中,會引入粒子群和遺傳算法等相關理論,對參數進行優化,進一步提高算法分類的速度和效率。

參 考 文 獻:

[1] 楊燕.大學生網購現狀的調查分析[J]. 江蘇商論, 2017(12):189-190.

[2] 黃湘玲.淺析互聯網沖擊下的實體商鋪生存之路[J]. 江蘇商論, 2017(1):44-45.

[3] 張文東, 呂扇扇, 張興森.基于改進BP神經網絡的非均衡數據分類算法[J]. 計算機系統應用, 2017, 26(6):153-156.

[4] WANG Q, LUO Z, HUANG J, et al. A Novel Ensemble Method for Imbalanced Data Learning: Bagging of ExtrapolationSMOTE SVM[J].Computational Intelligence and Neuroscience,2017.

[5] 姚宇, 董本志, 陳廣勝.一種改進的樸素貝葉斯不平衡數據集分類算法[J]. 黑龍江大學自然科學學報, 2015, 32(5):681-686.

[6] HELAL M A, HAYDAR M S, MOSTAFA S A M. Algorithms Efficiency Measurement on Imbalanced Data Using Geometric Mean and Cross Validation[C]// International Workshop on Computational Intelligence. IEEE, 2017.

[7] MARTINA F, BECCUTI M, BALBO G, et al. Peculiar Genes Selection: A New Features Selection Method to Improve Classification Performances in Imbalanced Data Sets.[J]. Plos One, 2017, 12(8):528-533.

[8] 沈樂陽.生物信息學中的不平衡學習新方法研究[D]. 南京:南京理工大學, 2017.

[9] 劉東啟,陳志堅.面向不平衡數據分類的復合SVM 算法研究[J].計算機應用研究,2017(4):1023-1027.

[10]TANG Y, ZHANG Y Q, CHAWLA N V, et al. SVMs Modeling for Highly Imbalanced Classification[J]. IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics A Publication of the IEEE Systems Man & Cybernetics Society, 2009, 39(1):281.

[11]TANG B, HE H. KernelADASYN: Kernel Based Adaptive Synthetic Data Generation for Imbalanced Learning[C]// Evolutionary Computation. IEEE, 2015:664-671.

[12]趙清華,張藝豪.改進SMOTE 的非平衡數據集分類算法研究[J].計算機工程與應用,2017(8).

[13]KUDOH T, MATSUMOTO Y. Chunking with Support Vector Machines[J]. Journal of Natural Language Processing, 2002, 9(107):3-21.

[14]VEROPOULOS K, CAMPBELL C, CRISTIANINI N. Controlling the Sensitivity of Support Vector Machines[C]// International Joint Conference on Ai, 1999:55-60.

[15]衣柏衡. 基于灰色關聯度與改進SMOTE的支持向量機建模與應用[D]. 南京:南京航空航天大學, 2016.

[16]衣柏衡, 朱建軍, 李杰. 基于改進SMOTE的小額貸款公司客戶信用風險非均衡SVM分類[J]. 中國管理科學, 2016, 24(3):24-30.

[17]關玉萍, 宋立新. 基于支持向量機決策樹的駕駛員眼睛狀態檢測[J]. 哈爾濱理工大學學報, 2010, 15(6):5-8.

[18]李巖, 杜永斌, 宋海豐,等. ECT系統輪換對稱SVM圖像重建改進算法[J]. 哈爾濱理工大學學報, 2015, 20(3):40-44.

[19]張桂香, 費嵐, 杜喆,等. 非均衡數據的去噪模糊支持向量機新方法[J]. 計算機工程與應用, 2008, 44(16):142-144.

[20]HANG J, ZHANG J, CHENG M. Application of Multiclass Fuzzy Support Vector Machine Classifier for Fault Diagnosis of Wind Turbine[M]. Elsevier NorthHolland, Inc, 2016.

[21]段薇,路向陽. 基于代價敏感支持向量機的銀行信用風險評估模型[J]. 江西師范科技大學學報, 2015(12): 77-78.

[22]張玉, 莫寒, 張烈平. 基于模糊支持向量機的光伏發電量預測[J]. 熱力發電, 2017, 46(1):116-120.

(編輯:溫澤宇)

主站蜘蛛池模板: 91偷拍一区| 色哟哟国产精品| 久久特级毛片| 国产噜噜噜视频在线观看| 色婷婷啪啪| 国产亚洲现在一区二区中文| 日韩午夜伦| 亚洲中文字幕久久精品无码一区| a级毛片在线免费观看| 亚洲国产成人精品青青草原| 国产污视频在线观看| 久久久噜噜噜| 一区二区在线视频免费观看| 国产91精选在线观看| 国产97视频在线| 精品无码国产自产野外拍在线| 又黄又湿又爽的视频| 精品人妻无码区在线视频| 欧美国产成人在线| 亚洲精品国产综合99| 2020最新国产精品视频| 日本免费一级视频| 不卡视频国产| 国产精品午夜电影| 青青草国产免费国产| 亚洲性日韩精品一区二区| 亚洲精品视频在线观看视频| 欧美一级夜夜爽www| 天天爽免费视频| 欧美精品二区| 欧美性色综合网| 精品国产黑色丝袜高跟鞋 | 中文字幕亚洲无线码一区女同| 首页亚洲国产丝袜长腿综合| 九一九色国产| 首页亚洲国产丝袜长腿综合| 久久狠狠色噜噜狠狠狠狠97视色 | 大乳丰满人妻中文字幕日本| 欧美日本在线| 71pao成人国产永久免费视频| 四虎精品免费久久| 夜夜操狠狠操| 亚洲欧美在线看片AI| 久久精品aⅴ无码中文字幕| 国产欧美日韩综合在线第一| 情侣午夜国产在线一区无码| 99视频有精品视频免费观看| 亚洲一区二区三区国产精品 | 在线观看国产黄色| 在线观看免费人成视频色快速| 国产精品19p| 最新国产成人剧情在线播放| 高清国产va日韩亚洲免费午夜电影| 成人在线不卡视频| 亚洲天堂免费在线视频| 久久夜色精品| 国产黄色视频综合| 国产一级毛片网站| 无码网站免费观看| 色综合中文| 国内精自视频品线一二区| 噜噜噜综合亚洲| 久久性妇女精品免费| 日日噜噜夜夜狠狠视频| 91高清在线视频| 国产精品久久久久鬼色| 国产美女无遮挡免费视频网站| 国产视频a| 成人av手机在线观看| 久久不卡国产精品无码| 中文字幕无码电影| 国产精品99r8在线观看| 91麻豆精品视频| 日本黄色a视频| 亚洲看片网| 国产精品蜜臀| 91亚洲影院| 国产成人精品高清不卡在线| 热思思久久免费视频| 波多野结衣一区二区三区AV| 久久综合九色综合97婷婷| 人人艹人人爽|