999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向信貸不平衡數據的高斯混合欠采樣算法

2020-02-08 06:54:48旭,賈寧,朱
計算機工程與設計 2020年1期
關鍵詞:分類方法

韓 旭,賈 寧,朱 寧

(天津大學 管理與經濟學部,天津 300072)

0 引 言

數據不平衡現象的出現導致傳統的分類器難以在信貸領域獲得良好的性能。目前解決不平衡分類問題的策略可以分為4類:數據重采樣、代價敏感方法、算法級方法、集成策略[1-9]。在文獻中受到廣泛關注的是數據重采樣方法。它可以獨立地執行數據預處理和分類器來訓練任務。根據Galar等[10]對許多著名的方法進行了比較研究,數據預處理方法與分類器的組合的性能比其它方法更好,并且側重于數據角度有利于人們的理解和實現。在重采樣策略中,欠采樣已被證明是比過采樣更好的選擇[11]。然而欠采樣也存在將重要信息刪除的可能性。為了克服欠采樣的局限性,文獻[12]考慮了利用Kmeans聚類算法來優化欠采樣策略。但Kmeans算法有局限性,由于Kmeans算法是根據各個樣本距離聚類中心的距離來進行聚類,并依據此進行刪減數據,這樣會破壞掉兩類數據之間的空間結構,造成邊界樣本的損失,影響分類的效果。

基于此,本文提出一種基于高斯混合聚類的欠采樣方法(GMMUSA)。第一,本文利用了高斯混合模型作為聚類算法核心來提高算法精度。在保證多數類的空間結構不變的情況下,根據聚類集群的聚集程度適當地刪除冗余樣本,從而減少多數類的大小。第二,金融領域存在大量的不平衡數據,將關注點放置于信貸不平衡問題上的研究相對匱乏。本文將其應用在了真實業務的信貸數據集中,使研究更加符合實際情況。實驗結果表明,該算法有效改善了不平衡數據的分類問題,提升了傳統分類器的分類性能,有利于提升信貸風險領域的整體利益。

1 相關理論研究

1.1 不平衡分類問題

不平衡分類問題是指訓練樣本的數目在不同類別上分布的很不平衡時,傳統的分類算法大多傾向于把樣本數較少類別的樣本錯誤的分到樣本數較多的類別中。從而導致少數類樣本的分類正確率很低[13]。不平衡問題存在于許多應用中,例如故障診斷[14]、醫學診斷[15]、制造業生產[16]、金融欺詐檢測[17]等。

目前從已有的4類方法來看,數據重采樣方法是從數據層面著手,通過改變訓練集樣本的分布,降低不平衡程度[18]。主要技術有兩種:欠采樣(under-sampling)和過采樣(over-sampling)技術;代價敏感(cost-sensitive)算法主要考慮在分類中,針對不同類型的錯誤分配不同的成本,使得分類中的高成本誤差的數量和誤差分類的成本最小。這種方法尚未被學者廣泛使用的主要原因是成本矩陣的建立是非常困難的[3-5];集成策略(ensemble strategy)則是通過組合多個學習器來解決相同的機器學習問題。集成策略具有很好的學習效果和很強的泛化能力[7]。目前大致可以分為兩類:串行生成的序列化方法(如Boosting)和并行化方法(如Bagging)[8],但是選擇哪種組合方法以及如何選擇基本學習器是一個挑戰;另一種是算法級方法。此類方法通過創建新的分類器,或修改現有的分類以解決類失衡問題。這種方法很大程度上依賴于分類器的性質,并且該方法中的大部分工作都集中于解決特定的問題,此外開發新的算法或修改現有的算法是困難的[19,20]。

1.2 高斯混合模型

通過將基本的概率分布(例如高斯分布)進行線性組合,可以被形式化為概率模型,這被稱為混合分布(mixture distributions)。為了使采樣算法產生的樣本與真實數據分布更加一致,所提出的采樣算法是基于高斯混合模型概率分布的。GMM參數估計的常用方法是期望最大化EM算法(expectation maximization algorithm)[21]。

高斯混合模型是指多個高斯函數的線性組合。GMM可以看成是L個高斯分布在一定比例下的混合。每個高斯分量由平均μ和協方差矩陣δ確定

(1)

1.3 輪廓系數

為了提高聚類的效率,引入輪廓系數(silhouette coefficient)來確定聚類的簇數。輪廓系數是聚類的有效性度量。輪廓系數將數據集中的任一對象與本簇中其它對象的相似性以及該對象與其它簇中對象的相似性進行量化,且將量化后的兩種相似性以某種形式組合,獲得聚類的優劣評價標準。

輪廓系數定義為

Sil=(b(i)-a(i))/max(b(i),a(i))

(2)

Silhouettes=1時,表示對象i與其它簇中的對象相異性較大。

Silhouettes=0時,表示對象i分類不明顯。

Silhouettes=-1時,表示對象i被分配到一個錯誤的簇中。

其中,a(i)是對象i與所屬集群的任何其它對象之間的平均相異性。此外b(i)是從i到任何不屬于其它簇的任何點的最低平均距離。輪廓系數在(1,1)的范圍內,較高的值表明對象與其自身的簇匹配良好,但與相鄰的簇不匹配。如果大多數對象具有高值輪廓系數,則聚類配置是合適的。

2 基于高斯混合聚類的欠采樣算法

本文利用了一種基于高斯混合模型聚類的欠采樣方法解決了信貸數據集不平衡的問題,隨后進行了建模分析。關于GMMUSA算法具體流程如圖1所示。

圖1 GMMUSA算法流程

在圖1中給出了基于高斯混合模型的欠采樣算法的流程圖。具體過程如下。算法的第一步是將基于K-折疊交叉驗證方法的不平衡數據集劃分為訓練集和測試集。第二步是將訓練集劃分為一個多數類子集和一個少數類子集。其次,采用GMMUSA方法來減少多數類中的數據樣本數。然后將減少的多數類子集與原有的少數類子集相結合,得到均衡的訓練集。最后,利用新的訓練和測試集分別對分類器進行訓練和測試。

GMMUSA算法的詳細步驟如下:

步驟1 計算兩個類別之間的數據數目差異

若數據集D中兩個類別的數據分別是DMajor和Dminority,則針對多數類樣本進行欠采樣的樣本數量為Munder=DMajor-Dminority。

步驟2 對多數類進行欠采樣操作

首先利用輪廓系數來決定多數類數據集需要聚成的類別個數。

其次根據高斯混合聚類后的每個類別的樣本大小以及需要欠采樣數據的總量,按照比例確定每個子類的欠采樣數量。

然后針對每個多數類的子類,刪除靠近聚類中心的樣本,這是因為在保證不破壞子類的空間結構信息的基礎之上,有必要減少冗余樣本的數量,刪除中心區域的部分樣本是因為每個子類的中心區域相對于其它地方更密集。因此它應該具有更高的欠采樣概率,這樣就能保證在多數類數據被壓縮的同時保留代表性的邊界樣本。

步驟3 合并數據集,形成新的樣本集

通過圖2可以更好地解釋GMMUSA算法的性能。原始數據分布D如圖2(a)所示,其中三角形標志位少數類樣本,圓圈標志為多數類樣本。原始數據的分布相對分散,多數類數據遠多于少數類數據。在圖2(b)中,針對數據集利用GMM建模和分解多數類數據,將多數類數據分解兩個群體,分別進行欠采樣,從而使多數類的一些冗余數據被刪除,并且空間的相對結構沒有改變,緩解了兩類的不平衡關系。相對于傳統的利用Kmeans進行聚類,GMM能夠更好地考慮數據的樣本分布情況,更加合理,效果更佳。

圖2 采樣后的數據分布對比(例二維數據集)

3 實驗分析與驗證

3.1 數據集介紹

本文一共選用了3個數據集進行實驗。前兩個數據集是來自公開數據集UCI的小規模數據集,分別為澳大利亞(Australian)和德國(German)的信貸數據集。第3個數據集來自從某汽車金融公司得到的真實數據集(該公司是中國的消費金融服務提供商,其主要業務是為個人提供汽車貸款服務)。數據集基本信息見表1。

表1 數據信息

此外,為了更好探討數據的不平衡比例對算法的影響,本文通過減少原始數據集的部分樣本數來調整這兩個數據集的比例,并生成了幾個新的數據集來驗證算法在不同不平衡比例下的分類性能,不同不平衡比例下的數據集信息見表2。

表2 不同不平衡比例下的數據集

最后,為了探究所提出算法的魯棒性,本文以German數據集為例,根據噪聲數據比例將數據集劃分成幾個子例進行算法魯棒性分析,魯棒性分析數據信息見表3。

表3 魯棒性分析數據信息

3.2 模型性能評估度量

分類模型的性能常用正確率來衡量,但是對于類別不平衡的數據,用正確率度量會使多數類樣本占優勢。所以在處理不平衡數據時,僅僅使用正確率或者錯誤率度量將會導致性能評價產生偏差。為了更準確全面地評價非平衡學習性能,本文引入AUC標準來進行評價。二分類問題的混淆矩陣見表4。

表4 二分類問題的混淆矩陣

注:TP表示被正確識別的正類數量,FN表示被錯誤識別成負類的正類數量,FP表示被錯誤識別成正類的負類數量,TN表示被正確識別的負類數量

ROC曲線(receiver operating characteristic curve)是有效的性能評價指標。ROC曲線的縱軸為真正例率(true positive rate,TPR),橫軸為假正例率(false positive rate,FPR)。

結合表4,兩者的定義如下

(3)

(4)

如果對多個分類器進行評估,多條ROC曲線有時會出現部分區域相互交叉的現象,不利于優劣的判斷,這時可以使用AUC(area under ROC curve)來評價。AUC是ROC曲線下的面積。AUC值越大,意味著分類器的預測性能越好。為此,本文采用AUC值來綜合評價分類器的整體性能。

3.3 GMMUSA算法的性能驗證

3.3.1 不同的欠采樣算法的性能對比分析

為了驗證GMMUSA算法的有效性,除了與不進行重采樣處理的原始數據進行對比之外,本文還將其與目前常用的欠采樣算法進行對比分析,分別為:NearMiss[22]、OneSided-Selection(OSS)[23]、TomekLinks[24]。此外由于本文采用了高斯混合模型進行聚類從而確定刪減數據對象,所以在聚類算法中也選出了兩種常用的聚類算法進行欠采樣來對比結果,分別為AffinityPropagation(AP)[25]、Kmeans。

本實驗采用在信貸風險領域常用的分類模型:邏輯斯特(Logistic)回歸模型和C4.5決策樹模型(DT)進行預測。所有算法按照80/20比例劃分的測試集,并使用5折交叉驗證,LR分類器和DT分類器結果見表5和表6。

表5 LR分類器結果信息

通過實驗對比發現,GMMSUA算法在11個數據集中都有良好的表現,并且隨著數據的不平衡比例的增大,優勢逐漸明顯,特別是不平衡比例最大的Enterprise data數據集。這是由于GMMUSA算法是基于數據的概率密度函數進行采樣,所以其可以準確估計真實的概率密度函數,使聚類效果更佳,刪除的冗余樣本更精確。此外,GMMUSA算法表現比較穩定,能適應數據集的變化。

3.3.2 算法對噪聲數據的魯棒性分析

在現實世界中數據集不可避免地會具有很多噪聲數據,噪聲數據是指樣本中含有錯誤的值。為了系統地驗證GMMUSA算法對噪聲數據的魯棒性,實驗中人為地加入一些噪聲數據,并調整噪聲數據的級別程度來測試GMMUSA算法對噪聲數據的魯棒性。該實驗對原始數據集注入不同程度的噪音數據,觀察算法的魯棒性,LR分類器和DT分類器詳細結果見表7和表8。

通過表7和表8可以發現GMMUSA算法相對于其它算法具有更強的抗噪性,特別是在噪音級別較高的情況下,這是因為GMMUSA考慮了數據的真實分布,可以保證兩類數據的空間結構不變化前提下根據數據的聚集程度刪除數據,從而減少了噪聲數據對采樣和分類學習的影響。

表6 DT分類器結果分析

表7 LR分類器結果信息

表8 DT分類器結果信息

4 結束語

針對不平衡信貸數據集的分類問題,本文提出了一種基于高斯混合模型聚類的欠采樣算法。研究目的是驗證在不改變類別空間結構的基礎上刪除多數類的冗余信息的適應性,并驗證其在信貸數據集上的可行性。

在實驗中,本文將所提出的算法與其它傳統欠采樣方法進行了比較,并研究了它們在某汽車金融機構已放款的真實業務數據以及兩個UCI的公開信貸數據集中的表現,并應用兩種監督學習方法(C4.5決策樹和Logistic回歸)進行交叉驗證建模和測試性能。實驗結果表明,GMMUSA相較于其它方法對大多數信用數據集表現性能更好,對噪聲數據具有較強的魯棒性,算法描述更加全面且精度高于以往相關研究,是對以往相關研究的補充完善。

未來可以考慮兩個問題。第一,由于信貸數據還存在維數過多的現象,可以考慮研究信貸數據的特征選擇問題。第二,可以研究多分類的不平衡分類問題。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 一区二区三区在线不卡免费| 久久黄色毛片| 亚洲大尺码专区影院| 日韩小视频在线观看| 欧美一道本| 国产精品分类视频分类一区| 午夜毛片免费看| 99国产在线视频| 久久超级碰| 黑色丝袜高跟国产在线91| 91免费国产高清观看| 91国内外精品自在线播放| 成人福利视频网| 国产精品片在线观看手机版 | 40岁成熟女人牲交片免费| 国产办公室秘书无码精品| Aⅴ无码专区在线观看| 华人在线亚洲欧美精品| 在线观看视频一区二区| 丁香婷婷激情综合激情| 免费人成网站在线观看欧美| 福利一区三区| 精品国产香蕉在线播出| 国产精品久久自在自2021| 91精品啪在线观看国产91九色| 波多野结衣中文字幕一区| 久久一日本道色综合久久| 美女免费黄网站| 国产精品手机视频| 69免费在线视频| 亚洲乱码视频| 成年看免费观看视频拍拍| 91欧洲国产日韩在线人成| 欧美成人午夜视频免看| 国产精品永久在线| swag国产精品| AV色爱天堂网| 亚洲成人高清在线观看| 久久久久久久久久国产精品| 亚洲国产中文在线二区三区免| 国产色婷婷| 毛片卡一卡二| 无码AV日韩一二三区| 无码精品一区二区久久久| 99精品高清在线播放| 久久精品aⅴ无码中文字幕 | 99国产在线视频| h视频在线观看网站| 国产网站免费看| 亚洲中字无码AV电影在线观看| 亚洲一区二区无码视频| 国产欧美日韩精品综合在线| 国产亚洲视频免费播放| 日韩在线成年视频人网站观看| 丁香五月婷婷激情基地| 亚洲男人天堂久久| 这里只有精品在线| 国产精品制服| 99在线观看视频免费| 一本久道久综合久久鬼色| 日韩区欧美区| 区国产精品搜索视频| 亚洲成人精品久久| 色偷偷一区二区三区| 国产精品欧美亚洲韩国日本不卡| 激情亚洲天堂| 久久国产亚洲欧美日韩精品| 国产无码性爱一区二区三区| 精品国产欧美精品v| 亚洲第一页在线观看| 手机在线看片不卡中文字幕| 狠狠色成人综合首页| 欧美日韩国产精品va| 亚洲av日韩av制服丝袜| 欧美精品成人一区二区在线观看| 国产亚洲精品在天天在线麻豆 | 呦女亚洲一区精品| 亚洲第一网站男人都懂| 国产中文一区二区苍井空| 中文字幕资源站| 日韩乱码免费一区二区三区| 欧美日韩福利|