999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合學習策略的企業信用評級研究

2016-04-07 09:27:52夏婷婷
卷宗 2016年2期

夏婷婷

摘 要:由于在實際企業信用評級中,通常存在著大量的未標記樣本,同時在少量的有標記樣本中,企業信用評級的數據往往呈現非均衡分布的特點,因此本文將半監督學習和非均衡數據分類方法結合起來,提出一種基于混合學習策略的企業信用評級方法,同時通過企業評級數據集對提出的方法進行實驗驗證。

關鍵詞:半監督;非均衡數據分類;混合學習;企業信用評級

1 引言

在現代經濟生活中,信用作為市場經濟的基礎,對企業的生存和發展有著重要的影響。然而,企業信用缺失已成為制約我國經濟可持續發展的突出問題之一,據相關資料統計,我國企業每年由信用缺失導致的經濟損失高達6000億元[1]。因此如何建立一個適用的企業信用評級模型,強化企業信用風險管理,已成為學術界和產業界迫切需要解決的問題。

目前在企業的信用評級領域,常見的企業信用評級方法主要有基于統計分析的方法和基于機器學習的方法,其中根據建立判別函數形式和樣本的假定不同,基于統計分析的方法主要有一元判別模型、多元判別模型、Logistic回歸模型、Probit 模型等[2]。由于基于統計分析的方法對樣本數據都有嚴格的假設條件,如多元正態分布、等協方差等,在現實中這些假設一般都不成立,極大地限制了基于統計分析方法的應用。因此,基于機器學習的方法越來越多地被應用到企業信用評級中[3]。基于機器學習的方法需要構建一個具有良好性能的財務風險預測模型,這就需要大量的有標記樣本,然而在企業信用評級實際應用中,通常存在著大量的未標記樣本,有標記樣本相對較少,與此同時,在少量的有標記樣本中,企業信用評級的數據集往往呈現非均衡分布的特點,因此,本研究提出了基于混合學習策略的方法,用來解決企業信用評級中存在的問題。

基于混合學習策略的方法是一種把半監督學習和非均衡數據分類方法結合起來的學習方法,它利用少量的有標記樣本和大量的未標記樣本,將非均衡數據分類方法引入到半監督學習方法中,從而形成一種混合學習策略的企業信用評級方法。通過本研究,豐富和完善了企業信用評級研究的理論研究體系,為及時準確地預測企業的信用風險提供了行之有效的方法,加強了企業的信用風險管理,保護了企業利益相關者的利益,具有重要的意義。

2 基于混合學習策略的企業信用評級方法

2.1 自訓練方法

自訓練算法是最早提出的半監督學習方法,也是半監督學習中較為常見的方法之一。它通過已有的少量有標記樣本訓練出分類器,然后利用該分類器預測大量未標記樣本的類別,選出置信度較高的樣本加入到訓練集中重新訓練,重復執行以上過程,直到滿足條件為止[4]。算法的流程如圖1所示。

2.2 非均衡數據分類方法

2.2.1基于取樣的非均衡數據分類方法

基于取樣的方法主要是將原本非均衡的樣本類別變得均衡,從而提高分類器對少數類樣本的分類準確率,常用的基于取樣的方法有欠取樣方法(Under Sampling)和過取樣方法(Over Sampling)[5]。欠取樣方法通過隨機去掉多數類樣本來降低數據集的非均衡程度,但這種方法會丟失多數類的一些重要信息;而過取樣方法與欠取樣方法相反,它通過隨機復制少數類樣本的方式來使數據集達到均衡,這種方法雖然保留了已有樣本的所有分類信息,但容易造成分類器的過度擬合。為了克服上述隨機欠取樣和過取樣方法存在的缺點,研究者提出了SMOTE取樣方法,它根據一定的規則,在一些相距較近的少數類樣本間加入“合成”樣本,隨機生成新的少數類樣本,并將這些新生成的少數類樣本加入到原來的數據集中,從而對少數類樣本進行擴充,產生新的訓練數據集。通過SMOTE方法增加的少數類樣本并不存在原來的樣本中,因此SMOTE可以避免過取樣的缺陷。

2.2.2基于集成學習的非均衡數據分類方法

基于集成學習的方法通過訓練多個分類器并將其結果按照一定的方式進行有效的組合,以此來獲得比單個分類器更好的性能。當前,構建集成學習的方法主要有Bagging和Boosting方法[6]。Bagging方法首先對原始的訓練樣本集進行有放回隨機抽樣,得到若干個樣本數量與初始樣本數量相當的訓練樣本子集,其次對每個樣本子集進行訓練,得到若干個基分類器,最后采用少數服從多數的投票方式將這若干個基分類器的結果進行組合。Boosting 方法首先賦予原始訓練樣本集中的每一個樣本相同的初始權重,由這個訓練集訓練第一個基分類器,計算分類錯誤率,提高那些被錯誤分類的訓練樣本的權重,降低那些被正確分類的樣本權重,從而得到一個權重被調整后的訓練樣本集,其次由這個權重被調整后的訓練樣本集訓練第二個基分類器,重復這一過程,直到生成若干個基分類器,最后采用加權合并的方式進行多個分類器的集成。

2.3 基于混合學習策略的方法

由于常用的半監督學習方法主要有自訓練和協同訓練方法,常用的非均衡數據分類方法主要有基于取樣的方法和基于集成學習的方法,故本文從以下兩個角度構建了基于混合學習策略的企業信用評級方法,分別為:基于取樣和自訓練的企業信用評級方法和基于集成學習和自訓練的企業信用評級方法。

基于取樣和自訓練的企業信用評級方法,首先采用取樣方法對有標記樣本進行處理使得樣本類別分布均衡,其次訓練類別均衡的有標記樣本得到一個分類器,最后對未標記樣本進行訓練來提高這個分類器的分類性能。算法流程如圖2所示。

基于集成學習和自訓練的企業信用評級方法,首先采用集成學習方法生成基礎分類器,其次利用基礎分類器對未標記樣本進行標記,最后將置信度高的未標記樣本添加到有標記樣本中,重復這一過程來提高分類器的分類性能。算法流程如圖3所示:

3 實驗設計

為了驗證基于混合學習策略的方法在企業信用評級領域中的有效性,本文選取了中國工商銀行2006年至2007年間共239家企業進行試驗,該數據集包含企業的財務數據及銀行評定的信用風險狀況,包括148家無風險企業和91家有風險企業。本研究采用工商銀行征信部門專家提出的18個財務指標作為企業信用評級指標,具體指標見表1。

實驗的評價指標使用目前常用的評價指標:平均分類精度(Average Accuracy),指的是被分類器正確預測的樣本數據占全部樣本數據的百分比。當實驗數據集類別分布均衡時,平均分類精度作為評價指標能夠很好的評價分類器的性能,然而由于企業信用評級問題的數據分布是非均衡的,采用平均分類精度指標已經不能恰當的反映分類器的性能,因此本文還采用非均衡數據分類領域常用的AUC作為評價指標。

實驗選用了目前常用的機器學習分類器Decision Tree(DT)作為基礎分類器,半監督方法選取Self-training方法,非均衡取樣方法選取Under Sampling、Over Sampling和SMOTE方法。對于自訓練與非均衡數據分類方法相結合的方法,采用本文提出的Self-US、Self-OS、Self-SMOTE、Self-Bagging、Self-Boosting方法。本文使用5次10倍交叉驗證法來提高實驗結果的可信性,因此,最終的實驗結果取5次10倍交叉驗證的平均值。

4 實驗結果與分析

根據以上實驗設計,最終實驗結果如表2所示。

從表2中我們可以看出,當標記比例為0.4時,Self-Boosting取得了最高的平均分類精度:87.37%,同時取得了最高的AUC:0.9285。當標記比例為0.8時,Self-Boosting取得了最高的平均分類精度和最高的AUC,分別為88.35%和0.9296。實驗結果表明,在平均分類精度指標和AUC指標上,本研究提出的基于混合學習策略的企業信用評級方法取得了很好的實驗結果,證明了本研究提出的基于混合學習的方法在企業信用評級中的有效性。

為了分析不同的半監督學習方法在企業信用評級中應用的效果,我們通過公式(3.1)計算自訓練方法相對于基礎分類器DT的AUC提高的百分比,得到圖4。

從圖4中可以看出,在不同的標記比例下,自訓練方法在AUC上都有了顯著的提高,這表明與基礎分類器方法相比,本文提出的基于混合學習策略的企業信用評級方法,能夠充分解決了企業信用評級數據中存在的未標記樣本學習和數據分布非均衡問題,因此取得了較好的實驗結果,驗證了本文方法的有效性。

5 總結

為了解決企業信用評級實際應用中存在的未標記樣本學習和數據分布非均衡問題,本文提出了基于混合學習策略的企業信用評級方法,并在企業信用評級數據集上進行了實驗驗證,實驗結果表明,與單一學習方法相比,基于混合學習策略的企業信用評級方法能夠有效解決企業信用評級中存在的問題。然而本文主要關注企業信用評級領域,在未來的研究中,本文提出的方法也可以應用于其它領域,對方法的可靠性進行驗證。

參考文獻

[1] 何平, 金夢. 信用評級在中國債券市場的影響力[J]. 金融研究, 2010, (04): 15-28.

[2] 姚瀟, 余樂安. 模糊近似支持向量機模型及其在信用風險評估中的應用[J]. 系統工程理論與實踐, 2012, (03): 549-554.

[3] 蔣盛益, 汪珊, 蔡余沖. 基于機器學習的上市公司財務預警模型的構建[J]. 統計與決策, 2010, (09): 166-167.

[4] 丁濤. 半監督自訓練分類模型的研究與實現[D]. 大連理工大學, 2009.

[5] 高嘉偉, 梁吉業. 非平衡數據集分類問題研究進展[J]. 計算機科學, 2008, (04): 10-13.

[6] 韓敏, 朱新榮. 不平衡數據分類的混合算法[J]. 控制理論與應用, 2011, (10): 1485-1489.

主站蜘蛛池模板: 日韩a在线观看免费观看| 一级成人a毛片免费播放| 国产9191精品免费观看| 2024av在线无码中文最新| 日韩AV无码一区| 51国产偷自视频区视频手机观看| 狂欢视频在线观看不卡| 国产一在线观看| 亚洲免费福利视频| av在线5g无码天天| 97免费在线观看视频| 国产无码性爱一区二区三区| 国产精品理论片| 无码专区第一页| jizz在线观看| 亚洲av无码人妻| 久久久91人妻无码精品蜜桃HD| 日韩在线中文| 日韩欧美国产精品| 草草影院国产第一页| 精品久久久无码专区中文字幕| 午夜无码一区二区三区在线app| 久久国产黑丝袜视频| 2021国产在线视频| 久草国产在线观看| 国产精品一区在线麻豆| 久久99国产综合精品女同| 一级爆乳无码av| 国产91麻豆免费观看| 欧美成人精品一区二区| 蜜臀AVWWW国产天堂| 久热精品免费| 亚洲欧美另类日本| 亚洲香蕉久久| 无码日韩视频| 亚洲一区二区三区国产精华液| 精品伊人久久久大香线蕉欧美| 欧美在线中文字幕| 国产成人精品一区二区三区| a级毛片免费播放| 亚洲精品第一页不卡| 国产精品太粉嫩高中在线观看| 狠狠亚洲婷婷综合色香| 久久久久青草线综合超碰| 毛片基地视频| 国模视频一区二区| 中国毛片网| 久久99国产综合精品女同| 欧美日韩中文国产| 国产成人夜色91| 国产精品福利导航| 国产成人AV综合久久| 在线国产91| 亚洲一区精品视频在线| 国产毛片网站| 国产欧美日韩精品综合在线| 91精品在线视频观看| a毛片免费看| 亚洲av无码久久无遮挡| 国产swag在线观看| 欧美视频免费一区二区三区| 无遮挡一级毛片呦女视频| 精品国产免费人成在线观看| 91毛片网| 亚洲高清中文字幕| 色视频国产| 永久免费AⅤ无码网站在线观看| 欧美性久久久久| 特级毛片免费视频| 国产乱子伦无码精品小说| 亚洲色图狠狠干| 久久久久国产精品免费免费不卡| 国产尤物视频在线| 国产一区在线视频观看| 亚洲欧洲国产成人综合不卡| 中国毛片网| 在线另类稀缺国产呦| 色综合久久88| 全裸无码专区| 国产在线观看一区精品| 天天躁夜夜躁狠狠躁躁88| 国产精品第|