999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means算法的企業信用無監督分類研究

2021-09-14 00:14:25施天虎韋詩玥
電腦知識與技術 2021年22期
關鍵詞:分類

施天虎 韋詩玥

摘要:企業信用分類的應用,能夠為商業銀行降低信貸業務的風險,隨著市場競爭的不斷加劇,機器學習和大數據的應用,越來越多的計量方法不斷革新,并廣泛運用到信用分析領域。本文設計了一個基于K-means算法的企業信用無監督分類方法,通過對企業信息進行大數據分析,提取企業信用相關的內容,再使用K-means算法對企業數據進行聚類,對目標企業根據其聚類所在簇來評估信用等級,以此對企業的信用進行分類。

關鍵詞:企業信用;信貸風險;K-means算法;分類;特征選擇

Abstract: The application of corporate credit classification can reduce the risk of credit business for commercial banks. With the continuous intensification of market competition, the application of machine learning and big data, more and more measurement methods continue to innovate and are widely used in the field of credit analysis. This paper designs an unsupervised classification system for corporate credit based on the K-means algorithm. Through big data analysis of corporate information, the content related to corporate credit is extracted, and then the K-means algorithm is used to cluster the companies, and the target companies are based on their The clusters where the clusters are located are used to evaluate the credit rating and thus classify the credit of the enterprise.

Key words: Corporate credit; Credit Risk; K-means algorithm; classification; Feature selection

1引言

金融行業積累了大量的企業脫敏數據信息,企業的有效劃分及標識在企業信用評估、企業風險監測中具有重要作用并受到各大平臺的重點關注[1]。金融場景中企業作為信貸主體的數據覆蓋互聯網、政府、線上應用等來源的方方面面,數據量大,來源廣泛、涉及企業的維度豐富[2]。企業信用分類的應用,為商業銀行降低企業信貸業務風險,創新風險管理理念,探索出一條行之有效的解決辦法[3]。隨著大數據、人工智能的發展和市場競爭日益加劇,大量基于機器學習的信用評估分類方法提出并廣泛應用于企業信用分析[4]。本文將企業脫敏數據信息進行特征選擇,提取信用分類相關的內容,再使用K-means算法對數據進行聚類,按聚類簇劃分信用等級。

2 關鍵技術

2.1 K-means算法

2.2 特征選擇

特征選擇是重要的數據預處理方法,在數據中選出重要特征可以降低數據維度、去除多余的變量,提高算法的精度和效率。

本文使用皮爾森相關系數[6]對數據進行特征選擇,皮爾森相關系數能夠獲取特征和變量之間的線性相關系,其計算公式如下:

3 基于K-means算法的企業信用無監督分類

3.1 提取相關特征

計算數據所有特征與信用分類的皮爾森相關系數,根據結果判斷該特征是否與信用分類相關。設企業的信用類別為C={x1,x2,...,xn},特征項為T={t1,t2,...,tn},相關閾值為x,當該特征項與信用類別的皮爾森相關系數大于閾值x即滿足下式時選用該特征。

3.2 使用K-means算法聚類

在選取到相關特征后,使用K-means算法對企業數據進行聚類。K-means算法聚類效果的好壞很大程度上取決于初始聚類中心的選擇,若選取的K個中心點中有離群點或者各中心點相互距離較近,則常導致聚類的效果不佳。針對這個問題,本文使用基于最大距離和密度相結合的初始中心選取方法。其過程如下:

Step1:設置密度閾值q,隨機選擇一個樣本密度小于q的點作為第一個初始中心點K1。

Step2:在所有滿足樣本密度的點中,選擇離K1最遠的點作為第二個初始中心點K2。

Step3:同上方法尋找第三個點,以此類推,直至獲得K個初始中心點。

用此方法可以使聚類初始中心間的距離較大,且避免存在離群點。

在將數據進行聚類后得到K個簇,以簇內企業數據占比最多的信用類別來表示該簇的類別,對目標企業計算其到各簇中心的距離,距離最近簇所表示的信用類別即表示對該企業預測的信用類別。

4 實驗與分析

本文采用浪潮公司發布的企業脫敏數據進行仿真實驗,從數據集中取1萬條數據,數據集共36個特征。實驗結果如下圖所示:

從圖1可以看出,在K取值為5時,本文算法擁有最佳準確率,表示分類效果最好。

5結束語

本文設計了一個基于K-means算法的企業信用無監督分類方法,首先提取企業信息中與信用分類相關的特征,再將企業數據使用改進中心點選取的K-means算法進行聚類,通過判斷目標企業所在簇判斷其信用類別,為企業信用評估提供參考。

參考文獻:

[1] Simon Rogers,MarkGirolami.機器學習基礎教程[M].郭茂祖,譯.北京:機械工業出版社,2014.

[2] 李恩,劉立新.小微企業信用評價指標體系研究綜述[J].征信,2013,31(1):67-70.

[3] 張杏枝.基于機器學習的信用評分模型研究[D].重慶:西南大學,2019.

[4] 張萌.基于層次分析法的商務領域企業信用評價模型的構建[J].中國商論,2019(14):232-233.

[5] 黃曉輝,王成,熊李艷,等.一種集成簇內和簇間距離的加權k-means聚類方法[J].計算機學報,2019,42(12):2836-2848.

[6] 馬克勤,楊延嬌,秦紅武,等.結合最大最小距離和加權密度的K-means聚類算法[J].計算機工程與應用,2020,56(16):50-54.

【通聯編輯:梁書】

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 小说 亚洲 无码 精品| 亚洲国产天堂久久九九九| 欧美日韩国产成人高清视频| 欧美视频免费一区二区三区| 亚洲成av人无码综合在线观看| 日韩免费成人| 精品人妻无码中字系列| 九九线精品视频在线观看| 美女免费黄网站| 国产成人综合网| 88av在线看| 91丝袜在线观看| 欧美成人免费一区在线播放| 一区二区在线视频免费观看| 久久熟女AV| 四虎国产永久在线观看| 全午夜免费一级毛片| 老司机久久精品视频| 2024av在线无码中文最新| 国产精品视频a| 欧美成一级| 青青草国产在线视频| 亚洲天堂在线视频| 国产国产人在线成免费视频狼人色| 一边摸一边做爽的视频17国产| 久热中文字幕在线| 成人福利视频网| 一级不卡毛片| 在线观看亚洲人成网站| 性做久久久久久久免费看| 国产精品女人呻吟在线观看| 日韩黄色在线| 国产福利一区在线| a在线亚洲男人的天堂试看| 亚洲日韩精品欧美中文字幕| 免费国产一级 片内射老| 国产jizzjizz视频| 3p叠罗汉国产精品久久| 青青极品在线| 极品尤物av美乳在线观看| 精品国产免费第一区二区三区日韩| 欧美国产精品不卡在线观看| 亚洲另类国产欧美一区二区| 超清无码一区二区三区| 国产精品一线天| 欧美日韩精品在线播放| 久久久精品久久久久三级| 国产一区三区二区中文在线| 免费无码在线观看| 国产又色又刺激高潮免费看| 真实国产乱子伦视频| 又粗又硬又大又爽免费视频播放| 国产一区二区三区在线精品专区 | 99精品国产自在现线观看| 日韩欧美视频第一区在线观看| 国产小视频在线高清播放| 国产精品亚洲一区二区三区在线观看 | 中国一级特黄大片在线观看| 日本欧美成人免费| 热九九精品| 欧美在线三级| 婷婷成人综合| 无码一区二区三区视频在线播放| 国产毛片片精品天天看视频| 精品福利一区二区免费视频| 999在线免费视频| 中文字幕 91| 综合色在线| 国产精品无码一二三视频| 2021精品国产自在现线看| 欧美日韩在线第一页| 日韩资源站| 国产网站黄| 中文字幕在线免费看| 国产精选自拍| 欧美成人精品在线| 亚欧乱色视频网站大全| 亚洲无码熟妇人妻AV在线| 在线播放国产99re| 蜜臀av性久久久久蜜臀aⅴ麻豆| 免费三A级毛片视频| 亚洲国产成人麻豆精品|