施天虎 韋詩玥



摘要:企業信用分類的應用,能夠為商業銀行降低信貸業務的風險,隨著市場競爭的不斷加劇,機器學習和大數據的應用,越來越多的計量方法不斷革新,并廣泛運用到信用分析領域。本文設計了一個基于K-means算法的企業信用無監督分類方法,通過對企業信息進行大數據分析,提取企業信用相關的內容,再使用K-means算法對企業數據進行聚類,對目標企業根據其聚類所在簇來評估信用等級,以此對企業的信用進行分類。
關鍵詞:企業信用;信貸風險;K-means算法;分類;特征選擇
Abstract: The application of corporate credit classification can reduce the risk of credit business for commercial banks. With the continuous intensification of market competition, the application of machine learning and big data, more and more measurement methods continue to innovate and are widely used in the field of credit analysis. This paper designs an unsupervised classification system for corporate credit based on the K-means algorithm. Through big data analysis of corporate information, the content related to corporate credit is extracted, and then the K-means algorithm is used to cluster the companies, and the target companies are based on their The clusters where the clusters are located are used to evaluate the credit rating and thus classify the credit of the enterprise.
Key words: Corporate credit; Credit Risk; K-means algorithm; classification; Feature selection
1引言
金融行業積累了大量的企業脫敏數據信息,企業的有效劃分及標識在企業信用評估、企業風險監測中具有重要作用并受到各大平臺的重點關注[1]。金融場景中企業作為信貸主體的數據覆蓋互聯網、政府、線上應用等來源的方方面面,數據量大,來源廣泛、涉及企業的維度豐富[2]。企業信用分類的應用,為商業銀行降低企業信貸業務風險,創新風險管理理念,探索出一條行之有效的解決辦法[3]。隨著大數據、人工智能的發展和市場競爭日益加劇,大量基于機器學習的信用評估分類方法提出并廣泛應用于企業信用分析[4]。本文將企業脫敏數據信息進行特征選擇,提取信用分類相關的內容,再使用K-means算法對數據進行聚類,按聚類簇劃分信用等級。
2 關鍵技術
2.1 K-means算法
2.2 特征選擇
特征選擇是重要的數據預處理方法,在數據中選出重要特征可以降低數據維度、去除多余的變量,提高算法的精度和效率。
本文使用皮爾森相關系數[6]對數據進行特征選擇,皮爾森相關系數能夠獲取特征和變量之間的線性相關系,其計算公式如下:
3 基于K-means算法的企業信用無監督分類
3.1 提取相關特征
計算數據所有特征與信用分類的皮爾森相關系數,根據結果判斷該特征是否與信用分類相關。設企業的信用類別為C={x1,x2,...,xn},特征項為T={t1,t2,...,tn},相關閾值為x,當該特征項與信用類別的皮爾森相關系數大于閾值x即滿足下式時選用該特征。
3.2 使用K-means算法聚類
在選取到相關特征后,使用K-means算法對企業數據進行聚類。K-means算法聚類效果的好壞很大程度上取決于初始聚類中心的選擇,若選取的K個中心點中有離群點或者各中心點相互距離較近,則常導致聚類的效果不佳。針對這個問題,本文使用基于最大距離和密度相結合的初始中心選取方法。其過程如下:
Step1:設置密度閾值q,隨機選擇一個樣本密度小于q的點作為第一個初始中心點K1。
Step2:在所有滿足樣本密度的點中,選擇離K1最遠的點作為第二個初始中心點K2。
Step3:同上方法尋找第三個點,以此類推,直至獲得K個初始中心點。
用此方法可以使聚類初始中心間的距離較大,且避免存在離群點。
在將數據進行聚類后得到K個簇,以簇內企業數據占比最多的信用類別來表示該簇的類別,對目標企業計算其到各簇中心的距離,距離最近簇所表示的信用類別即表示對該企業預測的信用類別。
4 實驗與分析
本文采用浪潮公司發布的企業脫敏數據進行仿真實驗,從數據集中取1萬條數據,數據集共36個特征。實驗結果如下圖所示:
從圖1可以看出,在K取值為5時,本文算法擁有最佳準確率,表示分類效果最好。
5結束語
本文設計了一個基于K-means算法的企業信用無監督分類方法,首先提取企業信息中與信用分類相關的特征,再將企業數據使用改進中心點選取的K-means算法進行聚類,通過判斷目標企業所在簇判斷其信用類別,為企業信用評估提供參考。
參考文獻:
[1] Simon Rogers,MarkGirolami.機器學習基礎教程[M].郭茂祖,譯.北京:機械工業出版社,2014.
[2] 李恩,劉立新.小微企業信用評價指標體系研究綜述[J].征信,2013,31(1):67-70.
[3] 張杏枝.基于機器學習的信用評分模型研究[D].重慶:西南大學,2019.
[4] 張萌.基于層次分析法的商務領域企業信用評價模型的構建[J].中國商論,2019(14):232-233.
[5] 黃曉輝,王成,熊李艷,等.一種集成簇內和簇間距離的加權k-means聚類方法[J].計算機學報,2019,42(12):2836-2848.
[6] 馬克勤,楊延嬌,秦紅武,等.結合最大最小距離和加權密度的K-means聚類算法[J].計算機工程與應用,2020,56(16):50-54.
【通聯編輯:梁書】