999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘和K-Means模型的金融數(shù)據(jù)可視化分析

2023-07-17 05:57:28王譯啡宋雅蓉
計算機時代 2023年7期
關鍵詞:可視化

王譯啡 宋雅蓉

關鍵詞:金融借貸數(shù)據(jù);可視化;K-Means 聚類;Python;第三方庫

0 引言

大力發(fā)展普惠金融,是我國全面建成小康社會的必然要求,意在為微小企業(yè)、農(nóng)民、城鎮(zhèn)低收入人群等弱勢群體提供有效的金融服務。之前研究表明,從解決居民融資問題的實際效果來看,P2P 借貸確有緩解難以獲得正規(guī)金融服務的人群融資困難的問題,但普惠金融的發(fā)展效益并沒有很好的呈現(xiàn)出來,其原因包括不同類型的服務客體參與貸款的主觀能動性差異。投資者對不同類型的服務客體主觀偏好不顯著等等[1]。所以在信息時代發(fā)展的背景下,需要利用大數(shù)據(jù)技術在數(shù)據(jù)處理與分析中的效能,與金融業(yè)務緊密融合,才能使金融服務的深度和廣度得以提升。

然而金融行業(yè)數(shù)據(jù)復雜且專業(yè),難以讓一些不具備金融專業(yè)背景的信息使用者所理解。利用數(shù)據(jù)可視化手段將大量信息整合,轉化為圖片或線條呈現(xiàn),無疑是理解海量數(shù)據(jù)的高效方式。不同的企業(yè),應用可視化技術的程度是不相同的,許多用戶還是使用Excel 電子表格工具來進行數(shù)據(jù)比對,如vlookup 等方式,或是制作一個氣泡效果圖來發(fā)現(xiàn)異常。但受到數(shù)據(jù)量和效率成本等限制,有時通過Excel 分析展示數(shù)據(jù)的效果并不理想[2]。Python 語言有更高的效率和可擴展性,并且可以用于研究算法模型,數(shù)據(jù)量龐大且復雜時用Python 能更好的進行可視化呈現(xiàn)。

本文以普惠金融為背景,基于P2P 平臺LendingClub 的貸款數(shù)據(jù),用Python 語言進行多維度可視化分析,產(chǎn)生用戶畫像,深度挖掘用戶的各項特征與金融服務之間的關系,找出參與貸款活動主觀能動性差異的關鍵因素,并利用機器學習算法實現(xiàn)大數(shù)據(jù)背景下對金融服務對象的精確細分,更利于金融服務的個性化推廣。

1 數(shù)據(jù)描述及探索

1.1 數(shù)據(jù)集簡介

P2P 貸款需要借助電子商務平臺來確立借貸關系,體現(xiàn)了在互相網(wǎng)環(huán)境下的新型金融模式,美國Lending Club 是世界最大的P2P 互聯(lián)網(wǎng)金融平臺,業(yè)務范圍是美國51 個州[3],并且Lending Club 平臺對外公開了真實交易數(shù)據(jù)供學者研究,本文下載了該平臺公開的2007 年至2018 年所有數(shù)據(jù),共2260701 條記錄(151個特征),從中篩選出2018年第四季度的所有數(shù)據(jù),共計128412 條記錄,對所有特征進行整理并分析后篩選出15 個特征供后續(xù)分析研究使用,如表1 所示。

1.2 探索性數(shù)據(jù)分析

用Python 的Pandas 庫對數(shù)據(jù)進行了描述性統(tǒng)計分析,如圖1 所示,顯示數(shù)據(jù)完整性較好,僅emp_title與emp_length 屬性有少量的缺失值,由于缺失值占比很小,后期處理時直接進行刪除。另外,用describe 函數(shù)對浮點類型的數(shù)據(jù)進行了數(shù)值范圍的統(tǒng)計分析,用unique 函數(shù)對一些object 類型變量進行了取值探索。

2 數(shù)據(jù)分析與模型構建

2.1 單變量可視化探索

首先對客戶的基本信息進行分析,選取purpose,home_ownership,emp_length 變量,選擇利用Python 中Plotly 庫進行數(shù)據(jù)可視化,Plotly 繪圖底層是plotly.js,可以在網(wǎng)頁上實現(xiàn)交互功能,便于多維數(shù)據(jù)的復雜性分析展示[4],如圖2 左側所示,客戶借款主要用于債務整合,以貸養(yǎng)貸,房屋改善等,客戶信用評估等級B 和C 占多數(shù),基本呈現(xiàn)正態(tài)分布;從餅圖中也能看出有接近一半的客戶是擁有住房的,但是面臨著房貸壓力,有將近四成的客戶(39.4%)處于租房狀態(tài),經(jīng)濟壓力較大。工作年限在十年以上的客戶占三成,LC 客戶平均工作年限在五年左右。

其次是對客戶貸款的情況進行系統(tǒng)分析,選擇出loan_amnt,int_rate, dti 和total_acc 這四個變量,利用Python 中Seaborn 庫進行繪制,從圖2 右側四張分布圖可以看出,公司主要以小額貸款為主,貸款金額分布在0.5-4 萬美元,貸款金額在1-2 萬區(qū)間的居多;利率分布主要集中在5%-15%,處于合理范圍;借款人的信用度集中在25 左右,普遍信用度較低,這也正是因為P2P 模式門檻低,審核簡單,所以很多融資困難,貸款困難的個人或企業(yè)會選擇該模式的原因[5]。Dti 是借款人每月所繳的債務總額(不包括LC貸款)除以借款人每月收入,能夠反映貸款對借貸人的壓力指數(shù),結果顯示大部分客戶dti都集中在30%以下,原有的債務壓力不算太重,這也是衡量借款人還款能力的重要指標。

2.2 多變量可視化探索

多變量探索是為了發(fā)現(xiàn)變量與變量之間的關聯(lián)性,利用Seaborn 庫中的boxplot 方法繪制圖3 左側的箱圖,能看出還款狀態(tài)與借款金額之間的關系:延期還款的金額總體比已全部還清狀態(tài)下的借款金額要高一些;從不良公眾記錄與貸款金額的關系來看,不良記錄越多的,能申請到的貸款金額就越低,可見LC是有嚴格把關;年收入的多少與被驗證狀態(tài)的關系表現(xiàn)并不明顯,但是能發(fā)現(xiàn)年收入高其很多收入來源是有被LC 驗證的;統(tǒng)計發(fā)現(xiàn),借款人職位排在前三的職位分別是老師。經(jīng)理和護士,并且這三類人員的借款金額也相對較高。

散點圖矩陣將多維數(shù)據(jù)中的各個維度兩兩組合繪制成一系列的按規(guī)律排列的散點圖,對海量數(shù)據(jù)進行變量之間關系的展示,利用Seaborn 庫中的pairplot方法進行如圖3 右側散點矩陣繪制,通過kind='reg'參數(shù)能夠在圖中加入最佳擬合線,擬合線能更清楚的表現(xiàn)兩個變量是如何變化的[5],圖中顯示installment 與loan_amnt 幾乎呈現(xiàn)完全正相關趨勢,貸款金額越高,分期付款期數(shù)相對固定的情況下,每月還款金額肯定也就越高;從annual_inc 與loan_amnt 變化擬合線可以看出,也近乎是正相關,客戶年收入越高,能申請到的貸款金額就越高;annual_inc 與dti 近似擬合為負相關,體現(xiàn)出年收入越高,還款壓力就相對越小。

2.3 K-means 建模

聚類算法可以根據(jù)數(shù)據(jù)屬性之間的信息關系進行分組,最終使組內(nèi)樣本的相似度最大,組間相似度最小[6],本文采用的K-means 模型是經(jīng)典的聚類算法,用于對客戶進行分組,以便于更好的繪制用戶畫像,了解客戶情況。基于對原始數(shù)據(jù)的探索分析,最終選定'int_rate', 'loan_status', 'emp_length', 'open_acc', 'dti' 這五個屬性來構建聚類模型。對于K-means 方法,K 的取值是一個難點,這里采用SSE 方法嘗試找到最優(yōu)的K 數(shù)值[7],如圖4 所示,并沒有出現(xiàn)所謂的“拐”點,隨著K 值的增大,SSE 的值逐漸減小,當K=3 時,減小幅度明顯增大,所以最終確定K 為3。

所選取屬性中int_rate 和emp_length 數(shù)據(jù)類型都是object,需要將它們轉化為float 數(shù)字類型,另外,loan_status 是一個關鍵特征,反映了當前貸款的還款情況,包含了多個類別,根據(jù)Lending Club 官網(wǎng)標準解釋,對不同類別賦予不同權重以便后續(xù)處理,已全額償還和還在償還期內(nèi)的為好客戶,賦予較高值;逾期和核銷貸款的用戶賦予較低值,具體為:'Fully Paid': 10,'Current': 9,'In Grace Period': 5,'Late (16-30 days)':1,'Late (31-120 days)':0.5,'ChargedOff':-1。然后對所有數(shù)據(jù)進行標準化處理,使所有數(shù)據(jù)落入一個限定的區(qū)間,從而去除數(shù)據(jù)的單位限制,將其轉化為無量綱的純數(shù)值,便于不同單位的指標能夠進行比較和加權[8]。本文采用的z-score 標準化,利用公式:新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標準差,將原始數(shù)據(jù)映射到新的區(qū)間[9]。然后使用Python 中的sklearn 庫,對數(shù)據(jù)進行聚類分析,從而得到聚類的中心點和每類的人群數(shù)目。為了更清晰的顯示聚類的結果,利用Matplotlib 可視化庫進行雷達圖繪制,如圖5 所示。

通過圖5 的聚類結果進行特征分析,該圖繪制在一個圓形極坐標系上,共五個特征維度,圖中點越靠近某特征的,證明該特征越明顯,反之亦然。由于之前確定k 值為3,故所有數(shù)據(jù)被分為三類,每個客戶群都有不同的表現(xiàn)特征,第一類人群共計54258 人,圖中黑色表示,總體來說這類人群工作年限較長,信用度較高,借款利率相對較低,并且借款狀態(tài)的值越高,證明拖欠可能性越低,證明此類客戶為優(yōu)質客戶群,也是應該重點維系和長期合作的對象。第二類人群共計60812 人,此類人群數(shù)量最大,但第二類人群幾乎在第一類人群特征中包含了,只是對比第一類人群的工作年限相對較低,可能新客戶占比較多,但信用度和還款能力較好,屬于重要發(fā)展和重要保持客戶。第三類客戶共計1616 人,該類客戶的明顯特點是借款狀態(tài)值很低,證明很多屬于經(jīng)常拖欠,延期和違約的,并且該類客戶的利率相較于其他客戶較高,證明還款周期較長,此類為低價值客戶,后期可重點對其進行分析,探究拖欠原因并針對性地解決。

3 結論與建議

3.1 研究結論

本文以Lending Club 公司2018 年Q4 季度的128412 條貸款數(shù)據(jù)(27 個特征)為研究對象,結合金融數(shù)據(jù)特點,基于Python 強大的第三方庫,對數(shù)據(jù)進行探索性分析,并以多類別可視化圖形的方式呈現(xiàn),完成了對Lending Club(正文簡稱LC)平臺上的借款客戶畫像繪制,實現(xiàn)了對該平臺借貸業(yè)務的整體分析,同時通過對用戶進行分類,來分析了解客戶是否具有還款意愿及償還能力。總的來說,本文對金融借貸數(shù)據(jù)進行的可視化研究和探索具有較好的應用價值和實際意義。

3.2 研究建議

在金融信貸業(yè)務領域中,需要明確信貸機構的目標客戶群、目標客戶的特征以及客戶畫像信息,以Lending Club 平臺的P2P 小額借貸業(yè)務為例,完整、健全的客戶信息有利于公司更好的進行資格審查。因此可進一步細化借貸標準,完善征信體系,同時也有利于風控人員系統(tǒng)分析,把控違約風險,讓借款人養(yǎng)成良好的履約記錄,防止“跑路”情況的發(fā)生。另一方面,根據(jù)數(shù)據(jù)分析結果可以看出,借款人的信用度,工作年限,收入,借款時間等對利率和還款情況也是有一定影響的,因此借款人需要自律、守信,預防超支及過度消費行為,在規(guī)定期限內(nèi)還款。最后,借貸公司可以加強與銀行的合作,吸納更多有經(jīng)濟實力和還款能力的優(yōu)質客戶并適當提高其貸款額度,從而進一步推動普惠化發(fā)展。

猜你喜歡
可視化
自然資源可視化決策系統(tǒng)
北京測繪(2022年6期)2022-08-01 09:19:06
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統(tǒng)
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
主站蜘蛛池模板: 午夜福利在线观看入口| 99精品在线视频观看| 国产系列在线| 国产日韩欧美一区二区三区在线 | 成人无码一区二区三区视频在线观看 | 日本亚洲国产一区二区三区| 99这里只有精品在线| 久久99精品久久久久久不卡| 伊人久久婷婷五月综合97色| 国产精品偷伦在线观看| 亚洲一区波多野结衣二区三区| 白丝美女办公室高潮喷水视频| 小说 亚洲 无码 精品| 日韩无码一二三区| 亚洲国产综合自在线另类| 国产在线高清一级毛片| P尤物久久99国产综合精品| 制服丝袜在线视频香蕉| 日本不卡在线播放| 伊人大杳蕉中文无码| 国产一级α片| 国产视频一区二区在线观看 | 国产欧美专区在线观看| 欧美成人看片一区二区三区| 久久成人18免费| 国产无人区一区二区三区| 九九免费观看全部免费视频| 丁香六月激情婷婷| 自慰高潮喷白浆在线观看| 毛片a级毛片免费观看免下载| 亚洲国产精品一区二区高清无码久久| 亚洲视频影院| 亚洲精选高清无码| 欧美全免费aaaaaa特黄在线| 亚洲精品无码在线播放网站| 中文字幕第4页| 国产女人18毛片水真多1| 97在线碰| 亚洲区欧美区| 国内老司机精品视频在线播出| 九九热这里只有国产精品| 欧美亚洲国产一区| 免费一级无码在线网站 | 国产SUV精品一区二区6| 国模私拍一区二区| 国产原创第一页在线观看| 黄色不卡视频| 热热久久狠狠偷偷色男同| 2021国产在线视频| 成人国产精品2021| 不卡午夜视频| 精品人妻一区无码视频| 91丝袜美腿高跟国产极品老师| 日韩欧美国产另类| 国产成人综合欧美精品久久| 99re66精品视频在线观看| 99999久久久久久亚洲| 夜色爽爽影院18禁妓女影院| 青青青草国产| 日本高清视频在线www色| www.亚洲一区二区三区| 97久久人人超碰国产精品| 91网在线| 最新国产精品鲁鲁免费视频| 国产亚洲欧美日本一二三本道| 亚洲一区无码在线| 中文字幕乱码中文乱码51精品| 无码人妻热线精品视频| 亚洲精品片911| 久久国产乱子| 在线综合亚洲欧美网站| 中文字幕一区二区人妻电影| 日日噜噜夜夜狠狠视频| 欧美日韩北条麻妃一区二区| 欧美不卡视频在线| 国内a级毛片| 国产在线视频福利资源站| 国产农村妇女精品一二区| 97综合久久| 欧美日韩国产在线人| 成人福利在线免费观看| 99无码中文字幕视频|