999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的信用評估研究

2017-09-01 15:54:43王哲元
計算機技術(shù)與發(fā)展 2017年8期
關(guān)鍵詞:模型

邱 梅,王哲元

(1.南京郵電大學(xué) 計算機學(xué)院,江蘇 南京 210003;2.福州大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,福建 福州 350116)

基于數(shù)據(jù)挖掘的信用評估研究

邱 梅1,王哲元2

(1.南京郵電大學(xué) 計算機學(xué)院,江蘇 南京 210003;2.福州大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,福建 福州 350116)

信用如今已經(jīng)滲透至社會生活、工作之中,信用評估是金融、通訊等服務(wù)行業(yè)對消費者個體的重要需求。在分析個人信用影響因素及其相關(guān)數(shù)據(jù)建模基礎(chǔ)上,改進了應(yīng)用Logistic回歸建模過程中所用到的最速下降法,有效減少了回歸建模過程中的迭代次數(shù)與迭代時間。原始最速下降法相鄰方向是正交的,導(dǎo)致越是靠近極值點步長越小,收斂速度慢;而改進后的最速下降法通過結(jié)合上一次的搜索方向確定當(dāng)前搜索方向,改變了原本鋸齒形的曲折搜索路徑。為驗證所提出方法的有效性和可行性,圍繞迭代次數(shù)與迭代時間進行了實驗驗證。驗證實驗結(jié)果表明,改進的最速下降法減少了計算過程中的迭代次數(shù),從而提高了運算效率;針對影響信用數(shù)據(jù)提供不全的記錄,將轉(zhuǎn)移概率矩陣應(yīng)用于信用評估,可解決未來信用預(yù)測評估問題。

信用評估;最速下降法;Logistic回歸;轉(zhuǎn)移概率

0 引 言

人們在每天的生活中都無時無刻產(chǎn)生著大量的數(shù)據(jù),例如在進行行程安排或工作中。而這些數(shù)據(jù)都蘊含著信息,從這些信息中,可以對一些還未發(fā)生的不確定行為進行預(yù)測,或是結(jié)合已知的信息進行推測得到另外有價值的信息。例如,超市的購物清單就可能反映出商品之間的潛在關(guān)聯(lián)性,即消費者在購買一個商品時可能會順帶購買另外某一件商品。對于經(jīng)營者來說,這就是一條有價值的信息,其可以對商品布局提供一個參考,使得銷售一件商品的同時可以提高另一件商品的銷量。

隨著互聯(lián)網(wǎng)金融的發(fā)展,基于大數(shù)據(jù)的信用評估越來越受到關(guān)注。信用關(guān)乎著社會與經(jīng)濟的發(fā)展,銀行可以依據(jù)個人或企業(yè)的信用度判斷是否給予貸款以及信用卡業(yè)務(wù),并且制定出具體適合的借貸協(xié)議,尤其是農(nóng)戶型小額貸款,評估參考指標(biāo)不足,導(dǎo)致農(nóng)戶小額貸款融資難的現(xiàn)狀[1]。

信用度取決于很多方面,包括年齡、年收入、存款等等。而具體某一項和信用的相關(guān)度都是不等的,計算判斷某個隨機個體的信用度過程就是當(dāng)前研究的主要內(nèi)容,此外還嘗試對具體信用樣本未來可能的變化進行預(yù)測,以幫助解決由于信用度不夠當(dāng)下難以獲得金融服務(wù)的群體的問題,同時降低其借貸成本。

1 信用評估指標(biāo)

對用戶的信用進行評估,選取影響信用的因素是至關(guān)重要的,考慮因素不全面則評估結(jié)果會產(chǎn)生偏差。從家庭狀況、償還能力、信譽狀況、經(jīng)營狀況、經(jīng)濟環(huán)境五個方面進行考慮[2-3]。

1.1 家庭狀況

家庭狀況主要包括戶主的年齡、勞動力的數(shù)量、勞動力的受教育程度、勞動力的健康狀況、家庭的婚姻狀況、家庭的負(fù)擔(dān)狀況、家庭成員的職業(yè)類型、家庭成員的職業(yè)職位、成員的戶口性質(zhì)、成員的對外連帶責(zé)任擔(dān)保狀況等[4]。

1.2 償還能力

償還能力主要指家庭的年純收入、家庭總財產(chǎn)、借貸款情況、家庭支出狀況以及獲取社會資源能力。

1.3 信譽狀況

信譽狀況主要包括不良記錄情況、懲罰情況、還款情況、是否為老客戶以及面談印象。

1.4 經(jīng)濟環(huán)境

經(jīng)濟環(huán)境主要包括地區(qū)經(jīng)濟發(fā)展程度、發(fā)展穩(wěn)定性以及政府優(yōu)惠政策。

1.5 數(shù)據(jù)處理

數(shù)據(jù)分為兩種,一種是定性類型,如受教育程度,可以分為五種量級,包括初中及以下、高中、大專、科、碩士及以上。通過打分制,最高的為5分,最低的為1分。還有一種情況,如戶口性質(zhì),只有農(nóng)村戶口與城市戶口之分,則指標(biāo)值為1和0。另一種是定量類型,如家庭收入等等。

2 數(shù)據(jù)挖掘應(yīng)用

現(xiàn)有的信用評估體系僅僅覆蓋了大部分享受過金融服務(wù)的群體,而無法覆蓋信用記錄不完整或不夠完善的消費者。比如剛畢業(yè)進入職場的青年或是還未涉足商場的創(chuàng)業(yè)者,又或者是遠(yuǎn)離大都市的農(nóng)戶想要在農(nóng)業(yè)方面進一步擴展需要資金的情況,其共同點是無法獲得常規(guī)的金融服務(wù),或是要付出很大的代價才能獲得基本的金融服務(wù)。現(xiàn)有的信用評估模型的基本思想是將數(shù)據(jù)庫中全體借款人的信用背景信息進行建模,然后將待檢查的借款人的歷史資料及個人信息帶入該模型,得出該借款人的信用度。還有的方案則是將信用度高的和經(jīng)常違約、隨意透支等各種陷入財務(wù)困境的借款人的群體分別建模,然后比較該借款人與哪個模型的距離更近,從而判斷該借款人的信用情況。

2.1 模型的建立

根據(jù)上一節(jié)對影響信用的因素的分析,將已收集到的指標(biāo)數(shù)據(jù)進行建模。運用分類算法,將數(shù)據(jù)分類成信用度高的群體和信用度低的群體。若y代表信用度的高低,針對數(shù)據(jù)特征可以選用線性回歸,選取0.5為臨界點,右側(cè)為y=1,左側(cè)為y=0。圖1為線性分類圖。

圖1 線性分類圖

對于信用評估,通過對已獲得的數(shù)據(jù)建立一個模型,即用一條線去擬合這些數(shù)據(jù),然后將待預(yù)測的樣本數(shù)據(jù)帶入到該模型中,獲得返回值,即新樣本的信用預(yù)測結(jié)果。這里采用線性回歸來構(gòu)建模型。假設(shè)用x1,x2,…,xn描述特征變量,可以構(gòu)造出一個估計函數(shù):

h(x)=hθ(x)=θ0+θ1x1+…+θnxn

(1)

其中,θ表示特征變量的參數(shù)。定義x0=1,則公式可表示為:

(2)

其中,n表示特征數(shù)目。

使式(2)盡可能地擬合數(shù)據(jù),需選取合適的參數(shù)θ,可以用損失函數(shù)來描述h(x)的擬合程度,如下:

(3)

通過改變θ使該損失函數(shù)值盡可能小,當(dāng)函數(shù)值收斂于0,選取此時θT,模型建成。調(diào)整θ使J(θ)取最小值的方法有很多,包括最小二乘法、最速下降法等方法。

2.2 最小二乘法

(4)

對θ求導(dǎo),化簡得:

(5)

但是,計算一個矩陣的逆是相當(dāng)耗時的,而且求逆也會存在數(shù)值不穩(wěn)定的情況,最速下降法相比較而言計算量不是特別大,收斂性有保證,只是迭代次數(shù)可能較高[5]。

2.3 最速下降法

最速下降法是沿負(fù)梯度方向,函數(shù)下降最快,由J(θ)對θ的偏導(dǎo)數(shù)確定,如下:

(6)

θi:=θi-?(hθ(x)-y)·xi

(7)

如此迭代更新,最終確定θ。

為了導(dǎo)出梯度下降的方向,需要關(guān)于每個參數(shù)的分量對目標(biāo)函數(shù)求偏導(dǎo)[6]。

(8)

則梯度下降的規(guī)則是:

(9)

2.4 改進的最速下降法

最速下降法具有很好的整體收斂性,但在相繼兩次迭代中,方向是相互正交的,則在逼近極值點的路線是鋸齒形的,并且越靠近極值點步長越小,即越走越慢[7]。

為了解決最速下降法收斂速度在逼近極值點緩慢的問題,提出了SDM Imp(Steepest Descent Method Improved),具體描述如下:

假設(shè)在二維圖形中,此時可以考慮在接近極值點時,選取xk-1和xk的方向和作為xk的方向,這樣能獲得更快的收斂速度,從而提高算法效率,擬合原本模型的方向,如圖2所示。

圖2 最速下降法的改進圖例

2.5 Logistic回歸

Logistic回歸方程為:

(10)

轉(zhuǎn)換得:

(11)

對假設(shè)進行概率上的解釋,有:

p(y=1|x;θ)=hθ(x)

(12)

p(y=0|x;θ)=1-hθ(x)

(13)

結(jié)合有:

p(y|x;θ)=hθ(x)y(1-hθ(x))1-y

(14)

數(shù)據(jù)的概率即參數(shù)的似然性為:

(15)

則問題轉(zhuǎn)化為找到參數(shù)θ的一個極大似然估計[11],即需要找到參數(shù)θ使得似然性L(θ)最大化,推導(dǎo)時,使似然性的對數(shù)最大化比使似然性最大化容易得多,則對上式兩邊求對數(shù)得:

(16)

則問題轉(zhuǎn)化為求對數(shù)最大化的最優(yōu)化問題,可采用改進后的最速下降法。

2.6 一步轉(zhuǎn)移概率矩陣的應(yīng)用

上述對信用估計模型的構(gòu)建,確定了每個特征變量前面的參數(shù)θ,每個特征對結(jié)果的影響強弱可由前面的參數(shù)體現(xiàn),能夠?qū)崿F(xiàn)對當(dāng)前新樣本數(shù)據(jù)進行信用評估,但是這還不能體現(xiàn)目前信用度不高的群體未來的信用情況,所以該模型不能適用于目前信用度不高但未來很有潛力的群體,預(yù)測他們是否可以享受到基本的金融服務(wù)[12]。針對這樣的情況,結(jié)合馬爾可夫過程,設(shè)計了應(yīng)用一步轉(zhuǎn)移概率的解決方案,根據(jù)概率轉(zhuǎn)移矩陣,就能得到狀態(tài)之間經(jīng)過一步或多步轉(zhuǎn)移的規(guī)律,從而實現(xiàn)根據(jù)當(dāng)下的初始狀態(tài)對后期進行預(yù)測[13]。其具體步驟為:

(2)計算出經(jīng)某一段時間T從某個狀態(tài)轉(zhuǎn)移至另一個狀態(tài)的概率,即構(gòu)造出一步轉(zhuǎn)移概率矩陣Zt×t。

(5)將各狀態(tài)帶入之前求得的模型,得到該用戶的信用結(jié)果。

假設(shè)時間段T為一年,一步轉(zhuǎn)移概率矩陣Zt×t,每個元素代表了個體從某個狀態(tài)經(jīng)過一年可能成為其他各個可能狀態(tài)的概率。例如,若現(xiàn)只考慮兩個指標(biāo)—學(xué)歷與年收入,學(xué)歷分為4個狀態(tài),包括初中及以下、高中或大專、本科、碩士及以上,年收入分為5個狀態(tài),包括2萬及以下、2萬~5萬、5萬~10萬、10萬~20萬、20萬及以上,則總共存在20個狀態(tài),包括學(xué)歷為初中及以下且年收入為2萬以下,學(xué)歷為初中及以下且年收入為2萬~5萬,等等。設(shè)計矩陣Z20*20,其中Zij=p(j|i)表示在當(dāng)前狀態(tài)i下一時間段會轉(zhuǎn)成狀態(tài)j的概率。將當(dāng)前狀態(tài)的初始向量乘上該矩陣,就可以得到該初始狀態(tài)的個體在下一年可能轉(zhuǎn)變成的狀態(tài)情況。

(17)

然后計算出非零狀態(tài)下的信用結(jié)果,求出該向量對應(yīng)的信用,即

f(x)=ft

(18)

其中,ft為向量中非零元素對應(yīng)的第t個狀態(tài)下的信用,則可以實現(xiàn)對下一年信用的預(yù)測。

(19)

其中,l為向量中非零元素的個數(shù);ft為第t個狀態(tài)下的信用[14]。

如此將一步狀態(tài)轉(zhuǎn)移矩陣運用到對信用的預(yù)測中,還可以預(yù)測a年后該樣本可能的所處狀態(tài)。

(20)

然后結(jié)合各狀態(tài)的信用,計算出未來的信用度,這更能符合提供金融服務(wù)的機構(gòu)對客戶信用度的需求。例如,借貸服務(wù)、金融服務(wù)機構(gòu)需要考慮的是客戶在還貸期間的信用情況,相比于當(dāng)下的信用度可能更具參考價值。

3 實驗結(jié)果與分析

綜上可知,最速下降法的相鄰搜索方向是正交的,改進后的方法通過改變方向更快速地逼近極值點,所以為了測試改進后的方法,就將改進前后的方法應(yīng)用于計算的迭代次數(shù)與運行時間進行比較。

一方面,在相同的數(shù)據(jù)個數(shù)及實驗次數(shù)下,比較兩種方法計算過程中的迭代次數(shù),結(jié)果如圖3所示。

圖3 改進前后的迭代次數(shù)對比

另一方面,在相同的數(shù)據(jù)個數(shù)及實驗次數(shù)下,比較兩種方法計算過程的耗費時間,結(jié)果如圖4所示。

從上述實驗結(jié)果可以看出,改進的最速下降法性能上比原始方法要好,運算效率有所提高。

4 結(jié)束語

針對信用評估問題,對已有的影響信用數(shù)據(jù)進行處理與建模,提出了一種最速下降法的改進方法,能夠在建模過程中更高效地運算。另外,將一步轉(zhuǎn)移概率應(yīng)用到信用的評估預(yù)測中,實現(xiàn)了對影響信用數(shù)據(jù)不足的用戶所進行的評估以及對未來一段時間后的用戶信用所進行的評估。

圖4 改進前后的運算時間對比

[1] 陳永明,周 龍,李雙紅.基于AHP和DEMATEL方法的農(nóng)戶信用評級研究[J].征信,2012(5):20-24.

[2] 孫玲芳,祁 軍,徐 會,等.面向交易型虛擬社區(qū)的信用評價模型研究[J].信息技術(shù),2014,38(7):74-77.

[3] Lu Jianchang,Wu Jipeng.The fuzzy comprehensive evaluation on credit risk of power customers based on AHP[C]//Second international symposium on information science and engineering.Shanghai:[s.n.],2009:148-151.

[4] 李俊麗.基于層次分析法的農(nóng)戶信用評估[J].商業(yè)研究,2009(10):125-127.

[5] Qiu Y. An importance sampling method based on variance minimization with applications to credit risk[C]//Proceedings of the 29th Chinese control conference.Beijing:[s.n.],2010:3176-3179.

[6] 吳 鋒,李秀梅,朱旭輝,等.最速下降法的若干重要改進[J].廣西大學(xué)學(xué)報:自然科學(xué)版,2010,35(4):596-600.

[7] 李鴻儀.理想化最速下降法及其逼近實例[J].上海第二工業(yè)大學(xué)學(xué)報,2011,28(1):8-13.

[8] 池光輝,劉建偉,李衛(wèi)民,等.權(quán)核Logistic回歸模型的分類和特征選擇算法[J].計算機工程與應(yīng)用,2013,49(9):41-44.

[9] 王 鵬,孫繼銀,郭文普,等.前視紅外目標(biāo)匹配中的圖像質(zhì)量建模[J].計算機應(yīng)用研究,2012,29(12):4797-4800.

[10] 鄭蘭祥,萬 雪.基于Logit法的我國農(nóng)村小額貸款公司信用風(fēng)險評分模型構(gòu)建研究[J].安徽農(nóng)業(yè)大學(xué)學(xué)報:社會科學(xué)版,2014,23(4):49-54.

[11] 姜 盛.基于Logistic的信用卡套現(xiàn)偵測評分模型[J].計算機應(yīng)用,2009,29(11):3088-3091.

[12] Mastin A,Jaillet P.Loss bounds for uncertain transition probabilities in Markov decision processes[C]//51st IEEE conference on decision and control.Maui,HI:IEEE,2012:6708-6715.

[13] 馮學(xué)偉,王東霞,黃敏桓,等.一種基于馬爾可夫性質(zhì)的因果知識挖掘方法[J].計算機研究與發(fā)展,2014,51(11):2493-2504.

[14] Hu Yuting,Xie Rong,Zhang Wenjun,et al.Prediction of tourists flow distribution based on transition probability matrix[C]//8th international conference on information science and digital content technology.Jeju Island,Korea:[s.n.],2012:636-640.

Investigation on Credit Evaluation Based on Data Mining

QIU Mei1,WANG Zhe-yuan2

(1.College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350116,China)

Credit has been combined closely with people’s daily life and work.And credit assessment maintains a significant requirement of customers in service industries such as finances and communications.In this paper,the Steepest Descent Method (SDM) in Logistic Regression analysis has been improved based on influence factors of credit and relative data of modeling,reducing iteration times and time in regression modeling.The strategy can be explained that in original SDM,adjacent searching directions keep orthogonal and steps approach zero when they are close to the extreme point,which contributes to a slow rate of convergence.Yet,in the improved scheme,current searching direction has been determined by the last one and zigzag directions are eliminated therefore.In the experiments,it is proved that times of iterations is decreased and computational efficiency is enhanced.Moreover,aiming at defective credit records,matrix of transition probability has been adopted in order to solve problem of the credit assessment and prediction in the future.

credit evaluation;steepest descent method;Logistic Regression;transition probability

2016-08-02

2016-11-10 網(wǎng)絡(luò)出版時間:2017-06-05

國家“863”高技術(shù)發(fā)展計劃項目(2006AA01Z201)

邱 梅(1992-),女,碩士研究生,研究方向為數(shù)據(jù)挖掘、機器學(xué)習(xí)。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170605.1507.048.html

TP311

A

1673-629X(2017)08-0047-05

10.3969/j.issn.1673-629X.2017.08.010

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 四虎永久在线精品国产免费| 伊人精品成人久久综合| 国产99视频精品免费视频7| 午夜啪啪福利| 国产成人凹凸视频在线| 国产91av在线| 在线免费亚洲无码视频| 又大又硬又爽免费视频| 99久久国产精品无码| 狠狠色婷婷丁香综合久久韩国| 国产成人精品免费视频大全五级| 中文国产成人久久精品小说| 亚洲VA中文字幕| 中文字幕伦视频| 国产高清在线精品一区二区三区| 五月婷婷丁香综合| 国产玖玖玖精品视频| 67194在线午夜亚洲| 日本人妻丰满熟妇区| 在线播放国产一区| 亚洲日韩在线满18点击进入| 最新精品国偷自产在线| 欧美福利在线观看| 国产精品露脸视频| 爆乳熟妇一区二区三区| 亚洲系列中文字幕一区二区| 亚洲一道AV无码午夜福利| 午夜老司机永久免费看片| 国产91精品久久| 一级香蕉视频在线观看| 国产成人做受免费视频| 少妇精品久久久一区二区三区| 日韩毛片免费| 2024av在线无码中文最新| 欧美啪啪网| 欧美、日韩、国产综合一区| 狠狠色噜噜狠狠狠狠色综合久| 亚洲无码在线午夜电影| 91精品国产麻豆国产自产在线| 国产久草视频| 干中文字幕| 国产一级二级在线观看| 成人免费一区二区三区| 亚洲国产欧美自拍| 欧美激情第一区| 国产精品.com| 亚洲综合精品香蕉久久网| 久久综合AV免费观看| 国产在线欧美| 亚洲中文字幕国产av| 亚洲综合专区| 欧美亚洲另类在线观看| 久久国产精品娇妻素人| a级毛片在线免费| 欧美国产精品不卡在线观看| 玖玖免费视频在线观看| 国产精品成人观看视频国产| 亚洲一区无码在线| 九九视频免费看| 日韩在线第三页| 亚洲天堂视频在线免费观看| 亚洲男人天堂2018| 国产精品播放| 久久久久国产精品熟女影院| 88av在线看| 欧亚日韩Av| 日韩在线中文| 久久国产V一级毛多内射| 精品精品国产高清A毛片| 18禁色诱爆乳网站| 国产欧美专区在线观看| 在线观看亚洲精品福利片| 国产精品福利尤物youwu| 国产在线拍偷自揄观看视频网站| 午夜老司机永久免费看片 | 亚洲天堂成人在线观看| 久久a毛片| 97国产在线观看| 精品免费在线视频| 97人人做人人爽香蕉精品| 视频一区视频二区中文精品| 韩国v欧美v亚洲v日本v|