陳雪改,王 飛
(河海大學(xué) 商學(xué)院, 南京 211100)
?
基于P2P互聯(lián)網(wǎng)金融的數(shù)據(jù)挖掘技術(shù)研究
陳雪改,王 飛
(河海大學(xué) 商學(xué)院, 南京 211100)
針對(duì)P2P網(wǎng)絡(luò)金融平臺(tái)借貸記錄的歷史數(shù)據(jù)量海量存在,卻只是存儲(chǔ)在數(shù)據(jù)倉庫中,其蘊(yùn)含的有效信息并沒有被發(fā)掘的問題,在P2P網(wǎng)絡(luò)金融平臺(tái)的管理中融入數(shù)據(jù)挖掘技術(shù)。以Weka為數(shù)據(jù)挖掘工具,利用現(xiàn)有存儲(chǔ)數(shù)據(jù)信息進(jìn)行數(shù)據(jù)分析。通過平臺(tái)算法以及數(shù)據(jù)模型的處理,以投標(biāo)時(shí)間T、投標(biāo)總次數(shù)N、投標(biāo)借出總金額M三個(gè)指標(biāo)為參考,將P2P網(wǎng)絡(luò)金融平臺(tái)中的出款人分為8種類型,并給出了這3項(xiàng)指標(biāo)的整體聚類結(jié)果,分別為0.826 3、0.067 2、0.077 7,據(jù)此判斷出款人的潛在價(jià)值,為平臺(tái)管理者提供相應(yīng)的參考。
互聯(lián)網(wǎng)金融;P2P;Weka;數(shù)據(jù)挖掘;借貸分析
隨著互聯(lián)網(wǎng)技術(shù)手段在金融行業(yè)部分業(yè)務(wù)中的應(yīng)用,產(chǎn)生了全新的互聯(lián)網(wǎng)金融模式[1],其中各大銀行所推出的手機(jī)銀行與網(wǎng)銀就是其重要的組成部分[2],從本質(zhì)上影響了人類的金融模式。P2P網(wǎng)絡(luò)金融,也稱P2P信貸,是網(wǎng)絡(luò)金融在借貸方面的發(fā)展方向[3-4]。它以低門檻、低難度的借款方式極大地提高了借貸服務(wù)的效率[5],有效地改變了小額貸款困難的現(xiàn)狀。其次,它也是一種低風(fēng)險(xiǎn)高收益的理財(cái)方式。隨著P2P網(wǎng)絡(luò)金融的發(fā)展,其操作平臺(tái)產(chǎn)生的借貸記錄迅速增長(zhǎng),數(shù)據(jù)信息海量存在,但對(duì)歷史數(shù)據(jù)的研究與應(yīng)用卻很少[6-7]。因此,本文將數(shù)據(jù)挖掘技術(shù)引入其中,借助Weka數(shù)據(jù)庫的真實(shí)借貸款交易原始數(shù)據(jù),通過數(shù)據(jù)挖掘找出有關(guān)借貸交易中相關(guān)要素的規(guī)律,一方面可以給P2P網(wǎng)絡(luò)金融平臺(tái)提供相應(yīng)的參考意見,適當(dāng)增加借款的類型、利率以及設(shè)置合理的還款期限等,實(shí)現(xiàn)平臺(tái)的多元化,提高平臺(tái)借貸交易成功率;另一方面也可以讓借款人得到相關(guān)借款的指導(dǎo)意見。
數(shù)據(jù)挖掘(Data Mining)作為一種新興的計(jì)算機(jī)處理技術(shù),應(yīng)用時(shí)間較短但發(fā)展迅速,它融合了人工智能、機(jī)器模擬、數(shù)據(jù)庫等現(xiàn)代技術(shù)[8]。它以海量不完整、清晰性缺失的并且包含噪聲的隨機(jī)數(shù)據(jù)為對(duì)象,從中提煉出人力無法直接獲取的有價(jià)值的信息[9]。
1.1 數(shù)據(jù)挖掘的方法
在數(shù)據(jù)挖掘的理論研究中,最核心的內(nèi)容是數(shù)據(jù)處理方法及相應(yīng)技術(shù)。目前眾多的算法模型不斷涌現(xiàn)[10-12],主要有:統(tǒng)計(jì)學(xué)方法(比較有影響力的統(tǒng)計(jì)分析軟件有SAS、SPSS、SMDP);關(guān)聯(lián)規(guī)則挖掘、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、可視化技術(shù);粗集方法;遺傳算法。其中粗集是一種從不確定、不完備或不精確數(shù)據(jù)中解決問題的新數(shù)學(xué)理論,近期在數(shù)據(jù)挖掘、模式識(shí)別和人工智能中得到了廣泛的應(yīng)用。
另外信息可能以文本、圖像、視頻以及web網(wǎng)頁等半結(jié)構(gòu)或者非結(jié)構(gòu)化形式存在,因此復(fù)雜型數(shù)據(jù)挖掘技術(shù)也應(yīng)運(yùn)而生[13],主要有:研究空間結(jié)構(gòu)數(shù)據(jù)的數(shù)據(jù)挖掘、分析視聽特征的多媒體數(shù)據(jù)挖掘、時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘、高緯度大容量的文本數(shù)據(jù)庫挖掘、以資源查找—數(shù)據(jù)預(yù)處理—模式發(fā)現(xiàn)與分析為流程的Web數(shù)據(jù)挖掘。
1.2 數(shù)據(jù)挖掘體系結(jié)構(gòu)
數(shù)據(jù)挖掘的步驟一般包括定義問題、準(zhǔn)備數(shù)據(jù)、瀏覽數(shù)據(jù)、生成模型、驗(yàn)證模型、部署和更新模型6個(gè)基本步驟,流程如圖1所示。其中準(zhǔn)備數(shù)據(jù)環(huán)節(jié)是決定數(shù)據(jù)挖掘工作質(zhì)量的關(guān)鍵[14]。數(shù)據(jù)挖掘的原始數(shù)據(jù)集并不都是理想的數(shù)據(jù)集,需要這一步驟從原始數(shù)據(jù)庫中提取目標(biāo)數(shù)據(jù)集,隨之加工處理,從而獲取有利于數(shù)據(jù)挖掘方法展開的數(shù)據(jù)形式。

圖1 數(shù)據(jù)信息挖掘體系
1.3 數(shù)據(jù)挖掘工具
現(xiàn)在的大多數(shù)BI供應(yīng)商如IBM Conges、SAP Business Object、Microsoft等在開發(fā)軟件產(chǎn)品時(shí)會(huì)設(shè)計(jì)某種程度的數(shù)據(jù)挖掘功能,有些也會(huì)有較為專業(yè)的數(shù)據(jù)挖掘軟件,如SPSS、SAS、StatSoft、Salford(CART、MARS、TreeNet、RandomForest)和Megaputer等[15]。在數(shù)據(jù)挖掘研究工作中,Microsoft 的SQL Server成為了最受歡迎的工具軟件,這是因?yàn)樗梢詫?shù)據(jù)和模型存儲(chǔ)于同一關(guān)系型數(shù)據(jù)庫環(huán)境中。
此外,以C語言和Java語言為語言基礎(chǔ)的Weka系統(tǒng)也是數(shù)據(jù)挖掘工作常用的軟件,它融合了豐富的數(shù)據(jù)預(yù)處理工具和多種先進(jìn)的機(jī)器學(xué)習(xí)算法[16]。另外,Weka系統(tǒng)具有良好的兼容性,能與Windows、Linux,甚至Personal Digital Assitant操作系統(tǒng)兼容。Weka平臺(tái)中所有的學(xué)習(xí)算法、工具都公用一個(gè)接口,可在一個(gè)操作界面總共呈現(xiàn),能在最大程度上方便操作者權(quán)衡不同的工具和算法,從而找到最符合需求的工具和算法。
P2P(即Person-to-Person)網(wǎng)絡(luò)金融是依托互聯(lián)網(wǎng)形成的一種新型的金融服務(wù)模式,其借貸快捷、程序簡(jiǎn)便的特點(diǎn)極大地方便了借貸人的融資與理財(cái),也是現(xiàn)存銀行體系的補(bǔ)充。目前涌現(xiàn)了多種以P2P網(wǎng)絡(luò)金融為主營(yíng)業(yè)務(wù)的平臺(tái),拍拍貸、宜人貸、紅嶺創(chuàng)投等為典型代表。國內(nèi)外P2P網(wǎng)絡(luò)金融平臺(tái)運(yùn)營(yíng)模式基本相似,主要存在3種模式:① P2P網(wǎng)絡(luò)金融平臺(tái)采用線上瀏覽、線下交易的模式,平臺(tái)以第三方身份介入借貸交易中,使借貸交易的風(fēng)險(xiǎn)轉(zhuǎn)移第三方,以宜信為典型代表。② P2P網(wǎng)絡(luò)金融平臺(tái)采用保障本金制度,平臺(tái)不僅起中介作用,還要承擔(dān)保障出款人資金安全的風(fēng)險(xiǎn),出款人對(duì)于借款人的壞賬風(fēng)險(xiǎn)轉(zhuǎn)移到平臺(tái)自身身上,以拍拍貸為代表。這使得此類平臺(tái)要對(duì)借款進(jìn)行嚴(yán)格的審核,審核方式多種多樣,如人工審核、實(shí)地調(diào)研、數(shù)據(jù)分析等。③ P2P網(wǎng)絡(luò)金融平臺(tái)采用不承諾保障本金制度,平臺(tái)只負(fù)責(zé)借款人信息驗(yàn)證以及借款法律文件的生成,對(duì)任何借款不提供任何擔(dān)保,平臺(tái)僅僅起中介作用。
3.1 借款分析
據(jù)相關(guān)網(wǎng)站的資料統(tǒng)計(jì)顯示,現(xiàn)有的P2P網(wǎng)絡(luò)金融平臺(tái)的借款期限基本是1~5個(gè)月,平均還款時(shí)間為4.25個(gè)月。P2P網(wǎng)絡(luò)金融平臺(tái)的借款類型以及出款人較為偏好的出資借款期限導(dǎo)致了上述平臺(tái)還款期限較短的現(xiàn)象。由于每個(gè)借款人的個(gè)人需求以及借款金額的不同,在考慮借貸類型、借貸利率、還款期限時(shí)所作的決定也會(huì)不同。所以本文借助Weka數(shù)據(jù)庫的真實(shí)借貸款交易原始數(shù)據(jù),通過數(shù)據(jù)挖掘找出借貸交易中相關(guān)要素的規(guī)律,完善網(wǎng)絡(luò)金融知識(shí)體系。
3.2 數(shù)據(jù)挖掘應(yīng)用平臺(tái)的模塊結(jié)構(gòu)設(shè)計(jì)
根據(jù)數(shù)據(jù)挖掘的流程,數(shù)據(jù)挖掘技術(shù)在P2P網(wǎng)絡(luò)金融平臺(tái)中的整體設(shè)計(jì)包括確定問題、數(shù)據(jù)管理、模型設(shè)計(jì)這3個(gè)基本步驟,其中還包括數(shù)據(jù)提取等更具體的步驟,詳細(xì)的流程如圖2所示。

圖2 平臺(tái)整體設(shè)計(jì)流程
數(shù)據(jù)挖掘主要依靠數(shù)據(jù)平臺(tái)提供的數(shù)據(jù)信息來進(jìn)行,包括用戶行為和個(gè)人信息的數(shù)據(jù)集合。它根據(jù)系統(tǒng)收集到的基本變量采集由用戶的衍生變量信息,反欺詐系統(tǒng)將采集的個(gè)人信息整理,通過機(jī)器學(xué)習(xí)模塊訓(xùn)練用戶行為模型,最后通過工作流引擎完成自動(dòng)審核。這需要多個(gè)模塊的相互配合,各模塊關(guān)系如圖3所示。

圖3 平臺(tái)系統(tǒng)設(shè)計(jì)中的模塊關(guān)系
3.3 數(shù)據(jù)挖掘應(yīng)用平臺(tái)的實(shí)現(xiàn)
3.3.1 連接數(shù)據(jù)庫
數(shù)據(jù)挖掘的研究對(duì)象是數(shù)據(jù)庫中存儲(chǔ)的大量數(shù)據(jù)信息,因此應(yīng)用平臺(tái)運(yùn)行的基礎(chǔ)就是數(shù)據(jù)庫。為了能讓W(xué)eka識(shí)別中文,在RunWeka.ini文件中將afileEncoding1252重命名為fileEncodingGB2312。然后打開Weka的安裝文件夾中的Weka.jar,找到experiment文件夾中的DatabaseUtils.props文件重命名。打開重命名后的DatabaseUtils.props文件,按照以下方法修改文件內(nèi)容:
#Database settings for Microsoft SQL Server 2008
#url:http://www.microsoft.com/
#jdbc:#Database settings for Microsoft SQL Server 2008#
#author:Fracpete(fracpete at waikato dot ac dot nz) huzhyi21@163.com
#version:$Revision:543#JDBC driver(comma-separated list)
jdbcDriver=com.microsoft.SQLserver.jdbc.SQLServerDriver
jdbcURL=jdbc:SQLserver://locaniost:133;databaseNanie=test; user=abc;password=123
修改文件路徑之后還需要添加環(huán)境變量。右鍵單擊“我的電腦”,“系統(tǒng)屬性”中,單擊“環(huán)境變量”,在Administrator的用戶變量選項(xiàng)卡中添加Weka-Home環(huán)境變量,同樣地添加Classpath環(huán)境變量。最后啟動(dòng)Weka程序,在Weka Gui Chooser界面,單擊Explorer選項(xiàng),隨之在Weka Explorer界面中單擊Open DB按鈕。在SQL Viewer界面中的URL中輸入有效文件地址。單擊connect按鈕就可以進(jìn)行數(shù)據(jù)庫連接。當(dāng)Info文本框內(nèi)顯示true,則說明Weka已經(jīng)連接成功,這時(shí)在Query文本框中輸入査詢語句,單擊Execute按鈕就能訪問數(shù)據(jù)了[17]。
3.3.2 數(shù)據(jù)挖掘應(yīng)用平臺(tái)實(shí)現(xiàn)結(jié)果
本次應(yīng)用平臺(tái)數(shù)據(jù)挖掘功能的實(shí)現(xiàn)主要依據(jù)Weka數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)信息。首先利用Weka中的規(guī)范化算法對(duì)目標(biāo)時(shí)間內(nèi)的投標(biāo)時(shí)間T、投標(biāo)總次數(shù)N、投標(biāo)借出總金額M進(jìn)行預(yù)處理,以取消不同變量間的不同綱量帶來的影響。然后借助Weka數(shù)據(jù)庫中的Simple-K-Means算法對(duì)數(shù)據(jù)模擬運(yùn)算,通過更改“seed”參數(shù)值,得到的不同Within cluster sum of squared errors的值,該數(shù)值越小說明同一簇實(shí)例之間的距離越小,通過幾次嘗試后最終確定參數(shù)k=8時(shí)聚類效果較好。因此把出款人劃分為8類,規(guī)范化后處于中心的出借人投標(biāo)時(shí)間T、投標(biāo)總次數(shù)N、投標(biāo)借出總金額M的值如表1所示。

表1 聚類結(jié)果
最后再將每一簇中心及每一簇規(guī)范化后的出借人的這3項(xiàng)指標(biāo)均值與全體規(guī)范化后的出借人的項(xiàng)目指標(biāo)值作比較,其中“↑”表示大于平均值,“↓”表示小于平均值,這也是對(duì)出款人級(jí)別判斷的參考標(biāo)準(zhǔn)。
由表2可以發(fā)現(xiàn):利用數(shù)據(jù)挖掘技術(shù)對(duì)Weka采集的數(shù)據(jù)進(jìn)行分析處理能夠合理有效地對(duì)平臺(tái)所擁有的眾多出款人分類標(biāo)示,實(shí)現(xiàn)P2P網(wǎng)絡(luò)金融平臺(tái)對(duì)不同類型出款人的區(qū)別管理,能夠提高用戶黏性以及優(yōu)化平臺(tái)資源的利用。

表2 出款客戶的類別
本文根據(jù)我國網(wǎng)絡(luò)金融的借貸市場(chǎng)運(yùn)行規(guī)律,將先進(jìn)的數(shù)據(jù)挖掘技術(shù)融入P2P網(wǎng)絡(luò)金融平臺(tái)的日常管理中,利用該項(xiàng)技術(shù)對(duì)其存儲(chǔ)數(shù)據(jù)進(jìn)行實(shí)證分析,提高平臺(tái)管理方對(duì)于注冊(cè)用戶的認(rèn)識(shí),對(duì)借款進(jìn)行分析。P2P網(wǎng)絡(luò)金融平臺(tái)根據(jù)數(shù)據(jù)分析的結(jié)果,對(duì)出款人進(jìn)行價(jià)值判斷,在降低網(wǎng)絡(luò)金融風(fēng)險(xiǎn)、保障各項(xiàng)參與者切身利益方面起到了不可忽視的作用,也為維持虛擬金融市場(chǎng)秩序提供了一種有效的方法。另外,本文研究的方法對(duì)于分析借款人的資產(chǎn)以及償還能力等也有一定的作用。
[1] 陸岷峰,虞鵬飛.互聯(lián)網(wǎng)金融背景下商業(yè)銀行“大數(shù)據(jù)”戰(zhàn)略研究——基于互聯(lián)網(wǎng)金融在商業(yè)銀行轉(zhuǎn)型升級(jí)中的運(yùn)用[J].經(jīng)濟(jì)與管理,2015,29(3):31-38.
[2] 高娜.基于互聯(lián)網(wǎng)金融平臺(tái)的大數(shù)據(jù)挖掘研究[J].商,2015(48):196-197.
[3] 馮笑,陳翼.基于互聯(lián)網(wǎng)金融平臺(tái)的大數(shù)據(jù)征信實(shí)踐與啟示——以阿里旗下“螞蟻金服”為例[J].中國市場(chǎng),2015(32):86-87.
[4] 張靜,常若貝.共享金融背景下的P2P互聯(lián)網(wǎng)金融平臺(tái)發(fā)展對(duì)策研究[J].時(shí)代金融旬刊,2016(7):60-61.
[5] 王曙光,孔新雅,徐余江.互聯(lián)網(wǎng)金融的網(wǎng)絡(luò)信任:形成機(jī)制、評(píng)估與改進(jìn)——以P2P網(wǎng)絡(luò)借貸為例[J].金融監(jiān)管研究,2014(5):67-76.
[6] 蔣莉莉.商業(yè)銀行P2P互聯(lián)網(wǎng)投融資系統(tǒng)[J].電子技術(shù)與軟件工程,2015(13):35-36.
[7] 周雅慧,張一舟,米晉宏.IDEA:一種基于P2P借貸網(wǎng)絡(luò)的投資決策分析算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(9):200-206.
[8] 陳春燕.一種P2P網(wǎng)絡(luò)的信息優(yōu)化檢索算法的仿真分析[J].科學(xué)技術(shù)與工程,2013,13(9):2572-2578.
[9] 儲(chǔ)兵,吳陳,楊習(xí)貝.基于RBF神經(jīng)網(wǎng)絡(luò)與粗糙集的數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(7):87-91.
[10]李瑞華,魚斌.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法研究[J].榆林學(xué)院學(xué)報(bào),2010,20(2):62-64.
[11]朱中煒,韓旭,李澤琳.基于XML和SVG的體育數(shù)據(jù)可視化的技術(shù)研究[J].電子技術(shù)與軟件工程,2015(21):198-198.
[12]楊莎,余偉,李石君,等.基于Web大數(shù)據(jù)挖掘的證券價(jià)格波動(dòng)實(shí)時(shí)影響研究[J].計(jì)算機(jī)科學(xué),2015,42(4):166-171.
[13]李丹,張兆信,宗占國.利用開源的數(shù)據(jù)挖掘平臺(tái)WEKA進(jìn)行文本分類仿真實(shí)驗(yàn)[J].煤炭技術(shù),2011,30(5):214-216.
[14]何清,莊福振,曾立,等.PDMiner:基于云計(jì)算的并行分布式數(shù)據(jù)挖掘工具平臺(tái)[J].中國科學(xué):信息科學(xué),2014,44(7):871-885.
[15]范多鋒,徐俊剛.大數(shù)據(jù)量下的Apriori改進(jìn)算法及在weka平臺(tái)的實(shí)現(xiàn)[J].電子技術(shù),2012(7):1-4.
[16]劉文鳳,卿曉霞.Chameleon聚類算法的Weka實(shí)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(12):246-250.
[17]朱宗元,王景裕.P2P網(wǎng)絡(luò)借貸平臺(tái)效率的綜合評(píng)價(jià)——基于AHP-DEA方法[J].南方金融,2016(4):31-38.
(責(zé)任編輯 林 芳)
Research on Data Mining Technology Based on P2P Internet Finance
CHEN Xuegai, WANG Fei
(Business of School, Hohai University, Nanjing 211100, China)
The historical data volume of the borrowing records of P2P financial platform is huge, but it is only stored in the data warehouse, and the effective information contained in it is not discovered. In the P2P network financial platform management, it introduces into data mining technology,using Weka for data mining tool, and it uses the existing stored data information for data analysis; Finally, trough the platform algorithm and data model processing, the bidding timeT, the total number of times the tenderNand the total amount of tender lendingMare as the reference to the P2P network financial platform which will be divided into eight types of payers, and the overall clustering results of these three indexes are 0.826 3,0.067 2,0.077 7 respectively, and then according to it, we determines the potential value of the money, which provides the appropriate reference for platform managers.
internet banking; P2P; Weka; data mining; borrowing analysis
2017-02-07
國家自然科學(xué)基金資助項(xiàng)目(71372166);江蘇高校哲學(xué)社會(huì)科學(xué)研究重點(diǎn)項(xiàng)目(2010ZDIXM004)
陳雪改(1990—),女,碩士研究生,主要從事公司金融研究,E-mail:businesschen1990@sina.com;王飛(1959—),男,碩士生導(dǎo)師,主要從事財(cái)務(wù)管理和會(huì)計(jì)金融研究。
陳雪改,王飛.基于P2P互聯(lián)網(wǎng)金融的數(shù)據(jù)挖掘技術(shù)研究[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2017(7):151-155.
format:CHEN Xuegai,WANG Fei.Research on Data Mining Technology Based on P2P Internet Finance[J].Journal of Chongqing University of Technology(Natural Science),2017(7):151-155.
10.3969/j.issn.1674-8425(z).2017.07.024
TN02
A
1674-8425(2017)07-0151-05