程成+趙華+陶偉



摘要摘要:隨著我國居民收入的不斷提高及理財意識的不斷增強(qiáng),消費者對互聯(lián)網(wǎng)理財需求越來越多,但目前關(guān)于消費者購買互聯(lián)網(wǎng)理財產(chǎn)品影響因素以及購買意向預(yù)測的研究還很少。為了準(zhǔn)確挖掘消費者購買理財產(chǎn)品的影響因素,并在此基礎(chǔ)上對購買意向進(jìn)行預(yù)測,首先依托消費者購買理財產(chǎn)品數(shù)據(jù),運用主成分分析法挖掘其中潛在的、有價值的消費者信息;然后使用PCA對網(wǎng)絡(luò)進(jìn)行降維,將主成分模擬到BP神經(jīng)網(wǎng)絡(luò)中建立購買互聯(lián)網(wǎng)理財產(chǎn)品預(yù)測模型;最后對預(yù)測進(jìn)行實證分析。分析結(jié)果顯示構(gòu)造的PCA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型訓(xùn)練樣本結(jié)果準(zhǔn)確率達(dá)83.61%,測試樣本準(zhǔn)確率達(dá)80.12%,具有較好的泛化能力和預(yù)測精度,可用于對消費者購買理財產(chǎn)品進(jìn)行分析和預(yù)測。
關(guān)鍵詞關(guān)鍵詞:數(shù)據(jù)驅(qū)動;PCA;BP神經(jīng)網(wǎng)絡(luò);互聯(lián)網(wǎng)理財
DOIDOI:10.11907/rjdk.162523
中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2017)001010804
協(xié)會2013年度科學(xué)技術(shù)研究指導(dǎo)性計劃項目(MTKJ2013-366); 中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室開放課題 (CASNDST201405);山東科技大學(xué)創(chuàng)新團(tuán)隊項目 (2015TDJH102)
作者簡介作者簡介:程成(1993-),女,山東臨沂人,山東科技大學(xué)信息科學(xué)與工程學(xué)院碩士研究生,研究方向為機(jī)器學(xué)習(xí);趙華(1980-),女,山東泗水人,博士,山東科技大學(xué)信息科學(xué)與工程學(xué)院副教授、碩士生導(dǎo)師,研究方向為智能信息處理;陶偉(1992-),男,山東臨沂人,山東科技大學(xué)信息科學(xué)與工程學(xué)院碩士研究生,研究方向為智能信息處理。0引言
隨著GDP的增長,國民財富呈現(xiàn)遞增趨勢[1]。居民收入的增長促進(jìn)了居民儲蓄存款的增加,為互聯(lián)網(wǎng)理財提供了堅實的物質(zhì)基礎(chǔ)。據(jù)中國銀行業(yè)理財市場年度報告, 2015年,銀行業(yè)理財市場累計兌付客戶收益8 651.0億元,比2014年增長1 529.7億元,增幅21.48%。銀行業(yè)金融機(jī)構(gòu)實現(xiàn)理財業(yè)務(wù)收益約1 169.9億元,理財產(chǎn)品為客戶帶來了豐厚的回報[2]。
互聯(lián)網(wǎng)理財是一種新穎的理財產(chǎn)品,相較于傳統(tǒng)的金融理財,互聯(lián)網(wǎng)理財具有理財成本低、流動性強(qiáng)、投資門檻[5]崔振輝,李林川,趙承利,等.基于ARIMA的電力視頻流量分析和預(yù)目前,互聯(lián)網(wǎng)理財產(chǎn)品種類繁多,如何在紛繁的理財產(chǎn)品中選擇和購買一個適合自身的理財產(chǎn)品是消費者面臨的主要問題。對于企業(yè),在數(shù)據(jù)驅(qū)動背景下,利用客戶數(shù)據(jù)可以預(yù)測消費者購買互聯(lián)網(wǎng)理財產(chǎn)品意向,增強(qiáng)各企業(yè)互聯(lián)網(wǎng)理財產(chǎn)品競爭力,并可根據(jù)數(shù)據(jù)對企業(yè)互聯(lián)網(wǎng)理財產(chǎn)品進(jìn)行優(yōu)化。
客戶行為預(yù)測研究很多,大多數(shù)使用決策樹進(jìn)行預(yù)測[5],但對影響消費者購買理財產(chǎn)品因素未進(jìn)行解釋和說明。本文通過對已有理財產(chǎn)品購買相關(guān)數(shù)據(jù)進(jìn)行挖掘,采用主成分分析法挖掘其中的影響因素,構(gòu)造了基于神經(jīng)網(wǎng)絡(luò)的理財產(chǎn)品購買預(yù)測模型。
1互聯(lián)網(wǎng)理財產(chǎn)品預(yù)測模型與架構(gòu)
對消費者購買理財產(chǎn)品需求進(jìn)行預(yù)測和分析,需要去尋找潛在的有用信息,因而需要充分挖掘數(shù)據(jù),發(fā)掘影響消費者購買互聯(lián)網(wǎng)理財產(chǎn)品的各種因素以及影響因素之間的關(guān)系。本文基于主成分分析法(Principal Component Analysis, PCA)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)理論,構(gòu)建了互聯(lián)網(wǎng)理財產(chǎn)品購買意向預(yù)測模型。人工神經(jīng)網(wǎng)絡(luò)理論是從信息處理的角度對生物神經(jīng)網(wǎng)絡(luò)的抽象和描述,其中BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)具有較高的容錯能力和自學(xué)習(xí)能力,可高效并行處理數(shù)據(jù)。因此,本文采用BP神經(jīng)網(wǎng)絡(luò)對相關(guān)數(shù)據(jù)進(jìn)行分析和預(yù)測,模型架構(gòu)如圖1所示。
預(yù)測流程:①收集樣本數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理;②對影響消費者購買互聯(lián)網(wǎng)理財產(chǎn)品的多種因素進(jìn)行分析,并使用主成分分析法從中選取主要因素;③運用人工神經(jīng)網(wǎng)絡(luò)原理,以家庭為單位建立一個預(yù)測理財產(chǎn)品模型;④通過挖掘和調(diào)查一定數(shù)量的樣本數(shù)據(jù),訓(xùn)練神經(jīng)網(wǎng)絡(luò)從而找到合適的參數(shù);⑤將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型用于理財產(chǎn)品預(yù)測,得到預(yù)測結(jié)果,對消費者是否購買提供參考意見。
圖1消費者購買互聯(lián)網(wǎng)理財產(chǎn)品預(yù)測模型及架構(gòu)2基于PCA的理財產(chǎn)品影響因素分析消費者對理財產(chǎn)品的需求和購買行為是多元化的,影響消費者購買互聯(lián)網(wǎng)理財產(chǎn)品的因素也是多樣化的,這和消費者的消費意識、經(jīng)濟(jì)條件都有一定關(guān)系。從收集信息的角度出發(fā),考慮因素越多越可以避免重要信息的丟失。在挖掘影響消費者購買互聯(lián)網(wǎng)理財產(chǎn)品的種種因素數(shù)據(jù)中,發(fā)現(xiàn)部分因素之間存在交叉和影響,這使得在神經(jīng)網(wǎng)絡(luò)信息空間維數(shù)較大且輸入變量較多,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)變得復(fù)雜,且網(wǎng)絡(luò)訓(xùn)練負(fù)擔(dān)過重、時間過長。然而,如果輸入信息空間維數(shù)較小且變量過少,網(wǎng)絡(luò)訓(xùn)練將容易陷入局部極小點,也可能導(dǎo)致預(yù)測精度無法達(dá)到要求。只有從眾多影響因素中找出一組合適的輸入數(shù)據(jù)才能有效解釋影響消費者購買理財產(chǎn)品的因素關(guān)系,對消費意向做出準(zhǔn)確預(yù)測。為此,首先從所有的影響因素中抽取主要的影響因素,繼而基于這些主要因素建立購買意向預(yù)測模型。所以,本文采用主成分分析法對影響購買意向的主要成分進(jìn)行選取,剔除影響力弱的指標(biāo)。分析步驟如下:
(1)樣本數(shù)據(jù)獲取及預(yù)處理。本文從互聯(lián)網(wǎng)理財平臺獲取了150條消費者購買理財產(chǎn)品的相關(guān)數(shù)據(jù)。
抽取初始影響因素。本文通過兩種方式獲取初始影響因素:一是樣本數(shù)據(jù)中記錄的消費者相關(guān)屬性;二是通過專家訪談和查閱文獻(xiàn)。最終獲取以下12個初始因素:年齡(X1)、性別(X2)、婚姻狀況(X3)、學(xué)歷(X4)、職業(yè)(X5)、家庭存款(X6)、月收入(X7)、居住條件(X8)、有無汽車(X9)、出生地(X10)、居住地(X11)、理財信息獲取渠道(X12)。
影響因素量化。上述影響因素有些是數(shù)值型屬性,但很多是非數(shù)值型屬性,比如性別、婚姻等。為了方便后續(xù)處理,首先給每個非數(shù)值型屬性制定一個對應(yīng)的數(shù)值型。比如男對應(yīng)0,女對應(yīng)1,已婚對應(yīng)1,未婚對應(yīng)0等等。
(2)建立樣本集矩陣(Fij)150×12,其中150表示獲取的樣本數(shù)據(jù)個數(shù),而12表示最初的影響因素。
(3)求得每一影響因素的均值,假設(shè)每一個影響因素記為Xi=(xi1,xi2,...,xi150),則均值Xi=∑150j=1xij150,i=1,2,...,12。
(4)計算每兩個影響因素之間的協(xié)方差cov(Xi,Xj)=∑150k=1(xik-Xi)(xjk-Xj)149,建立協(xié)方差矩陣C150×150=(cij,cij=cov(Xi,Xj))。
(5)計算協(xié)方差矩陣的特征向量和特征值,根據(jù)特征值的排序選擇出主成分因素。
經(jīng)過上述篩選過程,選擇了其中7個因素作為消費者購買理財產(chǎn)品的影響因素,見表1。
3基于BP神經(jīng)網(wǎng)絡(luò)的理財產(chǎn)品預(yù)測3.1人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是對生物神經(jīng)系統(tǒng)的信息處理機(jī)制進(jìn)行抽象、簡化與模擬。大量神經(jīng)元在人工神經(jīng)網(wǎng)絡(luò)中并行互聯(lián),從而連接構(gòu)成人工神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)本質(zhì)是要獲得誤差函數(shù)的最小值,以調(diào)節(jié)網(wǎng)絡(luò)權(quán)值[7]。學(xué)習(xí)過程要一直進(jìn)行,直到網(wǎng)絡(luò)輸出的誤差降低到所設(shè)定的誤差精度或是運行到設(shè)定的學(xué)習(xí)次數(shù)為止。
表1影響消費者購買理財產(chǎn)品因素影響因素指標(biāo)內(nèi)容年齡18~25歲25~35歲35~45歲45~55歲55歲以上婚姻狀況未婚已婚學(xué)歷大專及以下本科碩士博士家庭存款1萬元以下1~5萬元5~10萬元10~50萬元50萬元以上職業(yè)類型[6]名類專業(yè)、技術(shù)人員國家機(jī)關(guān)、黨群組織、企事業(yè)單位負(fù)責(zé)人辦事人員和有關(guān)人員商業(yè)工作人員服務(wù)型企業(yè)工作人員農(nóng)林牧漁勞動者生產(chǎn)工人、運輸工人和有關(guān)人員不便分類的其他勞動者居住條件出租房單位公房私人住宅(20m2/人)私人住宅(<20m2/人)有無汽車無車有車圖2所示的神經(jīng)網(wǎng)絡(luò)模型I-J-1網(wǎng)絡(luò),為含有兩層隱含層的BP網(wǎng)絡(luò)結(jié)構(gòu)圖。第1層隱層為I中任一神經(jīng)元用i表示,第2隱層為J中任一神經(jīng)元用j表示,輸出層為P,其中神經(jīng)元用p表示。wmi表示為輸入層與第1隱層的網(wǎng)絡(luò)權(quán)值,wij表示為第1隱層與第2隱層的網(wǎng)絡(luò)權(quán)值,wjp表示為第2隱層與輸出層的網(wǎng)絡(luò)權(quán)值。θi表示為第1隱層節(jié)點的閾值;θj表示為第2隱層節(jié)點的閾值;θp表示為輸出層節(jié)點的閾值。
根據(jù)以上分析,得到消費者購買理財產(chǎn)品意向的人工神經(jīng)網(wǎng)絡(luò)圖的預(yù)測模型如圖2所示。
在正向傳播過程中,輸入樣本數(shù)據(jù)要經(jīng)過逐層的隱層結(jié)點計算,最終在輸出層得到輸出結(jié)果。輸出結(jié)果和期望設(shè)定值進(jìn)行比較后得到誤差,誤差再經(jīng)輸出層通過網(wǎng)絡(luò)的連接反向傳播,修改連接權(quán)值和閾值,以達(dá)到網(wǎng)絡(luò)學(xué)習(xí)的誤差不斷減小。
3.2基于BP算法的消費者購買理財產(chǎn)品意向預(yù)測方法
本模型算法包括兩個階段:
(1)對影響消費者購買理財產(chǎn)品的影響因素采用主成分分析法,剔除影響力弱的指標(biāo)。
(2)在對影響消費者購買理財產(chǎn)品的諸因素進(jìn)行分析的基礎(chǔ)上,建立BP神經(jīng)網(wǎng)絡(luò)模型。
具體步驟如下:①利用專家訪談和文獻(xiàn)調(diào)查法,構(gòu)建影響消費者購買理財產(chǎn)品的因素集合,并收集樣本數(shù)據(jù);②利用主成分分析法對影響因素進(jìn)行選擇,剔除影響力弱的指標(biāo)。構(gòu)建影響消費者購買理財產(chǎn)品的因素體系,從而得出用作神經(jīng)網(wǎng)絡(luò)輸入的維度;③對所有影響消費者購買理財產(chǎn)品因素的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,選擇訓(xùn)練樣本數(shù)據(jù)和測試樣本數(shù)據(jù);④對訓(xùn)練樣本數(shù)據(jù)按BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練;⑤判斷網(wǎng)絡(luò)輸出的誤差,降低到所設(shè)定的誤差精度或是運行到設(shè)定的學(xué)習(xí)次數(shù)。如果是,則學(xué)習(xí)過程終止,若否,返回步驟④,繼續(xù)學(xué)習(xí);⑥將測試樣本數(shù)據(jù)輸入到訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)模型中,使用訓(xùn)練結(jié)果對該模型效果進(jìn)行評價,如果模型效果顯著,則可用作影響消費者購買理財產(chǎn)品預(yù)測;⑦將影響消費者購買理財產(chǎn)品因素的測試樣本數(shù)據(jù),按指標(biāo)輸入到效果顯著的訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)中。結(jié)合模型輸出結(jié)果,進(jìn)行影響消費者購買理財產(chǎn)品因素的進(jìn)一步分析。
4實例分析
1988年Cybenko就指出,當(dāng)各節(jié)點采用Sigmoid型函數(shù)時,一個隱含層就足以實現(xiàn)任意的判決分類問題,兩個隱含層則足以表示輸入圖形的任意輸出函數(shù)[9]。所以對神經(jīng)網(wǎng)絡(luò)將在隱含層中采用Sigmoid型函數(shù)和線性函數(shù)。以互聯(lián)網(wǎng)理財網(wǎng)站中客戶基本信息數(shù)據(jù)為例進(jìn)行分析,選取150組有效信息,將各組影響因素進(jìn)行標(biāo)準(zhǔn)化處理。BP神經(jīng)網(wǎng)絡(luò)是一個非線性系統(tǒng),權(quán)值的初始值設(shè)置可被認(rèn)為是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中最重要的一部分[10]。每個神經(jīng)網(wǎng)絡(luò)都需要選取合適的初始權(quán)值和閾值,一般情況下權(quán)值和閾值的初始值隨機(jī)在(-1,1)之間選取。本文構(gòu)建3層BP神經(jīng)網(wǎng)絡(luò),輸入層為7個神經(jīng)元,隱含層為10個神經(jīng)元,輸出層為1個神經(jīng)元,學(xué)習(xí)率設(shè)定為0.5,動量因子為0.9,目標(biāo)誤差為0.01,迭代次數(shù)設(shè)定為300。采用100組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),50組作為測試數(shù)據(jù)。圖3為BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果,預(yù)測情況如表2所示。考慮到初始權(quán)值選取對預(yù)測結(jié)果的影響,表2中的結(jié)果為訓(xùn)練10次得到的平均值。測試結(jié)果中訓(xùn)練樣本結(jié)果平均準(zhǔn)確率達(dá)到83.61%,測試樣本平均準(zhǔn)確率達(dá)80.12%。由此可知本神經(jīng)網(wǎng)絡(luò)模型具有較好的泛化能力和預(yù)測精度,可用于對消費者購買理財產(chǎn)品意向進(jìn)行分析和預(yù)測。
結(jié)語
互聯(lián)網(wǎng)理財是一個新興領(lǐng)域,它將傳統(tǒng)理財行業(yè)與互聯(lián)網(wǎng)結(jié)合,企業(yè)可以通過挖掘和調(diào)查互聯(lián)網(wǎng)理財產(chǎn)品客戶數(shù)據(jù),對消費者客觀因素進(jìn)行分析,通過預(yù)測得到消費者理財產(chǎn)品購買意向。本文使用PCA和BP相結(jié)合的方法進(jìn)行了預(yù)測和分析,經(jīng)實例驗證該方法可行,是互聯(lián)網(wǎng)理財預(yù)測新穎而又簡便的方法。但該系統(tǒng)還存在一些難題:由于調(diào)查數(shù)據(jù)較少,不足以形成對消費者情況的完全準(zhǔn)確預(yù)測,這需要進(jìn)行更深層次的探索。
參考文獻(xiàn):
[1]中華人民共和國國家統(tǒng)計局統(tǒng)計年報[EB/OL].http://www.stats.gov.cn/tjsj/
[2]中國銀行業(yè)理財市場年度報告(2015)[EB/OL]. http://www.chinawealth.com.cn/zzlc/sjfx/lcbg/20160226/620139.shtml
[3]紀(jì)崴. 理財市場的競爭與發(fā)展[J]. 中國金融, 2015(18):9396.
[4]胡增永. 互聯(lián)網(wǎng)理財與傳統(tǒng)銀行理財業(yè)務(wù)比較研究[J]. 財會通訊, 2014(32):46.
[5]RUTKOWSKI L, JAWORSKI M, PIETRUCZUK L, et al. The CART decision tree for mining data streams[J]. Information Sciences an International Journal, 2014, 266(5):115.
[6]王月鳳. 最新勞資業(yè)務(wù)實用知識手冊[M].北京: 中國勞動出版社, 1995(12):548549.
[7]李從剛, 童中文, 曹筱玨. 基于BP神經(jīng)網(wǎng)絡(luò)的P2P網(wǎng)貸市場信用風(fēng)險評估[J]. 管理現(xiàn)代化, 2015, 35(4):9496.
[8]BHATT A K, PANT D. Automatic apple grading model development based on back propagation neural network and machine vision, and its performance evaluation[J]. Ai & Society, 2013, 30(1):4556.
[9]G CYBENKO.Continuous valued neural networks with two hidden layers are sufficient[R]. Technical Report,Tufts University, Medford, 1988.
[10]GAXIOLA F,MELIN P,VALDEZ F,et al.Generalized type2 fuzzy weight adjustment for backpropagation neural networks in time series prediction[J].Information Sciences,2015,325(3):159174.
責(zé)任編輯(責(zé)任編輯:杜能鋼)