羅明明



【摘要】本文基于數據挖掘原理,運用邏輯回歸的方法對電子銀行開通率及其相關因素進行分析。運用基于熵的離散化算法( EBD)對連續型變量進行最優分段,利用變量IV值進行變量篩選,建立邏輯回歸模型。結果表明,年齡、開通第三方支付、動賬流水次數、日均貸款余額、是否代發工資是影響客戶開通電子銀行的五大個因素:從預測效果上看,所得模型對客戶是否開通電子銀行具有較好的預測效果。
【關鍵詞】手機銀行;精準營銷;邏輯回歸:證據權重
1引言
進入21世紀以來,隨著信息技術的高速發展和網絡技術的廣泛應用,網絡已日漸成為人們生活中不可或缺的部分。手機銀行具有效率高、使用便捷、成本低的特點,可以滿足廣大客戶的不同需求,并且可以真正做到“隨時隨地隨心”的使用。未來的手機銀行的發展趨勢必然是逐步替代銀行傳統柜臺業務。但是這幾年由于第三方支付和互聯網金融的沖擊,國內手機銀行業務的發展勢頭減緩,如2016年個人網銀活動客戶比例為79%.白2013年呈逐年下降的趨勢;交易用戶比例61%,回落到2011-2012年的水平。下降的主要原因是以支付寶、微信支付為代表的第三方支付廣泛應用對電子銀行渠道的替代效應,用戶認為有一種電子渠道即可,不需要保留電子銀行。面對市場的沖擊,如何精準的捕獲潛在的手機銀行客戶進行精準營銷成為商業銀行推廣手機銀行業務時面臨的一個重要現實問題。
2文獻綜述
學術界對于手機銀行的采納意向的研究由來已久,但是比較而言,國外學術界對于該領域的研究起步較早、研究較深取得了豐富的成果。SylvieLaloret等(2005)對中國電子銀行用戶進行研究發現:與西方國家相比中國電子銀行用戶以男性為主,安全是影響客戶接受電子銀行的最大的障礙,風險感知、信息技術和中國傳統的現金支付的觀念是影響人們采納電子銀行的主要因素。Ja-ChulGu等(2009)利用技術接受模型(TAM)對影響手機銀行采納意向的因素進行分析,發現:自我效能是感知易用性的最大影響因素,其間接影響消費者采納:結構保證是影響信任的最大因素,信任的增加使得消費者采納手機銀行的可能性大大增加。ITMTiago OI-iveira等(2014)在波蘭對手機銀行的采納意向研究中進一步擴大了組合模型的內容,將整合型科技接受模式(U TA U'l')、任務技術適配模型(TTF)和最初信任模型(ITM)進行整合用于其研究中,研究發現:便利條件和行為意向直接影響手機銀行的采納,最初的信任、績效期望、技術特性和任務技術適配度對行為意向存在顯著性的影響。Daniel Mehrad等(2017)運用結構方程和路徑分析的方法在伊朗對口碑營銷對手機銀行接受的影響進行分析,結果發現:口碑是影響消費者使用手機銀行態度的主要因素。
國內對于該領域的研究起步較晚,且研究的人較少,并且主要以碩士畢業論文為主。謝濱等( 2009)在技術技術模型(TAM)的基礎上,將相容性、速度、自我能力作為外生變量對手機銀行的采納意向進行研究,發現有用性對手機銀行的采納行為有決定性的影響,易用性和成本因素對手機銀行的采納影響不顯著性,風險因素對手機銀行的采納具有負面影響。百璇等(2010)將銀行品牌資產和運營商服務質量作為TAM模型的外生變量納入其研究模型中,發現有用性是影響消費者使用手機銀行意向最直接最顯著的因素:銀行的品牌和手機運營商服務質量同消費者感知手機安全存在顯著性正相關,對手機銀行的采納意向存在間接影響。俞明南等(2014)從個人用戶角度出發將理性行為理論、技術接受模型、計劃行為理論進行整合構建了影響手機銀行使用意向的多因素模型,并且將文化價值觀作為調節變量納入模型中。
通過研究國內外關于手機銀行采納意向的研究成果,我們發現關于該領域的研究主要從個人用戶的角度出發,依托相關的理論模型,基于消費者的主觀感受對影響對手機銀行采納意向的因素及路徑進行分析,其采取的方法基本為調查問卷法,運用結構方程對相關假設進行檢驗。但是這種方式忽略了消費者的其他屬性對其是否開通手機銀行的影響,如消費者的財務數據,行為數據等,除此之外目前的研究成果只能對銀行進行理論上的指導,缺乏針對實踐的應用性指導。因此本文從某信用社的數據庫中,利用脫敏后的消費者相關財務數據,基于數據挖掘的思想和方法對銀行客戶是否開通手機銀行進行分析和預測,希望本次研究的成果對商業銀行在手機銀行營銷中的實踐提供一定的指導。
3數據的預處理
3.1缺失值和極端值的處理
根據對數據的初步統計發現只有城鄉標識變量X3有1007個缺失值,占樣本總量的比例很小僅為1.07%,因此針對存在缺失值的樣本進行了刪除處理。異常值會對模型的結果產生負面影響,本文在進行異常值處理時,把變量99%百分位數作為標準,大于該標準值的值即為極端值,最后將極端值等于變量的99%百分位數。這種處理方法能夠涵蓋99%的原有信息,具有信息損失較小的優點。
3.2變量的篩選
利用sas9.4軟件根據基于熵的連續變量離散化理論對連續變量進行分組處理。設置分組數為100,根據分組的結果,運行求出變量的IV值,根據IV值的大小對變量的預測能力進行評價,剔除預測能力較差的變量。根據相關的文獻研究,當IV值低于0.02的變量沒有預測力,可以直接剔除此類變量,在本文中經過IV值篩選后還有21個變量。 3.3數據分區 經過對數據的初步整理與指標篩選,剩余樣本量為98993。本文對樣本進行分區,采取的是分層抽樣的方法,抽取樣本的80%作為建立模型的訓練集train,剩下的20%的樣本作為檢驗模型精度和穩定性的測試集test。
4 Logistie回歸模型的建立
4.1參數的擬合
利用sas9.4統計軟件,采取逐步篩選法對進入模型的變量進行逐步的篩選,為了矯正模型擬合過程中因為分層抽樣產生的偏好問題,設置先驗概率為8.63%對模型進行矯正,先驗概率是根據該銀行客戶中只有8.63%的客戶開通了手機銀行。具體變量的模型如下
其中logit=ln(Pp).p指客戶開通手機銀行的概率。
4.2影響因素的分析
各變量標準化系數在一定程度上反映各變量影響力的大小。我們選取標準化同歸系數最大的5個影響因素。
從表1可以看出對消費者開通手機銀行影響力最大的5個因素根據其影響力大小分別為:年齡、是否開通第三方支付、動賬流水次數、半年日均貸款余額、是否代發工資。結合業務現實情況我們也可以發現年輕人由于對新事物具有強烈的好奇心和探索欲,經常接觸新事物因此其開通手機銀行的可能性最高,反之老年人由于思想保守,對新事物缺乏認識,學習能力下降其對于手機銀行開通的可能性最小。另外開通第三方支付,動賬流水次數等其他4個因素和手機銀行的功能高度切合,是消費者使用手機銀行的最大需求之一,因此這4個因素對消費者開通手機銀行存在這較大的影響。
4.3模型的評估
本文主要使用混淆矩陣,roc曲線,ks值來評價所建立模型的預測效果,得出的混淆矩陣如下表2。
由混淆矩陣計算出指標sentivity= 0.4428;speeifieity=0.89;ospv= 0.806;aee= 0.665。模型的ROC曲線的AUC值等于0.768,KS= 0.388,綜合以上評價指標可以發現本文建立的邏輯回歸模型對消費者是否開通手機銀行具有較強的預測能力。
5結論和建議
本文研究基于某農信社的數據,借鑒信用評分卡領域運用很成功的證據權重對數據進行轉化,建立邏輯回歸模型,對影響客戶開通電子銀行的因素進行分析,在此基礎上對客戶是否開通手機銀行進行預測。結論主要有以下兩點:
(1)從各因素與開通手機銀行的關系上看,年齡、是否開通第三方支付的客戶、動賬流水次數、日均貸款余額,是否代發工資對客戶是否開通手機銀行存在較大的影響。
(2)本文所建立的邏輯回歸模型利用客戶的財務數據對消費者是否開通手機銀行具有較強的預測效果。
在互聯網金融飛速發展的今天,通過運用數據挖掘技術,搜集客戶信息,對海量的非標準化數據進行提取、歸類,對于商業銀行低成本、高效地進行營銷,從而更好、更快的提高客戶電子銀行開通率具有很強的現實意義。由于本次研究所使用的數據僅僅來自某農信社,具有一定的區域性特點,所用方法比較單一,存在較多的改進空間。
參考文獻:
[1]2016中國電子銀行調查報告[EB/OL]( http://www.360doc.com/ content/16/1220/14/828882_616270699.shtml)
[2]賀躍,鄭建軍,朱蕾.一種基于熵的連續屬性離散化算法[J].計算機應用,2005,( 03):637-638+651
[3] Sylvie Laforet,Xiaoyan Li Consumers' attitudes towards online and mo- bile banking in China Intemational Journal of Bank Marketing,2005 ,23(5):362-380
[4] Ja-Chul Gu, Sang-Chul Lee, Yung-Ho Suh Determinants of behavioral intention to mohile hanking, Expert Systems with Applications,2009 (36):11605-11616