999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于二次聚類和隱馬爾可夫鏈的持卡消費行為預測

2016-07-19 20:39:39宋濤王星
計算機應用 2016年7期
關鍵詞:消費者模型

宋濤 王星

摘要:銀行卡支付在社會消費行為中占很大比例,在促進經濟增長中發揮重大作用,因此,預測持卡消費行為具有重要意義。然而,傳統方法難以有效應對復雜數據和動態變化。為此,提出基于二次聚類和隱馬爾可夫鏈(HMC)理論的個體消費行為預測方法。首先,對消費行為按照序列進行模式聚類,并引入懲罰聚類進行二次聚類,對序列模式中的層次狀態進行平衡劃分;其次,利用HMC來估計序列中消費層次的狀態轉移,對用戶的未來消費行為進行預測。最后,通過實驗比較分析傳統聚類、無懲罰序列聚類和帶懲罰項的聚類結果表明,提出的基于二次聚類和隱馬氏鏈的方法更適用于消費者行為預測。

關鍵詞:

二次聚類;懲罰聚類;隱馬爾可夫鏈;持卡消費;行為預測

中圖分類號: TP18 文獻標志碼:A

0引言

當今,社會消費品零售總額中約有四分之一是用銀行卡支付的。截止2014年底,我國銀行卡發行量已經接近50億張,各季度的非現金支付額度也已突破數百萬億,比上年度都有較大的增長。據中國銀聯測算,銀行卡的使用能拉動全國居民消費的增加,帶動國內生產總值(Gross Domestic Product, GDP)的提升。這些數據表明,銀行卡在刺激消費、拉動內需和促進經濟增長方面發揮著巨大的作用。與此同時,很多卡不明原因減用或停用也促使銀行經營者意識到需要精耕細作、深入考察持卡消費者的消費情況,準確把握消費結構和變化規律,生成有見地的知識決策,因此,建立基于持卡用戶真實消費特征的預測模型是銀行業了解用戶消費行為特征和理解消費特點的基本途徑,也是逐步實現由需求拉動客戶滿意與客戶忠誠的長遠管理規劃。

持卡消費者行為價值是客戶關系管理中的核心概念。目前有不少消費模型,如譚濤等[1]提出的兩階段模型,郭愛君等[2]提出的

近似理想的消費系統(Almost Ideal Demand System, AIDS)模型。這兩種模型均對農村居民消費行為進行了模擬和分析,但其分析的數據是已經發生的消費行為,并不對未來行為進行預測。比較典型的消費者價值模型是RFM(RecencyFrequencyMonetary)行為度量模型[3-4],該模型采用銀行業務系統中消費者最近消費時間(Recency, R請補充R、F、M所代表的完整英文單詞。RFM是此3個英文單詞的縮寫吧,請明確。)、消費頻數(Frequency, F)和消費金額(Monetary, M)三個變量定義客戶的消費價值。該方法首先將連續的RFM數據離散化為幾種狀態級別類型,計算相應類型的概率分布及其時間變化,并根據RFM級別對消費者行為特征進行價值聚類,從而把握用戶的分群消費價值結構。

馬爾可夫鏈(即馬氏鏈)由俄國科學家最早提出,在實際中有廣泛的應用[5-6]。在眾多消費預測模型中,其中比較典型的一種方法即是基于馬爾可夫鏈的方法,即基于RFM狀態的馬氏鏈轉移參數預測模型[7]。該模型考慮了多時期RFM消費價值結構的變化,給出了用戶價值的兩階段參數預測方法,但該方法主要存在如下三方面的缺陷:

1)模型僅適用于具有簡單結構的數據,不適用于復雜結構的數據。傳統消費層次聚類假設個體消費者行為獨立,難以捕捉到個人消費習慣對于消費行為的影響,沒有將變化和走向相似的序列共同考慮,結果很難產生精準預測。

2)消費行為如購買金額和消費頻率常常呈現嚴重的右偏分布,即一些數據的偏度很大,模型參數估計不穩定。

3)傳統的馬爾可夫鏈方法假設消費狀態與消費行為相同,忽略了不同的消費狀態在動態演變中對消費行為產生的影響。

隱馬爾可夫鏈(即隱馬氏鏈)[8](Hidden Markov Model, HMM)是一種典型的統計機器學習方法,它是觀測馬氏鏈模型的延伸。傳統觀測馬氏鏈認為觀測和狀態是統一的;而隱馬氏鏈則認為觀測和狀態是分離的,每個觀測部分由狀態決定。隱馬氏鏈在多個領域得到成功應用:蔡文學等[9]將其應用于軌跡定位,朱旭東等[10]應用隱馬爾可夫鏈進行異常檢測,Choo等[11]則在基因檢測中引入HMC。

為了得到更為客觀的、更有預測性的消費結構,本文提出基于二次聚類和HMC理論的個體消費者結構預測方法。該方法以消費者多期消費行為觀測數據為起點,首先,對消費行為按照序列進行模式聚類,并引入懲罰聚類進行二次聚類,對序列模式中的層次狀態進行平衡劃分;其次,基于HMC估計序列中消費層次的狀態轉移,對用戶的未來消費行為進行預測;最后,通過實驗比較分析表明,與傳統聚類、無懲罰序列聚類相比,本文提出的基于二次聚類和隱馬氏鏈的方法更適用于消費者行為預測模型。

1本文方法

本章將建立消費者價值行為預測模型,即采用HMC模型,并對模型中的參數進行訓練計算。在此之前,首先對數據采用序列聚類和懲罰聚類方法對序列模式中的層次狀態進行平衡劃分。模型建立框架如圖1所示。

1.1用于持卡消費行為的二次聚類

為了更準確地預測消費行為,即對數據進行聚類的組合分析,在對數據進行序列模式分解的基礎上,引入懲罰聚類對數據消費層次劃分。

1.1.1序列聚類

問題的基本概率框架是有限混合分布:

其中:S表示一個序列;wj表示第j個模式的權重;pj(S|θj)表示在第j種序列模式下S序列的分布密度,θj代表了第j種模式,每一種模式都代表了一種消費者類型,每一種消費者類型都由一個隱馬氏鏈定義了消費層次的轉移,以及每個消費層次的特征。

為了能對持卡消費行為進行序列模型分解,在此參照美國、日本業界領先的消費者生活形態的分類研究模型,定義在消費研究中比較受關注的六類序列,即k=6:成長型消費者(S1)、衰減型消費者(S2)、起伏倒U型(S3)、跳躍型消費者(S4)、記憶型消費者(S5)和起伏型U型(S6),典型實例如圖2所示。

S1的特點是刷卡次數隨時間呈現增長態勢;S2的特點是刷卡次數隨時間呈現減少態勢;S3的特點是前半程上升、后半程下降;S4主要表現出層次易變的特點;S5的特點是消費層次傾向于保持不變;S6的特點是前半程下降、后半程上升。假設六個序狀態之間沒有交互作用,可以定義矩陣A表示θj的核心信息:

1.1.2懲罰聚類

我國的消費特點是以儲蓄型為主,即小額消費的密度遠高于大額或超大額消費的密度;另外還有一些大尺度數據的存在,這些異常都會導致數據的直接聚類不能產生很好的平衡效果。為了消除或減弱這些影響,在此引入懲罰聚類進行二次聚類,對數據進行層次劃分。

消費層次劃分是研究消費行為變化的起點。傳統的聚類分析如k均值法[12]或期望最大(Expectation Maximization, EM)算法 [13]是無監督數據挖掘工具中的代表,它可以在不借助響應變量幫助的情況下探索數據的群組結構。在聚類分析中比較困難的問題是聚類類別數的確定。目前大部分方法是以類內距離的最優化作為選擇標準。

1.2基于隱馬氏鏈的消費者行為預測

1.2.1隱馬氏鏈及消費狀態定義

隱馬氏鏈由于不對數據的分布類型作出過多的理論限制,從而具有廣泛的適用性。隱馬氏鏈分離狀態和觀測的做法本質上擴展了序列數據的研究視角,提高了序列信息的利用率。構建合理的隱馬氏鏈可促使狀態內數據變動具有較強的穩健性;同時對類間模式的區別有較強的敏感性。按照觀測值概率取值與狀態轉移描述方式的不同,隱馬氏鏈可以分為離散型HMM(Discrete Hidden Markov Model, DHMM)、半連續型HMM(SemiContinuous Hidden Markov Model, SCHMM)與連續型HMM(Continuous Hidden Markov Model, CHMM)。

本文研究使用DHMM,記為λ=(S,XV,π,A,B此處的B是矢量、向量或矩陣嗎?請明確。)。

其中:狀態集S=(s1,s2,…,si,…,sN)是不同的狀態模組,N為狀態數。

X是序列模式集S上的離散隨機變量,稱為狀態序列,其中si對應狀態模組中的一個模式。

狀態轉移矩陣A=(aij)N×N是狀態概率轉移矩陣,表示狀態從si變動到sj的概率,即aij=P(Xt+1=sj|Xt=si),其中:1≤i, j≤N,∑Nj=1aij=1。

π=(π1,π2,…,πN)是初始狀態概率矢量。

V=(v1,v2,…,vM)為不同的觀測,M為觀測數。

B=(bj(vk))N×M表示狀態為j時觀測值的觀測分布條件概率矩陣,其中:1≤j≤N, 1≤k≤M,bj(vk)≥0,∑Mk=1bj(vk)=1。

考慮到分類結果各部分比例的均衡性,本文將持卡消費者按人均消費頻次劃分為以下四種類型:1)低水平,指人均消費頻次低于全體平均的25%;2)中低水平,指人均消費頻次位于全體平均的25%~40%;3)中高水平,指人均消費頻次位于全體平均的40%~85%;4)高水平,指人均消費頻次高于全體平均的85%。四種狀態分別由四個層次分布構成:

狀態a: Normal(μ1,σ21), μ1>0;

狀態b: Normal(μ2,σ22), μ2>μ1;

狀態c: Lognormal(μ3,σ23)], μ3>μ2;

狀態d: Lognormal(μ4,σ24)], μ3>μ4μ4>μ3。

狀態a至狀態d分別表示低消費層、中消費層、中高消費層和高消費層。根據中高消費層的數據分布特點,分別采用了對數正態分布進行結構描述。四個狀態之間可以相互轉移,如圖3所示。

1.2.2基于隱馬氏鏈的預測及參數估計

其中:γ1(i)是初始t=1處狀態的期望頻率;ij的分子指狀態i轉移到狀態j的期望步數,ij的分母指狀態i出發的期望轉移數;b^j(k)的分子指在狀態j觀察到vk的期望時間,b^j(k)的分母指狀態i出發的期望行程。

2實驗結果與分析

2.1實驗數據

實驗分析所用數據取自國內某大型銀行13821名持卡用戶自2012年6月到2015年6月連續36個月月消費行為數據。在此需要關注每個用戶消費價值的序列變化。將數據按照序列比例拆分成兩部分,其中:9417筆作為訓練數據,4404筆作為測試數據。

2.2實驗分析

首先,在同一筆消費數據上,對三種不同的狀態聚類方式和三種序列聚類的方式進行組合實驗,即分別測試RFM層次聚類、k均值聚類(k=6)和懲罰項的狀態聚類各自與無序列聚類、有序列聚類傳統馬爾可夫鏈[17]和隱馬爾可夫鏈(采用KL距離定義類間距離)進行組合的效果,以預測精度為評價標準,得到表31。

從表31可以看出,RFM層次聚類和k均值聚類的結果沒有明顯的差異;而帶懲罰項的聚類能很好地改善預測精度,這說明對于個體消費行為數據,弱化異常數據得到平衡聚類對把握消費者主體特征有顯著影響。有序列聚類的隱馬爾可夫鏈相對于無序列聚類預測精度提高了20%,相對于有序列聚類傳統馬爾可夫鏈預測精度提高了13%,充分說明把握用戶的消費習慣對于決定消費者未來的消費狀態的重要性,隱馬爾可夫鏈不直接對連續數據狀態化,而是通過時間序列擬合對狀態進行劃分,對傳統馬爾可夫的結果起到平滑作用。

另外,在訓練數據分析中產生了狀態數為4的合理聚類,即每個序列組由4狀態隱馬爾可夫鏈構成,因此,時間跨度中雖然

居民消費價格指數(Consumer Price Index, CPI)有先增后降的特點;但該數據中消費頻數的總體結構沒有受到階段性影響,所以直接對36個月數據建立模型,得到轉移矩陣如表42所示。

表42的數據表明了以下幾個消費特點:

1)持卡消費者刷卡行為受到序列模式的影響,不同的消費習慣即不同的消費序列模式下,消費行為的轉移矩陣大不相同。不同的序列模式下,隱馬爾可夫鏈的狀態轉移存在很大差異。

2)不同序列模式對于消費行為狀態轉移所起的作用各不相同。由序列比例構成來看,數據中以記憶型消費者(A5)和增長成長型消費者(A1)為主,二者占數據比例約為71.8%,其中記憶型占47.8%,增長成長型消費者占24%,記憶型中高層占訓練比23%,這充分說明分析人群的主流特點是行為保持型和消費增長成長型用戶,該銀行的整體服務得到了大部分持卡用戶的認同,高端消費者呈增長態勢。增長成長型用戶中出現了一個中高層吸收態,占訓練數據的20%,這些人群直接從低層直接轉變為中高層消費者,充分反映了該銀行對消費者的強大吸引作用。

3)跳躍型消費者(A4)占數據比為15%左右,觀察發現消費行為向上或向下轉移的概率主要在低層、中高層和高層之間,轉移的可能性存在差異。對于一個低層次消費者,他轉向中高層次的可能性為35%,而對于高層次的消費者,直接轉向低層次的可能性只有12%,但更傾向于轉向中高層次。這說明對活躍用戶而言,存在向下轉移緩慢現象,這說明多次呈現高層次消費用戶更傾向于保持高端水平。

4)U型用戶(A6)占1.0%,中高層消費者在中高和高層之間有23%可能性得到保持(19%保持中高消費,4%轉向高消費),顯示出這部分消費者理性選擇高端消費的潛力。

5)8.7%消費者呈現消費持續下降(A2)和3.5%消費者呈現消費階段性下降態勢(A3),從高層下降到中高水平有35%的保持;但從中高水平向下轉移的可能性都超過60%,這體現了消費者在猶豫中作出隱退的選擇。

注意:當進行懲罰聚類時,分散點的個數會影響到最優聚類數,一般來說,分散點越多,最優聚類數相對減少,但過少的聚類會對大樣本數據有一定程度的影響,因此,在懲罰聚類時,不宜采用過高的懲罰數值,將區域類型劃分為四類比較合適。當研究范圍擴大或空間尺度變小時,可以考慮劃分更多的區域類型。

3結語

本文主要探討了持卡消費行為預測模型的建立與應用,提出基于二次聚類和隱馬爾可夫鏈理論的個體消費行為預測方法,該方法將個體消費行為進行序列模式聚類;接著,引入懲罰聚類弱化異常值對各序列模式中的層次狀態進行平衡劃分;最后,基于隱馬爾可夫鏈估計序列中消費層次的狀態轉移。對國內某大型銀行36個月的消費數據分別采用傳統聚類、無懲罰序列聚類和帶懲罰項的聚類進行了分析比較,結果表明提出的基于二次聚類和隱馬氏鏈的方法更適用于消費者行為預測模型。

參考文獻:

[1]

譚濤, 張燕媛, 唐若迪, 等. 中國農村居民家庭消費架構分析:基于QUAIDS模型的兩階段一致估計[J]. 中國農村經濟, 2014(9): 17-30.(TAN T, ZHANG Y Y, TANG R D, et al. The analysis of consume of Chinese rural family: the twostep consistency estimation based on QUAIDS model[J]. Chinese Rural Economy, 2014(9): 17-30.)

[2]

郭愛君, 武國榮. 基于AIDS模型的我國農村居民消費結構的動態分析[J]. 人口與經濟, 2008(2): 34-38.(GUO A J, WU G R. A adynamic analysis of Chinas rural residents consumption structure based on AIDS model[J]. Population & Economics, 2008(2): 34-38.)

[3]

HUGHES A M. Strategic Database Marketing[M]. Chicago, IL: Probus Publishing Company, 1994: 75-80.

Publisher: McGraw-Hill; 2 edition (May 16, 2000)

[4]

HUGHES A M. Boosting response with RFM[J]. American Demographics, 1996, 3(3): 4-9.

[5]

鄧鑫洋, 鄧勇, 章雅娟, 等. 一種信度馬爾科夫鏈模型及應用[J]. 自動化學報, 2012, 38(4): 666-672.(DENG X Y, DENG Y, ZHANG Y J, et al. A belief Markov model and its application[J]. Acta Automatica Sinica, 2012, 38(4): 666-672.).

[6]

易錦, 羅峋, 凹建勛, 等. 基于馬爾科夫鏈的軟件故障分類預測模型[J]. 中國科學院大學學報, 2013, 30(4): 562-567.(YI J, LUO X, AO J X, et al. Software fault classification prediction model based on Markov chain[J]. Journal of University of Chinese Academy of Sciences, 2013, 30(4): 562-567.)

[7]

PFEIFER P E, CARRAWAY R L. Modeling customer relationships as Markov chains[J]. Journal of Interactive Marketing, 2000, 14(2): 43-55.

[8]

BAUM L E, PETRIE T. Statistical inference for probabilistic function of finite state Markov chains[J]. Annals of Mathematical Statistics, 1966, 37(6): 1554-1563.

[9]

蔡文學, 邱珠成, 黃曉宇, 等. 基于WiFi指紋的室內軌跡定位模型[J]. 計算機工程, 2015, 41(6): 76-82.(CAI W X, QIU Z C, HUANG X Y, et al. Indoor track positioning model based on WiFi fingerprint[J]. Computer Engineering, 2015, 41(6): 76-82.)

[10]

朱旭東, 劉志鏡. 基于主題隱馬爾科夫模型的人體異常行為識別[J]. 計算機科學, 2012, 39(3): 251-259.(ZHU X D, LIU Z J. Human abnormal behavior recognition based on topic hidden Markov model[J]. Computer Science, 2012, 39(3): 251-259.)

[11]

CHOO K H, TONG J C, ZHANG L. Recent applications of hidden Markov models in computational biology[J]. Genomics, Proteomics and Bioinformatics, 2004, 2(2): 84-96.

[12]

HARTIGAN J A, WONG M A. Kmeans clustering algorithm [J]. Applied Statistics, 2013, 28(1): 100-108.

[13]

DEMPSTER A P, LAIRD N M, RUBIN D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, Series B (Methodological), 1977, 39(1): 1-38.

[14]

TSENG G C. Penalized and weighted kmeans for clustering with scattered objects and prior information in highthroughput biological data [J]. Bioinformatics, 2007, 23(17): 2247-2255.

[15]

劉建偉, 崔立鵬, 劉澤宇, 等. 正則化稀疏模型[J]. 計算機學報, 2015, 38(7): 1307-1322.(LIU J W, CUI L P, LIU Z Y, et al. Survey on the regularized sparse models[J]. Chinese Journal of Computers, 2015, 38(7): 1307-1322.)

[16]

ROBERTSON A W, KIRSHNER S, SMYTH P. Hidden Markov models for modeling daily rainfall occurrence over Brazil, Technical Report UCIICS 0327[R]. Irvine, CA: University of California, Department of Information and Computer Science, 2003: 29-56.

http://www.datalab.uci.edu/papers/tr0327_color.pdf

[17]

PORIKLI F. Clustering variable length sequences by eigenvector decomposition using HMM[C]// SSPR 2004 and SPR 2004: Proceedings of the 2004 Joint IAPR International Workshops on Structural, Syntactic, and Statistical Pattern Recognition, LNCS 3138. Berlin: Springer, 2004: 352-360.

[18]

劉健, 吳翊, 譚璐. 對bootstrap方法的自助抽樣的改進[J]. 數學理論與應用, 2006, 26(1): 69-72.(LIU J, WU Y, TAN L. An improvement to the resampling procedure of Bootstrap method[J]. Mathematical Theory and Applications, 2006, 26(1): 69-72.)

猜你喜歡
消費者模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
系無理取鬧?NO! 請為消費者擦干眼淚
人民交通(2019年16期)2019-12-20 07:03:52
日化品牌怎樣才能吸引年輕消費者?
消費導刊(2018年22期)2018-12-13 09:19:00
只用一招 讓喊產品貴的消費者閉嘴
知識付費消費者
3D打印中的模型分割與打包
悄悄偷走消費者的創意
悄悄偷走消費者的創意
主站蜘蛛池模板: 69av免费视频| 日韩中文欧美| 国产www网站| 欧美高清三区| 亚洲永久色| 国产成人欧美| 日韩大乳视频中文字幕| 中文字幕首页系列人妻| 亚洲码在线中文在线观看| 亚洲V日韩V无码一区二区| 国产欧美在线观看一区| 亚洲欧美国产视频| 国产午夜人做人免费视频| 亚洲一区二区三区香蕉| 国产免费高清无需播放器| 国产中文在线亚洲精品官网| 日韩欧美中文字幕在线韩免费| 最新国产午夜精品视频成人| 超碰91免费人妻| 天天综合天天综合| 国产成人乱码一区二区三区在线| 美美女高清毛片视频免费观看| 啊嗯不日本网站| 欧美一级色视频| 在线国产毛片| 谁有在线观看日韩亚洲最新视频| 好久久免费视频高清| 成人福利在线视频免费观看| 天堂在线www网亚洲| 成人精品区| 欧美黑人欧美精品刺激| 国产呦视频免费视频在线观看| 日本精品中文字幕在线不卡| 精品一区二区三区四区五区| 国产一区免费在线观看| 韩日午夜在线资源一区二区| 五月婷婷导航| 国产成人a在线观看视频| 欧美不卡在线视频| 日韩午夜片| 欧美激情视频一区| 又污又黄又无遮挡网站| 毛片视频网| 亚洲成人播放| 色综合综合网| 国产精品蜜芽在线观看| 日本道中文字幕久久一区| 日韩二区三区| 自拍亚洲欧美精品| 无码久看视频| 午夜精品影院| 亚洲第一色网站| 国产精品部在线观看| 亚洲欧美日韩视频一区| 国产精品部在线观看| 欧美特黄一免在线观看| 午夜一级做a爰片久久毛片| 国产精品视频猛进猛出| 日韩最新中文字幕| 中文字幕 91| 在线色综合| 色综合婷婷| 无码日韩人妻精品久久蜜桃| 亚洲成年网站在线观看| 国产91在线免费视频| 内射人妻无套中出无码| 国产欧美日本在线观看| 日韩午夜片| 99精品视频九九精品| 国产熟女一级毛片| 国产精品国产三级国产专业不| 欧美精品成人| 欧美一区精品| www.91在线播放| 伊人无码视屏| 在线观看国产黄色| 全裸无码专区| 91麻豆精品视频| 天天综合网站| 中文字幕在线一区二区在线| 亚洲欧美自拍视频| 欧美成人看片一区二区三区 |