摘 要:本文從分析用戶的歷史交易行為入手,研究用戶行為畫像的方法、用戶行為建模指標(biāo)、算法分析等內(nèi)容。并通過實(shí)例分析建立用戶畫像模型的方法和步驟,取得了比較好的效果。
關(guān)鍵詞:KMeans算法;用戶畫像;用戶行為
一、問題的提出
Alan Cooper最早提出了用戶畫像(Personas)的概念,Persona是真實(shí)用戶的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型,通過用戶調(diào)研去了解用戶,根據(jù)他們的目標(biāo)、行為和觀點(diǎn)的差異,將他們區(qū)分為不同的類型,然后每種類型中抽取出典型特征,賦予名字、照片、一些人口統(tǒng)計(jì)學(xué)要素、場(chǎng)景等描述,就形成了一個(gè)人物原型(Personas)。
二、用戶行為畫像方法論
用戶畫像可以基于定性的方法也可以基于定量的方法,用戶數(shù)據(jù)的定位可以來(lái)源于靜態(tài)數(shù)據(jù),例如年齡、性別、地域、婚姻狀況、資產(chǎn)特征等人口社會(huì)屬性;也可以來(lái)源于動(dòng)態(tài)數(shù)據(jù),例如瀏覽、搜索、點(diǎn)擊、購(gòu)買等行為特征。在電商行業(yè)中,用戶畫像可以分析用戶的使用習(xí)慣、喜好、一系列的購(gòu)買行為,以及周邊的人群的身份、屬性、年齡等。
本論文認(rèn)為用戶的歷史交易行為決定了用戶未來(lái)的消費(fèi)傾向和消費(fèi)行為,而用戶的基礎(chǔ)屬性是隱性的,通過用戶的行為特征更容易挖掘用戶的特點(diǎn),更容易與營(yíng)銷結(jié)合。本文以某電商自營(yíng)平臺(tái)半年的交易數(shù)據(jù)為例根據(jù)用戶的不同方面所具有的行為特征建立用戶的行為模型進(jìn)行數(shù)據(jù)挖掘,針對(duì)用戶不同方面的行為及各行為間內(nèi)部相關(guān)聯(lián)的行為特征從數(shù)據(jù)的角度去研究用戶的行為模式,并將這些行為模式的內(nèi)容和所具有的規(guī)律進(jìn)行描述。
三、用戶行為建模
(一)用戶消費(fèi)行為指標(biāo)的建立
建立用戶消費(fèi)行為指標(biāo)其實(shí)質(zhì)就是為消費(fèi)行為模型選擇細(xì)分變量,在這個(gè)基礎(chǔ)上對(duì)用戶進(jìn)行識(shí)別和畫像。本文用RFM模型的三個(gè)行為變量來(lái)描述和區(qū)分用戶的消費(fèi)行為,來(lái)進(jìn)行用戶消費(fèi)行為指標(biāo)的建立,并不用傳統(tǒng)的RFM分析對(duì)用戶進(jìn)行打分和排序。指標(biāo)說(shuō)明如表1所示。
(二)算法分析
在算法的選擇方面,采用聚類分析方法,聚類的其目的是挖掘出數(shù)據(jù)之間潛在的自然結(jié)構(gòu)關(guān)系,將用戶劃分成互不相交的類別。在同一類別里,用戶具有相似的特征。
1KMeans聚類算法
KMeans算法是1967年由MacOueen首次提出的一種經(jīng)典算法。基本思想是把待聚類的對(duì)象劃分成k個(gè)類,用戶要指定聚類的個(gè)數(shù)k。接下來(lái)要通過迭代運(yùn)算將對(duì)象所屬的類進(jìn)行調(diào)整,不斷的迭代直到各個(gè)類別中的對(duì)象不再發(fā)生變化,就完成了聚類。
算法具體形式如下:
E=∑ki=1∑p∈ci|p-mi|2
2算法描述
KMeans算法的處理流程如下:首先,隨機(jī)選這k個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的初始均值或中心,對(duì)剩余的每個(gè)對(duì)象根據(jù)其與各簇中心的距離將它指派到最近的簇,然后算每個(gè)簇的新均值,得到更新后的簇中心,不斷重復(fù)直到函數(shù)收斂。
四、實(shí)證研究
無(wú)錫某電器科技有限公司是一家利用高科技的技術(shù)及精密的儀器設(shè)備生產(chǎn)便攜式照明產(chǎn)品的公司。公司上百種產(chǎn)品,建有自營(yíng)電商網(wǎng)站。對(duì)電商企業(yè)來(lái)說(shuō)如何識(shí)別用戶、了解用戶的特征對(duì)企業(yè)制定營(yíng)銷策略、提供個(gè)性化服務(wù)至關(guān)重要。本文從企業(yè)數(shù)據(jù)庫(kù)中抽取了100個(gè)用戶半年的脫敏后的交易數(shù)據(jù)作為數(shù)據(jù)分析的樣本數(shù)據(jù)。
(一)用戶消費(fèi)行為分析表
由于企業(yè)交易數(shù)據(jù)庫(kù)中并沒有我們建立用戶消費(fèi)行為指標(biāo)所需要的字段,所以首先建立用戶消費(fèi)行為分析表,定義用戶ID、平均銷售金額、消費(fèi)頻次、上次購(gòu)買時(shí)間等四個(gè)字段。字段名、數(shù)據(jù)類型等如表2所示。
(二)數(shù)據(jù)處理
然后進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)部分是整個(gè)模型的基礎(chǔ),拿到樣本數(shù)據(jù)以后并不能直接進(jìn)行聚類分析,還要檢查數(shù)據(jù)是否有問題。
對(duì)于無(wú)效的值和空值要進(jìn)行刪除處理,本文應(yīng)用替換法對(duì)無(wú)效值和空值進(jìn)行處理,即用改變量在其他所有對(duì)象的取值的均值來(lái)替換變量的值。對(duì)于數(shù)據(jù)范圍超出范圍的數(shù)據(jù)或者矛盾的數(shù)據(jù)和不合理的數(shù)據(jù)要進(jìn)行檢查,去掉數(shù)據(jù)中的異常值,本文異常值視同無(wú)效值和空值,處理方法同上。
對(duì)用戶近半年的數(shù)據(jù)進(jìn)行整合。從數(shù)據(jù)庫(kù)中抽取出用戶編號(hào)、用戶購(gòu)買時(shí)間、銷售金額三個(gè)字段。在此基礎(chǔ)上計(jì)算“平均銷售金額”、“消費(fèi)頻次”和“上次購(gòu)買間隔”。“平均銷售金額”用用戶6個(gè)月的消費(fèi)金額算平均值。“購(gòu)買頻率”是將用戶編號(hào)進(jìn)行計(jì)數(shù)得到。每個(gè)用戶年度中最后一次購(gòu)買時(shí)間與截止日(將7月1號(hào)設(shè)置為截止日)相減得到“上次購(gòu)買間隔”。
部分樣本數(shù)據(jù),如表3所示。
(三)變量標(biāo)準(zhǔn)化
根據(jù)對(duì)樣本數(shù)據(jù)的分析,各指標(biāo)數(shù)據(jù)不在同一個(gè)區(qū)間,甚至不在同一個(gè)數(shù)量級(jí),這樣直接聚類建模勢(shì)必對(duì)結(jié)果產(chǎn)生干擾。因此為了弱化這個(gè)因素對(duì)于結(jié)果的影響,在建模前要對(duì)數(shù)據(jù)進(jìn)行處理。本文采用各變量相對(duì)于平均值的偏離程度代替變量的絕對(duì)值,這也是數(shù)據(jù)標(biāo)準(zhǔn)化的重要步驟。
(四)KMeans聚類
在進(jìn)行聚類分析前,還要確定聚類參數(shù)K,它是聚類數(shù)目。按照以往的經(jīng)驗(yàn)K值過大或者過小都會(huì)對(duì)對(duì)聚類結(jié)果產(chǎn)生較大影響。一般情況下,如若K值取值過小,會(huì)導(dǎo)致不同的用戶群之間特征不明顯,同一群中用戶數(shù)過多,不能發(fā)現(xiàn)有效的細(xì)分模型,這樣的用戶群畫像也就毫無(wú)意義。如若K值取值過大,會(huì)導(dǎo)致類別太多,同一類中特征不明顯,生成眾多無(wú)意義的用戶群,對(duì)市場(chǎng)營(yíng)銷策劃無(wú)任何指導(dǎo)意義。因此要得到較為合理的K需要經(jīng)過反復(fù)多次的試驗(yàn),得出最終的最佳K值。考慮到公司產(chǎn)品較少,用戶的偏好不顯著,另外選取的數(shù)據(jù)庫(kù)的樣本數(shù)據(jù)較少,再結(jié)合經(jīng)驗(yàn)初步將聚類數(shù)K值定為3-5之間。分別取K值為3,4,5進(jìn)行聚類分析。試驗(yàn)多次并從中選擇最優(yōu)的方案。
本文的實(shí)驗(yàn)環(huán)境:CPU:Inter Core i5 2.5GHz,4GB內(nèi)存,Windows 7 旗艦版,R軟件。程序代碼(略)。
當(dāng)K取值分別為3、4、5時(shí),分別進(jìn)行聚類實(shí)驗(yàn),結(jié)果說(shuō)明如下:
①當(dāng)K取值分別為3時(shí),進(jìn)行聚類實(shí)驗(yàn),結(jié)果如圖1所示。
②當(dāng)K取值分別為4時(shí),進(jìn)行聚類實(shí)驗(yàn),結(jié)果如圖2所示。
③當(dāng)K取值分別為5時(shí),進(jìn)行聚類實(shí)驗(yàn),結(jié)果如圖3所示。
通過對(duì)以上三個(gè)K值分析檢驗(yàn)結(jié)果的比較,當(dāng)聚類數(shù)定位3時(shí),每個(gè)用戶群體分布明顯,群體之間的界限清晰,聚類效果較好。因此將聚類數(shù)定為3類是最理想的聚類結(jié)果,根據(jù)對(duì)應(yīng)的用戶歸屬類別如表5所示。
(五)群體畫像分析
根據(jù)聚類結(jié)果3個(gè)類別的數(shù)據(jù)可以明顯看到3類不同消費(fèi)群體的特征,C1類用戶戶關(guān)心價(jià)格,消費(fèi)頻次不高,客單金額小,對(duì)企業(yè)的信任度不高,給企業(yè)帶來(lái)的利潤(rùn)小;C2數(shù)量最多,對(duì)企業(yè)電子商務(wù)網(wǎng)站產(chǎn)品持肯定的態(tài)度,交易穩(wěn)定是企業(yè)穩(wěn)定生存的基礎(chǔ);C3類用戶消費(fèi)頻次高,平均消費(fèi)金額高,是企業(yè)可以從中獲得利潤(rùn)最大的群體潛在用戶消費(fèi)者。
五、總結(jié)
對(duì)用戶進(jìn)行精心化的描述,使企業(yè)對(duì)用戶的了解更加準(zhǔn)確,能有效提升精準(zhǔn)營(yíng)銷的效果,從而采取精細(xì)化個(gè)性化的服務(wù)來(lái)更好的滿足用戶需求、提升營(yíng)銷效果、改善用戶體驗(yàn),并且能降低成本、增加收入,同時(shí)實(shí)現(xiàn)用戶針對(duì)性管理。因此具有明確的經(jīng)濟(jì)效益。本文提出了一種完全依據(jù)用戶消費(fèi)行為建模來(lái)進(jìn)行用戶畫像的方法,以此來(lái)描述用戶群的特征、刻畫用戶群的行為。通過實(shí)例表明這種方法是有效的,很好的符合了客觀實(shí)際、精確的刻畫了用戶群的特征,為根據(jù)不同類型用戶群提供個(gè)性化服務(wù)提供了依據(jù)。
參考文獻(xiàn):
[1]Aly M,Hatch A,Josifovski V,et al.WebScale User Modeling for Targeting[C].Proceedings of the 21th international conference companion on World Wide Web.Lyon,F(xiàn)rance:ACM,2012.
[2]呂斌,張晉東.基于RFM模型的商業(yè)銀行營(yíng)銷決策分析[J].統(tǒng)計(jì)與決策,2013,(14).
[3]徐翔斌,王佳強(qiáng),涂歡,穆明.基于改進(jìn)RFM模型的電子商務(wù)客戶細(xì)分[J].計(jì)算機(jī)應(yīng)用,2012,32(5).
[4]王文賢,金陽(yáng),陳道斌.基于RFM模型的個(gè)人客戶忠誠(chéng)度研究[J].金融論壇,2012,(3).
[5]于海濤,李莘,姚念民.Kmeans聚類算法優(yōu)化方法的研究[J].小型微型計(jì)算機(jī)系統(tǒng),2012,10(10).
基金:本文為無(wú)錫職業(yè)技術(shù)學(xué)院人才工程校級(jí)科技課題“基于大數(shù)據(jù)的用戶畫像模型及可視化研究”(課題編號(hào):3116021931)階段成果
作者簡(jiǎn)介:趙建偉(1980-),男,碩士,無(wú)錫職業(yè)技術(shù)學(xué)院講師,研究方向:電子商務(wù)與數(shù)據(jù)化營(yíng)銷。