李佳慧 趙剛
摘要:隨著云計算、物聯網等新一代技術的迅猛發展,以及來自政府的政策支持,大數據時代已經到來,網絡交易所產生的數據量正呈指數級上漲,這為企業構建用戶畫像提供了豐富數據來源。本文立足于電子商務領域,從標簽體系建設和畫像體系建設兩方面來探討如何構建用戶畫像,并在此基礎上分析利用RFM模型構建電子商務用戶畫像的方法與步驟。
關鍵詞:電子商務;用戶畫像;大數據;RFM模型
引言
據CNNIC第41次《中國互聯網絡發展狀況統計報告》顯示,截至2017年12月,我國網民規模達7.72億,普及率達到55.870,其中,網購用戶規模達5.33億,同比增長14.30。隨著中國經濟已經進入高質量增長階段,國家供給側結構調整的改革主線為企業互聯網的發展帶來了政策紅利,2017年《中華人民共和國網絡安全法》正式實施,相關配套法規陸續出臺,網絡交易環境不斷得到改善,為電子商務的誠信交易創造了有利的條件,現代物流業的快速發展,我國網絡基礎設施的不斷改善,為電子商務發展提供了重要支撐保障,使得我國電子商務用戶規模呈現快速增長。
在中國網民數量與電子商務市場交易規模持續增長,我國商務大數據建設取得重要進展,覆蓋主要平臺.主要領域的電子商務運行監測和統計分析體系初步形成的背景下,電商平臺在運行過程中存儲了海量的交易數據,形成了巨大的數據流量。在大數據背景下出現的云計算、人工智能等數字技術為電子商務創造了豐富的應用場景,不斷催生新營銷模式和商業業態,電商企業如何有效利用數據資源在快速變化、競爭激烈的市場環境中挖掘用戶需求,創新經營,用戶畫像概念應運而生,其能夠完美地抽象出用戶的信息全貌,幫助分析用戶行為、消費習慣等重要信息。構建精準的用戶畫像,是提高用戶活躍度與復購率的有效手段,是企業運營與決策的重要依據,可以看作為企業應用大數據的根基。
1、什么是用戶畫像
用戶畫像(Persona)最早是由交互設計之父Alan Cooper提出的,他認為用戶畫像是真實用戶的虛擬代表,是根據一系列用戶的真實數據而挖掘出的目標用戶模型。用戶畫像的本質是消費者特征“可視化”,通過收集與分析用戶的基本屬性、社會交往、行為偏好等多個維度的主要信息,將得到的用戶所有標簽綜合起來,即可勾勒出用戶的整體特征與輪廓。在電子商務領域中,用戶畫像所能實現的客戶識別、精準營銷、改善經營、拓展市場等功能,是企業應用用戶畫像的主要驅動力。
1.1客戶識別
不同的用戶對企業具有不同的價值,通過對用戶進行多個維度的特征分析,企業可以根據用戶貢獻度對不同用戶進行區分,幫助企業實現對潛在用戶的識別,并對不同價值客戶采取不同程度的維護手段。
1.2精準營銷
通過給不同用戶打上專屬標簽,可以重新理解消費者,分析并預測用戶的消費行為。不僅能滿足消費者日益挑剔的需求,同時也可以促進商品曝光,提高商品成交效率。
1.3改善經營
用戶畫像可以輔助決策者在正確的時間對正確的人開展正確的活動,通過用戶畫像分析方法改善經營決策,為管理層提供可靠的客戶相關數據支撐,可以使經營決策更加高效、敏捷,精確性更高。
1.4拓展市場
利用數據挖掘、機器學習等深度挖掘方法構建精準而全面的用戶畫像,可以使企業更加明晰自身業務的優劣勢,在此基礎上不斷延伸自己業務的應用場景。
2、用戶畫像構建研究
用戶畫像是通過收集與分析消費者社會屬性、行為習慣等主要信息后,抽取用戶信息并進行標簽化和結構化處理,完美地抽象出一個用戶的全貌的過程。其本質是給用戶貼標簽,一個標簽通常是人為規定的高度精煉的特征標識。主要呈現出兩個重要特征:一是語義化,如客戶類型:忠誠客戶,人們能方便地理解每個標簽含義,能夠較好的滿足業務需求;二是短文本。每個標簽通常只表示一種含義,標簽本身無需再做過多文本分析等預處理工作。根據業務需求將不同標簽組合成情境化用戶特征,構建出精準的用戶畫像主要包括數據采集、標簽體系構建與畫像體系構建三個部分。
2.1用戶數據采集
構建用戶畫像是為了還原用戶信息,確保信息的客觀真實性,因此必須遵循一個大的原則:數據來源于所有用戶相關的真實數據。在此原則下,為了保證采集到的數據具有可用性,能夠滿足分析目標,可以將數據采集劃分不同維度。在電子商務領域,數據采集維度主要有用戶基本信息數據,包括性別、年齡、婚否、收入等;用戶內容偏好數據,包括用戶的瀏覽、點擊、收藏、評論等;網絡行為數據,包括瀏覽路徑、瀏覽次數、頁面停留時長等;用戶交易數據,包括購買數量、購買種類、支付金額、購買頻率等。這些數據主要來源于用戶行為日志、企業后臺數據庫、客戶關系管理系統等。
2.2標簽體系建設
收集到所需數據之后,需要對數據進行清洗:去重、去異常數據、去刷單數據等,然后再提取所需特征數據用于創建標簽。整個標簽體系建設的流程通常是標簽定義、標簽分類分級、標簽生產、標簽更新、標簽查詢、標簽管理,可以概括為標簽設計和標簽管理兩個部分。
2.2.1標簽設計
(1)標簽分類
從數據提取維度來看,標簽數據可以分為事實標簽:既定事實,直接從原始數據中獲取;模型標簽:沒有對應數據,需要定義規則,建立模型進行計算得到標簽實例;預測標簽:參考已有事實數據,來預測用戶的行為或偏好三種標簽類型。其中,模型標簽和預測標簽的生成方法包括統計方法、文本挖掘算法、相似度計算方法、分類聚類算法、推薦算法、機器學習預測算法等。圖1展示了三種不同類型標簽之間的層次關系。
(2)標簽分級
由上述事實標簽、模型標簽、預測標簽組合構成的揭示消費者信息全貌的工具即為用戶畫像,為了展示標簽之間的結構與關聯關系,方便標簽的管理與維護,需要根據實際情況對標簽進行分級,建立適合自身業務的標簽體系。用戶的每個標簽都是由屬性與權重兩個參數組成的,不同屬性的重要程度各不相同,可以利用基于信息增益、基于卡方檢測等方法進行屬性篩選,利用主成分分析法對不同屬性進行權值分配。表1給出了電子商務中畫像標簽體系舉例。
2.2.2標簽管理
標簽是對用戶信息高度精煉的總結,無論是外在環境引導還是用戶自身興趣轉移,歷史所獲用戶信息總是不能完全反映未來用戶價值,所以需要對用戶標簽進行管理。標簽管理指對標簽庫中的標簽進行長期跟蹤管理和維護,為了便于管理,首先通常要對分類分級后的標簽采用目錄化形式,根據業務搭建好數據建模體系;然后為標簽設置權限層級,明確的權限和清晰的層級關系可以使標簽管理更加科學有序,避免標簽創建過程中出現標簽重復、丟失等混亂現象;最后為了提高標簽的利用率和準確度,有必要對標簽熱度進行動態管理,按照標簽使用范圍、使用頻率等對標簽進行活躍度排名,使企業清楚看到哪些標簽價值最大、最能反映問題,然后據此擴展標簽的數據維度。以上三方面對于標簽的管理伴隨著標簽的創建、編輯、評估到審核、刪除、停用的整個生命周期過程。
2.3畫像體系建設
(1)用戶畫像構建
用戶畫像是要根據用戶行為偏好和認知差異等,通過用戶信息標簽化,把具有共同行為特點、同一消費層次的用戶劃分為同一類別。構建用戶畫像需要劃分用戶畫像維度,從電子商務的角度來看,用戶畫像可以從基本屬性、行為特征、購買特征、社交特征、心理特征、興趣特征六個維度進行組合。
基本特征:通常在注冊時引導獲取,如手機號碼、性別、年齡、教育程度、所屬地區等等,可以根據生日、年齡等推斷出星座、目前身份等其他屬性。
行為特征:通過分析用戶訪問來源、訪問時長、溝通渠道、支付方式等分析用戶的上網行為和購買習慣。
購買特征:分析用戶的購買頻率、購買金額等,對用戶的消費能力、消費品質、消費刺激進行長時間多頻次的建模,判斷客戶處在價值金字塔的哪一等級,是活躍用戶還是沉睡用戶等。
社交特征:分析用戶將商品分享給好友的頻次,在問答社區及評論區交流的情況,以及收貨人地址的數量等,研究用戶的社交情況。
心理特征:分析用戶參加促銷活動的頻次、優惠券消耗情況、同一品牌復購率等情況,推算用戶對大促的敏感度、對品牌的忠誠度等。
興趣特征:根據搜索類目、瀏覽類目、收藏類目、長期關注點等,分析用戶對某些品牌、品類的偏好度,從而進行某個品類的專場營銷活動。
(2)用戶畫像管理
用戶的興趣偏好隨時都可能發生變化,為了設計出能更準確的描述用戶需求的標簽,需要及時根據變化的用戶信息更新標簽,為了得到能更清晰的描述用戶需求的標簽,需要對數據進行更細粒度的挖掘,因此,科學的用戶畫像必須注重時效性和覆蓋度,為了滿足這兩點需求,對用戶畫像的管理也提出了更高要求。
首先,為了應對畫像數據維度擴大、快速更新、海量增長的存取需求,需要建立起容量大且可擴展性好的畫像存儲機制;其次,為了實現標簽庫和業務場景的聯動管理,需要建立定時更新機制,根據變化信息不斷迭代和優化已有畫像,獲得對用戶描述更加完善和準確的更新畫像;最后,為了滿足各種不同的畫像查詢需求,且便于畫像實時查詢,需建立起滿足并行查詢、緩存優化和聚合統計等功能的查詢機制。做好用戶畫像管理從長遠來看是為企業節省時間和人力成本,是保障企業業務朝正確方向展開的前提。
(3)用戶畫像應用
實際應用中,用戶畫像需要企業或商家立足自身業務領域,沿著業務需求路線,選取特定角度的標簽集合,從整體到細節對標簽進行逐級展現,并利用可視化方法勾勒出消費主體的全貌。比如,企業想要進行用戶細分,可以調用用戶基本特征和購買特征兩個維度的標簽組合出用戶畫像,識別出不同價值的客戶群體,然后有針對性的進行營銷和維護;又如,企業想要探究轉化率背后的影響因素,可以調用用戶購買特征、心理特征、興趣特征三個維度組合出用戶畫像,有人可能是因為評論影響購物決定,有人可能是因為商品展示影響購物決定,有人可能是因為優惠活動影響購物決定,利用用戶畫像可以方便直觀的探究消費者消費偏好背后的原因。圖2展示了標簽維度與業務應用之間的關系。
3、利用RFM模型構建用戶畫像實例
根據不同用戶特征進行用戶區分,明確用戶處于價值金字塔哪一等級對于電商主體至關重要。根據美國數據庫營銷研究所研究,客戶數據中消費金額、消費頻率、消費時間間隔三個要素構成了數據分析最好的指標,利用這三個指標來衡量用戶價值、進行用戶識別即為RFM模型,在電子商務領域中被廣泛使用。本文數據來源為某圖書電商2018年1月1日到201 8年4月29日的交易數據,共計5770條。數據的特征維度有買家編號、聯系方式、商品名稱、支付金額、購買時間、訂單狀態等,已對用戶交易數據進行了脫敏處理。
3.1數據預處理
3.1.1數據篩選統計
RFM模型只針對訂單狀態為成功的用戶,創建訂單但沒有成功付款的用戶訂單狀態視為失敗,首先要把這類用戶篩選掉。然后從用戶購買特征這一維度出發,對用戶一至四月份的數據進行整合,從數據集中抽取出買家編號、支付金額、購買時間三個字段,在此基礎上計算“購買頻率”、 “平均支付金額”和“距上次購買間隔”。 “購買頻率”通過對買家編號進行計數得到, “平均支付金額”通過計算用戶4個月的購買總金額算平均值得到, “距上次購買間隔”通過每個用戶最后一次購買時間與截止日(將5月1號設置為截止日)相減得到。部分實驗數據如表2所示。
3.1.2變量標準化
根據對樣本數據的分析,各指標數據度量單位各不相同,且不在同一個區間,為避免直接進行數據建模對結果造成干擾,需要將數據進行標準化處理。由于F、M指標對顧客價值存在正相關影響,因此針對這兩項指標運用正向指標的標準化方法,標準化公式為:
其中,X 表示標準化后的數值,X表示原始值,X 表示該指標的極小值,X 表示該指標的極大值。R指標對顧客價值存在負相關關系,因此對此指標運用負向指標的標準化方法,標準化公式為:
標準化后的部分數據如表3所示。
3.2利用RFM模型進行K-means聚類
本文中所采用的數據挖掘工具為WEKA。WEKA作為一個公開的數據挖掘工作平臺,功能豐富,集成了大量能承擔數據挖掘任務的機器學習算法和統計算法,包括數據預處理、分類回歸、聚類以及結果的可視化等。利用WEKA對經處理后的數據進行K-means運算,K值取4,聚類可視化結果如圖3所示。
此次聚類結果分為四簇,其中第一類共981人,占整體人數的17%;第二類共792人,占整體人數的14%;第三類共301人,占整體人數的5%;第四類共3696人,占整體人數的640。當K值取4時,聚類F值為87.35%,且通過上述可視化圖像可知,每個用戶群體分布明顯,同一簇內距離緊湊,不同簇間界限清晰,說明本次聚類效果較好。
3.3實證結果與分析
將聚類結果細節信息提取出來,如圖4所示。根據結果可以明顯看到四類不同特征的消費群體。第一類消費者購買金額較低,消費時間間隔較久,給企業帶來的利潤較小,屬于低價值客戶;第二類消費者購買頻率不高,但單次購買金額較高,說明此類用戶可能為企業或者學校用戶,屬于高價值客戶,企業應重點維護此類用戶,謀求與此類用戶的長期合作;第三類消費者購買頻率較高、但單次購買金額不高,說明此類用戶可能為經常購買但每次購買數量較少的散客,屬于對企業較為忠誠的客戶,針對此類用戶,企業可通過贈送積分、會員折扣等針對性措施來提高此類用戶的留存率,使其持續為企業創造利潤;第四類消費者購買頻次不高、購買金額屬正常范圍,說明此類用戶為最普通的一類用戶,有需要了才來購買,對企業的忠誠度一般,對此類客戶,可通過個性化推薦進行精準營銷,經常為其推送感興趣的圖書新品,通過刺激消費促使其轉化為企業忠誠客戶。
以某一位用戶為例,以RFM模型結果為主,結合其他特征,利用可視化方法為其刻畫用戶畫像,如圖5所示,字號越大,代表權重越大。
4、總結
大數據時代下,消費者在網絡上的行為被充分的記錄下來,用戶畫像作為大數據環境下的用戶描述工具,憑借其用戶描述與建模上的優勢,在電子商務領域被廣泛應用。本文圍繞電子商務領域中經常關注的用戶購買習慣、購買行為、興趣愛好、社交態度等特征,給出了在該領域構建用戶畫像的思路,并從用戶購買習慣這一維度出發,給出了利用RFM模型獲得預測標簽,然后通過貼標簽構建用戶畫像,對用戶價值進行區分以幫助電商主體精細化定位人群特征,挖掘潛在用戶群體的實例。用戶畫像現已不僅僅停留于電商領域,各領域都涉及并需要構建用戶畫像,只是根據業務需求側重點有所不同,今后,各行業需要不斷完善用戶畫像的內容和應用,更好的利用數據服務用戶和業務發展。
參考文獻:
[1]謝康,吳記,肖靜華.基于大數據平臺的用戶畫像與用戶行為分析[J].中國信息化,2018(3):100-104.
[2]張小可,沈文明,貝葉斯網絡在用戶畫像構建中的研究[J].移動通信,2016(22):22-26.
[3]趙剛,姚興仁.基于用戶畫像的異常行為檢測模型[J].信息網絡安全,2017(7):18-24.
[4]劉蓓琳,張琪,基于購買決策過程的電子商務用戶畫像應用研究[J].商業經濟研究,2017(24):49-51
[5]王曉東,陳波,陳增偉,運用涉稅大數據為納稅人貼標畫像的探索[J].稅務研究,2017(395):112 -113.
[6]徐文瑞.基于RFM模型的顧客消費行為與顧客價值預測研究[J].商業經濟研究,2017(19):44-46