■鐘楚彥
(同濟大學)
客戶畫像指的是通過對產品客戶已有的消費行為、社會屬性等信息對客戶進行分類、標簽化,一般由銷售方的分析師利用已有客戶數據完成。在對客戶進行了完整的分析以后,銷售方能夠對其購買能力、產品忠誠度、個人喜好等作出評估,達到個性化服務的目的。而其中最重要的是,基于對客戶產品喜好、消費水平的了解,銷售方能夠以最小的成本和負面影響對目標進行營銷,這也就是所謂的“精準營銷”。目前,這種運營模式和銷售策略已經被廣泛應用于服務業、互聯網行業、金融行業與零售行業。下文中將舉出幾個不同領域行業對客戶畫像模式的應用案例。
1.2.1 音樂平臺
近年來,隨著流行音樂文化的普及以及互聯網娛樂業模式的興起,各大互聯網音樂平臺正在獲取越來越多的用戶。其中佼佼者在獲取了大體量的用戶信息后,已經將客戶畫像工作完成得十分出色。最能體現其客戶畫像內核的服務之一是“日推”機制:根據對用戶已收聽音樂的類型分析,收聽時段分析,每日在恰當時機為用戶推送符合其喜好類型的歌曲。這種推薦模式幫助某些音樂平臺吸引了大量用戶,表現出大數據分析下客戶畫像的先進性。
1.2.2 商業銀行
因為實名認證與用戶體量的原因,商業銀行擁有極為豐富的用戶數據。每個城市級單位的數據中心都管理著千萬級別的用戶。因此,商業銀行在客戶畫像項目上也擁有其他行業無法比擬的優勢。基于存貸款額度、頻率記錄;用戶的實名注冊信息,商業銀行內部的數據分析部門可以做出精準的客戶標簽。將結果給予銷售部門,即可完成低成本、高準確度的營銷工作。而營銷結果又一次作為新數據被寫入分析數據庫,最終達到了良性循環。
1.2.3 零售行業
零售行業作為對于銷售能力最為依賴的行業,客戶畫像模式對其的意義不言而喻。以星巴克為代表,各零售品牌對于客戶的精準營銷主要通過會員制度、消費記錄收集客戶數據,實現個性化服務[1]。Peter與Malkins(2017)對星巴克的營銷模式進行了研究分析,其結論認為會員制度收集的客戶數據對該品牌完成客戶畫像起到了關鍵作用,幫助其培養出良好的口碑與客戶忠誠度,創造了140%的額外營業額。由此可見,客戶畫像已經在各行業領域中得到廣泛應用,對行業運營模式起到了重要影響,是數據分析領域的一大熱點。
對于客戶畫像項目而言,建立模型,也即決定如何“標簽化”用戶,創造哪些標簽,相應的對應怎樣的營銷模式,是非常關鍵的一步。建模的成功與否直接決定了最終實現精準營銷的效果。傳統的營銷模型是由分析者人為挑選入模變量,即按照市場常識或理性認知判斷何種因素(消費行為、社會屬性等)應該被設置為“標簽”,從而把相應客戶歸為一類。舉例而言,零售行業的分析者很大可能會把客戶的購買頻率、產品傾向性、消費水平等作為模型中重要的參數。在得到這些“標簽”后,銷售方通過帶入以往數據,尋找同一“標簽”內的客戶的消費共性,即可得到結論。如:新上市的產品A,在其銷售一個月后收集數據,發現帶有“年輕群體”、“女性”、“消費水平高”這三個標簽的客戶購買量明顯多于其他客戶,則可以確定產品受眾,實現精準營銷。
然而,這種傳統的建模方式存在很大缺陷:標簽的選取很大程度上依賴于分析者的個人認知。也就是說,在諸多客戶數據類別中,分析者未必能夠選擇出最優的“標簽”,會導致之后的驗證工作量變大,甚至預測模型不準確。
對于隨機森林,需要先介紹決策樹理論。決策樹是廣泛應用的一種樹狀分類算法。當輸入待分類樣本時,決策樹的每一處分支都進行一次01判斷,最終獲取該樣本對應的一條由根節點到葉節點的唯一路徑。該路徑的最后一個節點的類別就是樣本的所屬類別。
隨機森林最早源于1995年的貝爾實驗室,Tin Kam Ho所提出的隨機決策森林(random decision forests)。后由美國科學家Leo Breiman將其整理為一種機器學習算法,于2001年發表[2]。隨機森林是以決策樹為基本分類器的一個集成學習模型,它包含多個決策樹。當輸入待分類的樣本時,最終的分類結果由每個單個決策樹的輸出結果投票決定。換而言之,它是在樣本通過隨機選取的多個決策樹后,將這些決策樹的結果歸總整理出的分類結論。
該模型在被創造后,逐漸被廣泛的應用于金融分析、科學研究等領域。近年來,隨著商業機構的數字化轉型愈演愈烈,商業機構能夠獲得的數據體量全面、維度升高,許多企業也開始應用隨機森林模型進行數據處理。在商業應用中,隨機森林模型的運轉模式大致如下:分析者將銷售方已有的所有數據集全部應用,生成多個決策樹。而后,將樣本通過隨機森林模式進行分類。這樣的分類過程會使得客戶得到最精準的“標簽”,也即接下來模型中將用到的入模變量。在得到這些具有代表性的變量后,分析者即可使用這些變量建模,代入數據后得到對客戶進行產品營銷的效果預測。
如前文中所說,相較于傳統的客戶畫像模型,隨機森林模型能夠省去人工選擇“標簽”的步驟,改為由機器學習模式下大量的擬合得出結論,這顯然使得分析工作工作量減小、準確度提升。與此同時,相較于一般的決策樹模型,隨機森林也有明顯的優勢[3]:對于很多種資料,可以產生高準確度的分類器;可以在決定類別時,評估變數的重要性;如果有很大一部分的資料遺失,仍可以維持準確度;可以避免決策樹模型的過擬合問題;善于處理高維數據集。
從前文討論中可以感受到該模型數據分析的強大能力。其數據處理結論的最大優勢在于其是一種強目的性擬合方式,關注預測結果而非因果關系。簡而言之,具有某種社會屬性或者消費行為的特定用戶群體可能擁有其他領域的共性,這種共性的來源是后部的高級因素決定的,即由某種內在因素同時導致了兩種或者多種特質。而這種新型的數據分析模型可以幫助我們跳過內因分析,直接給出結論。舉例而言,數據擬合發現某商業銀行客戶群體中,高額存款用戶購買理財產品的可能性偏低。銷售方不需要分析這種因果關系的內因,如推斷高存款用戶心理共性等,而可以直接取信數據建模,降低對高存款用戶理財產品推銷的優先級。當然,此種模式的前提是建模的數據體量應當足夠,否則會由偶然性得出錯誤結論。
當下行業內的數據合作在比較普遍,其作用機理也更容易理解:更大的數據樣本能夠推得更準確的結果。然而,這種合作也具有明顯的局限性:同行業內的客戶可能有很大程度重復,重復的客戶數據只能夠增大個體數據量,對于模型建立沒有質的幫助。而不重復的客戶數據很可能代表了兩個企業或品牌客戶的自然選擇,對另一方的客戶群體并無參考價值。
基于隨機森林模型對高維度數據處理的明顯優勢,新型商業客戶畫像模型有能力對引入的其他維度數據進行處理。由此,如果企業或者商業機構能夠展開跨領域合作,則會有諸多更明顯的收益。
文章介紹了現有的商業數據分析模式,提出隨機森林模型在客戶畫像建模中的應用,并基于此探討了數據分析優勢的內核,展望了跨領域數據合作的可能。目前國內市場中,上述討論中的跨領域數據合作案例還很少。這一方面是因為巨大體量的數據需求對多數銷售方來說十分困難,另一方面也是基于用戶信息安全的考量。未來市場中對用戶數據進行跨領域商用是否能得到允許,其運作方式與合法性究竟如何制定,還需要進一步研究。但這其中包含的巨大利好,應當值得研究者發掘和嘗試。