王建國









摘要:隨著數據科學的快速發展,基于大數據分析對用戶進行精準營銷,通過已知用戶的數據分析建模對未來用戶的選擇行為進行預測,已經成為提升互聯網營銷效果、實現精準營銷的重要方法。本文基于某短視頻運營公司的新增關注用戶數據,對該公司視頻直播號的用戶關注選擇行為進行了建模分析,結果表明多項Logit模型通過了預測驗證,體現出了良好的預測能力。
關鍵詞:大數據分析;用戶選擇行為預測;Logit模型
1、論文的背景與意義
在商務活動中,通過理論方法的研究改進營銷效果,是企業營銷管理者普遍關注的內容。其中利用已知用戶的數據分析歸納出目標用戶群的特征,進而由該特征高效地找到潛在用戶,由已知推導未來。這種解決現實營銷問題的方法本質上就體現了邏輯回歸分析的思想。
在數據科學快速發展的今天,隨著商務和營銷活動可獲取的數據越來越豐富,更好的利用大數據的分析預測在營銷研究領域產生了越來越多的探索機會。大數據以更低的成本解決了大樣本量的問題,并能方便地獲得更豐富的數據維度。與問卷調查相比,更大的數據樣本和豐富的數據維度對于揭示事物或現象的發展與各個變量之間變化的規律,并把這種規律的作用延伸到未來,從而對其未來的數據與發展做出更精準地預測。
本文關注互聯網視頻直播領域的營銷活動。隨著視頻直播的快速發展,對用戶進行更精準的營銷,通過已知的用戶數據分析建模已經成為提升線上營銷效果的重要方法。本文基于某短視頻運營公司的新增關注用戶數據,對該團隊視頻直播號的用戶關注選擇行為進行分析。運用了多項Logit模型理論及方法,將4個視頻直播號新增關注用戶的年齡、性別、收入水平的變量引入模型,并建立了可以解釋用戶選擇行為的多項Logit模型。
Logit模型,又稱Logistic回歸模型或邏輯回歸模型,是20世紀五十年代末由Luce通過研究IIA特性首次導出。作為目前應用最廣泛的離散選擇模型,Logit模型在心理學、社會學、經濟學、市場營銷以及及交通領域得到了廣泛的應用,并衍生發展出了其他模型,形成了完整的離散選擇模型體系,如Probit模型、NL模型(Nest Logit model)、Mixed Logit模型等。美國芝加哥大學的James J.Heckman和Daniel L.McFadden由于他們在離散選擇模型等微觀計量經濟學領域的重大貢獻,獲得了2000年的諾貝爾經濟學獎。Logit模型被廣泛應用于市場營銷研究起始于1977年,Green、Carmone和Wachspresss首次系統的介紹了運用Logit模型分析市場營銷研究中的定性數據,以模擬用戶的商品選擇決策過程和最終結果。此后越來越多的市場營銷研究者使用Logit模型來模擬市場營銷研究中的問題:Peter M、Guadanni和John(1983)用多項Logit模型擬合零售掃描數據研究用戶對咖啡品牌的選擇;Gary、Russell和Petersen(2000)運用多項Logit模型分析用戶在互補、替代和獨立的商品種類之間的選擇問題;Zsolt S’ndor和Michel(2005)運用蒙特卡羅(Monte Carlo)方法和貝葉斯(Bayesian Model)模型對Logit模型中用戶反應的異質性(Heterogeneity)問題的解決。
國內對Logit模型的研究更多的是應用于交通規劃、財務金融信用風險及醫療衛生領域,對線上營銷領域的研究相對較少,尤其是大數據營銷領域進行離散選擇模型應用研究的文獻寥寥無幾。在2020年6月6日對百度學術的文獻檢索中[1],只有3篇和大數據營銷相關的Logit模型論文,只有11篇和精準營銷相關的Logit模型論文。這些文獻多偏重于介紹模型方法、大數據推薦算法及采用公開及實驗數據進行模擬計算。本文采用實地收集數據、建立模型、通過多項Logit模型對視頻直播號的線上營銷活動進行實證分析研究,不僅對于指導企業營銷決策具有現實意義,對于理論界擴展該模型的研究領域也有拋磚引玉的作用。
2、數據的來源與介紹
本文數據來源于某視頻直播公司2019年12月、2020年3月、2020年5月每個月連續3天(共9天)的4個直播號新增用戶數據,跨年跨月選取數據是為了保證樣本的隨機性。其中將2019年12月份和2020年3月份的6天數據隨機抽取50%合并后的數據用于多項Logit模型的構建和參數估計,將2020年5月份的3天數據作為模型的實驗數據,用于評價模型的預測質量。在實際建模中,潛在用戶通過推薦頁面進入視頻直播號觀看直播,并最終完成對直播號的關注為一次有效觀測。由于本文只研究通過用戶數據分析和建模提升精準營銷的效果,不探討內容或服務的運營優化,所以不記錄觀看直播后未關注直播號的流失用戶。建模和參數估計共使用了108672個有效觀測,驗證數據使用了125117次有效觀測。由于疫情之后直播用戶比疫情之前的增速提升了近20%,所以前6天的50%數據比后3天的數據少。雖然9天的數據量不大,但該樣本跨年跨月采集,所以足夠保證模型的建立和驗證。
3、數據處理和描述統計
運營公司的4個視頻直播號都在快手直播平臺,但帶貨商品存在差異化,用戶群體為快手平臺的同質用戶,但用戶特征值存在差異,所以可以根據每個直播號的用戶特征數據構建用戶的選擇模型,以實現對未來潛在用戶的數據化精準營銷。4個視頻直播號的編號和類型為:1、特價掃貨類,2、進口商品類,3、好貨拼購類,4、精品優選類。由于課程論文的時間倉促,本論文選取的用戶變量包括性別、年齡、收入水平3個變量。本文及圖表中product代表包含編號為1、2、3、4的4個直播號,gender代表對應直播號關注用戶的性別(1代表男性、0代表女性),age代表關注用戶的年齡,income代表關注用戶的收入水平。本文使用的數據分析軟件為SPSS。
首先,由表1和圖1可以看出4個直播號的用戶性別分布存在差異。比如編號為1的直播號為特價掃貨類的,女性用戶明顯多于男性用戶;編號為2的直播號為進口商品類的,男性用戶多于女性用戶。
其次,由圖二可以看出四個直播號的年齡分布各有特點,編號為1的特價掃貨類直播號用戶群體相對年輕,編號為3的好貨拼購類直播號用戶群體相對年長。
再次,由圖三可以看出特價帶貨的直播號1的用戶群平均收入相對最低,該直播號的用戶群體也最年輕。平均收入最高是的進口商品類的直播號2的用戶群,該用戶群體男性用戶更多。
最后,這三個解釋變量之間不存在高度的相關關系,也就是說它們之間不存在多重共線性問題。[2]
4、多項Logit模型
Logit模型是被廣泛用于研究行為主體選擇過程的計量經濟模型。目前也是主流的大數據精準營銷建模方法。Logit模型基于因果關系推導用戶對產品的選擇過程和結果,即用戶的一個行為或者選擇結果出現一定是由許多共同作用造成的。那么如果我們能夠洞悉更多的主要因素及其產生作用的機制,我們就能在一定條件下有更高概率準確地預測這種行為或選擇結果再次發生。多項Logit模型來源于隨機效用的概念,[3]以效用函數為出發點,認為用戶(i)在理性的經濟選擇行為下,對于可供選擇集合C會選擇能使其效用最大化的視頻直播號(j)。因此,用戶的效用函數可表示為:
其中Vij為用戶i選擇直播號j的可觀測效用。既可以包括直播號j本身的屬性,也包括用戶的個人特征;隨機擾動項εij是無法觀測到的那部分效用,通常我們假設εij為獨立同分布的隨機變量。對于系統效用,通常假設Vij是直播號j和用戶i相關屬性變量的線性函數:
其中,xij為用戶選擇方案的解釋變量向量,βk為待估計的解釋變量的系數向量。按照效用最大理論,用戶i選擇直播號j的概率可以表示為下式,βk由極大似然估計法估計:
在實際運用中,我們一般把用戶對直播號替代物(比如直播號k)的選擇作為參照系,然后把用戶對其他直播號的選擇概率與之相比,通過公式變換得到以下Logit模型公式:
從上面對Logit模型原理的介紹可以看出,該模型對于本文的視頻直播號用戶選擇研究,可以建立以下精準營銷模型。本文假設效用函數的估計與直播號的4個分類有關,因此可以產生3組效用方程和相應的3組系數值。本文假定編號為“4的精品優選類”視頻直播號為基準組可得如下方程組。
其中P1/P4為相對于基準組(4、精品優選類直播號)用戶選擇關注編號為1的特價掃貨類直播號的概率;P2/P4為相對于基準組用戶選擇關注編號為2的進口商品類直播號的概率;P3/P4為相對于基準組用戶選擇關注編號為3的好貨拼購類直播號的概率。
5、視頻直播號選擇行為的模型分析
依據前述的數據資料,對多項Logit模型進行模型擬合檢驗、似然比檢驗、參數估計和參數檢驗。
由表2可以看出,最后一列的顯著性小于0.05,說明模型具有統計意義,通過檢驗。此外,依次列出的3個偽R方值最高0.859,說明4個直播號種類不可衡量效用彼此獨立,不會相互影響,模型對原始變量變異的解釋程度較好,只有一小部分信息無法解釋,擬合度比較優秀。
由表3可以得出模型中的效應變量包括用戶的年齡、性別、收入水平對應的顯著性值都小于0.05,這說明以上各效應變量對模型構成都有顯著貢獻。
由表4可以看出,以編號為4的精品優選類直播號作為基準組產生的3組效用方程系數值顯著性都小于0.05通過檢驗,模型的效應方程組擬合度比較好。
方程組中x1為用戶的年齡(age)、x2為收入水平(income)、x3為性別(gender)。本文涉及數據中用戶的年齡集中在19-43歲的區間,所以預測方程中x1年齡的取值范圍也應該在19-43之間。x2收入水平為月薪,其的取值范圍在2500-30000元之間,水平差異梯度為500元。x3性別的取值范圍為1或者0,1代表男性、0代表女性。
6、模型預測
對于以上建立的模型,最重要的一個用途就是用于對潛在用戶選擇行為的預測,從而實現基于大數據分析的精準營銷。接下來我們通過準備好的125117條驗證數據進行預測檢驗,預測檢驗可以驗證最終得到的對數多項logit模型能否很好地預測用戶在快手平臺對4個直播賬號的選擇行為,即對于任何一個視頻直播號來說,模型能否較準確的預測潛在用戶選擇哪個直播號的概率最大。以滿足大數據精準營銷對目標用戶的精準選取。預測檢驗的結果如下表:
由表5可以看出模型在預測編號為2的直播號用戶選擇傾向上準確率最高,達到了87.1%,編號為1的直播號預測準確率也達到了84.0%,其他兩項預測略低,總體預測準確率79.1%,接近80%,整體表現良好。由于時間倉促,后續可以獲取更多變量和更豐富的數據來改進模型,總體來看本文所用數據較為適合Logit模型進行建模分析以及進行用戶行為選擇預測。
7、結論
本文根據某短視頻運營公司直播號的新增關注用戶數據,引入有關用戶年齡、收入水平和性別的效應變量,建立了可以解釋直播號關注用戶在選擇4個直播號行為的對數多項Logit模型。模型顯示:較年輕的、收入水平不高的女性用戶關注1號直播號的概率最大;收入水平較高的男性用戶關注2號直播號的概率最大。每個直播號對于特定的用戶有相對最高效應,模型效應方程選取的3個變量對模型都有顯著的貢獻率,變量選取合理。該模型通過驗證數據的預測驗證體現出了良好的預測能力。本文采用的研究方法可以推廣到大數據背景下其他領域的線上行為選擇研究。不足是采用數據變量較少,數據來源有局限性,模型也僅是最基本的多項logit模型。選取更豐富和寬泛的數據源,引入更多的效應變量,應用合理的嵌套選擇模型并提升預測精度是進行該選擇行為研究未來努力的方向。
參考文獻
[1]互聯網文檔資源.東莞高校外語專業社會服務與本地跨境電商行業對接研究.http://www.xzlunwen.com/20180219/907473.html.2017
[2]符雯.效用理論在國內交通運輸領域的應用綜述[J].數學理論與應用.2017-11-18
[3]互聯網文檔資源.TMT特征及其異質性與企業績效關系究.http://www.xzlunwen.com/20171123/841676.html.2017