付饒 王書博 劉智權 李雪 方茂達








摘要:文章從需求頻次與消費意愿的影響因素入手,提出了茶葉消費者粘性指數綜合評價模型,該模型包括粘性構成要素、影響因素及其具體評價3部分;其中粘性構成要素包括需求頻次與消費意愿,影響因素包括感知有用性、可替代性、感知價值、轉移成本、專業素養和社會屬性,具體評價指標共12項。采用調查問卷收集不同消費者對模型指標的評價數據,并通過了結構效度檢驗。采用隨機森林算法分析各因素對茶葉消費者粘性的影響,以根據構成要素計算得出的粘性數值作為樣本標簽,以不同影響因素的具體評價指標作為樣本特征,訓練模型并進行參數調優,得到的最優模型在測試集上的MSE為481.36,模型擬合較好。引入SHAP值算法計算出不同影響因素的重要性程度,發現消費意愿的影響因素中,轉移成本與社會屬性重要性最高,權重值分別為0.343、0.325;需求頻次的影響因素中,感知有用性重要性程度為0.184,高于可替換性的重要性。對不同影響因素進行分析,在此基礎上提出關于茶產品的改進建議,進一步推動茶產品的改善與提升,促進消費者的茶產品消費,從而帶動貴州省茶產業的深入發展。
關鍵詞:消費者粘性;綜合評價模型;隨機森林算法;SHAP值;重要性評價
Analysis on Influencing Factors of Tea Consumer
Stickiness Based on Random Forest Model
FU Rao, WANG Shubo*, LIU Zhiquan, LI Xue, FANG Maoda
School of Mathematics and Statistics, Guizhou University, Guiyang 550025, China
Abstract: In order to analyze the influencing factors of tea consumer stickiness and explore the influence degree of
different factors on consumer stickiness, starting from the influencing factors of demand frequency and consumption
intention, this paper put forward a comprehensive evaluation model of tea consumer stickiness, which included three
parts: stickiness components, influencing factors and specific evaluation. The stickiness components included demand
frequency and consumption intention. The influencing factors included perceived usefulness, substitutability, perceived
value, transfer cost, professional quality and social attributes. There were 12 specific evaluation indicators. The
questionnaire was used to collect the evaluation data of different consumers, and passed the structural validity test. The Random Forest Algorithm was used to analyze the influence of the factors. The stickiness value was used as the sample label, and the specific evaluation indexes were used as the sample characteristics. The model was trained and the parameters were optimized. The MSE of the optimal model on the test set was 481.36, and the model was well fitted. It was found that among the influencing factors of consumption intention, transfer cost and social attribute were the most important, and the weight values were 0.343 and 0.325 respectively. Among the influencing factors of demand frequency, the importance of perceived usefulness was 0.184, which was higher than that of substitutability. Based on the analysis, this paper put forward suggestions on the improvement of tea products, further promoted the improvement of tea products, and promoted the consumption of tea products, so as to drive the in-depth development of tea industry in Guizhou Province.
Keywords: consumer stickiness, comprehensive evaluation model, random forest algorithm, SHAP value, importance evaluation
目前,對于消費者粘性應用的研究多集中于互聯網產品應用[1]、金融市場[2]、電商營銷[3]、品牌策略[4]等方面,對茶葉消費者的研究多集中于購買行為[5]、購買意愿[6]、營銷策略[7]等方面。為深入分析茶葉消費者粘性的影響因素,探究不同因素對消費者粘性的影響程度,本研究采用問卷形式對購買茶產品的消費者進行調查,且未對消費者購買的茶產品種類進行限制,以獲得宏觀視角下不同因素對茶葉消費者粘性的影響程度;并將粘性分析和茶葉消費者分析相結合,建立茶葉消費者粘性指數(T-CSI)綜合評價模型,并采用隨機森林算法,分析了粘性影響因素的重要性程度,在此基礎上得出適用于茶葉消費者的粘性分析模式并提出茶產品改進建議,以推動茶產品的改造升級,促進茶產業的進一步發展。
1? 茶葉消費者粘性指數綜合評價模型
1.1? 留存分析模型簡介
留存分析模型是用來分析用戶參與情況/活躍度的分析模型,考察進行初始行為的用戶中,有多少人會進行后續行為,是用來衡量產品對用戶價值高低的重要方法[8]。包括N-day留存、Unbounded留存、Bracket留存3種留存方式;自定義留存是基于業務場景下的留存情況,比如閱讀類產品會把看過至少1篇文章的用戶定義為真正留存用戶[9],電商類產品會把至少查看過1次商品詳情定義為有效留存。
1.2? 技術接受模型簡介
技術接受模型(TAM),是1989年Davis運用理性行為理論研究用戶對信息系統接受程度時所提出的模型[10],其最初是對計算機被廣泛接受的決定性因素進行解釋說明。
技術接受模型包括2個主要決定因素:感知的有用性與感知的易用性(圖1)。感知的有用性反映系統對工作業績提高的程度;感知的易用性反映系統的使用容易程度。
TAM認為系統使用是由行為意向決定的,而行為意向由想用的態度和感知的有用性共同決定,想用的態度由感知的有用性和易用性共同決定,感知的有用性由感知的易用性和外部變量共同決定,感知的易用性由外部變量所決定。外部變量包括系統設計特征、用戶特征、任務特征等,為技術接受模型中的內部信念、態度、意向和不同個體間的差異、環境約束、可控制的干擾因素之間建立起一種聯系。本文選取感知有用性作為粘性模型的影響因素之一。
1.3? 茶葉消費者粘性指數改進模型
消費者粘性是指消費者對于品牌或產品的忠誠、信任與良性體驗等結合起來形成的依賴程度和再消費期望程度[11]。對產品而言,最直接衡量消費者粘性的指標為使用時長和使用頻率[12]。T-CSI改進模型詳見圖2。本文以茶葉消費者需求頻次,即每周喝茶的頻率(frequency)以及消費意愿(desire),即消費者1年來茶葉費用支出,作為對茶葉消費者粘性的評價指標。需求頻次、消費意愿分別和消費者粘性成正比;同時消費意愿又制約著需求頻次的強弱。二者對粘性的評價公式如下:
其中 Csi為第i個被調查者的粘性程度;fi為第i個被調查者的需求頻次;di為第i個被調查者的消費意愿; εi為隨機干擾因素項,設εi獨立同分布,服從均值為0、方差為σ2的正態分布。茶葉消費者對茶葉的感知有用性和可替代性影響其需求頻次;同時消費者對茶葉的感知價值、轉移成本及消費者專業素養和社會屬性均影響其消費意愿。
1.4? T-CSI模型指標體系
T-CSI模型由3部分組成,需求頻次和消費意愿為茶葉消費者粘性指數的構成要素,結合上文的公式可計算出消費者粘性的具體數值;感知有用性和與可替代性為需求頻次對應的影響因素,感知價值、轉移成本、專業素養與社會屬性為消費意愿對應的影響因素;影響因素的具體評價指標為可觀測變量,該指標的分值依據被調查者所選選項得出。
T-CSI綜合評價模型的指標體系如表1。其中,需求頻次指茶葉消費者每周喝茶天數,反映消費者喝茶的頻率以及對茶葉的需求程度。消費意愿指消費者近1年來的茶葉支出費用,反映了消費者對茶葉的消費態度和消費能力。
2? 茶葉消費者數據來源與檢驗
2.1? 數據來源
采用問卷調查法獲得關于茶葉消費者的基本信息與消費情況,問卷中包括上述粘性模型指標體系中三級指標所對應的問題(表2)。通過線上方式進行問卷發放,共收集問卷1 020份,篩選出有效問卷881份,問卷有效率為86.4%。
2.2? 數據檢驗
通過SPSS對問卷數據進行結構效度檢驗,包括采樣充足性檢驗(KMO)和Bartlett球形檢驗[13],其中KMO取值在0~1。當所有變量間的簡單相關系數平方和遠遠大于偏相關系數平方和時,KMO值接近1,意味著變量間的相關性越強,進行數據分析的結果越好;Bartlett球形檢驗P值越大則表明變量間的獨立性越高。經檢驗,KMO統計量取值為0.7,Bartlett球形檢驗近似卡方為807.278,自由度為66。通常來說當KMO>0.7時,問卷效度良好,當KMO<0.6時,表明問卷需重新設計。由檢驗結果可知,該問卷KMO系數為0.7,代表問卷的結構設計較好。且該問卷Bartlett球形檢驗的P值近似為0,從而說明變量間具有相關性,同時驗證了本文對于茶葉消費者粘性隨機干擾項的正態性假定。綜上所述,本次調查所用問卷及樣本合理可靠,可用于進一步分析。
3? 茶葉消費者粘性影響因素重要性計算
3.1? 隨機森林模型
隨機森林屬于裝袋法(Bagging)類型的集成算法,該模型將若干個弱學習器的分類結果進行投票選擇或取均值,從而組成一個強分類器,使得整體模型的結果具有較高的精確度和泛化性能[14]。作為高度靈活的機器學習算法,隨機森林模型可以用于統計消費者來源、保留和流失[15]。本文以消費者粘性數值作為樣本標簽,以不同影響因素的具體評價指標得分作為樣本特征,構建隨機森林模型進行擬合,可以有效反映二者之間的關系。
3.2? 模型構建
3.2.1? 模型指標定義
由于粘性構成要素與影響因素的具體評價指標多為類別變量和順序變量,難以直接帶入模型進行計算,因此將構成要素及具體評價指標X1~X12重新定義取值,模型指標及其取值結果具體如表3。
3.2.2? 參數選擇與模型優化
對樣本特征做歸一化處理,并將被調查者樣本劃分為訓練集和測試集,其中訓練集占總樣本量80%,測試集占總樣本量20%。
隨機森林模型由多棵決策樹構成,因此其超參數和決策樹模型較為相似[16]。本文在構建隨機森林模型時,選取的參數包括決策樹裝袋數量、最大樹深、葉節點含有的最少樣本數、構建決策樹最優模型時考慮的最大特征數等。為獲得最優隨機森林模型,本文采用網格搜索參數優化算法[17],設定的各參數網格搜索區間范圍如表4。
選擇網格搜索優化后的參數進行建模,其參數取值分別為決策樹裝袋數量270個、最大樹深22、葉節點含有的最少樣本數6個、構建決策樹最優模型時考慮的最大特征數sqrt整數個、節點劃分標準MSE、節點可分的最小樣本數6個。得到的最優模型對粘性預測的MSE即均方誤差為481.36,可見模型誤差較小,較為準確地反映了影響因素的具體評價指標與粘性構成要素之間的關系。
3.3? 影響因素重要性計算
通過SHAP值計算隨機森林模型中每個樣本各個特征的權重,進而求出全部樣本在不同特征上的SHAP值的絕對平均值,以此作為茶葉消費者粘性不同影響因素的重要性程度。SHAP值量化每個特征對模型所做預測的貢獻[18],其計算特征加入到模型的邊際貢獻,然后考慮到該特征在所有的特征序列的情況下不同的邊際貢獻后取均值,即該特征的基準值[19]。
4? 茶葉消費者粘性影響因素分析
4.1? 感知有用性與可替代性對需求頻次的影響
采用SHAP值算法計算消費者粘性影響因素的各指標重要性程度結果如表5。需求頻次的2個因素對需求頻次的影響權重總和為0.227,低于感知價值等4個因素對消費意愿的影響權重總和。其中,感知有用性所占比重最大,可見受訪茶葉消費者更為關注感知有用性,這可能是由于消費者對茶葉的需求趨于多元化;此外,消費者喝茶的目的在感知有用性中所占比重最大,其目的越廣泛,越能夠提高感知有用性;消費者購茶用途的廣泛性對粘性的影響高于可替代性對粘性的影響,可見對于大多數消費者來說,茶葉用途比其替代品更為重要。
4.2? 感知價值、轉移成本、專業素養與社會屬性對消費意愿的影響
消費意愿中4個因素對消費意愿的影響權重總和為0.773(表5),可見消費者粘性主要受到轉移成本、社會屬性、專業素養、感知價值4個因素的影響,消費者對茶葉的消費意愿較為強烈時,其需求頻次并不會過多地影響到消費者粘性。其中,茶葉消費者的轉移成本及其社會屬性所占比重最大,分別為0.343、0.325。消費者經常喝的茶葉價格區間越高,接觸其他種類茶葉的轉移成本也就越高;消費者一次性購買的茶葉越多,越不會消費其他茶葉或飲品;其購買茶葉的渠道越接近線下,轉移成本越高,粘性也就越高。消費者年齡與平均月收入對其消費意愿的影響較大,不同年齡段存在不同的飲茶偏好,也存在不同的飲茶習慣;消費者平均月收入越高,其茶葉消費的意愿越強烈,其粘性也就越高。消費者的專業素養要比他對茶葉的感知價值更為重要,茶葉價格合理與否,并不會導致其消費意愿發生明顯變化。可見對于消費者來說,茶葉品質的好壞、是否符合飲茶習慣比茶葉價格是否合理更為重要。
5? 消費者粘性視角下的茶產品改進建議
本文分別從需求頻次、消費意愿2個維度分析了影響消費者粘性的因素,構建適用于茶葉消費者的粘性分析模型,該模型較好地擬合了茶葉消費者的粘性特征結構。基于對消費者粘性各影響因素的分析結果,提出如下關于茶產品的改進建議。
劃分茶葉消費人群,打造差異化茶葉產品。通過對茶葉消費者的分析,可以發現轉移成本與社會屬性對其消費意愿的影響程度最高,因而可以根據年齡、平均月收入對茶葉消費者進行人群劃分,并針對不同類型的消費者人群,提供不同價格區間的茶葉和包裝單元,通過不同的銷售渠道向不同類型的消費者提供不同等級的茶葉。對于高收入的中年消費者人群可以提供更高質量的茶葉產品;對于收入較低的年輕消費人群,可以提供價格更低、購買渠道更為便利的茶葉產品。
加大產品宣傳力度,促進產品多元化發展。茶葉消費者的感知有用性對需求頻次的影響較高,應重點提高消費者對產品的感知有用性,從拓寬消費者購買的目的及用途入手,滿足消費者多元化需求。產品對于消費者的可替換性高低并不會過多影響消費者需求頻次的變化,因而開發不同種類的產品與新式茶飲,不會阻礙原有產品的發展,反而能夠在促進產品多元化發展的同時,進一步提升茶葉消費者的粘性。
大力弘揚茶文化,提升茶葉消費者專業素養。茶葉消費者的專業素養高于其感知價值對消費意愿的影響,以推廣茶文化為契機,提升消費者在選茶、鑒茶、泡茶方面的專業素養,從而使消費者主動探索茶葉產品的優勢方面,進一步提高消費者粘性。對于專業素養較高的消費者,應以產品質量及蘊含的文化內涵為重點宣傳內容;而對于專業知識欠缺的消費者,應提升產品在滿足其單一用途方面的能力,從而提高該消費人群的粘性。對于習慣速沖茶葉的消費者,提供價格區間較低的茶產品;而對于習慣簡化和完整程序沖泡茶葉的消費者,提供高質量、價格區間相對較高的茶產品,有利于分別提升兩類消費者的粘性。
參考文獻
[1] 趙青, 張利, 薛君. 網絡用戶粘性行為形成機理及實證分析[J]. 情報理論與實踐, 2012, 35(10): 25-29.
[2] 黃卉, 沈紅波. 信用卡市場利率粘性和消費者行為研究綜述[J]. 上海金融, 2011(6): 86-90.
[3] 康培, 孫劍, 鄧彥宇. 網絡購物臨場感、信任與消費者在線粘性——以B2C模式下消費者網購生鮮農產品為例[J]. 企業經濟, 2018, 37(7): 89-97.
[4] 賈微微. 社會網絡環境下網絡品牌粘性構建的復雜結構路徑——消費者共創視角[J]. 技術經濟與管理研究, 2017(6): 19-24.
[5] 陳靈誠, 林暢. 福建省烏龍茶消費者購買行為分析[J]. 中國茶葉, 2021, 43(6): 37-45.
[6] 曹獻馥, 曹獻秋. 茶葉包裝中影響消費者購買意愿的設計要素研究[J]. 包裝工程, 2021(12): 1-16.
[7] 馬珀, 王琰琰, 陳志芳, 等. 試論互聯網背景下的茶葉營銷策略[J]. 福建茶葉, 2021, 43(1): 56-58.
[8] 夏瓊燕, 羅冠, 張翔, 等. Open street map志愿者貢獻與留存分析[J]. 測繪與空間地理信息, 2021, 44(2): 90-93, 97.
[9] 別昊. 延長用戶在短視頻內容中的留存時長[J]. 中國眼鏡科技雜志, 2020(10): 54-55.
[10] LIN C W, LIN Y S, LIAO C C, et al. Utilizing technology acceptance model for influences of smartphone addiction on behavioural intention[J/OL]. Mathematical Problems in Engineering, 2021. https://doi. org/10. 1155/2021/5592187.
[11] 宋志剛, 肖楠. 網絡貨運平臺用戶粘性影響因素研究[J]. 物流科技, 2021, 44(3): 89-92, 99.
[12] 李雪, 宗穎, 陳穎, 等. 基于技術接受模型的電商直播消費者滿意度分析[J]. 江蘇商論, 2021(6): 31-34, 38.
[13] 張路. 問卷調查中信、效度的全面性問題初探[J]. 民營科技, 2016(12): 230-232.
[14] 李欣海. 隨機森林模型在分類與回歸分析中的應用[J]. 應用昆蟲學報, 2013, 50(4): 1190-1197.
[15] 李兵, 陳俊才. 基于TMRF算法的電信客戶流失預測方案研究[J]. 數字技術與應用, 2021, 39(4): 116-121.
[16] 梁虹藝, 葉嘉盛, 季波, 等. 基于決策樹模型對國產與原研注射用鹽酸萬古霉素治療MRSA感染的成本-效果分析[J]. 今日藥學, 2021, 31(9): 702-707.
[17] 施皓晨, 肖海鵬, 周建江. 一種雙線性分段二分網格搜索SVM最優參數方法[J]. 計算機與數字工程, 2020, 48(9): 2179-2184.
[18] YANG C, CHEN M Y, YUAN Q. The application of XGBoost and SHAP to examining the factors in freight truck-related crashes: An exploratory analysis[J]. Accident Analysis and Prevention, 2007, 1(1): 81-85.
[19] 李超, 陳功, 儲文強, 等. 基于改進SHAP的城市供水管網爆管主影響因素研究[J]. 科技通報, 2021, 37(1): 79-84.