朱道平,張燦鳳
(廣東工業大學管理學院,廣東 廣州510520)
隨著人們的消費升級,價格儼然不再是影響需求的唯一因素,產品銷量到底受到哪些因素的影響,一直是學者們研究的熱點。 電商交易存在著信息不對稱問題,信息較少的消費者為了減少交易風險,在做出購買決策之前通常會在網絡平臺收集產品的相關信息。 根據社會認同原則,Trusov 等發現,電子商務活動中歷史消費者體驗后生成的信息在消費者決策中起著至關重要的作用。 此外,學者們研究也發現歷史購買記錄、在線評論和買家的反饋評分等消費者行為的統計結果,會對產品銷量產生影響。 相關數據顯示,98%的客戶在消費前會參考不同網絡平臺的評論內容。 可見,用戶評論在消費者購買決策中占據重要地位。
在線客戶評論是消費者使用產品后發表的感想,形式可以是圖片、文字甚至視頻。 在線客戶評論來源可以分成兩類:一類是電商網站,例如京東商城、淘寶、亞馬遜商城等;另一類是第三方網站,這類網站不銷售商品,但是提供產品資訊和用戶交流信息,比如中關村在線、太平洋電腦網等,也包括社交媒體平臺如微博。 有學者指出這兩類網站對于產品的評論存在內容、數量、可信度的差異。 當前關于在線客戶評論對銷量影響的研究主要集中于電商平臺,如崔香梅和黃京華通過采集淘寶數據,使用相關性分析和多元線性回歸,發現好評數對交易數有顯著的正向影響。 何喜軍等針對京東商城的聯想ZUK Z2 手機產品,綜合考慮影響電商產品銷量的多維指標(在線搜索、在線評論、情緒指數等)并利用熵值法融合同類指標,進行銷量預測。 除此之外,少量學者把第三方網站與電商平臺的在線客戶評論進行整合研究,如袁海霞等對比電商平臺評論與微博口碑對新產品銷售的動態影響,雖然較單一電商平臺研究進行了補充,但僅從評論數量上進行研究,沒有探索評論內容的影響。
梳理現有電商銷量預測研究可以發現,學者們除了關注傳統預測因子外,也逐漸把在線客戶評論作為影響因子。 在線客戶評論作為預測因子,主要是利用了電商平臺評論的數量特征,也嘗試利用評論情緒,但是很少探索第三方平臺評論情緒對銷量的影響。 因此,論文在銷量預測時,加入第三方平臺的評論情緒指標。 同時,考慮到電商銷量的影響因素眾多,論文也選取了傳統的預測因子,探索這些因素對于銷量預測的重要性。 論文選取了回歸分析和神經網絡算法進行對比和預測,以期尋找到合適的電商銷量預測模型。
在線客戶評論的數量龐大、非結構化,處理起來煩瑣,有時會被研究者忽略,將關注點放在評分、評論數量及長度、價格等顯性因素上,較少考慮評論情緒這種隱性因素對銷售預測的作用。 論文將把電商平臺和第三方平臺的評論情緒作為影響因素,進行銷量預測。 具體的研究路線如圖1 所示:
圖1 研究路線
論文選擇手機作為實驗對象,因為電商銷售預測研究主要集中在電子產品類別上。 依據論文研究假設,數據集來源于兩部分:一部分是電商平臺內部數據,選取京東商城上銷量前300 的手機,并使用八爪魚采集器提取其銷售詳情頁的價格、促銷、評論、產品上市時長等信息;另一部分是第三方平臺的外部數據,論文選用了新浪網微熱點提供的熱度指數和情緒指數,該平臺實時分析海量數據,可以客觀反映某事的熱度和情緒傾向。 研究采集了2020 年6 月1 日至6 月30日為期30 天數據量。
收集的原始數據存在諸多噪音或不可量化,需要經過預處理,才能用于預測建模。 去除缺失值和異常值,有效數據集有3973 條記錄。 進一步,還需對數值數據進行標準化處理以及對文本數據進行情感指數計算。
對于數值數據,如價格、促銷等,變量之間的量差非常大,為了減小數據的可變性,論文采取了標準化處理,經過處理的數據的均值為0,標準差為1,這是目前用得最多的數據標準化方法,其公式為:
其中,和sj分別為第j指標觀測值的均值和標準差。
對于文本數據,如評論屬于非結構化數據,需要轉換成可以計算的數值。 論文利用文本處理工具Python 中的Jieba進行預處理,具體步驟包括:文本去重、句子切分、文本分詞、去停用詞等內容。 評論文本經過預處理后,利用知網HowNet情感詞典的擴充版本對文本進行情感分析,并計算出每條評論的情緒評分。 對于每條評論,首先計算分句的情感得分,具體公式如下:
其中,Di為程度副詞得分;Sj為程度副詞后的情感詞得分;Nk為否定詞得分。
得到分句的評論情緒得分后,將這條評論的所有分句得分求和,得出此評論的總得分scroet,然后將一款產品一天采集的T條評論進行匯總并求均值
對收集的數據進行適當的處理后,最終選擇的變量有:當前價格、促銷金額、上市時長、好評率、好評數、差評數、差評回復占比、會員占比、好評情緒得分、差評情緒得分(來源于京東商城),以及微博熱度、微博情緒(來源于微博),這些基礎變量與現有電商和在線銷售研究相吻合。
首先探索各因素對銷量的影響,同時也分析這些變量之間的交互效應對銷量的影響,論文分別用線性回歸、BP 神經網絡兩種方法進行九組實驗,具體的實驗設計如表1。
表1 實驗方案
以上的差評情緒得分×好評數、好評情緒得分×差評數、價格×好評數、會員數×差評數和促銷金額×差評數5 個交互效應新變量是通過參考相關文獻研究結論并進行變量間的相關性分析得到的,表2 為部分變量之間的相關性。 其中價格、促銷金額、好評情緒得分、差評情緒得分、會員數與銷量和好評數及差評數的相關性都很小,于是在這幾個獨立變量的基礎上構造5 個交互效應新變量。
表2 部分變量之間的相關性分析結果
1. 線性回歸分析是采取逐步的方式,首先僅考慮電商平臺的預測因素,接下來引入微博平臺采集的微博情緒和微博熱度兩個預測因素,最后添加交互效應的五個因素,具體的回歸結果如表3 所示。
表3 線性回歸中各變量的表現情況(回歸系數)
續表
2. BP 神經網絡進行商品銷售預測前,將數據集的70%作為訓練集,剩余的30%作為測試集。 首先將12 個基礎變量作為BP 神經網絡的輸入,訓練出第一個人工神經網絡模型。 然后將五個交互項引入第一個人工神經網絡模型,圖2給出了基于人工神經網絡模型輸入變量的預測重要性排行。
圖2 BP 神經網絡模型中各變量的重要性排名
研究的主要目的:一是探索不同平臺評論情緒對銷量的影響情況,同時探索其他變量的重要性;二是探索線性回歸、BP 神經網絡對銷量的預測能力。 表4 總結了兩類模型的實驗結果,除了R2以外,還選用了均方根誤差RMSE,對9 個模型進行比較,結果如表4 所示。
表4 兩種預測模型的結果對比
比較實驗一和二可以發現,R2和RMSE 都有所改善,說明第三方社交平臺的評論情緒對銷量具有一定的影響。 其次在實驗二模型的基礎上加入交互項,R2和RMSE 也同樣發生了改變并優化,說明這幾個變量本身雖然對銷量的影響不顯著,但是其可能會通過調節其他重要預測因子與銷售的相互作用來影響銷售。 這一現象通過對比加入5 個交互項的BP 神經網絡模型所帶來的RMSE 改善得到證實。
除了比較銷量與預測因子的關系和重要性以外,從表4可以發現,機器學習模型在自變量維度較復雜的時候會顯現一定的優越性(BP 神經網絡模型的RMSE 小于線性回歸模型),并且可以解決線性和非線性問題,不會受變量相關性影響。
論文對線性回歸、人工神經網絡兩種建模技術進行比較分析,探討電子商務背景下,不同平臺評論情緒和其他預測變量及其相互作用的重要性、建模技術的適用性等問題,首先通過比較各種預測因素的重要性,得出了如下的一些結論:
第一,論文的研究重點是調查評論情緒與銷量的關系,然而線性回歸模型中,電商平臺的情緒因子都沒有被視為重要的預測指標,BP 神經網絡模型也只是將它們的重要性劃分在0~0.05 之間。 與之前不少學者指出的差評比好評更重要的結論相矛盾。 關于評論情緒對銷量預測的重要性,結合現有的一些研究結論,論文給出了兩點解釋:
(1)因為存在一些刷單、刷評論的操作,買家對評論的真實性懷有半信半疑的態度,所以他們不太在意這些評論的情緒。
(2)京東商城自營的商品可能因為品牌效應收獲了客戶一定的信任,就不會過多地考慮評論情緒。
盡管與情感相關的因素不能作為獨立因素,但是在兩類模型中好評情緒得分×差評數、差評情緒得分×好評數的回歸系數顯示其為銷量的重要交互預測因子。 這表明,積極的情緒會緩和差評數帶來的負面影響,而消極的情緒也會干擾好評數對銷售的促進作用,所以店鋪不能忽視評論內容的重要性,而且需要鼓勵買家撰寫好評來提高評論數量。
第二,第三方平臺的微博熱度和微博情緒是兩類模型的預測變量,這說明第三方平臺也會傳播產品的正負面信息。實驗二比實驗一的R2增大了0.005,可見加入第三方平臺的預測變量后預測效果更好,因此適當的參考其變化也可以對銷量預測帶來幫助,熱度越高,銷量越高,積極情緒越強,銷量越高。
第三,觀察其他變量顯示,價格與好評數、促銷金額與差評數的相互作用被認為是兩類預測模型的重要預測因子,因此證明了好評數和差評數的效果,在三個回歸模型中,這兩個變量均被認為是重要的獨立預測因子,而價格和促銷金額對它們與銷量的關系產生了調節效應,并是不可忽視的指標。