孫菀霞,謝均揚,任芮瑄,糾松濤,張才喜
(1. 上海交通大學農業與生物學院,上海 200240;2. 上海交通大學電子信息與電氣工程學院,上海 200240)
隨著互聯網技術的快速發展,人們的日常購物方式由線下實體店拓展到線上網店,網絡購物正受到越來越多消費者的青睞。據國際葡萄酒及烈酒研究所(international wine and spirits research,IWSR)發布的《2019年全球酒水電商市場戰略報告》統計數據顯示,中國酒水電商市場居全球交易規模之首,并且2019—2024年間,全球核心市場的酒水營業額將以每年15%的速度增長,遠高于整個電商行業每年約1%的營業額增速[1]。然而受新型冠狀疫情影響,國內市場進口葡萄酒與國產葡萄酒均受到較大沖擊[2]。2020年1—2月中國葡萄酒銷售收入為12.88億元,同比下降40.8%;利潤為0.5億元,同比下降58%[3]。此次疫情,使葡萄酒生產廠家和產品代理商認識到傳統終端式銷售渠道的不足,開始重視線上渠道的銷售與自媒體的傳播[4]。在葡萄酒銷售渠道由線下銷售向電商轉型的調整階段,商品標題所包含的產品信息不僅能夠吸引顧客、優化購物體驗,而且能有利于促進銷售、樹立品牌形象[5-6]。因此,如何有效地利用現有網購數據,幫助商家擬定符合消費者偏好的葡萄酒商品標題成為亟需解決的問題。
文本挖掘是指利用統計建模等手段進行文本解析并獲取高質量信息的過程[7]。商品標題是文本數據,屬于非結構化數據。在文本挖掘技術盛行的熱潮下,國內外很多學者對網購商品標題進行多領域多角度的研究。包慧君等[5]對網絡零售土雞蛋的商品標題設置進行分析與優化,結果表明,商品標題中核心詞較混亂,并且各種炒作的概念較多,易導致消費者選擇困難。李佳林[8]對女裝、女鞋、手機數碼和家電辦公4大類商品的標題進行優化。Wang等[9]提出一種基于在線評論的智能手機標題優化方法,可以有效反映消費者購物偏好。然而,針對網購葡萄酒標題的研究鮮有報道。
因此,為了準確、完整、簡潔地對網購葡萄酒進行特征描述,提出基于關聯規則的網購葡萄酒標題分析與優化方法。通過對不同銷量級別的商品標題關鍵詞進行關聯度挖掘,為商家改進標題提供理論參考。同時,為了進一步分析與商品銷量有關的影響因素,研究以銷量為目標變量,以標題所反映的商品屬性以及售價為自變量構建隨機森林模型,以期幫助商家適時評估消費者偏好,調整供貨與銷售策略。
為了全面地獲取葡萄酒標題、售價與銷量信息,研究利用Python語言開發的網絡信息抓取軟件以“葡萄酒”為關鍵字從“淘寶網”抓取300頁網頁數據,共獲取3023條商品信息。經過數據清洗,剔除“白酒”“江小白”以及“雞尾酒”等與主題明顯無關的數據,剩余2970條有效信息作為分析數據。采用四分位數切割法,按照“銷量”將商品分為4個不同的等級,即“低銷量”“低中銷量”“中高銷量”和“高銷量”商品。在有效的商品數據中,銷量的最小值為0,最大值為5651,四分位數由低到高依次為10、27和87。
詞頻是指某個詞在一個文檔中出現的頻數。文本中的高頻詞可以在一定程度上反映文本特征。研究基于R軟件jiebaR包中的混合模型(即隱式馬爾科夫模型與最大概率法的結合)對葡萄酒標題進行分詞處理。在分詞過程中,去除空格、數字、字母和標點符號。提取分詞后各銷量等級的標題文本中詞頻大于50的高頻詞并集,進而分析不同銷量等級的標題詞特征。
關聯規則是文本挖掘的一個重要研究方向,通常用以描述數據集中兩組不同對象之間存在的某種關聯關系[10-11]。利用Apriori算法挖掘4個不同銷量等級文本庫中的頻繁項集,通過設置支持度(support)為0.1且置信度(confidence)為0.8對高頻詞的關聯規則進行挖掘,進而比較文本標題中高頻詞的關聯差異。此外,根據詞頻分析結果對“低銷量”和“高銷量”等級中詞頻差異較大的詞——“女士”進行關聯規則分析,實現對“低銷量”商品標題信息的良好補充。為了篩選出較強的關聯規則,選取提升度(lift)大于3的關聯結果進行分析。
隨機森林是由多棵分類回歸樹(classification and regression tree,CART)構成的組合分類模型,該方法不易出現過擬合,具有良好的準確率和穩定性[12]。以葡萄酒銷量作為隨機森林模型的目標變量,同時根據jieba分詞結果對商品標題進行特征提取,從而獲得特征向量(自變量)。用于隨機森林模型構建的自變量包括以下標題特征,即包裝方式(單支、兩支、禮盒、整箱、桶裝)、進口、國家、氣泡或起泡、波爾多、甜或半甜、正品、女士、赤霞珠、促銷或特價、白葡萄酒、莫斯卡托、贈送酒具13個維度。由于商品售價也是消費者考慮的主要因素之一,因此在標題特征屬性的基礎上引入產品單價這一維度,從而將標題特征數據和銷量數據進行集成,共同構成隨機森林模型的樣本數據集。
對“低銷量”和“高銷量”商品建立以銷量為目標的隨機森林分類模型,通過R軟件將數據集隨機劃分為70%的訓練集和30%的測試集,然后根據Random Forest 函數建立隨機森林模型,并獲得各自變量的相對重要性程度排序。重要性程度以平均準確度下降程度(mean decrease in accuracy)和平均基尼指數下降程度(mean decrease in Gini index)進行評估,評價指標的數值越大表示變量的重要性越大[13]。平均準確度下降程度的含義為將一個變量的取值變為隨機數時,隨機森林診斷準確性的降低程度[14]。平均基尼指數下降程度是計算每個變量對分類樹每個節點上觀測值異質性的影響,從而比較變量的重要性[15]。最后,根據靈敏度、特異度以及特征曲線下的面積(area under curve, AUC)評價模型的預測精度和泛化能力。
對4個銷量等級中詞頻大于50的標題詞取并集,分析標題詞之間的共性與差異。由圖1 A可見,“葡萄酒”“紅酒”“干紅”和“進口”4個詞的出現頻數最高,是標題中的核心詞。與低銷量產品的標題相比,高銷量產品標題中“起泡”和“支裝”出現的頻數較高,而“紅葡萄酒”和“赤霞珠”出現的頻數較低。由圖1 B可見,隨著銷量的增加,“包郵”“澳洲”和“智利”出現的頻數逐漸降低,但“波爾多”“西班牙”和“意大利”出現的頻數有所升高。對于詞頻介于50~100的標題詞而言,高銷量葡萄酒中“氣泡”“甜酒”“甜型”以及“女士”的出現頻數明顯增多,表明以女性為銷售對象可能是提高產品銷量的有效方式之一。與低銷量葡萄酒標題中詞頻差異較大的‘莫斯卡托’葡萄經常用于釀造口感甘甜、香氣芬芳的起泡酒和微泡酒,此類酒深受女士們歡迎[16-17]。因此,建議銷售商推出以女性為消費對象的葡萄酒。
據Vinexpo與IWSR聯合發布的《全球葡萄酒市場現狀和未來趨勢預測報告》顯示,全球葡萄酒市場將呈現精品化趨勢,并且起泡酒的增長速率優于靜止酒[18]。預計2022年,全球起泡酒銷量有望達到2.81億箱,價值約329億美元[19]。在起泡酒為全球葡萄酒市場帶來活力的契機,我國也要適當提高起泡酒的市場占比。
“買一箱送一箱”在高銷量的產品中出現頻率較高,因此一定的促銷活動可以刺激銷量提升。然而,研究數據顯示,與70、80后相比,90后群體線上購酒時對促銷并不敏感,80后群體是最精打細算、貨比三家的群體[20]。因此,銷售商應針對不同的消費群體,制定個性化的商品標題,增強與買家搜索的匹配度,使產品搜索結果靠前,通過增加商品曝光率和點擊率以提高產品銷量。
對4個銷量等級中的高頻詞分別進行關聯規則分析發現,低銷量的商品標題中不存在有效的關聯規則,高銷量產品中的商品標題關聯規則最多,說明低銷量產品中標題設置混亂,而高銷量產品的標題詞有一定關聯規律(圖2)。“低中銷量”的商品標題只產生一條關聯規則,即標題詞中若出現“波爾多”,則很有可能會同時出現“法國”,并且在“中高銷量”和“高銷量”級別的產品中同樣存在該關聯規則。進一步分析發現,對“高銷量”產品而言,“波爾多、干紅、紅酒、進口、葡萄酒”的所有子集中,若包含“波爾多”,則同時包含“法國”。然而,“中高銷量”產品缺失了“高銷量”中的部分關聯規則。因此,建議標題中若出現“波爾多”時,同時標注“法國”。

圖2 不同銷量級別中提升度大于3的高頻詞關聯規則Figure 2 Text association rules for high-frequency words based on lift more than 3
通過對低銷量和高銷量產品中詞頻差異較大的標題詞——“女士”,進行關聯規則分析,發現低銷量的商品標題不存在有效的關聯規則,低中銷量僅有1條關聯規則,中高銷量產生7條關聯規則,高銷量則達到11條關聯規則(圖3)。在“中高銷量”的標題中產生包含與“整箱”和“莫斯卡托”相關的關聯規則,而在其它兩組銷量等級中沒有此類關聯規則。在“高銷量”的標題中,關聯規則多與“甜型”“甜酒”“氣泡”以及“起泡”有關。

圖3 商品標題中與“女士”相關的關聯規則Figure 3 Text association rules related to female
《2019中國酒類消費行為白皮書》指出,女性消費群體正在崛起,并且女性對葡萄酒的甜度喜好程度要高于男性[21-22]。因此,建議增加甜酒和起泡酒的產品類型,并且在標題詞中與“女士”相關聯。
通過將隨機森林模型的預測結果與實際結果進行比對,發現模型的靈敏度和特異度分別為74.5%和79.9%,AUC為0.772,表明模型具有較好的評估性能。根據平均準確度下降程度和平均基尼指數下降程度對變量的重要性進行排序,在銷量的判別模型中,重要性排序前5位的變量分別是商品單價、產地、包裝方式、是否屬于甜型、是否為進口酒(圖4)。其中,商品價格是消費者考慮的最主要影響因素。

圖4 分別根據平均準確度下降程度(A)和平均基尼指數下降程度(B)對變量的重要性排序Figure 4 The importance of variables according to the mean decrease in accuracy (A) and mean decrease in Gini index (B)
基于文本關聯的網購葡萄酒標題特征提取以及基于隨機森林模型的葡萄酒銷量影響因素分析。根據低銷量、低中銷量、中高銷量和高銷量的詞頻特征,提出要增強以女性為消費群體的建議。此外,根據文本關聯分析發現,低銷量商品標題詞存在雜亂無序的現象,但是高銷量商品標題詞的關聯性強,建議低銷量商品加強標題詞的關聯性,有針對性地進行商品特征描述。同時,本研究表明,隨機森林模型可以較好地對低銷量和高銷量產品進行區分。商品特征的重要性排序結果可以為商家設定商品標題提供有價值的參考。因為售價是影響銷量的最主要因素,因此低價位已成為我國電商平臺暢銷葡萄酒的共同特征[23]。除售價外,葡萄酒產地也是影響銷量的關鍵因素之一。Vinexpo調查顯示,女性在選擇葡萄酒時主要關注的因素依次是:售價、葡萄品種和原產國[24]。疫情之下國內消費者的民族情懷上升,對提高國產葡萄酒的品牌自信有很大幫助。若借助本次進口酒受阻的時機,創造出更適合國內消費的優質葡萄酒,將為未來國產葡萄酒崛起提供契機。
由于主要針對商品標題的文本特征進行銷量分析,尚未涉及商品人氣指數、商品評價、賣家信譽以及服務質量等因素,因此在以后的銷量影響因素綜合分析中,應納入更多的自變量,以期進一步提高模型評估的準確性。