楊君子,周林錦,張利民,韓媛媛,程鳳林,張軍芳,袁 挺
(衡水學院數學與計算機科學系,河北 衡水 053000)
在互聯網迅速發展的今天,手機、電腦等電子設備的使用越來越廣泛,人們已經逐漸養成了線上購物的習慣。隨著線上購物越來越受歡迎,電子商務成為了新潮流,電商平臺直播營銷成為了一種新的銷售手段,為助推鄉村振興,各地掀起了主播帶貨的熱潮,為特色農產品打開了更為寬廣的銷售渠道。特色農產品企業要想取得長久的發展,需要線上平臺和企業保障自身產品物美價廉,誠信經營。此外,企業還需要對消費者的消費心理進行研究,根據平臺上消費者的評論數據,制定合理的銷售策略。
傳統的購物可以直接通過觸摸、試穿等方式直接感受到產品質量的好壞,來決定是否購買。但在線上購物時,消費者無法直接感受到產品的好壞,只有通過商品的評論來進行判斷,所以商品評論的好壞能間接決定產品的銷量。特色農產品企業要充分利用平臺上海量的銷售數據信息,對這些信息進行深度挖掘,獲得有價值的信息,分析消費者對所購買產品的情感態度,及時發現消費者的購買偏好,及時了解消費者的購物需求,從而抓住商機,提升銷售量,減少風險損失。課題組主要基于電商平臺特色農產品的評論數據,分析特色農產品在電商平臺銷售中存在的問題,主要應用一種非監督機器學習技術LDA主題模型,構建消費者對商品的情感分析,幫助賣家發現產品銷售中存在的問題,改進銷售策略,擴大銷售。
本研究對電商商品的評論數據進行挖掘,是對電商產品評論關注點的研究。如圖1所示,是電商平臺上面銷量最好的4款某酒業產品的評論數,因為50度產品的評論數樣本最多同時好壞評差異最大,所以選擇某酒業50度產品作為研究對象。

圖1 評論數表
獲取到數據以后,構建了包含數據預處理和LDA模型分析的一套情感分析模型,其技術路線如圖2所示。首先,從電商產品評論中把關鍵詞提取出來,然后進行文本去重分詞等數據的預處理,最后建立LDA情感分析模型,并進行模型結果的評估。

圖2 電商商品評價情感分析技術路線
評論數據中包含了很多重復的文本,這些重復的數據有可能是平臺商家購買的水軍所發布的評論,即為了營造出商品很好的假象而通過不正當手段對自家商品直接給予好評。這些重復評論可能掩飾商品品質而誤導消費者,現對這些重復的文本進行處理。如圖3所示,為本研究獲取的部分評論數據。

圖3 部分評論數據
因為線上購物平臺的商品評價信息有效性不一,進行去重后還是有很多參考意義不大的重復語句,比如“可以可以可以”“不錯不錯不錯”“好喝好喝”等。
因此,設定語句壓縮的規則[1]如下:
若讀入與上列表相同,下為空,則放下;
若讀入與上列表相同,下有,判斷重復,清空下表;
若讀入與上列表相同,下有,判斷不重,清空上下;
若讀入與上列表不同,字符≥2,判斷重復,清空上下;
若讀入與上列表不同,下為空,判斷不重復,繼續放上;
若讀入與上列表不同,下有,判斷不重復,放下;
讀完后,判斷上下,若重復則壓縮。
根據以上幾條壓縮語句規則,得到了已壓縮去詞完成的精簡語料,如圖4所示。

圖4 壓縮去詞結果
有部分評論過短,比如“很好”“很棒”“贊”“不好”,這些過短的評論看似是對商品的好評或差評,但還有可能是消費者為了獲取積分而給予的評論,是隨意完成的,而刪除之后保留的長句子能更好地完成對商品評論的情感分析。因此,需要對這樣的短句子進行過濾,過濾后的結果中已經不顯示較短的句子。
文本分詞是中文文本處理中的一個重要步驟,若分詞效果好,可以清晰看出評論內容主要表達的含義;若分詞效果不好,則嚴重影響對評論文本情感的分析。比如,“服務非常好”分詞的一般結果應為“服務”“非常”和“好”,若分成“服”“務非”和“常好”則嚴重丟失了文本的情感含義。根據已有研究結果顯示,jieba分詞精度高達97%以上。采用jieba分詞對本研究的評論數據進行處理,獲得的正面詞匯和負面詞匯數據如表1所示。

表1 正面和負面評論數據分詞結果
評價信息中也有很多出現次數很多但是沒有明顯意義的用詞,例如語氣助詞等。 把停用詞進行過濾去除,可以減少存儲空間的占用,提升搜索速度,更能在一定程度上增加關鍵詞密度,讓優化的關鍵詞更突出。
通過挖掘評論數據,分析購買者的情感需求,即深入探究評論信息中包含的潛在主題。在模型里,可觀測變量就是評論信息中的特征詞。假如某個潛在主題又是其他評論信息中的主題,那么這個潛在主題很大程度上就可以認為是整體評論信息中的熱門點。而在這個潛在主題中出現次數最多的特征詞就可能是熱門關注點中的評論詞。分別統計正面和負面兩種情緒傾向下的主題發生和分布的情況,對兩種情緒和傾向下各主題的發生概率和發生次數進行由高到低的排序,根據分析的需要,在重點評論中選擇一個最熱門的話題作為熱點,然后根據潛在話題和注意詞的出現概率,得到相應的熱門關注點。計算主題概率的LDA模型步驟如下[2-3]:
1)輸入文檔集,對文檔集的各個子文檔進行編號;
2)獲取每篇文章的主題概率分布;
3)獲取每篇文章下每個主題的生成詞概率分布;
4)從文檔集合中獲取每個主題的編號映射表;
5)通過統計詞頻對參數進行評估,選取最大概率詞作為主題詞。
將數據代入程序中,實現了對正面主題和負面主題的分析,結果如圖5所示。
經過LDA模型主題分析,可以把評論數據歸納成4個主題,每個主題下分別生成10個出現可能性最高的詞匯。
根據對電商產品正面評論的4個潛在主題的特征詞進行提取,主題一中的高頻特征詞有專業、舒適、香型、口感,主要反映用戶本身對某酒業酒味道的喜歡;主題二中的高頻特征詞有推薦、經典、值得、期待,主要反映客戶主觀上的喜歡;主題三和四中的高頻特征詞為值得、設計、紙箱、速度、包裝,主要反映產品質量很好,外觀漂亮,值得買,客戶很滿意。
根據對電商產品負面評論的4個潛在主題的特征詞進行提取,主題一中的高頻特征詞有不能、打開、整箱、包裝,主要反映商家對酒的包裝防護不足;主題二中的高頻特征詞有后勁、質量、一般、郁悶,主要反映了酒的后勁有點大;主題三中的高頻特征詞有發貨、塑料、防護、未敢,主要也是反映商家對酒包裝防護的不足;主題四中的高頻特征詞有送貨、下樓、發貨、一般、郁悶、店家、降價,主要反映客戶對商品價格不穩定、物流服務差的不滿。
綜合以上對主題及其中的高頻特征詞的分析可以看出,某酒業產品有以下幾個優勢:口感好,性價比高,外觀顏值高,質量不錯。相對而言,也有幾個不足:對酒的包裝防護不到位,酒的后勁大,價格不穩定,物流服務不好。
根據對電商平臺產品的用戶評價進行LDA主題模型分析,對電商平臺提出以下建議:
1)在產品性價比高、顏值高、服務好的前提下,要保證口感不變,提高產品質量;
2)提升商品的包裝防護,保持商品價格的穩定;
3)選擇好的物流公司進行合作,提高物流服務態度。
互聯網的發展帶動了人們的在線消費能力,而部分特色農產品賣家則對商品的優點、賣點和不足不夠清晰。為了發現市場中存在的問題和潛在的機遇,課題組構建了基于電商商品評論數據的情感分析文本挖掘模型,以幫助特色農產品銷售賣家和電商平臺做出合適的產品發展決策,為提高產品競爭力提供參考。首先,對評論數據進行了預處理,包含文本去重、機械壓縮去詞、短句過濾、文本分詞、去除停用詞5個步驟,獲取到了用于主題分析的數據文檔[4-5]。再根據分析結果,分別挖掘情感態度不同情況下的潛在主題,以此獲取不同需求的消費者對線上消費產品的情感喜好度。分析結果顯示,產品有以下幾個優勢:口感好,性價比高,外觀顏值高。相對而言也有幾個不足:對酒的包裝防護不到位,產品后勁大,價格不穩定,物流服務不好。因此,商家仍需提高產品質量和服務,研發不同類型的產品,以滿足不同消費者的購買需求。同時,物流公司需要有良好的服務態度,及時將產品送到顧客手中,提升和維護企業形象。另外,商家仍需要創新網絡發展營銷模式,發揮產品特色,不斷使網絡營銷策略更加成熟,推動區域經濟的發展。