摘 要:當前,快節奏的生活方式使消費者對預制菜的需求不斷上升。在線評論中蘊含著消費者的真實需求,已成為電商企業提升服務質量與增加消費者黏性的重要參考。本文對京東商城預制菜在線評論文本信息進行數據挖掘,通過SnowNLP對在線評論數據進行情感分析,并對得到的正負情感文本分別進行LDA主題分析,得出預制菜的質量、價格、物流、口味和售后為影響消費者滿意度的關鍵因素?;诖?,本文從提升預制菜質量、加大促銷力度、完善冷鏈物流服務、改善預制菜口味、加強售后溝通五個方面對預制菜電商提出對策建議,以供參考。
關鍵詞:在線評論;預制菜;情感分析;LDA模型;預制菜評價
中圖分類號:F126.1 文獻標識碼:A 文章編號:2096-0298(2024)11(a)--05
2023年中央一號文件首次提出要“培育發展預制菜產業”。2023年《輕工業穩增長工作方案(2023—2024年)》指出要“實施推動食品工業預制化發展行動方案,順應方便快捷、營養健康食品消費需求,大力發展方便食品、自熱食品、米面制品、預加工菜肴等產品形態?!蔽覈A制菜產業發展迅速,其產業鏈涉及農業生產、加工流通、餐飲服務、市場消費等多環節。
《2023年中國預制菜產業發展白皮書》指出,2020年我國平均每個家庭人口為2.62人,二人家庭和單身家庭數量明顯增加。小型家庭的勞動成本較高,推動了一日三餐簡單化和便捷化需求的增長,進而帶動了預制菜消費的熱潮。同時,經濟的快速發展在提升人均可支配收入的同時,也擠壓了職場人的休閑時間??旃澴嗟纳罘绞绞孤殘鋈巳狈ψ銐虻臅r間和精力準備三餐,預制菜因此成為其重要選擇。
在線評論是消費者購物體驗的真實反饋,挖掘其中的消費者滿意度,對推動預制菜電商的發展具有重要意義。在此背景下,本文挖掘消費者在線評論數據,將SnowNLP情感分析與LDA主題模型相結合,從而識別影響消費者對預制菜滿意度的關鍵因素,為預制菜電商提出改進建議,從而提高消費者滿意度,幫助預制菜電商產業發展。
1 相關文獻評述
預制菜是指以農、畜、禽、水產品為主要原料,配以各類輔料,用現代化標準集中生產,經預加工或預烹調制成,并進行預包裝的成品或半成品菜肴,消費者無需烹飪或只需簡單烹飪即可食用[1]。按照其食用方便性和深加工程度可將預制菜分為即熱、即烹、即配、即食四大類[2]。國內早期對預制菜的研究大多集中在預制菜的保鮮技術[3]和菜肴的工業化[4]。此后,大部分學者對預制菜的研究大多集中在對預制菜行業的現狀及發展趨勢[5]。
Feldman等(1995)最早提出文本挖掘概念,并將其用于研究非結構化數據[6]。此后,學者嘗試將文本挖掘技術運用在滿意度研究中。Lyu等(2020)對有機農產品的在線評論文本進行LDA主題分析,研究發現有機農產品的包裝設計、營養信息、食品質量、配送風險、新鮮度是消費者線上購買有機農產品的重要因素,產品的價格折扣和評論數量會影響消費者滿意度[7]。Uatay等(2020)通過分析Naver博客文章的評論數據,通過從評論文本中提取出的產品、購買、交付、使用和價格等關鍵詞預測客戶情緒和滿意度,結果發現這些關鍵詞對客戶滿意度均有正向影響[8]。
文本情感分析又稱意見挖掘,是指對帶有情感色彩的主觀性文本進行分析,挖掘其中蘊含的情感傾向,對情感態度進行劃分[9]。目前,文本情感分析大多被學者們應用于分析在線評論。馬鳳才等(2020)通過爬取京東商城水果、蔬菜、海鮮和肉類四類生鮮產品的在線評論,運用word2vec構建特征詞表,并結合TF-IDF方法計算特征權重,結果表明,消費者對上述四類生鮮產品的服務和價格滿意度較高,對包裝的滿意度相對較低[10]。Wang等(2018)使用SnowNLP對洗衣機的在線評論進行情感傾向識別,并建立回歸模型分析影響消費者滿意度的商品屬性[11]。邱冬陽等(2023)將SnowNLP情感分析和LDA主題模型結合,對雙十一期間天貓商城個護美妝商品的在線評論進行挖掘,從而探究“雙十一”活動及活動前后的消費者滿意度[12]。
綜上所述,雖然利用在線評論研究消費者滿意度是當下研究的熱點,近年來對預制菜的研究也不斷增多,但是研究大多集中在對預制菜行業的現狀及發展趨勢,對預制菜商品的滿意度研究較少。因此,本文通過文本挖掘技術、SnowNLP情感分析結合LDA主題模型對京東商城的預制菜商品評論數據進行分析,探究消費者對預制菜商品的滿意度情況,并為預制菜電商企業提供改進建議。
2 理論基礎
2.1 消費者滿意度相關理論
Cardozo等(1965)最早提出“消費者滿意度”概念,該概念指出消費者在購買產品前會形成一定的期望水平,購買后會通過他們的實際經驗來評價產品或服務的質量和性能[13]。消費者的滿意度是他們通過比較期望與實際經驗來形成的。如果實際經驗與期望相符或超過期望,消費者就會感到滿意,并且可能產生回購行為成為忠實顧客。反之,如果實際經驗低于期望,消費者可能會感到失望和不滿意,甚至發表負面評價,對品牌造成損害。此后,Oliver等(1980)指出消費者對產品或服務的滿意度是由其期望和感知之間進行主觀比較的結果,即當消費者對產品或服務的期望與自身感知一致時,消費者就會感知到滿意,反之則不滿意[14]。劉子寒等(2023)將消費者滿意度視為消費者對其購買產品或服務體驗的主觀評價,綜合考慮了認知和情感兩方面,高滿意度能夠促使消費者增加對特定網絡零售商的忠誠度和黏性,降低轉向其他網絡零售商的可能性[15]。
2.2 LDA模型
Blei等(2003)提出了LDA(Latent Dirichlet Allocation)模型,該模型是一種基于Dirichlet分布的非監督機器學習算法[16]。LDA模型是一種文檔主題生成模型,又被稱為三層貝葉斯概率模型,包含詞、主題和文檔三個層次。LDA將每篇文檔視為多個主題的組合,而每個主題又由多個詞構成。其目標是通過觀察文檔集合,推斷出每個文檔中的主題分布以及每個主題中詞的分布,從而了解文檔集合中主題的分布情況以及每個主題所代表的意義。
LDA模型常被用于評論文本、新聞文本等數據挖掘研究,從而探究消費者滿意度,研究領域十分廣泛,包括生鮮農產品[17]、旅游景區[18]、電子產品[19]等。
3 研究設計
3.1 數據的預處理
3.1.1 數據的采集
京東商城作為中國最大的綜合電商平臺,擁有數量可觀的評論數據,并且允許一定程度的數據爬取。本文選擇京東商城正大CP、海文銘、知味觀等預制菜店鋪的在線評論作為研究對象,并對店鋪中小酥肉、佛跳墻、宮保雞丁、魚香肉絲等預制菜商品使用八爪魚采集器進行評論數據采集,爬取2021年9月28日至2024年2月8日的評論數據,共計25936條。
3.1.2 數據的清洗
在對文本數據進行預處理時,需要把以下幾種情況的數據剔除:
(1)剔除重復評論。將評論文本內容相同的評論數據剔除,只保留一條。
(2)剔除系統默認評論。如果消費者長時間沒有評論,系統默認會正面評論,如“此用戶未填寫評價內容”和“該用戶覺得商品不錯”等類似評論。
(3)剔除過短評論。評論數據過短含有的信息較少,所以本文去除了字符長度小于5的數據。
(4)剔除無效評論。整條評論內容全部為數字、字母或者符號的評論,例如“1”“aaa”“?。?!”等。
經過篩選后共獲得了20802條有效評論數據,這些數據將用于后續的分析研究。
3.1.3 文本分詞處理
中文分詞是文本處理中的基礎工作,本文采用jieba模塊對文本進行分詞處理。在分詞的同時進行去停用詞的步驟,這一步可以去除無實際意義的常見詞匯,提高分詞效率,本文采用哈工大停用詞庫,并通過迭代不斷優化分詞結果。分詞過程中出現的高頻新詞,需要加入自定義詞庫以提高分詞效果。本文針對預制菜商品評論,添加了品牌名稱和口語化詞匯到自定義詞庫中。經過多次迭代和詞庫更新,最終得到了準確的分詞結果,部分分詞結果如表1所示。
3.2 情感分析
3.2.1 SnowNLP情感分析
機器學習的情感分析有多種方法,本文采用的是SnowNLP模型,其依托的底層模型為樸素貝葉斯。在實際使用SnowNLP模型的過程中,需要根據研究情況,重新訓練模型。首先將采集到的部分評論數據人工進行情感傾向標注,對該模型進行學習訓練。然后對訓練好的模型進行準確率的測試。在模型通過學習測試后,再進行整體文本數據的情感分析。
本文將小于0.5的情感得分設定為消極情感、大于等于0.5的情感得分設定為積極情感。然后將預處理好的文本數據放入SnowNLP模型中進行分析打分,最終得到16035條積極文本、4767條消極文本。
3.2.2 文本詞頻分析
本文對情感分析后的積極和消極評論文本分別進行詞頻統計,并按照詞語出現頻率從高到低排序。選取頻率最高的前20個詞進行分析,并制作詞云圖,以更直觀地展示數據分析結果。如圖1所示,其中左側為積極評論文本詞云圖,右側為消極評論文本詞云圖。詞云圖中詞語的字體大小與其詞頻成正比,詞頻越高,字體越大;詞頻越低,字體越小。
由圖1可以看出,積極和消極詞云圖中都出現了“味道”,以及一些對于預制菜味道的描述,比如“好吃”“難吃”“口味”“口感”等,說明消費者對預制菜的味道關注度較高?!拔锪鳌薄翱爝f”等詞說明消費者對預制菜的物流較為關注,由于預制菜屬于生鮮農產品,消費者對預制菜冷鏈物流要求較高?!鞍b”和“質量”在兩個詞云圖中同時出現,說明預制菜包裝標準不一致,部分消費者對預制菜的包裝感到不滿,預制菜商品質量也參差不齊?!胺諔B度”“商家”說明消費者對預制菜的售后服務也較為關注?!皟r格”“便宜”“不值”等與價格有關的詞匯也在兩個詞云圖中同時出現,說明消費者對預制菜的定價看法各不相同。
3.3 消費者滿意度影響因素分析
3.3.1 確定LDA模型主題數量
本文利用LDA模型對情感分析后的積極評論文本和消極評論文本分別進行主題分析。目前常見確定主題的方式是基于困惑度或一致性[20],由于困惑度過于依賴概率和詞頻,沒有考慮到詞匯在評論文本中上下文的聯系,所以本文選擇一致性來確定用戶評論集的最佳主題數量[21]。一致性評分是由詞匯的共現頻率來計算的,評分越高說明獲取的主題數量更合適。本文基于gensim框架搭建主題模型,獲得在當前主題數量下的一致性評分。結果顯示積極評論文本的最佳主題數量為5;消極評論文本的最佳主題數量為4時會取得較好的結果。
3.3.2 LDA主題分析
為了使最終的聚類效果可以更加直觀的展示出來,本文需要對主題聚類結果進行可視化分析。主要利用pyLDAvis模塊,然后結合gensim庫,對提取主題后的結果進行可視化,圖2為積極評論文本的可視化結果。
圖2左邊的圓圈表示不同的主題,圓心間的距離代表主題間的相似程度,圓圈的大小代表該主題在整個文本中所占的比例,越大代表整個主題在整個文本中的核心程度越高。圖2右邊的直方圖表示每個主題所對應的文本數據中的關鍵詞。
LDA模型在抽取文檔中的主題及其對應的關鍵詞方面具有高效的能力。但由于LDA是一種無監督的機器學習算法,在建模后會出現一些主題中提取的關鍵詞沒有實際含義的情況,這些詞語對研究結果造成干擾。此外,針對電商消費者評論文本的相似度高和部分主題關鍵詞劃分不明確的問題,需要進一步的數據處理。為了解決以上問題,對每個主題的主題詞進行分析,過濾掉那些沒有準確含義的詞語。提取每個主題中10個具有具體內容分類的關鍵詞,這樣的處理有助于提高主題識別的準確性和可解釋性。
通過表2可以發現:主題1中出現的詞語有“快遞”“物流”“冷鏈”等,說明消費者對物流的運輸方式比較關注。預制菜具有易變質的特點,高效的物流服務和冷鏈運輸環境可以保持其新鮮度和品質。主題2中“客服”“商家”“服務態度”等詞說明消費者對預制菜的售后服務比較在意。專業的售后可以為消費者提供商品信息、解答疑問,從而輔助消費者做出購買決策。主題3中“品質”“質量”“新鮮”等詞說明消費者對預制菜的質量有著很高的要求,且大部分消費者收到的預制菜都能保證其新鮮度。主題4中“味道”“好吃”“口感”等詞都屬于消費者的主觀感受,說明消費者對預制菜的味道比較關注,并且大部分消費者給出的評價都是“美味”。主題5中“價格”“便宜”“劃算”等詞可以看出消費者對預制菜的價格比較滿意,“活動”一詞的出現表明折扣、促銷等方式可以吸引到消費者的注意力,促使消費者完成購買行為。綜上所述,預制菜的物流、售后、質量、口味和價格這五個因素都是影響消費者滿意度的關鍵。
通過表3可以發現:主題1中“客服”“商家”“解決”等詞說明消費者對于預制菜的售后服務方面不是十分滿意,部分消費者的問題沒有被商家妥善解決。主題2中“難吃”“味道”“不好吃”等詞說明部分消費者對預制菜的味道不滿意,“價格”“上當”等詞說明消費者認為預制菜的定價不合理。主題3中“臭味”“變質”“拉肚子”等詞說明部分消費者對預制菜的質量不滿意,“快遞”一詞說明預制菜的質量問題與物流配送有關。主題4中“包裝”“冰袋”“快遞”說明預制菜的商品包裝標準參差不齊,且部分消費者認為預制菜的冷鏈物流差勁。
4 結語
本文對京東商城預制菜的在線評論進行情感和主題分析,結果表明質量、價格、物流、口味和售后影響消費者的滿意度,并提出如下建議:
(1)提升預制菜質量,加強生產過程管控。建立嚴格的原材料采購標準,加強對生產過程的管控和監督,確保生產操作符合衛生標準和食品安全規定。建立完善的質量檢驗和抽檢制度,對生產過程中的關鍵環節和成品進行全面檢測和抽樣檢驗,減少不合格的預制菜商品流入市場。
(2)引入優惠政策,加大促銷力度。電商企業一方面可以通過促銷活動、推廣優惠等,吸引消費者購買,同時可以考慮與支付平臺合作,提供特定支付方式的優惠。另一方面,可以通過宣傳預制菜產品的優勢和附加值,從而降低消費者對于預制菜價格偏高的認知,使其更加愿意接受預制菜產品的價格。
(3)完善冷鏈物流服務、強化包裝保護功能。對冷鏈物流設定嚴格的溫度控制標準,確保整個運輸過程中預制菜的溫度保持在安全的范圍內。使用具有良好保護功能的包裝,能夠有效隔絕外界環境對預制菜的影響,如保持溫度穩定、防止擠壓和碰撞等。
(4)改進預制菜口味,提升消費者體驗。不斷優化配方和加工工藝,改進預制菜的口味,使其更符合消費者的口味偏好。此外,可以借鑒消費者反饋和市場需求,不斷改進口味,推出符合市場趨勢和消費者口味的新品種新口味。
(5)加強售后溝通,積極收集消費者反饋。提供全天候的客戶服務,確保消費者可以隨時聯系到客服,以便及時處理消費者的咨詢、投訴和售后問題。積極收集消費者的意見和反饋,包括商品質量、物流服務和售后等方面。
參考文獻
趙超凡,陳樹俊,李文兵,等.預制菜產業發展問題分析[J].現代食品科技,2023,39(2):104-109.
曾耀銳,鄒玉潔,盧賢鈿.供應鏈視角下“宅經濟”預制菜發展現狀及前景分析[J].中國儲運,2022(11):189-190.
劉琳,張德權,賀稚非.調理肉制品保鮮技術研究進展[J].肉類研究,2008(5):3-9.
李滿雄,李水紅,熊巍,等.淡水魚預制菜加工技術研究進展[J].食品安全導刊,2021(34):128-130.
安俊文,方梓鎣,高希西,等.我國預制菜產業的發展現狀、影響因素及發展趨勢[J].食品與發酵工業,2024,50(5):388-394.
Feldman R., Dagan I. Knowledge Discovery in Textual Databases (KDT)[C]//KDD. 1995, 95: 112-117.
Lyu F, Choi J. The forecasting sales volume and satisfaction of organic products through text mining on web customer reviews[J].Sustainability, 2020, 12(11): 4383.
Uatay G., Cho D. S., Lee H. Y. Gaging customer response to dawn delivery service using social big data[J].Culinary Science & Hospitality Research, 2020, 26(2): 1-9.
王婷,楊文忠.文本情感分析方法研究綜述[J].計算機工程與應用,2021,57(12):11-24.
馬鳳才,李春月.消費者對電子商務平臺銷售生鮮產品滿意度測算研究: 基于京東生鮮在線評論的分析[J].價格理論與實踐,2020(5):117-120.
Wang Y., Lu X., Tan Y. Impact of product attributes on customer satisfaction: An analysis of online reviews for washing machines[J].Electronic Commerce Research and Applications, 2018, 29: 1-11.
邱冬陽,繪嫻.雙十一活動消費者滿意度研究: 基于天貓個護美妝類產品文本挖掘[J].重慶郵電大學學報(社會科學版),2023,35(2):131-145.
Cardozo R. N. An experimental study of customer effort, expectation, and satisfaction[J].Journal of marketing research, 1965, 2(3): 244-249.
Oliver R. L. A cognitive model of the antecedents and consequences of satisfaction decisions[J].Journal of marketing research, 1980, 17(4): 460-469.
劉子寒,符少玲.消費者滿意度綜述[J].商業經濟研究,2023(23):61-64.
Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation[J].Journal of machine Learning research, 2003, 3(1): 993-1022.
馮坤,楊強,常馨怡,等.基于在線評論和隨機占優準則的生鮮電商顧客滿意度測評[J].中國管理科學,2021,29(2):205-216.
張怡,裘鴻菲.基于LDA主題模型的湖泊公園生態系統文化服務公眾感知研究[J].中國園林,2023,39(7):121-126.
吳江,周露莎,劉冠君,等.基于LDA的可穿戴設備在線評論主題挖掘研究[J].信息資源管理學報,2017,7(3):24-33.
Mimno D., Wallach H., Talley E., et al. Optimizing semantic coherence in topic models[C]//Proceedings of the 2011 conference on empirical methods in natural language processing. 2011: 262-272.
Xie T., Qin P., Zhu L. Study on the topic mining and dynamic visualization in view of LDA model[J].Modern Applied Science, 2018, 13(1): 204.