楊嘉怡 李曉英 何首武
基于手機評論文本的用戶情感分析研究
楊嘉怡 李曉英 何首武
(桂林理工大學南寧分校,廣西 南寧 530001)
以華為Mate40與蘋果iPhone13兩款手機為研究對象,通過Python爬蟲技術采集電商平臺的用戶評論信息,對評論數據進行數據清洗、文本分詞和去停用詞等預處理后,采用SnowNLP對評論文本進行情感分析。最后,通過LDA模型對正、負面評價進行主題分析,并將分析結果可視化展示,以期為手機廠商改進產品及服務質量提供參考建議。
手機評論;情感分析;SnowNLP;LDA主題模型
文本情感分析是對具有情感色彩的文本進行分析、處理、歸納和推理預測的過程,在新聞傳播、輿論管理、觀點分析等問題中展示了不容忽視的價值[1,2]。隨著線上購物平臺的迅速發展和網絡購物的普及,越來越多的人群選擇在網上購買手機。因此,網絡平臺中存在著海量消費者對手機的評價信息,其中包括對產品質量、服務等的主觀感受,反映了人們對產品的態度、立場和建議。而對于各大手機廠商來說,隨著智能手機市場競爭日益激烈,如何從在線評論信息中了解消費者的真實需求,進而不斷提升產品質量與品牌的競爭力,成為各手機廠商亟待解決的難題。因此,對在線手機評論數據進行情感分析,具有非常重要的現實意義[3,4]。
本文通過對京東商城中手機的評論數據進行情感分類,挖掘出不同用戶的情感傾向,分析用戶的需求、意見以及產品的優缺點,為手機廠商及電商平臺改進產品質量,提高用戶體驗提供參考依據。
本文從原始手機評論數據的獲取、預處理、文本情感分類建模、分析結果展示等方面,進行文本情感分析研究,流程如圖1所示,主要步驟如下:(1)對電商平臺中的手機評論信息進行采集;(2)對評論文本進行數據清洗、分詞、去停用詞等預處理;(3)基于SnowNLP對預處理后的數據進行情感分析,將評論文本劃分為正面評價數據與負面評價數據;(4)分別對正、負面評價數據進行LDA主題分析,分析用戶的關注點及產品的優缺點,據此對手機廠商提出合理建議。

圖1 手機評論數據的情感分析流程
SnowNLP是Python類庫中專門針對中文進行自然語言處理的庫,其主要功能涉及到中文分詞、情感分析、文本分類等。SnowNLP自帶了中文正負情感的訓練集,使用樸素貝葉斯原理來訓練和預測數據。其情感分析的過程是,首先讀取待分類的文本內容,對文本進行分詞,去除停用詞;計算每個詞出現的頻數,計算文本的先驗概率和后驗概率,選擇概率較大的類別[5]。使?SnowNLP計算情感值,核心代碼如下:
from snownlp import SnowNLP
senti=SnowNLP(data).sentiments
調用SnowNLP(data)創建了一個SnowNLP類實例,將需要進行情感分析的數據data,作為參數傳入函數。調用SnowNLP(data).sentiments,調用貝葉斯模型,進行情感分析,得出分析結果。
在進行情感分析之前,根據業務需求確定是否要重新訓練模型。本研究中分析對象為手機評論數據,直接采用已訓練好的模型,無需重新訓練模型。
隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,是一種文檔主題生成模型,即認為每一篇文檔的每一個詞都是通過“一定的概率選擇了某個主題,并從這個主題中以一定的概率選擇了某個詞語”[6]。LDA模型由三層結構組成,分別是文檔(d)、主題(z)、詞語(w),也被稱為三層貝葉斯概率模型。通過LDA主題模型,能夠挖掘數據集中的潛在主題,進而分析用戶對產品的關注點及相關特征詞。
在LDA模型中,詞語(w)是文檔的基本單元,由N個詞構成的評論記為d=(w1, w2,…, wN)。假設某一商品的評論集D由M篇評論構成,記為D=(d1, d2,…, dM)。M篇評論分布著K個主題,記為Zi=(i=1, 2,…, K)。記α和β為狄利克雷函數的先驗參數,θ為主題在文檔中的多項分布的參數,φ為詞語在主題中的多項式分布參數。LDA模型結構如圖2所示。LDA主題模型是一種無監督學習算法,需要的僅僅是評論集與指定主題的數量K,因此,在訓練時避免了費時費力的人工標注訓練集。

圖2 LDA主題模型結構圖
“蘋果iPhone13”與“華為Mate40”兩款手機市場份額高,評論數據充足,因此,本文選取京東商城這兩款手機為研究對象,使用python中的requests庫進行數據采集。首先,在該網站找到評論區域內請求頁面的網址Request URL。通過request.get()方法向服務器的url對象發送請求,并返回包含服務器資源的Response對象。接著,通過response.json()返回結果的JSON對象,將獲取到的評論數據轉化為json格式。將所得到的json格式字符轉換成字典類型,這樣便于提取出評論中的信息。最后,通過遍歷page值循環翻頁,并將評論數據寫入csv文件中。本文爬取評論等級從1星到5星的數據記錄,采集了用戶編號、用戶評分、評論內容、評論時間等4個字段,數據結構如表1所示。
表1 評論信息的數據結構
字段名稱示例字段描述 userId100011用戶編號 score5用戶評分 content很精致,質量非常好,很滿意的一次購物。謝謝店家!評論內容 creationTime2021-01-24 13:20評論時間
爬取的手機評論信息包含著大量的重復數據,并且其中夾雜許多數字與字母,如果直接對這些低價值或無價值的信息進行情感分析,挖掘結果會有很大的誤差。另外,由于評論主要圍繞京東商城中的手機進行,其中“京東”“手機”“華為”“蘋果”等詞出現的頻次很大,但是對分析目標意義不大。因此,在對文本挖掘之前,需要對原始數據進行數據清洗、去重等預處理操作。經過數據預處理,共獲取iPhone13有效評論數據1705條,Mate40有效記錄2382條。
在預處理后的數據中提取評論字段content,使用SnowNLP進行情感預測。通過SnowNLP情感分析,將評論數據生成一個0~1上的情緒評分,如圖3所示。這里假設,其中評分大于等于0.8的為正面評論,小于等于0.3的為負面評論,其余為中性評論,將數據分別按正面、負面存儲在相應的文本文件中。所得的iPhone13與Mate40的正面、負面評論分布如表2所示。由圖3與表2可知,Mate40評論中的正面、負面評論分布相差不大,而iPhone13正面評論的數量明顯比負面評價的數量少很多。

圖3 SnowNLP情感分析結果
表2 手機評論數據的情感分布
品牌iPhone13Mate40 評論數量(條)17052382 正面評論數量4021014 比例24%43% 負面評論數量9661037 比例57%44%
根據SnowNLP情感分析,選擇兩款手機情感分類后的正面、負面評論數據集,對文本進行jieba分詞和過濾停用詞,使用Python的gensim庫實現LDA主題分析。LDA主題分析過程中,首先獲取SnowNLP分類好的好評集和差評集,然后,調用gensim庫的corpora模塊,構建詞典,建立語料庫。最后,調用model.LdaModel(num_topics)方法指定主題數量,訓練LDA模型[7]。本文設定LDA模型的主題數量為3,構建LDA主題模型,并將好評集、差評集的主題分析結果以詞云圖可視化展示,關鍵核心代碼如下:

在“蘋果iPhone13”評論數據的主題分析中,圖4為正面評價的3個潛在主題的詞云圖。其中,“流暢”“好看”“拍照”“清晰”“顏色”等詞語表現較為突出,表明用戶認為該款手機運行流暢、外形與顏色好看、拍照清晰,對該產品的質量表示認可。而在圖5差評集主題的詞云圖中,“降價”與“保價”的權重最大,用戶反饋購買手機后降價,并且不支持保價;其次,“充電”“信號”等頻率較高,另外“包裝”“客服”“售后”“快遞”等頻率也較高。
在“華為Mate40”的LDA模型分析中,圖6展示了Mate40手機好評的潛在主題,其中,“屏幕”“外觀”“外形”“拍照”“流暢”等詞語較為突出,說明用戶對該產品質量的認可。在圖7差評集潛在主題的詞云圖中,“屏幕”的權重是最大的;其次,“客服”“發貨”“退貨”“換貨”“售后”“快遞”等頻率較高。

圖4 iPhone13正面評價主題的詞云圖

圖5 iPhone13負面評價主題的詞云圖

圖6 Mate40正面評價主題的詞云圖

圖7 Mate40負面評價主題的詞云圖
綜合京東平臺上手機評論數據的情感分析結果,總結出各品牌優缺點,見表3。
表3 兩款手機優缺點匯總表
品牌優點缺點 蘋果iPhone13外觀設計美觀、運行流暢、顏色好看、拍照清晰降價快、充電問題、信號不好、售后及物流差 華為Mate40手機外觀美觀、拍照效果好、系統運行流暢屏幕綠邊、客服與售后服務差
對兩款手機品牌提出以下改進建議:
(1)手機商家在保持產品外形美觀和拍照效果好等優點的基礎上,優化屏幕設計,增強用戶體驗;
(2)對于降價問題,商家應在商品頁面給予說明,標明保價范圍與規則,并及做好保價申請服務;
(3)提升客服人員的整體素質,完善售后服務,提高服務質量,以此在日趨激烈的手機市場競爭中凸顯優勢。
本文爬取京東商城的手機評論數據,基于SnowNLP對其進行文本情感分類,并將LDA主題模型與詞云可視化技術相融合,挖掘消費者對商品的關注點,為商家改進產品質量,完善售后服務,提升品牌的競爭力,提供了有意義的參考和依據,具有一定的研究價值。但是,由于SnowNLP庫是基于電商評論數據集訓練好的模型,本研究中并沒有重新訓練數據,因此數據分析的準確率有待提高,并且爬取的數據量相比于海量數據而言,還欠缺一定的精準度,這將是本文進一步研究的方向。
[1] 吳小坤,趙甜芳. 自然語言處理技術在社會傳播學中的應用研究和前景展望[J]. 計算機科學,2020,47(6): 184-193.
[2] 曾小芹,余宏. 基于Python的商品評論文本情感分析[J]. 電腦知識與技術,2020,16(8): 181-183.
[3] 章蓬偉,賈鈺峰,邵小青,等. 基于文本情感分析的電商產品評論數據研究[J]. 微處理機,2020,41(6): 58-62.
[4] 王亞. 手機在線評論的情感分析[D]. 貴陽: 貴州財經大學,2020.
[5] 陳興蜀,常天祐,王海舟,等. 基于微博數據的“新冠肺炎疫情”輿情演化時空分析[J]. 四川大學學報(自然科學版),2020,57(2): 409-416.
[6] 祖弦,謝飛. LDA主題模型研究綜述[J]. 合肥師范學院學報,2015,33(6): 55-58.
[7] 尚永敏,趙榆琴. 基于機器學習的在線評論情感分析與實現[J]. 大理大學學報,2021,6(12): 80-86.
Research on User Sentiment Analysis Based on Mobile Comment Text
Taking Huawei Mate40 and Apple iPhone13 mobile phones as the research objects, the user comment information of e-commerce platform is collected through Python crawler technology. After data cleaning, text segmentation and stopping words are preprocessed for the comment data, SnowNLP is used for sentiment analysis of the comment text. Finally, the LDA model is used to analyze the positive and negative evaluations, and the analysis results are displayed visually, in order to provide reference suggestions for mobile phone manufacturers to improve product and service quality to a certain extent.
mobile comment; sentiment analysis; SnowNLP; LDA theme model
TP391.4
A
1008-1151(2022)09-0022-03
2022-03-27
2019年度廣西高校中青年教師科研基礎能力提升項目“基于高校大數據的學生畫像系統研究”(2019KY0270)。
楊嘉怡(1998-),女,江蘇泰興人,桂林理工大學南寧分校學生,研究方向為數據挖掘。
李曉英(1981-),女,山西汾陽人,桂林理工大學南寧分校講師,研究方向為大數據分析與管理。