陳諾祎 單菁 王佳英 石璐璐



摘? 要:隨著科技的進(jìn)步,由華為自主研發(fā)的首個(gè)國產(chǎn)手機(jī)操作系統(tǒng)成功問世,引起社會(huì)強(qiáng)烈反響。該文以網(wǎng)絡(luò)爬蟲抓取的用戶評(píng)論為例,基于評(píng)論數(shù)據(jù)建立評(píng)估模型,主要使用文本描述性分析、SnowNlp情感分析和LDA潛在主題挖掘這3種方法,從不同角度對(duì)用戶評(píng)論進(jìn)行文本挖掘分析,找出評(píng)論大數(shù)據(jù)背后隱含的情感傾向、用戶觀點(diǎn)等深層信息,有助于企業(yè)了解用戶的使用體驗(yàn)與口碑動(dòng)態(tài)。該文分析模型的評(píng)估效果可信度較高,所采用的研究方法也適用于電商評(píng)論分析、社會(huì)輿情分析等方面。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲? ?情感分析? ?LDA? ?文本挖掘
中圖分類號(hào):TP391.1? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-3791(2021)06(a)-0026-04
Sentiment Analysis and Research of User Comments on Hongmeng System Based on Text Mining
CHEN Nuoyi? SHAN Jing*? ?WANG Jiaying? ?SHI Lulu
(School of Information and Control Engineering, Shenyang Jianzhu University, Shenyang, Liaoning Province, 110168? China)
Abstract: With the progress of science and technology, the first domestic mobile phone operating system developed by Huawei has been successfully launched, which has aroused strong social response. Based on web crawler fetching user comments as an example, the evaluation model is established based on the review data. Three methods are mainly used: text descriptive analysis, SnowNlp sentiment analysis and LDA potential topic mining method, conducting text mining analysis on user comments from different perspectives to find out the emotional tendency, user opinions and other deep information hidden behind thebig data of comments. It is helpful for enterprises to understand the user experience and word of mouth dynamic. The evaluation effect of the analysis model in this paper has a high credibility, and the research method adopted is also applicable to e-commerce comment analysis, social public opinion analysis and other aspects.
Key Words: Web crawler; Sentiment analysis; LDA; Text mining
鴻蒙OS是一款“面向未來”的操作系統(tǒng),一款基于微內(nèi)核的面向全場景的分布式操作系統(tǒng),是由華為開發(fā)人員打造的國產(chǎn)手機(jī)系統(tǒng)。對(duì)于鴻蒙系統(tǒng)的正式發(fā)布,國內(nèi)用戶紛紛通過網(wǎng)絡(luò)平臺(tái)發(fā)布對(duì)該系統(tǒng)的評(píng)論看法,用戶的評(píng)論信息包括了客觀評(píng)論與主觀評(píng)論,而主觀評(píng)論占比極高,該文通過采集B站(某自媒體視頻網(wǎng)站)關(guān)于鴻蒙系統(tǒng)視頻底部的用戶評(píng)論信息,建立相關(guān)的文本挖掘模型對(duì)評(píng)論信息進(jìn)行深度挖掘。
1? 研究方法
該文對(duì)選取的關(guān)于鴻蒙系統(tǒng)在線評(píng)論利用八爪魚采集工具,設(shè)定采集規(guī)則。主要抓取的內(nèi)容為用戶評(píng)論信息。對(duì)于抓取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括文本去重、去空值、剔除廣告信息與無意義評(píng)論、中文文本分詞等操作。通過將自主構(gòu)建的關(guān)于手機(jī)系統(tǒng)的語料庫導(dǎo)入到snownlp情感分析模型中進(jìn)行無監(jiān)督訓(xùn)練,以提高模型預(yù)測準(zhǔn)確率,并利用TF-IDF算法的思想,提取評(píng)論中的關(guān)鍵詞以及詞頻;利用LDA潛在主題挖掘模型深入分析好評(píng)集和差評(píng)集。最后通過上述分析結(jié)果,剖析鴻蒙系統(tǒng)產(chǎn)品問題。圖1為研究主要路線圖。
2? 在線評(píng)論獲取
挖掘用戶關(guān)于華為鴻蒙系統(tǒng)在線評(píng)論中隱含的信息,首先需要利用網(wǎng)絡(luò)爬蟲獲取大量的在線評(píng)論。獲取在線評(píng)論數(shù)據(jù)主要通過編寫數(shù)據(jù)采集程序(稱為網(wǎng)絡(luò)爬蟲),網(wǎng)絡(luò)爬蟲可以自動(dòng)爬取網(wǎng)頁,獲取網(wǎng)頁的內(nèi)容[1]。該文通過一款完全自主研發(fā)的分布式云平臺(tái)——八爪魚采集器,自動(dòng)獲取B站用戶在線評(píng)論數(shù)據(jù),爬取的評(píng)論數(shù)據(jù)見表1。
3? 數(shù)據(jù)預(yù)處理
利用網(wǎng)絡(luò)爬蟲工具從網(wǎng)站采集的用戶評(píng)論數(shù)據(jù)存在較多的無用數(shù)據(jù),會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大的影響。數(shù)據(jù)預(yù)處理主要去除不完整的、不一致的數(shù)據(jù)并排除低質(zhì)量的數(shù)據(jù),預(yù)處理過后的數(shù)據(jù)可以提高實(shí)驗(yàn)結(jié)果的準(zhǔn)確率,下面將主要闡述對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理的過程。
3.1 數(shù)據(jù)清洗
爬取到的評(píng)論文本中存在較多重復(fù)行、特殊字符及英文字符,并且用戶可以自由發(fā)表對(duì)評(píng)論主體的主觀意見,評(píng)論內(nèi)容具有極強(qiáng)的隨意性,評(píng)論質(zhì)量得不到保證。在研究過程中,主要使用Python語言編寫相關(guān)程序?qū)ξ谋鹃L度大于20的重復(fù)評(píng)論以及特殊字符、英文字符進(jìn)行剔除。對(duì)于滿足基本格式,但是無法進(jìn)行情感分析的無意義語句進(jìn)行手動(dòng)剔除[2]。
3.2 中文文本分詞
在中文文本中,詞與詞之間的界限往往比較模糊,而在模型分析過程中,尤其是關(guān)鍵詞提取、潛在主題詞挖掘等,合理地進(jìn)行中文文本分詞尤為重要。該文采用Python中優(yōu)秀的中文分詞第三方庫jieba,jieba分詞主要利用中文詞庫,確定漢字之間的關(guān)聯(lián)概率,漢字間關(guān)聯(lián)概率大的組成詞組,從而形成分詞結(jié)果,其分詞準(zhǔn)確率較高[3]。另外,對(duì)于一些分詞不太理想的詞匯可以通過jieba庫中的load_userdict函數(shù)導(dǎo)入用戶自定義詞典的方法解決,對(duì)于一些無意義的停用詞,如“的”“我們”“@”“!”等,可以利用set_stop_words函數(shù)導(dǎo)入停用詞詞典,并通過extract_tags函數(shù)去除文本中的停用詞,部分文本的分詞結(jié)果如圖2所示。
4? 評(píng)論文本描述性分析
4.1 基于TF-IDF算法提取關(guān)鍵詞
TF-IDF是一種統(tǒng)計(jì)方法,用于評(píng)估一字詞對(duì)于一個(gè)文檔集或者一個(gè)語料庫中某個(gè)文件的重要程度,字詞的重要性隨著其在文件中出現(xiàn)的次數(shù)呈正比增加,但同時(shí)隨著其在語料庫中出現(xiàn)的頻率呈反比下降。利用TF-IDF對(duì)鴻蒙系統(tǒng)在線評(píng)論分詞進(jìn)行統(tǒng)計(jì),得到top50關(guān)鍵詞及其權(quán)重,部分內(nèi)容見表2。
其中,TF為一篇文檔中字詞的詞頻;IDF為逆文檔頻率,用于衡量字詞在所有文檔中出現(xiàn)的普遍程度;TF-IDF則為兩者乘積。上述公式中,Ni,j為字詞在文檔D中出現(xiàn)的頻次;為文檔D中詞條的總數(shù),D為語料庫中總文檔數(shù)量;為包含詞條T的總文檔數(shù)[4]。
4.2 可視化評(píng)論描述
基于wordart在線詞云圖生成工具實(shí)現(xiàn)鴻蒙系統(tǒng)評(píng)論的描述性可視化,通過詞云圖(見圖3)可以直觀地突出評(píng)論文本中出現(xiàn)頻率較高的關(guān)鍵詞,從而形成“關(guān)鍵詞渲染”。
5? 在線評(píng)論情感傾向分析
關(guān)于在線評(píng)論文本的描述性分析能夠在一定程度上對(duì)鴻蒙系統(tǒng)的評(píng)價(jià)進(jìn)行描述,但不能挖掘出這些評(píng)論信息所蘊(yùn)含的情感傾向,為了更加深入地挖掘評(píng)論文本中的信息,需要對(duì)在線評(píng)論進(jìn)行情感分析,利用Python類庫SnowNlp預(yù)測評(píng)論文本的情感傾向,并分別對(duì)正面評(píng)論與負(fù)面評(píng)論進(jìn)行分類,分析其各自蘊(yùn)含的主題[5]。
5.1 情感分析結(jié)果
該文使用手機(jī)系統(tǒng)在線評(píng)論的自定義語料庫訓(xùn)練情感分析模型,以提高情感預(yù)測準(zhǔn)確率,SnowNLP 情感分析將短文本的情感程度表示為[0,1]區(qū)間的情感分值,得分在0~0.5之間為負(fù)面評(píng)價(jià),在0.5~1.0之間為正面評(píng)價(jià),得分為0.5則視作中性評(píng)價(jià)[6]。通過統(tǒng)計(jì)實(shí)際數(shù)據(jù),得到分類效果的評(píng)價(jià),筆者把從網(wǎng)絡(luò)上搜集的2 185條評(píng)價(jià)進(jìn)行人工情感極性標(biāo)注,作為情感分析測試集,測試結(jié)果表示,經(jīng)過訓(xùn)練的SnowNlp情感分析模型的預(yù)測準(zhǔn)確率達(dá)到87.3%,準(zhǔn)確率較高。該文使用訓(xùn)練好的模型對(duì)鴻蒙系統(tǒng)評(píng)論進(jìn)行情感分類,得到正面評(píng)論和負(fù)面評(píng)論兩個(gè)文檔。其中正面評(píng)論共有38 897條,負(fù)面評(píng)論10 084條,中性評(píng)論856,分別占總評(píng)論數(shù)的比重為78.05%、20.23%、1.72%。
5.2 基于LDA模型的主題挖掘分析
LDA主題模型是文本挖掘領(lǐng)域的典型模型,可以在語料文本中抽取潛在主題,為研究者提供了量化分析主題的方法[7],該文從好評(píng)集和差評(píng)集這兩個(gè)文檔分別進(jìn)行主題劃分,從而進(jìn)行評(píng)論數(shù)據(jù)的情感分析研究。以上兩個(gè)文檔的主題挖掘結(jié)果見表3和表4。結(jié)果顯示,該手機(jī)系統(tǒng)正面評(píng)論較多,用戶對(duì)鴻蒙系統(tǒng)總體滿意,由好評(píng)集主題詞推測得出4個(gè)主題,從主題1得出國內(nèi)用戶普遍看鴻蒙,認(rèn)為鴻蒙是一款讓國人引以為豪的自主研發(fā)的國產(chǎn)手機(jī)操作系統(tǒng),并且絕大部分用戶希望鴻蒙系統(tǒng)通過不斷優(yōu)化以提升系統(tǒng)的穩(wěn)定性和用戶體驗(yàn)。從主題2中的高頻特征詞可以看出,隨著HarmonyOS 2.0內(nèi)測版的推出,廣大用戶對(duì)申請(qǐng)獲得內(nèi)測版系統(tǒng)的體驗(yàn)資格滿懷期待。主題3通過“流暢”“絲滑”“操作”“厲害”等特征詞可以得出鴻蒙操作系統(tǒng)在流暢度方面深受用戶贊揚(yáng)。主題4中的“兼容”“安卓”“適配”“軟件”等詞反應(yīng)鴻蒙系統(tǒng)對(duì)安卓應(yīng)用有很好的兼容性,減小了更換操作系統(tǒng)的成本,受到用戶的普遍好評(píng)。而差評(píng)集主要存在兩個(gè)潛在主題,通過主題1中的“抄襲”“安卓”“iOS”“懷疑”等特征詞可以得出,有部分用戶因鴻蒙系統(tǒng)與安卓應(yīng)用的兼容性高,操作界面與iOS及安卓系統(tǒng)存在相似部分而懷疑鴻蒙系統(tǒng)是基于原生安卓開發(fā)的一款套殼系統(tǒng),但經(jīng)過查閱相關(guān)資料發(fā)現(xiàn),其觀點(diǎn)是不成立的,屬于對(duì)國產(chǎn)操作系統(tǒng)的惡意詆毀。主題2中的“蘋果”“生態(tài)”“軟件”“掉幀”等詞說明部分用戶認(rèn)為鴻蒙系統(tǒng)目前的軟件生態(tài)圈不及iOS,并且在細(xì)節(jié)以及優(yōu)化方面遜色于iOS,偶爾會(huì)出現(xiàn)掉幀的情況。
6? 結(jié)語
該文結(jié)合描述性分析與情感傾向分析兩個(gè)角度挖掘評(píng)論中隱藏的信息。在描述性分析方面,主要使用TF-IDF算法提取關(guān)鍵詞,并結(jié)合詞頻生成詞云圖進(jìn)行可視化分析。在情感傾向分析方面,該文通過訓(xùn)練自定義語料庫的方法,基于SnowNlp情感分析模型判斷鴻蒙系統(tǒng)在線評(píng)論情感傾向,并使用LDA主題模型分別挖掘好評(píng)集與差評(píng)集的潛在主題,對(duì)用戶評(píng)論進(jìn)行深度分析。有利于對(duì)鴻蒙系統(tǒng)用戶評(píng)論進(jìn)行客觀整體的分析,反映用戶群體的真實(shí)感受,并對(duì)其他手機(jī)系統(tǒng)用戶是否使用鴻蒙系統(tǒng)具有參考和實(shí)踐意義。
參考文獻(xiàn)
[1] 吳薛凱,劉天波,胡文馨.基于網(wǎng)絡(luò)爬蟲的Java行業(yè)的就業(yè)分析[J].科技資訊,2021,19(2):13-16.
[2] 楊春曉,張鶴馨,黃家雯,等.卷煙在線評(píng)論的文本情感分析[J].中國煙草學(xué)報(bào),2020,26(2):92-100.
[3] 周歡,秦天琦.基于在線評(píng)論情感分析與LDA的物流服務(wù)質(zhì)量影響因素研究[J/OL].重慶工商大學(xué)學(xué)報(bào):社會(huì)科學(xué)版:1-17[2021-08-17].https://www.kns.cnki.net/kcms/detail/50.1154.C.20210528.0837.002.html.
[4] 辛雨璇,王曉東.基于文本挖掘的電影評(píng)論情感分析研究[J].牡丹江師范學(xué)院學(xué)報(bào):自然科學(xué)版,2021(1):25-28.
[5] 劉敏,王向前,李慧宗,等.基于文本挖掘的網(wǎng)絡(luò)商品評(píng)論情感分析[J].遼寧工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2018,38(5):330-335.
[6] 吳瑞媛.線上用戶評(píng)價(jià)信息的文本挖掘分析[D].天津:天津財(cái)經(jīng)大學(xué),2019.
[7] 陳亮,王剛,王震.并行LDA主題模型在電力客服工單文本挖掘中的應(yīng)用[J].科技創(chuàng)新導(dǎo)報(bào),2017,14(12):245-248,250.