999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的鴻蒙系統(tǒng)用戶評(píng)論情感分析與研究

2021-09-13 08:52:16陳諾祎單菁王佳英石璐璐
科技資訊 2021年16期
關(guān)鍵詞:文本挖掘

陳諾祎 單菁 王佳英 石璐璐

摘? 要:隨著科技的進(jìn)步,由華為自主研發(fā)的首個(gè)國產(chǎn)手機(jī)操作系統(tǒng)成功問世,引起社會(huì)強(qiáng)烈反響。該文以網(wǎng)絡(luò)爬蟲抓取的用戶評(píng)論為例,基于評(píng)論數(shù)據(jù)建立評(píng)估模型,主要使用文本描述性分析、SnowNlp情感分析和LDA潛在主題挖掘這3種方法,從不同角度對(duì)用戶評(píng)論進(jìn)行文本挖掘分析,找出評(píng)論大數(shù)據(jù)背后隱含的情感傾向、用戶觀點(diǎn)等深層信息,有助于企業(yè)了解用戶的使用體驗(yàn)與口碑動(dòng)態(tài)。該文分析模型的評(píng)估效果可信度較高,所采用的研究方法也適用于電商評(píng)論分析、社會(huì)輿情分析等方面。

關(guān)鍵詞:網(wǎng)絡(luò)爬蟲? ?情感分析? ?LDA? ?文本挖掘

中圖分類號(hào):TP391.1? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-3791(2021)06(a)-0026-04

Sentiment Analysis and Research of User Comments on Hongmeng System Based on Text Mining

CHEN Nuoyi? SHAN Jing*? ?WANG Jiaying? ?SHI Lulu

(School of Information and Control Engineering, Shenyang Jianzhu University, Shenyang, Liaoning Province, 110168? China)

Abstract: With the progress of science and technology, the first domestic mobile phone operating system developed by Huawei has been successfully launched, which has aroused strong social response. Based on web crawler fetching user comments as an example, the evaluation model is established based on the review data. Three methods are mainly used: text descriptive analysis, SnowNlp sentiment analysis and LDA potential topic mining method, conducting text mining analysis on user comments from different perspectives to find out the emotional tendency, user opinions and other deep information hidden behind thebig data of comments. It is helpful for enterprises to understand the user experience and word of mouth dynamic. The evaluation effect of the analysis model in this paper has a high credibility, and the research method adopted is also applicable to e-commerce comment analysis, social public opinion analysis and other aspects.

Key Words: Web crawler; Sentiment analysis; LDA; Text mining

鴻蒙OS是一款“面向未來”的操作系統(tǒng),一款基于微內(nèi)核的面向全場景的分布式操作系統(tǒng),是由華為開發(fā)人員打造的國產(chǎn)手機(jī)系統(tǒng)。對(duì)于鴻蒙系統(tǒng)的正式發(fā)布,國內(nèi)用戶紛紛通過網(wǎng)絡(luò)平臺(tái)發(fā)布對(duì)該系統(tǒng)的評(píng)論看法,用戶的評(píng)論信息包括了客觀評(píng)論與主觀評(píng)論,而主觀評(píng)論占比極高,該文通過采集B站(某自媒體視頻網(wǎng)站)關(guān)于鴻蒙系統(tǒng)視頻底部的用戶評(píng)論信息,建立相關(guān)的文本挖掘模型對(duì)評(píng)論信息進(jìn)行深度挖掘。

1? 研究方法

該文對(duì)選取的關(guān)于鴻蒙系統(tǒng)在線評(píng)論利用八爪魚采集工具,設(shè)定采集規(guī)則。主要抓取的內(nèi)容為用戶評(píng)論信息。對(duì)于抓取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括文本去重、去空值、剔除廣告信息與無意義評(píng)論、中文文本分詞等操作。通過將自主構(gòu)建的關(guān)于手機(jī)系統(tǒng)的語料庫導(dǎo)入到snownlp情感分析模型中進(jìn)行無監(jiān)督訓(xùn)練,以提高模型預(yù)測準(zhǔn)確率,并利用TF-IDF算法的思想,提取評(píng)論中的關(guān)鍵詞以及詞頻;利用LDA潛在主題挖掘模型深入分析好評(píng)集和差評(píng)集。最后通過上述分析結(jié)果,剖析鴻蒙系統(tǒng)產(chǎn)品問題。圖1為研究主要路線圖。

2? 在線評(píng)論獲取

挖掘用戶關(guān)于華為鴻蒙系統(tǒng)在線評(píng)論中隱含的信息,首先需要利用網(wǎng)絡(luò)爬蟲獲取大量的在線評(píng)論。獲取在線評(píng)論數(shù)據(jù)主要通過編寫數(shù)據(jù)采集程序(稱為網(wǎng)絡(luò)爬蟲),網(wǎng)絡(luò)爬蟲可以自動(dòng)爬取網(wǎng)頁,獲取網(wǎng)頁的內(nèi)容[1]。該文通過一款完全自主研發(fā)的分布式云平臺(tái)——八爪魚采集器,自動(dòng)獲取B站用戶在線評(píng)論數(shù)據(jù),爬取的評(píng)論數(shù)據(jù)見表1。

3? 數(shù)據(jù)預(yù)處理

利用網(wǎng)絡(luò)爬蟲工具從網(wǎng)站采集的用戶評(píng)論數(shù)據(jù)存在較多的無用數(shù)據(jù),會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大的影響。數(shù)據(jù)預(yù)處理主要去除不完整的、不一致的數(shù)據(jù)并排除低質(zhì)量的數(shù)據(jù),預(yù)處理過后的數(shù)據(jù)可以提高實(shí)驗(yàn)結(jié)果的準(zhǔn)確率,下面將主要闡述對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理的過程。

3.1 數(shù)據(jù)清洗

爬取到的評(píng)論文本中存在較多重復(fù)行、特殊字符及英文字符,并且用戶可以自由發(fā)表對(duì)評(píng)論主體的主觀意見,評(píng)論內(nèi)容具有極強(qiáng)的隨意性,評(píng)論質(zhì)量得不到保證。在研究過程中,主要使用Python語言編寫相關(guān)程序?qū)ξ谋鹃L度大于20的重復(fù)評(píng)論以及特殊字符、英文字符進(jìn)行剔除。對(duì)于滿足基本格式,但是無法進(jìn)行情感分析的無意義語句進(jìn)行手動(dòng)剔除[2]。

3.2 中文文本分詞

在中文文本中,詞與詞之間的界限往往比較模糊,而在模型分析過程中,尤其是關(guān)鍵詞提取、潛在主題詞挖掘等,合理地進(jìn)行中文文本分詞尤為重要。該文采用Python中優(yōu)秀的中文分詞第三方庫jieba,jieba分詞主要利用中文詞庫,確定漢字之間的關(guān)聯(lián)概率,漢字間關(guān)聯(lián)概率大的組成詞組,從而形成分詞結(jié)果,其分詞準(zhǔn)確率較高[3]。另外,對(duì)于一些分詞不太理想的詞匯可以通過jieba庫中的load_userdict函數(shù)導(dǎo)入用戶自定義詞典的方法解決,對(duì)于一些無意義的停用詞,如“的”“我們”“@”“!”等,可以利用set_stop_words函數(shù)導(dǎo)入停用詞詞典,并通過extract_tags函數(shù)去除文本中的停用詞,部分文本的分詞結(jié)果如圖2所示。

4? 評(píng)論文本描述性分析

4.1 基于TF-IDF算法提取關(guān)鍵詞

TF-IDF是一種統(tǒng)計(jì)方法,用于評(píng)估一字詞對(duì)于一個(gè)文檔集或者一個(gè)語料庫中某個(gè)文件的重要程度,字詞的重要性隨著其在文件中出現(xiàn)的次數(shù)呈正比增加,但同時(shí)隨著其在語料庫中出現(xiàn)的頻率呈反比下降。利用TF-IDF對(duì)鴻蒙系統(tǒng)在線評(píng)論分詞進(jìn)行統(tǒng)計(jì),得到top50關(guān)鍵詞及其權(quán)重,部分內(nèi)容見表2。

其中,TF為一篇文檔中字詞的詞頻;IDF為逆文檔頻率,用于衡量字詞在所有文檔中出現(xiàn)的普遍程度;TF-IDF則為兩者乘積。上述公式中,Ni,j為字詞在文檔D中出現(xiàn)的頻次;為文檔D中詞條的總數(shù),D為語料庫中總文檔數(shù)量;為包含詞條T的總文檔數(shù)[4]。

4.2 可視化評(píng)論描述

基于wordart在線詞云圖生成工具實(shí)現(xiàn)鴻蒙系統(tǒng)評(píng)論的描述性可視化,通過詞云圖(見圖3)可以直觀地突出評(píng)論文本中出現(xiàn)頻率較高的關(guān)鍵詞,從而形成“關(guān)鍵詞渲染”。

5? 在線評(píng)論情感傾向分析

關(guān)于在線評(píng)論文本的描述性分析能夠在一定程度上對(duì)鴻蒙系統(tǒng)的評(píng)價(jià)進(jìn)行描述,但不能挖掘出這些評(píng)論信息所蘊(yùn)含的情感傾向,為了更加深入地挖掘評(píng)論文本中的信息,需要對(duì)在線評(píng)論進(jìn)行情感分析,利用Python類庫SnowNlp預(yù)測評(píng)論文本的情感傾向,并分別對(duì)正面評(píng)論與負(fù)面評(píng)論進(jìn)行分類,分析其各自蘊(yùn)含的主題[5]。

5.1 情感分析結(jié)果

該文使用手機(jī)系統(tǒng)在線評(píng)論的自定義語料庫訓(xùn)練情感分析模型,以提高情感預(yù)測準(zhǔn)確率,SnowNLP 情感分析將短文本的情感程度表示為[0,1]區(qū)間的情感分值,得分在0~0.5之間為負(fù)面評(píng)價(jià),在0.5~1.0之間為正面評(píng)價(jià),得分為0.5則視作中性評(píng)價(jià)[6]。通過統(tǒng)計(jì)實(shí)際數(shù)據(jù),得到分類效果的評(píng)價(jià),筆者把從網(wǎng)絡(luò)上搜集的2 185條評(píng)價(jià)進(jìn)行人工情感極性標(biāo)注,作為情感分析測試集,測試結(jié)果表示,經(jīng)過訓(xùn)練的SnowNlp情感分析模型的預(yù)測準(zhǔn)確率達(dá)到87.3%,準(zhǔn)確率較高。該文使用訓(xùn)練好的模型對(duì)鴻蒙系統(tǒng)評(píng)論進(jìn)行情感分類,得到正面評(píng)論和負(fù)面評(píng)論兩個(gè)文檔。其中正面評(píng)論共有38 897條,負(fù)面評(píng)論10 084條,中性評(píng)論856,分別占總評(píng)論數(shù)的比重為78.05%、20.23%、1.72%。

5.2 基于LDA模型的主題挖掘分析

LDA主題模型是文本挖掘領(lǐng)域的典型模型,可以在語料文本中抽取潛在主題,為研究者提供了量化分析主題的方法[7],該文從好評(píng)集和差評(píng)集這兩個(gè)文檔分別進(jìn)行主題劃分,從而進(jìn)行評(píng)論數(shù)據(jù)的情感分析研究。以上兩個(gè)文檔的主題挖掘結(jié)果見表3和表4。結(jié)果顯示,該手機(jī)系統(tǒng)正面評(píng)論較多,用戶對(duì)鴻蒙系統(tǒng)總體滿意,由好評(píng)集主題詞推測得出4個(gè)主題,從主題1得出國內(nèi)用戶普遍看鴻蒙,認(rèn)為鴻蒙是一款讓國人引以為豪的自主研發(fā)的國產(chǎn)手機(jī)操作系統(tǒng),并且絕大部分用戶希望鴻蒙系統(tǒng)通過不斷優(yōu)化以提升系統(tǒng)的穩(wěn)定性和用戶體驗(yàn)。從主題2中的高頻特征詞可以看出,隨著HarmonyOS 2.0內(nèi)測版的推出,廣大用戶對(duì)申請(qǐng)獲得內(nèi)測版系統(tǒng)的體驗(yàn)資格滿懷期待。主題3通過“流暢”“絲滑”“操作”“厲害”等特征詞可以得出鴻蒙操作系統(tǒng)在流暢度方面深受用戶贊揚(yáng)。主題4中的“兼容”“安卓”“適配”“軟件”等詞反應(yīng)鴻蒙系統(tǒng)對(duì)安卓應(yīng)用有很好的兼容性,減小了更換操作系統(tǒng)的成本,受到用戶的普遍好評(píng)。而差評(píng)集主要存在兩個(gè)潛在主題,通過主題1中的“抄襲”“安卓”“iOS”“懷疑”等特征詞可以得出,有部分用戶因鴻蒙系統(tǒng)與安卓應(yīng)用的兼容性高,操作界面與iOS及安卓系統(tǒng)存在相似部分而懷疑鴻蒙系統(tǒng)是基于原生安卓開發(fā)的一款套殼系統(tǒng),但經(jīng)過查閱相關(guān)資料發(fā)現(xiàn),其觀點(diǎn)是不成立的,屬于對(duì)國產(chǎn)操作系統(tǒng)的惡意詆毀。主題2中的“蘋果”“生態(tài)”“軟件”“掉幀”等詞說明部分用戶認(rèn)為鴻蒙系統(tǒng)目前的軟件生態(tài)圈不及iOS,并且在細(xì)節(jié)以及優(yōu)化方面遜色于iOS,偶爾會(huì)出現(xiàn)掉幀的情況。

6? 結(jié)語

該文結(jié)合描述性分析與情感傾向分析兩個(gè)角度挖掘評(píng)論中隱藏的信息。在描述性分析方面,主要使用TF-IDF算法提取關(guān)鍵詞,并結(jié)合詞頻生成詞云圖進(jìn)行可視化分析。在情感傾向分析方面,該文通過訓(xùn)練自定義語料庫的方法,基于SnowNlp情感分析模型判斷鴻蒙系統(tǒng)在線評(píng)論情感傾向,并使用LDA主題模型分別挖掘好評(píng)集與差評(píng)集的潛在主題,對(duì)用戶評(píng)論進(jìn)行深度分析。有利于對(duì)鴻蒙系統(tǒng)用戶評(píng)論進(jìn)行客觀整體的分析,反映用戶群體的真實(shí)感受,并對(duì)其他手機(jī)系統(tǒng)用戶是否使用鴻蒙系統(tǒng)具有參考和實(shí)踐意義。

參考文獻(xiàn)

[1] 吳薛凱,劉天波,胡文馨.基于網(wǎng)絡(luò)爬蟲的Java行業(yè)的就業(yè)分析[J].科技資訊,2021,19(2):13-16.

[2] 楊春曉,張鶴馨,黃家雯,等.卷煙在線評(píng)論的文本情感分析[J].中國煙草學(xué)報(bào),2020,26(2):92-100.

[3] 周歡,秦天琦.基于在線評(píng)論情感分析與LDA的物流服務(wù)質(zhì)量影響因素研究[J/OL].重慶工商大學(xué)學(xué)報(bào):社會(huì)科學(xué)版:1-17[2021-08-17].https://www.kns.cnki.net/kcms/detail/50.1154.C.20210528.0837.002.html.

[4] 辛雨璇,王曉東.基于文本挖掘的電影評(píng)論情感分析研究[J].牡丹江師范學(xué)院學(xué)報(bào):自然科學(xué)版,2021(1):25-28.

[5] 劉敏,王向前,李慧宗,等.基于文本挖掘的網(wǎng)絡(luò)商品評(píng)論情感分析[J].遼寧工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2018,38(5):330-335.

[6] 吳瑞媛.線上用戶評(píng)價(jià)信息的文本挖掘分析[D].天津:天津財(cái)經(jīng)大學(xué),2019.

[7] 陳亮,王剛,王震.并行LDA主題模型在電力客服工單文本挖掘中的應(yīng)用[J].科技創(chuàng)新導(dǎo)報(bào),2017,14(12):245-248,250.

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識(shí)
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評(píng)論要素挖掘
基于評(píng)論信息的淘寶服裝類評(píng)分體系優(yōu)化
商情(2016年32期)2017-03-04 00:27:28
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
基于文獻(xiàn)的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進(jìn)Hadoop云平臺(tái)的海量文本數(shù)據(jù)挖掘
慧眼識(shí)璞玉,妙手煉渾金
主站蜘蛛池模板: h网址在线观看| 国产视频 第一页| 亚洲中文无码h在线观看| 久久人人爽人人爽人人片aV东京热 | 一级一级特黄女人精品毛片| 国产成+人+综合+亚洲欧美| 999福利激情视频| 国产偷倩视频| 国产在线一区视频| 成年A级毛片| 囯产av无码片毛片一级| 国产无码精品在线| 国产日韩欧美视频| 国禁国产you女视频网站| 在线无码九区| 亚洲欧美精品一中文字幕| 国产偷国产偷在线高清| 免费高清a毛片| 日韩一区二区在线电影| 欧美专区在线观看| 国模沟沟一区二区三区| 无遮挡一级毛片呦女视频| 91精品国产丝袜| 色婷婷视频在线| 亚洲精品日产AⅤ| 精品99在线观看| 一级毛片免费播放视频| 久久久91人妻无码精品蜜桃HD| 久久免费观看视频| 久久久无码人妻精品无码| 欧美日本在线播放| 国产主播一区二区三区| 成人va亚洲va欧美天堂| 中文字幕乱码二三区免费| 日韩在线2020专区| 鲁鲁鲁爽爽爽在线视频观看| 亚洲欧洲日产无码AV| 美女高潮全身流白浆福利区| 中文字幕资源站| 久操线在视频在线观看| 香蕉视频在线观看www| 九九九精品视频| 欧美成一级| 亚洲精品第1页| 一级一毛片a级毛片| 久久精品人妻中文系列| 久久精品人人做人人爽97| 国产91透明丝袜美腿在线| 综合亚洲网| 三级国产在线观看| 成人免费一级片| 国产成人综合欧美精品久久| 夜精品a一区二区三区| 国产91无毒不卡在线观看| 国产导航在线| 日韩成人在线一区二区| 国产成人午夜福利免费无码r| 一本二本三本不卡无码| av在线无码浏览| 91成人在线免费观看| 波多野结衣第一页| 欧洲成人在线观看| 国产精品成人观看视频国产| 四虎影视8848永久精品| 成人韩免费网站| 色悠久久综合| 国产一区二区网站| 色欲综合久久中文字幕网| 九九这里只有精品视频| 99视频在线精品免费观看6| 亚洲国产综合精品一区| 国产一二视频| 亚洲一区二区三区国产精品| 国产拍揄自揄精品视频网站| 亚洲人成高清| 国产视频一区二区在线观看 | 国产精品无码久久久久久| 亚洲Av综合日韩精品久久久| 国产成人精品高清不卡在线| 国产成人亚洲精品无码电影| 国产精品jizz在线观看软件| 国产成人AV综合久久|