999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于口罩評論數據的用戶情感趨勢與關注分析①

2021-01-21 06:50:28曾志偉刁明光王欣鵬何炳輝
計算機系統應用 2020年12期
關鍵詞:趨勢文本情感

曾志偉,刁明光,王欣鵬,何炳輝

(中國地質大學(北京) 信息工程學院,北京 100083)

在疫情期間,人們急需獲得口罩等防護物資.而對于用戶關于口罩的評論的分析研究不僅能從側面反映出當前疫情對人們的情緒影響程度,而且也能反映出疫情一定的發展趨勢;對于用戶評論的情感關注的研究,還對商家提高口罩銷量和評分,有著積極作用.因此對于口罩評論數據的分析研究,具有一定的理論與現實意義,并且具有很高的應用價值.

如今,國內外的學者對于用戶評論數據的研究,大多只停留在單一的情感分析上,而忽略了評論數據在時間緯度上所蘊含的情感趨勢、對于特定事件從側面反映出的發展趨勢,以及在關注點上對于商家發展的影響.

近年來,對于在線商品評論數據的情感分析研究[1]在不斷發展.有研究人員[2]運用擴展的情感傾向點互信息算法,構建了一個面向中文微博的情感詞典,從而實現了相應的情感傾向分類系統;針對情感分析和觀點挖掘而提出的詞典模型[3],包括了與觀點挖掘和情感分析相關語義范疇的分類,為態度持有者和態度的極性以及文本中不同參與者的情緒和情感的識別提供了方法;將在線評論文本分解為評論對象-對象屬性-評論描述三層體系,并結合評論模式和評論語境提出的基于屬性特征的評論情感量化分析算法[4],提高了文本情感分類的準確性;通過獲得特定領域具有感情傾向的特征詞語[5],而后利用基準詞與特征詞語進行的情感分類有著較好的效果;在文本特征中探索在線評論的有用性因素,而建立相應的有用性影響因素模型[6],在分類預測上,對在線評論的有用性有較強的判別能力;針對特定事件結合時間信息和地理位置信息而建立的輿情時空演化分析方法[7]能可視化地展示輿情的時空演化過程;基于語義理解[8]的文本情感分類方法,能有效地判定文本情感傾向性.

本文對于口罩評論數據的情感分析,采用了針對口罩評論而訓練的特定語料庫,并且將Jieba[9,10]分詞與SnowNLP[11]情感分析模型結合,對用戶的情感發展趨勢和關注點進行了分析.期望得出針對口罩評論的較高情感分類準確率,以及從中挖掘出用戶對口罩評論的整體態度、影響用戶對口罩不同情感關注的相關屬性和疫情發展趨勢對用戶評論的每日情感趨勢的影響.

1 研究方法

本文采用的是Python 的類庫SnowNLP 情感分析模型對口罩的用戶評論數據進行的情感分析.

SnowNLP 情感分析中運用的情感分類方法為樸素貝葉斯定理.它是在貝葉斯定理上作出“認為每個屬性各個特征是相互獨立的”這一假設而得出的.

樸素貝葉斯定理在情感分類中的公式如下:

在假設下可簡化為:

其中,隨機事件Ci表示樣本為C類的情感正負概率,Xn表示測試樣本中某一特征詞X出現的概率.在計算每個語句情感正負時,用計算出的先驗概率P(Ci)分別乘以它的每個屬性特征詞的條件概率而得出的情感概率值,取其中正負情感值較大的作為此語句的情感.

SnowNLP 的情感分析大致判斷過程如圖1所示.

圖1 SnowNLP 情感分析流程圖

由于SnowNLP 自帶的語料庫本身包含的是不同種類商品評論的語料,其語料具有局限性與滯后性,因此情感預測準確率將會受到很大的限制,所以并不適合本文針對口罩評論的情感分析預測.因此,本文通過標注情感為積極和情感為消極的共計14 400 條評論數據后,通過SnowNLP 自帶的貝葉斯模型進行訓練生成關于針對口罩評論的語料庫,便于后續精確的情感分析預測.

洪澤縣中小河流治理重點縣綜合整治方案實施后,可以達到以下幾方面效益:一是河道防洪排澇能力得到明顯提高,內部河道水系得以溝通,降低了洪澇災害的發生頻率,減少因洪水泛濫、排水不暢造成的危害;二是農村基礎設施得到明顯改善,工程實施后,改善排澇面積82.9萬畝,改善灌排面積56萬畝,為農業產業結構調整和農民脫貧致富以及農村經濟的發展創造了基礎條件,為促進區域經濟共同發展和穩定農村奠定了基礎;三是人居環境得到明顯改善,凈化水體,美化河坡,為提高農村集居區建設中的基礎設施條件、吸引農民遷入集居區,提供強有力的水利支撐。

2 數據處理

本文的數據來源于淘寶網站,其內容為用戶對口罩的評論文本信息.

2.1 數據采集

本文通過谷歌瀏覽器的插件Web Scraper 進行數據爬取,獲得了關于口罩的用戶評論文本數據.其Web Scraper 的采集流程如圖2所示.

圖2 Web Scraper 采集流程圖

2.2 數據預處理

獲取的數據里含有許多臟數據,因此需要進行一系列的數據預處理工作:首先需要進行數據清洗,清洗掉無效的表情以及“此用戶沒有填寫評論!”這一類無效評論數據,然后進行文本分詞,最后去除停用詞.

2.3 分詞比較

SnowNLP 的分詞方法是基于Character-Based Generative Model[12]的,其中=[w1,w2,···wm] 為特定單詞序列,為 給定的包含n個字符的句子,[c,t]為的縮寫,公式如下:

可進一步簡化為:

Jieba 分詞則是基于Trie 樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞的情況構成有向無環圖,再采用動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合,對于未登錄詞(Out-Of-Vocabulary,OOV),則采用基于漢字成詞能力的HMM(Hidden Markov Model),使用Viterbi 算法,生成按B(Begin)E(End)M(Middle)S(Siggle)標記的中文詞匯.并且Jieba 分詞還支持自定義字典,對于提高分詞準確率有一定幫助.

在文本分詞方面,本文沒有用SnowNLP 自帶的分詞而選擇的是Jieba 分詞.因為通過對比SnowNLP 和Jieba 的分詞效果(如表1),可知SnowNLP 在分詞時,無法識別否定詞,如“不貪便宜”被分成了“不”和“貪便宜”,“不喜歡”分成了“不”和“喜歡”,這會導致在后續的情感分析時使整體偏向的情緒與語句正確的情緒相反.但是Jieba 分詞的效果卻相對更好,“不貪便宜”和“不喜歡”都分詞正確.因為使用Jieba 分詞能調用Jieba 分詞提供的load_userdict()函數來自定義相應的詞庫(本文為常用詞詞典和針對口罩評論詞的結合),優化分詞效果,如“很好”、“不敢恭維”和“買教訓”等,從而提高情感判斷的準確率.

表1 Jieba 分詞與SnowNLP 分詞效果對比

3 情感分析檢驗

在生成了針對口罩評論數據的語料庫和對數據進行預處理后,為了得到經過處理后的數據在此語料庫下的情感分析的準確率,因此本文用通過手工標注的16 308 條數據進行了情感分析檢驗.得到檢驗表表2.

表2 情感分析準確率檢驗表

表2中情感為積極的語句的準確率為94.69%,情感為消極的語句的準確率為89.65%,總語句的準確率為92.20%.可見語句情感分析結果較好,因此可以用此方法對文本數據進行情感分析.

4 用戶評論數據分析

通過對文本數據進行情感分析的檢驗后,以下將對剩下的112 622 條口罩的用戶評論文本數據進行基于用戶評論的每日情感趨勢分析和情感關注分析.

4.1 基于用戶評論的每日情感趨勢分析

通過SnowNLP 情感分析得到的數值分布在0 到1 之間,數值大于0.5 的評論情感為積極,小于等于0.5的評論情感為消極.其中數值越接近1,情感越積極,數值越接近0,情感越消極.在對用戶評論的每日情感趨勢進行分析的研究中,對每天所預測出的所有情感數值做了取平均值的處理,并與國內每日新增病例(含海外輸入)和本土每日新增病例(不含海外輸入)一起進行相應分析(如圖3),其中病例信息來自國家衛生健康委員會官方網站.可見用戶評論的每日情感數值都較積極,但整體上情感數值有下降的趨勢.在3月11日前每日平均情感指數較高,之后指數就呈現緩緩下降趨勢,而本土每日新增的病例數在3月11日前病例數都較高,但是整體處于下降趨勢,而本土病例新增趨勢在3月11日之后就呈現平穩態勢,這與情感指數在3月11日后整體處于下降趨勢相呼應.可見本土新增病例的趨勢在一定程度上影響著情感指數整體上的趨勢變化.而國內新增病例在3月10日、14日、16日、23日、30日和4月11日的趨勢上升變化導致了當日或之后一段時間每日情感趨勢上升的變化,在3月12日、17日、24日、31日和4月6日、9日的趨勢下降變化也相應導致了當日或之后一段時間每日情感趨勢下降的變化.因此本土新增病例的趨勢在一定程度上影響著每日情感趨勢的整體變化,而國內新增病例的局部波動變化趨勢也影響著每日情感相應局部的波動變化趨勢.

圖3 口罩評論數據的每日平均情感數值與新增病例

4.2 基于用戶評論的情感關注分析

在對用戶評論進行了每日情感趨勢分析后,為了進一步了解用戶對于口罩的關注點,因此本文將用SnowNLP情感分析得出的情感分析數值進行了分類,分為積極情感和消極情感兩類,再分別取出出現次數前10 的高頻詞分別繪制成了情感為積極的高頻詞柱狀圖(圖4)和情感為消極的高頻詞柱狀圖(圖5).圖4中出現頻率最高的詞為“質量”,共出現了30 921 次.其中從“質量”、“包裝”、“價格”、“厚實”等詞中可以看出,影響用戶評論情感為積極的因素主要為口罩的質量好、包裝好、價格實惠和口罩的厚實,其次用戶也直接對其收到的口罩表達了“不錯”、“好”、“挺好”等主觀情感.

圖4 口罩評論情感為積極的高頻詞統計柱狀圖

圖5 口罩評論情感為消極的高頻詞統計柱狀圖

在圖5中,值得注意的是,用戶的消極評論主要圍繞在“質量”、“包裝”、“味道”、“醫用” 等關鍵詞上,可以看出用戶對于口罩的質量差、包裝差、有異味、不是醫用等有著明顯的消極情感.并且客服的態度也對用戶的評論是否為消極有著一定的影響因素.

為了更直觀且美觀的顯示出用戶的關注點,因此繪制出了用戶評論情感為積極的詞云圖(圖6)和情感為消極的詞云圖(圖7),圖中的字體的大小代表的是詞頻.從圖6中可以看出,用戶關注的核心為口罩的質量,其次,“包裝”、“價格”、“厚實”等詞的關注點也較為突出,體現出了在疫情期間用戶對店鋪出售的口罩的質量、包裝和價格表達了很高的贊美.從情感為消極的詞云圖圖7中可以看出用戶關注的核心依然為口罩的質量,其次為“包裝”、“味道”、“醫用”、“客服”等,體現出用戶對個別店鋪售賣的口罩的質量差、包裝差、有異味、沒有醫用標準、客服態度差表達了深深的憂慮.

圖6 口罩評論情感為積極的詞云圖

圖7 口罩評論情感為消極的詞云圖

因此對于需要提高口罩評論評分的商鋪,可以從口罩的質量、包裝、價格、送貨速度、厚實度、是否有醫用標準以及客服態度上進行改良.

5 結 論

本文對用戶評論數據的分析,是按照日期遞增進行的,并且總天數只有42 天,因此對于不同的季節對用戶情感關注的影響以及疫情的不同發展階段對用戶對口罩評論的每日情感的發展趨勢的影響的分析是不太全面的,因此后續就需要采集時間跨度更大的數據進行相應研究.

本研究還存在著一定的缺陷,如情感分析所采集的數據量較小,導致情感分類準確率只達到了92.20%,因此在后續的研究中,就需要采集更多的數據來對模型進行訓練,進一步提高情感分類的準確率.

猜你喜歡
趨勢文本情感
趨勢
第一財經(2021年6期)2021-06-10 13:19:08
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
初秋唇妝趨勢
Coco薇(2017年9期)2017-09-07 21:23:49
SPINEXPO?2017春夏流行趨勢
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 日韩东京热无码人妻| 国产人成在线视频| 美女无遮挡拍拍拍免费视频| 97se亚洲| 亚洲无线视频| 毛片免费网址| 日本少妇又色又爽又高潮| 国产一区二区三区在线观看视频 | 成人综合久久综合| 天天干天天色综合网| 欧美综合一区二区三区| 91精品久久久无码中文字幕vr| 日韩无码黄色| 亚洲日韩欧美在线观看| 黑色丝袜高跟国产在线91| 九九热在线视频| 国产欧美日韩在线一区| 国产偷倩视频| 在线播放91| 亚洲中文字幕无码爆乳| 国产精品自在自线免费观看| 中日韩欧亚无码视频| 国产精品免费p区| 99999久久久久久亚洲| 婷婷六月综合网| 久无码久无码av无码| 在线色综合| 免费可以看的无遮挡av无码 | 久久国产精品国产自线拍| 亚洲无码熟妇人妻AV在线| 91年精品国产福利线观看久久| 极品尤物av美乳在线观看| 超清无码一区二区三区| 亚洲一欧洲中文字幕在线| 91成人免费观看在线观看| 国产精品色婷婷在线观看| 欧美日韩另类国产| 女人18毛片一级毛片在线| 欧美自慰一级看片免费| 亚洲欧美日韩高清综合678| 广东一级毛片| 日本91视频| 久久不卡国产精品无码| 久久99蜜桃精品久久久久小说| 久久91精品牛牛| 亚洲无码免费黄色网址| 婷五月综合| 国产精品第| 91成人在线免费视频| 波多野结衣无码中文字幕在线观看一区二区| 视频一区视频二区中文精品| 亚洲精品天堂在线观看| 在线无码九区| 51国产偷自视频区视频手机观看| 久久国产免费观看| 美臀人妻中出中文字幕在线| 午夜爽爽视频| 亚洲精品无码AV电影在线播放| 亚洲最黄视频| 高清精品美女在线播放| 久久99国产乱子伦精品免| 久久精品视频一| 日本高清免费不卡视频| 中字无码av在线电影| 91在线丝袜| 国产精品无码AV片在线观看播放| 欧洲日本亚洲中文字幕| 国产玖玖视频| 永久成人无码激情视频免费| 国产免费高清无需播放器 | 亚洲欧美自拍中文| 一区二区三区成人| 国产亚洲精| 人妻无码一区二区视频| 成人字幕网视频在线观看| 九色91在线视频| 高h视频在线| 日韩av电影一区二区三区四区| 激情综合图区| 日韩中文欧美| 国产精品对白刺激| 中文成人在线视频|