999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的在線評論情感分析與實現

2022-01-18 05:47:12尚永敏趙榆琴
大理大學學報 2021年12期
關鍵詞:分類情感分析

尚永敏,趙榆琴

(大理大學數學與計算機學院,云南大理 671003)

近年來,京東、天貓、小米等網上購物平臺迅速發展,人們越來越偏愛線上購物。平臺商品品類豐富,消費者群體龐大,且消費者在平臺留下大量評論。對于消費者,可通過手動瀏覽評論了解商品,但是對于生產商、分銷商和賣家這類用戶,逐條瀏覽每件商品評論將是一個非常耗時且難于分析的過程,且得出的結論不易理解,也缺乏客觀證明。如果將這些評論信息進行分類、分析和整理,從中挖掘商品的優缺點,且能以快捷、準確、直觀的方式提供給多類用戶,為他們提供選擇或改良商品的參考依據,則問題可有效解決。

情感分類主要有兩種方法:基于機器學習和基于情感詞典的分類。基于機器學習的分類,是有監督的學習,需要人工對語料集進行正負樣本標注,再選用合適的算法去訓練分類器,之后用新的數據訓練模型得到預測的結果,從而計算出每條評論正負情感的概率〔1〕。目前常用的機器學習分類方法有樸素貝葉斯、支持向量機(support vector machines,SVM)和鄰近法等。這些方法都被廣泛應用于文本評論挖掘領域,并取得不錯的效果。基于情感詞典的分類無須人工標注,通過程度副詞、語氣詞等進行正負情感打分,無監督學習得到分類結果。SnowNLP方法情感分析,它基于情感詞典實現,可以方便地處理中文文本內容,所有的算法均為自動實現,并且自帶了一些訓練好的字典〔2-5〕。

LDA(latent dirichlet allocation)〔6〕是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。將分類好的情感視為一篇篇文檔,文檔中的每個詞都以“一定概率選擇了某個主題”。通過LDA模型,以確定的主題找到高概率出現的詞語,則能分析出文檔(包括正面情感集和負面情感集)中潛藏的主題信息,實現對情感的深度分析。

1 基于機器學習的評論數據情感分析方案設計

本文從京東采集3款主流筆記本在線評論數據。首先,對數據進行3項預處理:數據清洗、文本分詞和停用詞過濾。然后,分別使用SnowNLP分類方法、機器學習中SVM分類方法和樸素貝葉斯分類方法對預處理過的數據進行情感分類。之后,對3個模型的情感分類效果進行驗證和評估,以確定適合評論數據分類的最優模型。最后,采用LDA主題模型,分主題對評論數據深入挖掘,按權重將情感分類的結果集進行分析和可視化,方案設計見圖1。

圖1 基于機器學習評論情感分析方案圖

2 數據獲取及數據預處理

2.1 數據獲取“華為榮耀magicbook14”“聯想小新pro13”“惠普暗影精靈5”的銷量和市場份額高,評論數據充足,為數據分析提供數據支持。本文采用八爪魚采集器采集數據。見圖2。

圖2 數據采集流程圖及部分數據獲取結果

2.2 數據清洗從文本分析角度出發,若對不存在價值的文本內容進行文本分析,最終的分析結果必然會受到較大的影響。因此,在進行文本分析之前,先將文本內容進行數據清洗,包括文本去重和短句刪除等過程。本文采用擴展庫Pandas的drop_dupliate函數去除評論中的重復數據,采用conmments_data進行斷句刪除。數據清洗結果見表1。

表1 3種品牌筆記本評論數據清洗結果

2.3 停用詞過濾停用詞是指那些沒有實際意義的詞,如“的”“了”等字眼。這些詞對文本內容本質含義不影響,其信息含量較低,應去除。本文使用“哈工大”停用詞典,以“華為榮耀magicbook14”為例,好評和差評的停用詞過濾后的部分結果見圖3。

圖3 “華為榮耀magicbook14”評論數據停用詞過濾結果

2.4 文本分詞本文選擇在中文分詞中表現非常出色的jieba分詞包〔7〕。以“華為榮耀magicbook14”為例,好評和差評的部分分詞結果見圖4。

圖4 “華為榮耀magicbook14”評論數據分詞結果

3 情感分類及分析

3.1 分類方法原理SVM模型〔8〕于1995年提出,它可以進行預測、分類和異常檢驗,對于二元分類、線性不可分和變量的高維性方面具有優勢。該模型主要用于有限的樣本,最終目標是凸二次規劃,通過找到最佳分割表面,對測試數據進行分類。SVM方法的解決過程為:先找到最佳超平面,然后分離待分類的數據,其間通過分類決策面的構建和分離間隔的不斷調整,最終將數據分為兩個最佳部分。

樸素貝葉斯方法是基于單詞和類別之間的聯合概率,基于已知的先驗概率和條件概率來計算后驗概率的分類。公式如下:

使用樸素貝葉斯和SVM兩種方法都先對向量進行轉化,再對分類器進行訓練,其中訓練集占比80%,測試集占比20%。最后進行預測分類。

SnowNLP方法,情感分數值在0~1之間,以0.5分界,大于0.5為正面情感,反之為負面情感〔9〕。但在本文代碼實現中,為了使分詞的情感更強烈,所以取0.6作為分界點。將概率大于等于0.6的評論標簽賦值為1,小于0.6的評論標簽賦值為-1,以方便將預測標簽和實際標簽進行比較,相同則判斷正確。

3.2 分類方法實現及結果分類完成后,主要查看以下兩個參數結果值〔10-11〕:

(1)宏平均(Macro Average):在計算均值時使每個類別具有相同的權重,最后結果是每個類別指標的算術平均值。

(2)加權平均(Weighted Average):當數據集中存在嚴重類別不平衡的問題時,就不適宜單純使用宏平均,此時可以采取加權平均,根據每個類的樣本量,給每個類賦予不同的權重。

在本文的評論數據集中,好評的數量遠多于差評的數量,因此在評定機器學習分類模型時采用加權平均作為評估指標。

另外,采用Python中的第三方模塊Sklearn來計算準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F值(Fscore)。

以“聯想小新pro13”為例,3種方法分類效果見圖5。

根據圖5,SVM方法的分類精確率:正面情感(0.969)高,而負面情感(0.673)低;樸素貝葉斯方法的分類精確率:負面情感(1.000)高,而正面情感(0.695)低;SVM方法的準確率(0.815)比樸素貝葉斯方法的準確率(0.788)高。SnowNLP方法的正面情感精確率、負面情感精確率和準確率達到了0.908、0.935和0.926。

3.3 最優分類方法的選擇如何評價分類效果的優劣是很重要的,好的評價指標有利于對分類方法效果進行評估,且可為模型不斷進行優化提供依據。評估分類器性能,比較常見的指標是準確率、精確率、召回率、F值,3種分類方法的4項指標結果見表2,其中SnowNLP分類方法的4個指標均為最高。因此,分類效果最優的是基于情感詞典的SnowNLP分類方法。

表2 3款筆記本3種模型分類指標對比表

4 LDA主題模型分析

LDA主題模型的算法原理可總結為:在給定一系列文檔后,通過對文檔進行分詞,計算各個文檔中每個單詞的詞頻得到“文檔-詞語”矩陣,通過訓練“文檔-詞語”矩陣,得到“主題-詞語”矩陣和“文檔-主題”矩陣,進而對文檔中的主題進行分析〔12〕。每個詞語在文檔中出現的概率表示為:

分別選擇3款筆記本SnowNLP方法情感分類后的好評集和差評集的若干個主題,提取關鍵詞和每個關鍵詞的權重,更好地挖掘商品的閃光點和問題點。

LDA主題模型分析過程如下:

1)使用上文分類好的好評集和差評集。

2)調用gensim庫,使用corpora模塊,構建詞典,建立語料庫。

3)使用model.LdaModel(nunl_topics)指定主題(topic)數量,進行LDA模型訓練。

本文指定LDA主題模型的topic數量為3,進行LDA模型訓練。以“聯想小新pro13”為例,構建LDA主題模型,主題輸出結果見圖6。

圖6 “聯想小新pro13”主題輸出結果

將好評集、差評集主題分析結果用柱狀圖顯示,結果見圖7。分析“聯想小新pro13”好評集的LDA主題模型的結果,在3個主題中“輕薄”“運行”“速度”“屏幕”“外觀”表現較為突出,說明用戶對它的性能較認可,對該款電腦的整體評價是滿意的。分析“聯想小新pro13”差評集LDA主題模型的結果,“屏幕”的權重是最大的,其次是“電腦”“機器”“使用”等,反映了用戶對于該款電腦的屏幕不滿意。經過人工查閱“聯想小新pro13”差評集,發現對于“屏幕”這一關鍵詞指的是電腦出現黑屏、屏幕不居中、像素不好,藍光畫質不清晰這些問題。

圖7 “聯想小新pro13”好評主題和差評主題柱狀圖結果

5 情感分析結果

總結各品牌優缺點,見表3。

表3 3款筆記本優缺點匯總表

根據各品牌的優缺點,整理提出商品改進的建議,主要有以下幾點:

1)提高散熱器和風扇的質量,解決風扇聲音大的問題。

2)提高屏幕顯示器的質量。在出廠前應做好檢驗工作,解決出現黑屏、屏幕不居中、屏幕有劃痕等質量問題。

3)降價問題:商家應在商品主頁面給予一定的解釋,寫明活動時間及做好保價申請服務。

6 結語

本文通過對在線評論數據選用3種分類方法進行情感分析,最終確定最優的方法是基于情感詞典的SnowNLP庫分類模型,其平均準確率、平均精確率、平均召回率和平均F值均在0.928以上。使用LDA主題模型對在線評論按主題情感進一步分析,將分析結果以可視化方式呈現出消費者對商品的關注點,為商家改進商品、制定生產和銷售方案提供了有意義的參考和依據。

SnowNLP分類方法和LDA主題模型的結合使用,可針對多類在線評論數據進行情感分析,例如:學生評教信息、客戶服務評價信息、業務員評價信息、社區活動民主測評信息、病人就醫評價信息、試卷評價信息、意見征求信息等等。面對海量的在線評論信息,先分類出正面情感與負面情感,再根據不同主題細化分析,從而可以構建“至上而下、逐步細化”的樹形數據分類方案,從而為信息收集方提供從大量數據中得到的算法最優、結果準確的數據分析結果提供理論依據和實施方案。另外,這些數據分析結果根據不同用戶的需求以數據可視化形式展示出來,用戶能從中獲得信息、分析不足、總結經驗,以進行預測和決策。

“互聯網+”時代,人們的生活和學習已產生大量線上數據,評論信息只是海量數據中的一類,如何將基于機器學習的“SnowNLP+LDA”在線情感分析方案應用到其他行業,需要未來繼續探索和實踐。

猜你喜歡
分類情感分析
分類算一算
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 青青草原国产免费av观看| 天堂岛国av无码免费无禁网站 | 福利一区在线| 精品国产女同疯狂摩擦2| 日韩av在线直播| 久操线在视频在线观看| 97一区二区在线播放| 色综合天天综合| 久久亚洲国产最新网站| 国产综合网站| 99精品福利视频| 毛片免费试看| 亚洲国产第一区二区香蕉| 日韩成人在线视频| 亚洲成网站| 午夜国产理论| 国产91av在线| 激情無極限的亚洲一区免费| 亚洲精品无码在线播放网站| 久草视频精品| 欧美一级大片在线观看| 欧美一区二区丝袜高跟鞋| 玩两个丰满老熟女久久网| 国产一级裸网站| 中文字幕 91| 喷潮白浆直流在线播放| 国产精品美人久久久久久AV| 欧美一级在线| 亚洲开心婷婷中文字幕| 国产成人亚洲日韩欧美电影| 国产一区二区三区在线精品专区| 久久久精品国产亚洲AV日韩| 欧美中文字幕无线码视频| 欧美精品在线视频观看| 色国产视频| 午夜视频在线观看区二区| 鲁鲁鲁爽爽爽在线视频观看| 又猛又黄又爽无遮挡的视频网站| 熟妇人妻无乱码中文字幕真矢织江 | 国产99在线| 免费观看男人免费桶女人视频| 伊人AV天堂| 日韩成人在线网站| 成人a免费α片在线视频网站| 18禁黄无遮挡网站| 中文字幕色在线| 日韩国产另类| 伊人色天堂| 午夜高清国产拍精品| 中文字幕2区| 91人人妻人人做人人爽男同| 国产男女免费完整版视频| 无遮挡一级毛片呦女视频| 日本一区二区三区精品AⅤ| 亚洲精品视频免费看| 免费一级大毛片a一观看不卡| 一区二区三区四区在线| 欧美日韩国产精品va| 色网站在线视频| 成年人福利视频| 免费全部高H视频无码无遮掩| 国产视频a| 日韩在线观看网站| 丁香五月亚洲综合在线| 国产精品无码久久久久AV| 真人高潮娇喘嗯啊在线观看 | 国内丰满少妇猛烈精品播| 亚洲日本精品一区二区| 高清色本在线www| 成人午夜亚洲影视在线观看| 全裸无码专区| 国产毛片高清一级国语 | 精品视频福利| 久久永久视频| 亚洲二区视频| 98超碰在线观看| 久久精品国产在热久久2019 | 亚洲无码熟妇人妻AV在线| 欧美成人午夜在线全部免费| 成人毛片免费观看| 毛片免费在线| 亚洲国产成人自拍|