999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的在線評論情感分析

2023-10-11 06:15:22張黎娜董露露檀娟伢
關(guān)鍵詞:文本情感分析

張黎娜,董露露,李 梅,檀娟伢

(安徽開放大學(xué) 信息與建筑工程學(xué)院,安徽 合肥 230022)

2022年8月31日,中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布第五十次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》.截至2022年6月,中國的網(wǎng)民規(guī)模已經(jīng)達(dá)到了10.51億人,這個數(shù)字令人印象深刻.而且,互聯(lián)網(wǎng)普及率也達(dá)到了74.4%,意味著超過三分之二的中國人都在使用互聯(lián)網(wǎng).網(wǎng)民在使用互聯(lián)網(wǎng)的過程中產(chǎn)生大量帶有情感色彩的主觀評論,在線評論數(shù)據(jù)成了互聯(lián)網(wǎng)的重要組成部分,反映出網(wǎng)民所關(guān)注事件的觀點和情感態(tài)度.

對在線評論文本進(jìn)行情感分析可以應(yīng)用于購物網(wǎng)站、網(wǎng)絡(luò)學(xué)習(xí)平臺、社交媒體的商業(yè)營銷和輿情分析等場景,同時也是用戶決策的重要信息來源,很大程度上影響著新用戶的選擇,在線評論的情感分析也成為學(xué)者們研究的熱點[1-7],這些文獻(xiàn)為本研究提供了很多幫助.

國內(nèi)對于在線評論文本的情感分析和主題研究一般是單一研究,但情感傾向和內(nèi)容主題是分析用戶在線評論的兩個重要維度.因此,本文以某品牌機械手表為研究對象,通過爬取消費者在線評論文本,采用基于機器學(xué)習(xí)的情感傾向分析和LDA主題模型相結(jié)合的研究方式進(jìn)行在線評論數(shù)據(jù)的情感分析.

1 理論依據(jù)

1.1 在線評論

在線評論數(shù)據(jù)是網(wǎng)民在使用互聯(lián)網(wǎng)過程中產(chǎn)生大量帶有情感色彩的主觀數(shù)據(jù),是網(wǎng)絡(luò)平臺的重要組成.是發(fā)文者對某種事和物的看法、態(tài)度和情感反應(yīng).

1.2 情感分析

情感分析是通過分析文本中的情感詞語,挖掘?qū)μ囟ㄊ潞臀锏那楦斜磉_(dá).通過挖掘文本數(shù)據(jù)中的情感信息,了解發(fā)文者對某種事物或事件的看法、態(tài)度和情感反應(yīng).這對理解公眾輿論、市場趨勢、產(chǎn)品反饋等方面都非常重要[8].通過對在線評論情感分析,可以從大規(guī)模的評論數(shù)據(jù)中提取有價值的信息,幫助企業(yè)和組織做出更準(zhǔn)確的決策和改進(jìn)策略.

1.3 情感分析方法

常見的文本情感分析方法有情感詞典法和機器學(xué)習(xí)法.前者通過將文本中的情感詞與情感詞典進(jìn)行對比,統(tǒng)計情感詞的數(shù)目,并計算情感得分,判斷情感類別.但此方法對于新的、未知的情感詞或特定領(lǐng)域的情感詞,可能無法準(zhǔn)確識別和計算得分.為了提高準(zhǔn)確性,情感詞典根據(jù)情感分析的需要,人為地進(jìn)行更新和完善,這種方法實現(xiàn)困難且耗時;后者是由人工提取文本特征,使用機器算法進(jìn)行文本數(shù)據(jù)處理與情感分析.這種分析方法可以動態(tài)地更新詞庫,同時有效地減少工作量及情感分析過程中的一些感性判斷.所以,通過訓(xùn)練機器學(xué)習(xí)模型來自動識別文本中的情感,從而提高情感分析的準(zhǔn)確性和適應(yīng)性.

1.3.1 支持向量機

支持向量機是一種強大的機器學(xué)習(xí)算法,尤其適用于二分類問題.該問題的目標(biāo)是尋找一個誤分類率最小,并且不同類別的樣本點是能夠被盡可能大的間隔分開的最優(yōu)超平面,基本原理結(jié)構(gòu)如圖1所示.它在實際應(yīng)用中具有很好的分類性能,被廣泛應(yīng)用于模式識別、文本分類等領(lǐng)域[9].

圖1 支持向量機基本原理

圖1中,wx+b=0為分類超平面.當(dāng)處理的數(shù)據(jù)是文本數(shù)據(jù)時,需要把非線性數(shù)據(jù)從低維空間轉(zhuǎn)換到高維的線性數(shù)據(jù)再進(jìn)行求解.

1.3.2 樸素貝葉斯

樸素貝葉斯分類算法是基于貝葉斯理論和特征條件獨立假設(shè)的分類算法.樸素貝葉斯算法中的“樸素”表示假設(shè)每個特征之間都是相互獨立的,這樣可以簡化計算并減少模型參數(shù)的數(shù)量.雖然這個假設(shè)在現(xiàn)實中不成立,但在實際應(yīng)用中,樸素貝葉斯算法仍然能夠提供很好的分類性能.并且,樸素貝葉斯算法在文本數(shù)據(jù)情感判定方面效果較好,算法復(fù)雜度也較低[10],常應(yīng)用于數(shù)據(jù)量不大的文本情感分類.

定義在線評論文本為wk={w1,w2,…,wn},情感類別為C= {C正,C負(fù)}.文本的情感判定公式為:

(1)

(2)

(3)

其中,P(Cj)是Cj的先驗概率,P(qi|Cj)是Cj的后驗概率,NUM(Cj)為Cj的在線評論文本數(shù).

1.3.3 決策樹

決策樹是指通過對屬性的測試和判斷過程,以樹的形式直觀地表示文本情感分析的邏輯關(guān)系,使得分析過程清晰易懂,其結(jié)構(gòu)如圖2所示.自根節(jié)點逐個驗證條件分支,直到某葉子節(jié)點,得到文本的情感類別.

圖2 決策樹模型

2 研究設(shè)計

2.1 研究思路

整個研究由兩大部分內(nèi)容組成:①在線評論情感傾向分析.首先,爬取京東電商平臺某品牌機械手表在線評論數(shù)據(jù);然后,經(jīng)過文本預(yù)處理、分詞、向量化等操作;再通過訓(xùn)練好的情感分類器進(jìn)行文本情感傾向分析,得到正面、負(fù)面評論文本;②LDA主題模型分析.通過LDA模型對第一部分分析的結(jié)果進(jìn)行主題建模,挖掘出潛在主題,找出產(chǎn)品或服務(wù)上的優(yōu)勢與不足,提出干預(yù)措施.整個研究思路如圖3所示.

圖3 本文研究思路

2.2 在線文本情感傾向分析

2.2.1 在線評論文本數(shù)據(jù)的采集

網(wǎng)絡(luò)爬蟲技術(shù)[11]爬取的數(shù)據(jù)可根據(jù)研究需要從網(wǎng)絡(luò)上抓取大量源數(shù)據(jù),并進(jìn)行不相關(guān)的數(shù)據(jù)剔除.常用的數(shù)據(jù)爬取工具為八爪魚采集器,與其相比,Python軟件可以自動采集、獲取海量規(guī)范的文本數(shù)據(jù),避免了人工收集、整理數(shù)據(jù)的繁瑣過程.然后對文本進(jìn)行深度挖掘,將有價值的數(shù)據(jù)提取出來,再進(jìn)行深入分析,得到更多有用的數(shù)據(jù).

使用Python軟件爬取來源于京東電商平臺某品牌機械手表2020年10月至2022年10月在線評論數(shù)據(jù)共23 852條,每一條評論包含評分人、評分、評論時間、評論內(nèi)容.其中,5分評論9 731條,4分評論11 783條,3分評論1 133條,2分評論620,1分585條.在線商品頁面評論中好評率在95%,差評率在5%.分析得出是將3分及以上歸為正面評論,2分及以下歸為負(fù)面評論,正面評論共有22 647條,負(fù)面評論共有1 205條.

2.2.2 評論文本預(yù)處理

評論文本預(yù)處理是進(jìn)行文本情感分析前的一系列操作,具體步驟為:①數(shù)據(jù)清洗,從爬取的數(shù)據(jù)中剔除無效評論,例如包含圖片、音視頻等評論,最終得到有效評論文本共計21 440條;②分詞,使用jieba分詞工具進(jìn)行分詞,將評論文本切分成一個個獨立的詞語,以便后續(xù)處理和分析;③剔除停用詞,選擇哈工大停用詞詞庫剔除停用詞.停用詞是指在評論中頻繁出現(xiàn)但對文本情感分析沒有實質(zhì)性幫助的常見詞語,如“的”“了”“是”等.剔除這些停用詞能夠減少噪音,提高情感分析的準(zhǔn)確性.

通過以上預(yù)處理步驟,評論文本將被清洗、分詞并去除停用詞,最終生成可以被計算機處理的自然語言數(shù)據(jù),以便進(jìn)行后續(xù)的情感分析.

2.2.3 文本向量化

文本向量化是計算機識別、處理文本數(shù)據(jù)的第一步.計算機能處理的是線性、結(jié)構(gòu)化數(shù)據(jù),而文本是一種非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、分詞后的文本需要數(shù)字編碼后才可以輸入模型進(jìn)行建模.這便需要將文本轉(zhuǎn)化為計算機能識別、處理的語言,詞向量化技術(shù)實現(xiàn)了文本數(shù)據(jù)向機器語言的轉(zhuǎn)變.

采用Word2vec中的連續(xù)詞袋模型(CBOW)作為詞向量化工具,將文本數(shù)據(jù)進(jìn)行詞向量化.通過詞向量來表達(dá)詞與詞之間的關(guān)系,尋找詞之間的關(guān)聯(lián),將文本中的詞直接映射到一個坐標(biāo)系中,得到詞語的數(shù)值向量,在向量空間上進(jìn)行一系列數(shù)值計算.

Word2vec中的連續(xù)詞袋模型分為3層,首先是輸入層,輸入當(dāng)前詞W前后的n個詞向量,作為模型的輸入;其次是隱藏層,將輸入層的詞向量進(jìn)行拼接或平均操作,得到一個綜合的上下文表示,可以使用全連接層或者其他非線性映射函數(shù)對上下文表示進(jìn)行處理;最后是輸出層,它由一個全連接層組成,輸出單元對應(yīng)詞庫中的詞.通過生成一個概率分布,預(yù)測當(dāng)前詞,詞袋模型的實現(xiàn)過程如圖4所示.

圖4 CBOW模型實現(xiàn)過程

2.2.4 分類模型

用3種機器學(xué)習(xí)算法訓(xùn)練模型.從網(wǎng)絡(luò)獲取一個酒店評論數(shù)據(jù)集,采用正面評論5 000條,負(fù)面評論2 000條.使用train_test_split函數(shù)將數(shù)據(jù)集隨機劃分為訓(xùn)練集與測試集,計算60次模型訓(xùn)練準(zhǔn)確率均值[12-13],結(jié)果如表1所列.

表1 準(zhǔn)確率均值

從表1可以看出,決策樹模型在兩個數(shù)據(jù)集上的準(zhǔn)確率差別較大,支持向量機模型與樸素貝葉斯模型在訓(xùn)練集、測試集的準(zhǔn)確率都不錯,但樸素貝葉斯的兩組數(shù)據(jù)更接近.

因此,在線評論的情感分析最終采用樸素貝葉斯模型.在線評論文本經(jīng)過數(shù)據(jù)預(yù)處理、分詞、文本向量化進(jìn)入分類器進(jìn)行情感傾向分析,得到正面情感評論文本19 667條,占總文本的91.73%;負(fù)面情感評論文本1 773條,占總文本的8.27%,與京東網(wǎng)站在線評論好評占比有3%左右的誤差.

2.2.5 評論文本可視化

根據(jù)情感分析結(jié)果,分別把正、負(fù)面評論文本生成詞云圖,也可以驗證分類模型對在線評論情感傾向分析的結(jié)果是否準(zhǔn)確.正面、負(fù)面的評論文本詞云圖如圖5和圖6所示.

圖5 正面評論詞云圖

從圖5和圖6可以看出,正面評論詞云圖中,“精準(zhǔn)”“大氣”“高端”等高頻詞語都是正面的,未發(fā)現(xiàn)負(fù)面色彩的詞語,說明訓(xùn)練出的分類模型很好地區(qū)分出正面情感傾向評論.負(fù)面評論詞云圖中,“劃痕”“粗糙”“掉色”“霧氣”等負(fù)面詞語的出現(xiàn)頻率較高,圖中未出現(xiàn)帶有正面情感的詞語,也說明訓(xùn)練出的分類模型可以很好地區(qū)分出負(fù)面情感評論.

2.3 LDA主題模型分析

采用樸素貝葉斯模型進(jìn)行在線評論的情感傾

向分析,是為了分析和掌握消費者對在線商品哪些方面不滿或比較認(rèn)同.通過LDA模型對消費者在線評論主題進(jìn)行探索,挖掘出消費者正面、負(fù)面評論中的潛在主題,獲得某個主題包含的詞語概率分布,確定該主題包含的其他詞匯,分析出消費者對在線商品特征的關(guān)注以及情感態(tài)度[14].

2.3.1 主題數(shù)目選擇

通過余弦相似度對在線評論的正、負(fù)面文本進(jìn)行LDA主題建模,確定正面評論文本、負(fù)面評論文本的最優(yōu)主題數(shù)并進(jìn)行主題分析.使用循環(huán)函數(shù)進(jìn)行數(shù)次迭代后找到評論文本的最佳主題個數(shù),無需調(diào)參,簡單方便.初始模型中,將評論文本的主題數(shù)初始值設(shè)置為k,計算評論文本主題間的平均余弦距離;然后,對主題數(shù)k值的大小進(jìn)行調(diào)整(增加或是減少),每次調(diào)整后進(jìn)行模型訓(xùn)練,得出評論文本主題間的余弦相似度;重復(fù)操作直至尋找到最優(yōu)主題數(shù)k.如果評論文本主題間的余弦相似度越高,則詞語越相似,具體計算公式為:

(4)

其中,W、T是兩個n維的評論文本向量,cosθ是W向量和T向量之間夾角θ的余弦值.

正面、負(fù)面評論的主題尋優(yōu)數(shù)據(jù)如圖7和圖8所示.可以看出,正面評論文本中,主題數(shù)值取3時,平均余弦相似度最低,因此,正面評論進(jìn)行LDA主題建模時,選擇主題數(shù)3;負(fù)面評論主題數(shù)在3或4時平均余弦相似度最低,所以,負(fù)面評論主題數(shù)也選擇3進(jìn)行LDA建模.

圖7 正面評論LDA主題建模

圖8 負(fù)面評論LDA主題建模

2.3.2 主題建模與分析

使用Python中的Gensim庫對正面、負(fù)面評論進(jìn)行LDA主題建模,k值設(shè)置為3,各主題下生成6個最有可能出現(xiàn)的詞語和概率分布,結(jié)果如表2和表3所列.根據(jù)建模結(jié)果,再進(jìn)行數(shù)據(jù)分析.

表2 正面評論主題

表3 負(fù)面評論主題

如表2所列,正面評論文本主題1中“大氣”“好看”“高端”“外觀”“檔次”等體現(xiàn)了消費者對手表外觀設(shè)計的認(rèn)同;主題2中“準(zhǔn)時”“值得”“喜歡”“推薦”“時間”等體現(xiàn)了消費者對手表走時準(zhǔn),防水強的機械性能的贊許;主題3中“手表”“材質(zhì)”“表盤”“做工”等詞體現(xiàn)消費者選擇此款手表的原因主要在于其的材質(zhì)優(yōu)良、耐用,做工一流.

如表3所列,負(fù)面評論主題1中關(guān)鍵詞“劃痕”“粗糙”“霧氣”“一般”等詞語表明消費者對于手表的做工、質(zhì)量的不滿;主題2中“假貨”“貴”“正品”“價格”等詞體現(xiàn)在線商品價格昂貴,降價快,引起了消費者的不滿,質(zhì)疑是假貨不是正品的負(fù)面情感體現(xiàn);主題3中 “客服”“平臺”“商家”“售后”“垃圾”表明消費者對在線商品產(chǎn)生質(zhì)疑、心存不滿時,商家及平臺售后沒能及時提供售后服務(wù),遇到問題沒得到解決,導(dǎo)致情緒升級,出現(xiàn)含有“垃圾”字樣的文本,這也符合日常購物場景中的情緒體現(xiàn).

針對負(fù)面評論,品牌商和電商平臺方可以采取一些有效措施來緩解消費者的負(fù)向情緒,維護(hù)消費者利益,提升品牌形象,優(yōu)化電商平臺.主要方法有:①嚴(yán)格把控產(chǎn)品質(zhì)量.商品發(fā)貨前,品牌商和電商平臺應(yīng)該嚴(yán)格核查產(chǎn)品型號、質(zhì)量,避免有瑕疵、不合格的商品流入到消費者手中,保障消費者的利益;②保障商品價格正常浮動.商品的價格不穩(wěn)定、低價競爭會影響品牌利益,也會導(dǎo)致假貨泛濫,損壞品牌形象.電商平臺需要及時干預(yù)、約束品牌商,將價格控制在規(guī)定的范圍內(nèi);③提升售后服務(wù)質(zhì)量.消費者進(jìn)行商品購買或是售后咨詢時,應(yīng)及時給予回應(yīng),解決問題.品牌商和電商平臺對服務(wù)團(tuán)隊?wèi)?yīng)進(jìn)行專業(yè)、系統(tǒng)的產(chǎn)品知識培訓(xùn),以便更好地服務(wù)于消費者,提升購物體驗.

3 結(jié)語

本文以某品牌機械手表為研究對象,通過爬取互聯(lián)網(wǎng)某電商平臺消費者在線評論文本,采用基于機器學(xué)習(xí)方法的情感傾向分析和LDA主題模型相結(jié)合的研究方式進(jìn)行在線評論數(shù)據(jù)的情感分析.在利用機器學(xué)習(xí)方法進(jìn)行情感傾向分析的基礎(chǔ)上,對正面、負(fù)面評論文本完成LDA主題建模,再進(jìn)一步分析研究,通過分析研究結(jié)果得出以在線購物為渠道的某品牌手表在產(chǎn)品或服務(wù)上的優(yōu)勢和不足,并提出干預(yù)措施,以促進(jìn)某品牌和電商平臺的健康發(fā)展,提升消費者的購物體驗.

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
電力系統(tǒng)及其自動化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 第一页亚洲| 综合色天天| 欧美区在线播放| 999精品免费视频| 精品国产女同疯狂摩擦2| 中文字幕永久视频| 日韩高清在线观看不卡一区二区 | 日本免费一区视频| 国产精品福利导航| 99久久精品免费观看国产| 高清免费毛片| 亚洲AV无码乱码在线观看裸奔| 一级毛片免费不卡在线| 免费高清a毛片| a亚洲天堂| 成人久久精品一区二区三区 | 久久精品人妻中文视频| 热99精品视频| 亚洲高清日韩heyzo| 日韩欧美中文| 亚洲av综合网| 国产素人在线| 成人伊人色一区二区三区| 亚洲中文字幕97久久精品少妇| 欧美一级特黄aaaaaa在线看片| 成人午夜视频免费看欧美| 2021国产精品自拍| P尤物久久99国产综合精品| 欧美亚洲日韩中文| 久草网视频在线| 最新国产午夜精品视频成人| 国产原创演绎剧情有字幕的| 台湾AV国片精品女同性| 亚洲人成色在线观看| 国产经典在线观看一区| www.99在线观看| 亚洲最大看欧美片网站地址| 中文字幕无码中文字幕有码在线| 久久综合一个色综合网| 国产美女在线免费观看| 麻豆精品久久久久久久99蜜桃| 日韩欧美国产区| 亚洲日韩图片专区第1页| 国产丝袜第一页| 爱色欧美亚洲综合图区| 久久免费看片| 天天做天天爱夜夜爽毛片毛片| 中文字幕第1页在线播| 亚洲三级a| 高清国产va日韩亚洲免费午夜电影| 日韩成人在线一区二区| 欧美第一页在线| 亚洲高清中文字幕在线看不卡| 成AV人片一区二区三区久久| 国产噜噜在线视频观看| 日本免费a视频| 黄色网站在线观看无码| 97se亚洲综合| 欧美一区二区三区欧美日韩亚洲 | 制服丝袜在线视频香蕉| A级全黄试看30分钟小视频| 欧美精品xx| 2021国产精品自拍| 成人午夜久久| 国产97视频在线| 思思热精品在线8| 欧美a√在线| 国产无码在线调教| 欧美色视频日本| 青青草国产一区二区三区| 四虎影视永久在线精品| 国产黑丝一区| 在线观看国产黄色| 国产精品va免费视频| 亚洲无码在线午夜电影| 国产H片无码不卡在线视频| 91精品国产91久久久久久三级| 丝袜高跟美脚国产1区| 国产亚洲精品自在线| 日本精品一在线观看视频| 美美女高清毛片视频免费观看| 久久亚洲国产最新网站|