999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于支持向量機的微博情感分析方法研究

2022-12-08 17:03:16李首政
現代計算機 2022年19期
關鍵詞:文本情感方法

李首政,王 琪,王 力

(1.南陽理工學院信息工程學院,南陽 473000;2.南陽理工學院土木工程學院,南陽 473000)

0 引言

微博作為國內最大的社交媒體之一,是一種極其豐富的文本來源,具有內容精煉、時效性強、簡短、通俗等特點,研究專門的情感分析技術有利于決策者分配業務及合理的決策[1]。

過去人工監控和分析的方法不僅需要耗費大量的人力成本,而且產生了很大的滯后性。目前對微博數據進行情感分析的方法主要包括兩大類,基于情感詞典的方法和基于機器學習的方法。基于詞典的方法雖然設計思想簡單,準確率較高,但需依賴于專業人士的詞典構造,人工工作量巨大,且受限于詞典先驗知識,普遍性不強[2]。基于KNN 的分類方法雖然算法簡單,但準確率較低且內存占用量較大[3]。Krishnaveni 等[4]提出面向文本的樸素貝葉斯分類器的基本思想,然而經典的回歸思想和貝葉斯方法都是基于一個假設,即概率分布及分布模型是先驗的,但實際數據集往往并不同分布,因此準確率較低。基于深度學習的方法采用RNN 的方法雖然準確率較高,但需大量數據進行模型訓練,且參數較大,實際應用中小樣本數據存在過擬合問題[5]。支持向量機(SVM)方法采用監督方式學習數據的分布模型,從而有效避免了先驗模型與實際模型差距較大的問題[6-7]。

本文分析微博文本數據,提出了一種基于支持向量機的微博文本分析方法,首先爬取微博文本數據并進行預處理,然后采用TF-IDF 算法進行文本向量化,通過詞袋模型獲得文本特征向量,設計高斯核支持向量機分類模型對文本特征向量進行分類器訓練,最終,獲得微博文本數據的情感分類結果,通過實驗分析本文支持向量機方法的準確性,總體流程如圖1所示。

圖1 總體結構

1 文本預處理及特征獲取

通過微博數據爬取工具Weibo Spider 爬取微博平臺個人發布數據,獲得微博文本原始數據。然而,直接爬取的數據存在大量冗余和無效內容,且計算機并不能直接處理文本信息,因此需要對文本數據進行預處理,使得文本特征向量更準確,從而達到提高訓練準確性的目的。文本預處理包含文本清洗、情感標注、文本分詞、去除停用詞四部分。預處理后的文本計算機并不能直接處理,本文提出基于關鍵詞的詞袋模型,獲得文本特征矩陣降低文本特征矩陣稀疏性,最終,構建了實驗數據為10000條的訓練集和500條的測試集數據。

1.1 文本預處理

1.1.1 文本清洗和情感標注

由于爬取程序是直接復制博主發布的內容,導致爬取的數據中包含了“#”開頭和“#”結尾的Tag等較多無效內容,因此需要對無效信息進行清洗。同時,由于微博短文本的特點,爬取信息中包含較多表情符號,而這些表情符號可以很好地體現人的情感,因此將表情符號轉換為同義文本表示,比如微博常見的允悲表情,用文字“允悲”表示。文本分類是有監督學習,因此清洗后的訓練集文本需進行情感標注,根據自然語言知識及人類普遍認知對爬取的文本逐條進行情感標注,本文設計的情感分為積極和消極兩種情感,積極情感用標簽“1”表示,消極情感用標簽“0”表示。

1.1.2 文本分詞和去除停用詞

文本由詞語組成,而與英文句子相比,中文句子中若沒有空格則無法簡單地識別詞語,因此需要分詞。本文采用jieba 分詞工具進行文本分詞。停用詞是指一些無意義詞的中文詞,比如“你,我,他”,“如果,那么”。去除停用詞是常見的NLP 預處理的一個步驟,能幫助減少特征矩陣的大小,從而減少特征矩陣的計算消耗,實現減少計算時間和成本的目的。清洗后的文本標注“積極”或“消極”情感標簽,用于構建數據集及模型訓練。

1.2 基于關鍵詞的詞袋模型

本文采用詞袋模型將文本進行向量化。但傳統詞袋模型獲得的文本向量稀疏性較強,存在很大冗余且不能體現句子關鍵詞,因此本文提出基于關鍵詞的詞袋模型,從而獲得文本特征向量,算法通過IF-IDF 方法獲得,包括三個步驟。

第一步,通過TF-IDF 算法提取文本特征詞,由特征詞構建新的文本詞袋,從而解決了傳統詞袋模型高冗余性的問題,同時能夠體現詞的權重概率。

特征詞提取主要是指提取出有利于情感分析分類的情感詞,本文采取TF-IDF 算法計算每個詞的IF-IDF 值,并采用L2 范數進行標準化,選取文檔權值最高前20 個詞作為特征詞。TF 是詞出現的頻率,TF-IDF 的基本思想是如果某個單詞在一篇文章中出現的頻率TF 高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合作為特征詞,算法見式(1)—(4)。

第二步,運用新建的詞袋表計算句子的詞袋向量,并將每個詞的TF-IDF值替代傳統詞袋向量中詞出現的次數。

第三步,數據標準化的目的是通過標準化得到均值為0 和標準差為1 的服從標準正態分布的數據,此外,標準化能提升分類器擬合的速度,同時縮小可能的異常值的影響。本文采用數據標準化的方法是減去均值然后除以方差或標準差,經過這種數據標準化方法處理過的數據符合標準正態分布。

2 分類器構建

2.1 線性分類器

支持向量機算法的基本思想是尋找一個分類器,使得超平面和最近的數據點之間的分類邊緣(超平面和最近的數據點之間的間隔)最大。對于SVM 算法,通常認為分類邊緣越大,平面越優,通常定義具有最大間隔的決策面就是SVM 要尋找的最優解。因為支持向量到決策邊界有一定的距離,因此支持向量機容許一定的誤差,算法的魯棒性得到一定的提高。對線性可分樣本集T=,其中x(m)∈?n,y(m)∈{-1,1};選擇懲罰參數C>0,構造并求解凸二次規劃。

其中ɑj為拉格郎日乘子,得到最優解a*=(a1

*,a2*,…,aN

*)T。

計算ω*=yixi,b*=yj-yi(xi·xj),得到超平面ω*x + b*= 0,則分類決策函數:

可見,SVM 分類問題需求解樣本的內積,然而實際樣本往往線性不可分,因而需引入核函數,核函數可將樣本向量映射到高維核空間,使得原本線性不可分的樣本變為線性可分,核函數一般包括線性核函數、多項式核函數和高斯核函數。

2.2 高斯核函數

高斯核函數可以將輸入特征映射到無限多維,不僅可以解決樣本線性不可分的問題,而且能夠突出樣本特征的相似性,同時相比多項式核函數計算量更小,因其僅需一個參數σ,所以調參較易。

引入高斯核函數后分類器優化問題變為

3 實驗與分析

采用本文方法爬取數據并進行文本處理后構建了10000 條數據作為訓練集,500 條作為測試集。統計出訓練集的文本長度分布如圖2 所示,文本長度集中在31—151區間,更接近于真實語料環境。訓練集經過標注后得到1 標簽和0標簽的文本數量分布如圖3 所示。圖3 橫坐標的0 代表著文本的情感是消極的;橫坐標1 代表著文本的情感是積極的。由圖3可見訓練樣本中積極情感占比54.96%,消極情感占比45.04%,積極情感略高于消極情感,但整體數量相當,合理的數據分布有利于提高分類器訓練的準確性。

圖2 微博訓練集文本長度統計

圖3 微博訓練集情感極性分布

通過基于關鍵詞的詞袋模型對10000條訓練集文本進行特征詞提取,共提取出61949個特征詞,并獲得(10000,61949)大小的文本特征矩陣,500條測試集特征矩陣大小為(500,1949)。利用本文高斯核SVM 的方法對訓練集數據進行訓練,學習曲線如圖4 所示,由圖4 中準確率的變化趨勢可見,訓練集和驗證集的準確率隨著樣本數的增大能夠較好地擬合,最終穩定在較高準確率,說明本文方法獲得的訓練模型有較好的泛化能力。與通過傳統詞袋模型采用多項式SVM、線性SVM、樸素貝葉斯、KNN 和決策樹五種方法的訓練集和測試集得分進行對比,結果如表1 所示,SVM 三種分類器表現出較理想的效果,其中本文高斯核的SVM 方法在訓練集和驗證集上都取得了較高的準確率,且擬合度較好,KNN 方法和樸素貝葉斯方法的準確率不高,決策樹方法出現了較嚴重的過擬合現象。采用本文高斯核SVM 方法和上述五種方法分別建立分類器對測試集進行驗證,其預測的準確率如圖5所示。

圖4 高斯SVM分類器學習曲線

表1 各種方法的準確率對比結果

圖5 分類器準確率對比圖

圖5可見,使用小樣本訓練支持向量機分類器已經取得不錯的準確率,與同等樣本數訓練的其他分類器相比有明顯的優勢,隨著樣本數的增加,六種分類器的準確率均有所提高,且KNN 和樸素貝葉斯分類器與SVM 分類器準確率差距有所縮小,其中本文高斯SVM 的方法準確率最高。決策樹方法由于存在過擬合現象導致總體效果不佳。由此可見,本文采用的高斯SVM 方法在微博情感分析中能取得較高的準確率,且相比KNN、樸素貝葉斯等方法,本文方法在小樣本數據集上有較明顯優勢。

4 結語

針對當前需要對內容精煉、時效性強、通常包含簡短且非正式縮寫詞的微博短文本情感分析問題,本文提出一種更適合微博文本情感分析的方法,通過weibo Spider 爬取微博數據并進行人工標注,構建數據集,TF-IDF 算法和詞袋模型構建基于關鍵詞的詞袋模型,獲得文本特征矩陣,最后采用了高斯核的支持向量機方法進行分類器訓練,通過測試集驗證準確率,對比多項式支持向量機、KNN、樸素貝葉斯決策樹等方法,實驗結果顯示本文方法準確率較高,在小樣本數據的情況下可獲得較高的準確率。

猜你喜歡
文本情感方法
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美在线视频不卡第一页| 伊人精品成人久久综合| 婷婷成人综合| 蜜臀AV在线播放| 欧美成人午夜影院| 中文字幕有乳无码| AⅤ色综合久久天堂AV色综合| 国产成人av大片在线播放| 一级爱做片免费观看久久| 日韩免费中文字幕| 在线无码av一区二区三区| 国产成人精品一区二区不卡| 国产成人免费高清AⅤ| 国产99在线观看| 91成人在线免费观看| 欧洲精品视频在线观看| 欧类av怡春院| 久久福利片| 手机精品视频在线观看免费| 99re精彩视频| 在线观看91精品国产剧情免费| 久久无码av三级| 69精品在线观看| 精品久久蜜桃| 久久婷婷六月| 国产成人喷潮在线观看| 久久精品国产亚洲麻豆| 欧美日韩中文国产va另类| 国产视频a| 2020最新国产精品视频| 国产欧美又粗又猛又爽老| 久久综合伊人77777| AV在线麻免费观看网站| 亚洲欧美日韩成人高清在线一区| 久久精品亚洲中文字幕乱码| 狠狠躁天天躁夜夜躁婷婷| 人妻丝袜无码视频| 成人国产精品视频频| h视频在线播放| 毛片久久网站小视频| 亚洲一区二区三区麻豆| 久久精品人人做人人综合试看| 国产午夜无码片在线观看网站| 一级片免费网站| 日韩成人午夜| 香蕉在线视频网站| a毛片在线播放| 国模极品一区二区三区| 青青青视频91在线 | 免费观看成人久久网免费观看| 五月天天天色| 亚洲国产精品不卡在线 | 国产精品男人的天堂| 亚洲中文精品人人永久免费| 色综合久久88色综合天天提莫 | 国产精品色婷婷在线观看| 国产人成乱码视频免费观看| 91丝袜乱伦| 成人中文在线| 日韩一级二级三级| 91破解版在线亚洲| 国产精品免费电影| 亚洲欧美色中文字幕| 婷婷六月在线| 欧美福利在线观看| 亚洲一区二区三区中文字幕5566| 国产91成人| 日韩天堂网| 在线国产91| 亚洲天堂成人在线观看| 亚洲精品第1页| 91偷拍一区| 国产一区二区三区精品欧美日韩| 国产一线在线| 国产交换配偶在线视频| 国产在线观看精品| 色哟哟国产成人精品| 中国丰满人妻无码束缚啪啪| 国产精品香蕉| 亚洲天堂网站在线| 呦系列视频一区二区三区| 69av在线|