999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的文本情感傾向性智能分析方法

2021-11-11 03:34:02王冰畢新偉
赤峰學院學報·自然科學版 2021年10期
關鍵詞:特征提取

王冰 畢新偉

摘 要:情感分析屬于一項具有強大實用價值的分類技術,可以識別出文本中隱藏的觀點。為方便用戶獲取所需文學作品,本文提出基于SVM的文本情感傾向性智能分析方法。利用向量空間模型計算用戶模型與文本匹配度模型的向量相似程度,增強文本信息的結構化特征,完成文本信息預處理;建立否定詞、條件詞等情感資源,確定特征提取規則,通過計算互信息值,以閾值高低為依據做特征提取,降低特征維數;將文本特征作為訓練數據,獲取分類線方程與分類間隔,求出最佳分類平面,明確情感傾向所屬類別,再采用Logistic回歸模型分析出情感傾向程度。仿真實驗證明,該方法的查準率與查全率較高,表現出較好的情感智能分類性能。

關鍵詞:支持向量機;文學文本;情感傾向;智能分析;特征提取

中圖分類號:TP391? 文獻標識碼:A? 文章編號:1673-260X(2021)10-0016-04

1 引言

文學文本表示組成文學語言藝術品的語言系統,是表達人生體驗的特殊語言結構,可分為詩歌、小說、散文等形式。隨著科學技術的日新月異,如何從海量文學作品中選出優秀的文本對讀者而言非常重要。文本情感傾向分析是計算機、智能信息與自然語言處理領域中較為活躍的分支。通過對文本主觀內容進行過濾分析,識別并判斷該內容表達的真正含義。在如今信息“沸騰”的時代背景下,每天會產生大量的新的文本數據,所以需要對這些內容進行高效分析,識別出情感傾向,方便用戶獲取想要的文學作品。

為滿足上述需求,相關學者提出如下情感傾向分析方法。陳瀟[1]等人以半監督問答為基礎,對文本數據進行褒義、貶義的分類。對已經標注過的文本與未經標注的文本進行分析,建立異構網絡,再通過該異構網絡獲取相關詞的向量,并將獲取的詞的向量在可分層匹配的情感分類模型中應用。王立志[2]利用改進粒子群優化的方法實現文本情感分析。利用word2vec詞向量加權的方式量化信息,再將該信息作為可識別輸入;引入交叉算子將粒子群的算法進行改進,并且交叉算子還可對損失、懲罰與核等函數進行優化,實現文本情感分類。

但是上述兩種方法沒有準確的提取文本特征,包括一些重要的情感詞與依賴關系等,影響情感傾向分析的準確性,給讀者帶來不便。為解決這一問題,本文的文本情感分析采用支持向量機(Support Vector Machine,SVM)進行。SVM是個較為智能的學習模型,具有監督功能,如實際存在非線性情況,可采用映射函數利用現有文本建立線性函數分類。此種空間轉換可使該模型的分類能力大幅提高,有效解決了關于維數的災難問題,本文模型還采用更有效的文本特征提取方法,進一步提高文本分析精度。

2 基于SVM的文本情感傾向性智能分析

2.1 文本數據預處理

文本通常表現為字符串,表達豐富的信息,但是不能直接用于情感分析。數據預處理是文本情感傾向分析的必經階段,主要目的是將計算機不能識別的、海量非結構化數據進行處理,使其滿足計算機處理要求。

本文對數據進行預處理可采用向量空間模型(Vector Space Model,VSM)的方式[3]。向量空間大都是利用自然語言查詢,基于此,可將查詢結果作為一個小信息處理,則在向量空間內的某一信息項可被表示為:

公式中,n代表全部索引項,wjn則表示信息項 內索引項的權重。

設定Dj為文本項,ki為索引項,ki在Dj中的出現頻率為tfi,j,逆文檔率為idfi,文本項數量越多,逆文檔率越小,詞語w的區分能力就越好,其中對于索引項權重的計算利用TD-IDF(Term Frequency-Inverse Document Frequency)方法進行,其計算公式如下:

假設全部索引項ki是相互獨立的,通過對上述相似度度量值的計算即可完成數據預處理,使所有文本信息具有結構化特性,為特征文本特征提取奠定基礎。

2.2 基于互信息值特征提取

根據文本數據預處理結果可知,處理后的文本的特征向量較多,如果不對其中的關鍵詞語進行選擇,則會產生維數災難[5],提高計算復雜性。所以需利用特征提取的方式去除關聯性不強的特征,降低特征維數。

2.2.1 情感資源建立

本文對文學文本中的部分否定詞、條件詞語轉折詞等進行分析,建立情感資源。

收集程度副詞,計算不同強度值,程度副值與強度如表4所示。

2.2.2 特征提取規則

本文共制定如下五條特征提取規則:

(1)文本中的關鍵詞特征,確定名詞、動詞、形容詞與副詞數量。

(2)否定詞特性,將總次數對2取余,如果值為1,此時情感詞的極性相反;如果值等于0,情感詞極性不發生變化。

(3)程度副詞特性,如果情感詞前面有程度副詞,則文本情感強度隨之變化。

(4)條件句式特性,若情感詞前面出現條件詞,則條件句式特性值等于1,反之為0。經過對隨機語料的分析,條件詞對情感表達強度有弱化作用。

(5)轉折句式[6]特性,當情感詞前面只有一種轉折詞時,則判定情感詞極性為反;如果為兩種,則表示不發生變化。

2.2.3 文學文本特征提取

特征提取利用數學形式表示即為從初始特征集合T={t1,t2,…,tn}內選擇一個真子集合T′={t1,t2,…,tn′},其中n′≤n,則提取后的特征數量小于初始特征數量。本文通過計算互信息值(Mutual Information,MI)的方法來進行文本特征提取。

互信息值實質描述的是兩個事件集合之間存在的關聯性,針對特征提取而言,互信息表現出詞條t′與類別ci存在的相關性,表達式如下:

公式中,i表示類別數,p(t)代表t在訓練集合中出現的次數,p(t′|ci)表示t′和ci一同出現的概率。針對計算得的全部MI值,進行由高到低排序,將閾值較高的詞條當作特征詞。本文特征提取流程如圖1所示。

2.3 潛在語義分析

經過上述特征提取后,能夠獲取文本較為顯著的特征,但是沒有考慮“一詞多義”的問題,因此,還需進一步對潛在語義進行研究。

首先確定如下概率變量:P′(Dj)表示文本集合中選取文本Dj的概率,P′(wj|zk)代表在潛在變量zk約束下,某詞語wj的條件概率,P′(zk|Dj)為潛在變量[7]中文本Dj的概率分布情況。

根據以上定義,經過下述步驟可構成一個生成模型:

步驟一:結合P′(Dj)隨機選取一個文本Dj

步驟二:在文本Dj基礎上,通過P′(zk|Dj)選取文本表達的潛在變量zk。

步驟三:獲得一個不具有潛在變量的觀察變量對(di,wj),將生成過程變為聯合概率分布形式:

構建完生成模型后,通過最大相似性表達式來確定參數,實現潛在語義挖掘。表達式如下:

2.4 情感傾向智能分析

將上述獲取的文本表明特征與潛在特征當作訓練數據,利用SVM構建分類器模型,即一個決策函數[8]。該模型可以接受沒有類別標簽的新樣本輸入。

基于SVM的情感傾向分析的實質就是在n′維特征空間中確定最大間超平面,該平面能夠將不同種類數據最大程度進行區分。基本思路圖如圖2所示。

在圖2中,H為分類線,Ha與Hc為穿過各自分類線最近的數據點且和分類線相互平行的直線。

最優分類線不但能正確劃分兩種不同類型的數據,還能最大程度劃分類間隔。獲取分類線的方程式如下:

公式中,w′表示斜率[9],屬于一個常數,x′是橫向坐標值,b為一個常數。

在對文本進行情感分析時,對公式(12)做歸一化處理,確保數據點集合(x′i,y′i)在滿足公式(12)的同時也符合下述公式要求:

Logistic回歸屬于一種數據挖掘[10]方式,其回歸函數不僅持續遞增,還和線性回歸方程存在遞減一致性,所以可通過該回歸函數表示文本情感強度。具體過程是:利用回歸函數使變量的無窮區間映射在[0,1]中,通過設置合理閾值來調節分類區間,構成持續特征表示。

在反映文本情感傾向性強度過程中,在SVM分類基礎上,使用Logistic函數的持續性表示情感趨勢強度的走勢。假定g(x″)=a′x″+b′代表初始線性方程,g(x″)是文本分類函數,且滿足SVM分類面條件,則與其相對的Logistic回歸強度函數表示為:

3 仿真實驗分析

為評價不同方法對于文本情感分析的準確性,實驗語料庫利用Python開發的網頁從當當網中獲得文學文本信息。實驗環境中存在五個節點,分別為2個Master與3個Slave,操作系統是Ubuntu14.04。為準確評價出文獻[1]、文獻[2]與本文方法的分析性能,利用查準率、查全率和F值三個指標進行評價。

在已知不同文學分類文本特征情況下,文獻[1]、文獻[2]與本文方法的情感傾向分析結果如表5、6和7所示。

由實驗結果可知,隨著特征種類的增多分類結果表現出良好特性,指標值都有明顯提高。其中本文方法在無論在哪種特征組合下,都能表現出良好的情感傾向分析性能。這是因為支持向量機具有較強的學習能力,通過最優分類平面準確劃分文本情感傾向,使情感分析更加智能化。

4 結論

本文利用SVM方法在多維特征空間中找出最大間隔超平面,通過該平面實現文學文本情感傾向分類,在Logistic基礎上確定每種情感強度,完成情感傾向智能分析。實驗證明所提方法的查準率、查全率與綜合評價值均較高,表現出良好的分析性能。但是也存在一些不足,有待進一步改進。結合已有成果,后續工作主要研究可以自動完善情感詞典,對于網絡不斷出現的情感詞,能夠及時更新,但是由于本文只考慮了簡單詞語對情感的影響,在今后研究中還需增加一些復雜句式。

參考文獻:

〔1〕陳瀟,李逸薇,劉歡,等.基于網絡表示的半監督問答文本情感分類方法[J].鄭州大學學報(理學版),2020,52(02):52-58.

〔2〕王立志,慕曉冬,劉宏嵐.采用改進粒子群優化的SVM方法實現中文文本情感分類[J].計算機科學,2020,47(01):231-236.

〔3〕陳鄭淏,馮翱,何嘉.基于一維卷積混合神經網絡的文本情感分類[J].計算機應用,2019,39(07):1936 -1941.

〔4〕黨莉,陳鍛生,張洪博.對抗長短時記憶網絡的跨語言文本情感分類方法[J].華僑大學學報(自然科學版),2019,40(02):117-122.

〔5〕吳鵬,李婷,仝沖,等.基于OCC模型和LSTM模型的財經微博文本情感分類研究[J].情報學報,2020,39(01):81-89.

〔6〕趙傳君,王素格,李德玉.跨領域文本情感分類研究進展[J].軟件學報,2020,31(06):143-166.

〔7〕吳小華,陳莉,魏甜甜,等.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息學報,2019,33(06):100-107.

〔8〕林世平,林松海,魏晶晶,等.融合知識圖譜的文本情感分析[J].福州大學學報(自然科學版),2020, 48(03):269-275.

〔9〕張新生,高騰.多頭注意力記憶網絡的對象級情感分類[J].模式識別與人工智能,2019,32(11):997 -1005.

〔10〕王名揚,吳歡,賈曉婷.結合word2vec與擴充情感詞典的微博多元情感分類研究[J].東北師大學報:自然科學版,2019,51(01):55-62.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 国产精品人人做人人爽人人添| 亚洲三级a| 欧美国产日韩另类| 日本国产在线| 亚洲无码日韩一区| 在线免费亚洲无码视频| 欧美一区二区丝袜高跟鞋| 亚洲丝袜中文字幕| 欧美翘臀一区二区三区| 久久综合AV免费观看| 国产玖玖玖精品视频| 伊人激情综合网| 玩两个丰满老熟女久久网| 久久黄色视频影| 婷婷六月激情综合一区| 国产爽歪歪免费视频在线观看| 国产chinese男男gay视频网| 欧美人人干| 欧美成人在线免费| 一级毛片免费观看不卡视频| 亚洲成人一区在线| 精品无码国产自产野外拍在线| 国产v精品成人免费视频71pao| 色九九视频| 无码乱人伦一区二区亚洲一| 免费人成视频在线观看网站| 无码粉嫩虎白一线天在线观看| 亚洲无码不卡网| 久久频这里精品99香蕉久网址| 人妻无码一区二区视频| 色妺妺在线视频喷水| 一本无码在线观看| 国产高清在线观看| 69av免费视频| 亚洲男人的天堂在线观看| 欧美日韩高清在线| 四虎免费视频网站| 国内精品久久久久鸭| 欧美无专区| 亚洲成人网在线观看| 日韩成人在线视频| 国产欧美精品午夜在线播放| 亚洲另类色| 色哟哟色院91精品网站| 2021最新国产精品网站| 免费中文字幕一级毛片| 欧美激情第一区| 精品国产一区91在线| 色综合网址| 亚洲码在线中文在线观看| 粉嫩国产白浆在线观看| 午夜国产大片免费观看| 久久6免费视频| 青青青国产免费线在| 丝袜久久剧情精品国产| 在线欧美日韩| 欧美日本在线| 91网址在线播放| 亚洲第一香蕉视频| 日本一区二区不卡视频| 亚洲男人天堂2018| 亚洲第一天堂无码专区| 99re视频在线| 国产99精品视频| 国产一级妓女av网站| 精品视频免费在线| аⅴ资源中文在线天堂| 国产成人AV男人的天堂| 97国产在线视频| 福利视频久久| 国产精品99在线观看| 老司国产精品视频| 18禁影院亚洲专区| AV在线麻免费观看网站| 国产欧美日韩另类| 在线看AV天堂| 久久超级碰| 99免费视频观看| 国产成人亚洲精品无码电影| 囯产av无码片毛片一级| 亚洲美女视频一区| 中国一级特黄视频|