劉正,黃震華(同濟大學(xué)電子與信息工程學(xué)院,上?!?01804)
?
基于多項式貝葉斯分類模型的短文本多情感傾向分析及實現(xiàn)
劉正,黃震華
(同濟大學(xué)電子與信息工程學(xué)院,上海201804)
摘要:
關(guān)鍵詞:
文本情感分析一直是機器擬人交流的一個重點研究課題之一,隨著互聯(lián)網(wǎng)的普及,人們已經(jīng)習(xí)慣于利用智能終端設(shè)備發(fā)表各種言論和記錄生活所見所聞、情感狀況等,通過對文字進行情感分析可以獲得其文本中潛在的情感傾向。
以往的情感建模的研究基本主要都是針對情感的正負(fù)向極性的情感建模研究,實際人機交流過程中,正負(fù)情感的辨別并不能很好地說明人們所想表達(dá)的深層含義。
基于SVM、KNN等方法進行二項性建模分析是通常學(xué)術(shù)界工業(yè)界的分析方法,在這幾年的研究發(fā)展過程中,已經(jīng)取得了不錯的成績了。
但人的情感是具有豐富性、多樣性等特點的,二項性分析僅僅在文本情感分析中起著分析先鋒的作用,在實際生產(chǎn)中應(yīng)用較為局限。
為了使計算機能更好地和人溝通交流,本文主要針對短文本的多情感傾向性進行建模分析。
本文以貝葉斯理論為基礎(chǔ),提出了基于貝葉斯的多情感模型。
1.1貝葉斯分類算法
根據(jù)貝葉斯理論,貝葉斯文本分類算法是一個經(jīng)典的文本分類算法,其在預(yù)測一個未知類別的可能屬性中有著較為詳細(xì)的理論和實踐基礎(chǔ)。通常我們要求在事件B發(fā)生的條件下事件A發(fā)生的概率時,可以通過條件概率推導(dǎo)出:

讓其一般化我們可以得到,其中集合{Ai}表示事件集合里的部分集合:

針對文本分類主要存在著三種不同的貝葉斯模型:高斯模型、多變量的伯努利模型和多項式模型,根據(jù)以往的學(xué)者的研究經(jīng)驗,本文選取了后者,即多項式模型進行實驗。
該多項式貝葉斯分類模型算法的通用公式如下式:

其中Nki是wk類別ci的所有文檔中出現(xiàn)的總次數(shù),|V|是訓(xùn)練數(shù)據(jù)集的總單詞數(shù)。
1.2文本狀態(tài)空間
一般而言,在情感分析領(lǐng)域,文本的情感分析中,字詞往往帶有情感權(quán)重,情感詞的權(quán)重往往會影響整體詞匯的情感傾向辨別,例如:“很高興”和“很不高興”,這兩個短語中,“很”字加強了情感權(quán)重,而“不”字將情感極性進行了反轉(zhuǎn),故而詞向量的表示關(guān)系到了最終情感分析的結(jié)果。
本文通過對短文本分詞,構(gòu)建文本結(jié)構(gòu)化向量,即文本的狀態(tài)空間來描述文本事實,將其定義為一組有序集合[q0,q1,…,qr]T,其中每個元素qi(i=0,1,…,r)為狀態(tài)分變量。
狀態(tài)關(guān)系是用來定義狀態(tài)之間存在的某種過程性函數(shù)組f0,f1,…,ft,式中每個元素fi(i=0,1,…,t)為轉(zhuǎn)換過程的分函數(shù)。
則這里可將文本結(jié)構(gòu)化為一個狀態(tài)關(guān)系圖,該關(guān)系圖可以由一個二元組(S,O)所構(gòu)成的有向圖表示,其中:
S為所有“詞”的狀態(tài)空間集合S0,S1,…,Sn,其中Si=[q0,q1,…,qr]T
O為所有狀態(tài)關(guān)系過程性函數(shù)組的集合O0,O1,…,Ok,其中Oi= f0,f1,…,ft,如圖1所示:

圖1 狀態(tài)空間示例圖
從示例圖中,可以看出S0與S1,S2,S3存在著O0,O1,O2的狀態(tài)關(guān)系,S2與S1,S4存在著狀態(tài)關(guān)系,等等,在此種狀態(tài)空間表示的情況下,通過計算詞與詞之間的狀態(tài)關(guān)系,得到狀態(tài)空間表示圖。
根據(jù)文獻(xiàn)[1],本文將詞與詞之間的依存關(guān)系窗口定義為前后三個窗格,列如圖1中,S4就與S1,S2,S3存在著關(guān)系,但是關(guān)系圖中O4的影響則應(yīng)該是比較小的。
結(jié)合上節(jié)的多項式貝葉斯算法,其實

通過求解狀態(tài)空間最終獲得各個參數(shù)向量的綜合評定結(jié)果。
1.3程序算法
多項式貝葉斯分類模型的訓(xùn)練算法如下所示:
1 //C,類別集合,D,用于訓(xùn)練的文本文件集合
2 TrainMultinomialNB(C,D):
3//統(tǒng)計訓(xùn)練樣本包含多少種單詞
4V←ExtractVocabulary(D)
5//類ci下單詞wik在訓(xùn)練的文本文件集合中出現(xiàn)過的次數(shù)之和
6N←CountTokens(D)
7for c in C
8//計算類別ci下的單詞總數(shù)
9Nc←CountTokensInClass(D,c)
10prior[c]←Nc/N
11 //將類別ci下的文檔連接成一個大字符串
12textc←ConcatenateTextOfAllDocsInClass(D,c)
13for t in V
14 //計算類ci下單詞wi的出現(xiàn)次數(shù)
15ct←CountTokensOfTerm(textc,t)
16for t in V
17//計算P(wi|ci)
18condprob[t][c]←(Tct + 1)/(Sum(Tct)+ |V|)
19
return V,prior,condprob
狀態(tài)空間的帶權(quán)圖搜索算法的實現(xiàn)本文參考文獻(xiàn)[3]進行修改實現(xiàn)。
1.4訓(xùn)練源數(shù)據(jù)
本文利用大連理工大學(xué)信息檢索研究室所做的標(biāo)記的情感詞匯本體庫作為訓(xùn)練樣本數(shù)據(jù),數(shù)據(jù)文本示例如下表所示。
情感強度分為1,3,5,7,9五檔,9表示強度最大,1為強度最小。
該本體庫有21種情感分類,如表所示:

表1 情感詞匯本體庫示例

表2 情感詞匯本體庫情感分類表
經(jīng)統(tǒng)計分析發(fā)現(xiàn)妒忌(NK)的詞匯過于稀少,其所占的概率權(quán)重極低,考慮到訓(xùn)練結(jié)果的合理性,本文不對該種情感特種做訓(xùn)練。
本實驗挑取了兩條微博做結(jié)果展示,所有結(jié)果都經(jīng)過歸一化處理了,情感值在區(qū)間之間,值越大表示情感程度越強烈:
微博一[4]:為啥公共場合女生不能蹲一下?犯法了嗎?影響他人了嗎?既然沒有,那累了為啥不能蹲一下?蹲著也很好看啊,人家蹲一下都要被拍照發(fā)微博受批判指責(zé)人家沒教養(yǎng),瘋了吧?沒經(jīng)女生同意就拍人家發(fā)微博才沒教養(yǎng)好吧,這點事都要批判,智障。

圖2 微博一的情感結(jié)果展示

表3 微博一的情感結(jié)果
通過結(jié)果可以看出該條微博所主要隱含的三大類情感是失望、憤怒、羞。通過自然人對文字的理解大致也可以判斷出這三大類感情要素。
微博二[5]:【人生感悟】人生最悲哀的事情,就是你發(fā)現(xiàn)曾經(jīng)一路上,和你一起的人,漸漸地就離你遠(yuǎn)去了。也許是因為結(jié)婚生子,也許是因為勞累不堪負(fù)荷,也許是因為理想漸異,也許是因為反目成仇。但是你還是要繼續(xù)孤獨地走下去。在你想要放棄的那一刻,想想為什么當(dāng)初堅持走到了這里。[春暖花開]
通過對該條微博文本的計算,主要包含的三大類情感要素為:贊揚、相信、快樂,這和人的理解大致吻合。
本文給出了多情感分析的一種實現(xiàn)方法,該算法結(jié)合多項式貝葉斯分類模型算法和文本狀態(tài)空間模型,對文本多情感分析做了研究,具有一定的實際意義。通過對文本數(shù)據(jù)的訓(xùn)練研究,使得計算結(jié)果更貼切于人的理解,遺憾的是現(xiàn)階段對文本情感領(lǐng)域的研究基本停留在二項分析,沒有過多的算法研究可以對比。

圖3 微博二的情感展示圖

表4 微博二的情感結(jié)果
參考文獻(xiàn):
[1]趙軍,黃昌寧.漢語基本名詞短語結(jié)構(gòu)分析模型.計算機學(xué)報,1999,22(2):141-146.
[2]維基百科.隱馬爾可夫模型[EB/OL].[2015-03-08].https://zh.wikipedia.org/wiki/隱馬爾可夫模型.
[3]衷路生,宋執(zhí)環(huán).局部加權(quán)組合狀態(tài)空間系統(tǒng)正交梯度辨識[J].控制與決策,2008,23(8):879-882,887.DOI:10.3321/j.issn:1001-0920.2008.08.007.
[4]http://weibo.com/1220291284/DjMMOB6ca
[5]http://weibo.com/1879549382/Dls8SiDlO
Analysis and Simulation of Multi-Emotion in Short Text Based on Bayes Multinomial Model
LIU Zheng,HUANG Zhen-hua
(School of Electronics and Information,Tongji University,Shanghai 201804)
Abstract:
Nowadays,text sentiment classification is mainly for text sentiment propensity analysis,positive and negative emotion classification.Studies the text short text in the field of multi-sentiment analysis work,through the establishment of a multinomial model of Bayes classifier and the state-space representation,to build and train the entire model.Experimental results show that emotional text classification has certain rationality in actual results,analysis results can be obtained through a variety of emotional analysis algorithm.
Keywords:
目前文本情感分類主要是針對文本情感的傾向性分析,主要研究正負(fù)情感的分類。主要研究短文本領(lǐng)域的文本多情感分析工作,通過建立多項式貝葉斯分類模型以及結(jié)合狀態(tài)空間,構(gòu)建并訓(xùn)練整個分析模型。實驗結(jié)果表明,文本的情感分類在實際結(jié)果中具有一定的合理性,可以通過算法的分析得出多種情感的分析結(jié)果。
多項式貝葉斯分類模型;狀態(tài)空間模型;多情感分析
基金項目:
國家自然科學(xué)基金(No.71171148)
文章編號:1007-1423(2016)14-0039-05
DOI:10.3969/j.issn.1007-1423.2016.14.008
作者簡介:
劉正(1990-),男,浙江湖州人,碩士研究生,研究方向為文本數(shù)據(jù)挖掘分析
黃震華(1980-),男,上海人,博士,副教授,研究方向為信息檢索、不確定數(shù)據(jù)處理、數(shù)據(jù)挖掘
收稿日期:2016-03-21修稿日期:2016-04-30
Bayes Multinomial Model;State-Space Representation;Multi-Emotion Analysis