999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多項式貝葉斯分類模型的短文本多情感傾向分析及實現(xiàn)

2016-06-22 09:17:35劉正黃震華同濟大學(xué)電子與信息工程學(xué)院上海201804
現(xiàn)代計算機 2016年14期
關(guān)鍵詞:分類文本情感

劉正,黃震華(同濟大學(xué)電子與信息工程學(xué)院,上?!?01804)

?

基于多項式貝葉斯分類模型的短文本多情感傾向分析及實現(xiàn)

劉正,黃震華
(同濟大學(xué)電子與信息工程學(xué)院,上海201804)

摘要:

關(guān)鍵詞:

0 引言

文本情感分析一直是機器擬人交流的一個重點研究課題之一,隨著互聯(lián)網(wǎng)的普及,人們已經(jīng)習(xí)慣于利用智能終端設(shè)備發(fā)表各種言論和記錄生活所見所聞、情感狀況等,通過對文字進行情感分析可以獲得其文本中潛在的情感傾向。

以往的情感建模的研究基本主要都是針對情感的正負(fù)向極性的情感建模研究,實際人機交流過程中,正負(fù)情感的辨別并不能很好地說明人們所想表達(dá)的深層含義。

基于SVM、KNN等方法進行二項性建模分析是通常學(xué)術(shù)界工業(yè)界的分析方法,在這幾年的研究發(fā)展過程中,已經(jīng)取得了不錯的成績了。

但人的情感是具有豐富性、多樣性等特點的,二項性分析僅僅在文本情感分析中起著分析先鋒的作用,在實際生產(chǎn)中應(yīng)用較為局限。

為了使計算機能更好地和人溝通交流,本文主要針對短文本的多情感傾向性進行建模分析。

1 模型與方法

本文以貝葉斯理論為基礎(chǔ),提出了基于貝葉斯的多情感模型。

1.1貝葉斯分類算法

根據(jù)貝葉斯理論,貝葉斯文本分類算法是一個經(jīng)典的文本分類算法,其在預(yù)測一個未知類別的可能屬性中有著較為詳細(xì)的理論和實踐基礎(chǔ)。通常我們要求在事件B發(fā)生的條件下事件A發(fā)生的概率時,可以通過條件概率推導(dǎo)出:

讓其一般化我們可以得到,其中集合{Ai}表示事件集合里的部分集合:

針對文本分類主要存在著三種不同的貝葉斯模型:高斯模型、多變量的伯努利模型和多項式模型,根據(jù)以往的學(xué)者的研究經(jīng)驗,本文選取了后者,即多項式模型進行實驗。

該多項式貝葉斯分類模型算法的通用公式如下式:

其中Nki是wk類別ci的所有文檔中出現(xiàn)的總次數(shù),|V|是訓(xùn)練數(shù)據(jù)集的總單詞數(shù)。

1.2文本狀態(tài)空間

一般而言,在情感分析領(lǐng)域,文本的情感分析中,字詞往往帶有情感權(quán)重,情感詞的權(quán)重往往會影響整體詞匯的情感傾向辨別,例如:“很高興”和“很不高興”,這兩個短語中,“很”字加強了情感權(quán)重,而“不”字將情感極性進行了反轉(zhuǎn),故而詞向量的表示關(guān)系到了最終情感分析的結(jié)果。

本文通過對短文本分詞,構(gòu)建文本結(jié)構(gòu)化向量,即文本的狀態(tài)空間來描述文本事實,將其定義為一組有序集合[q0,q1,…,qr]T,其中每個元素qi(i=0,1,…,r)為狀態(tài)分變量。

狀態(tài)關(guān)系是用來定義狀態(tài)之間存在的某種過程性函數(shù)組f0,f1,…,ft,式中每個元素fi(i=0,1,…,t)為轉(zhuǎn)換過程的分函數(shù)。

則這里可將文本結(jié)構(gòu)化為一個狀態(tài)關(guān)系圖,該關(guān)系圖可以由一個二元組(S,O)所構(gòu)成的有向圖表示,其中:

S為所有“詞”的狀態(tài)空間集合S0,S1,…,Sn,其中Si=[q0,q1,…,qr]T

O為所有狀態(tài)關(guān)系過程性函數(shù)組的集合O0,O1,…,Ok,其中Oi= f0,f1,…,ft,如圖1所示:

圖1 狀態(tài)空間示例圖

從示例圖中,可以看出S0與S1,S2,S3存在著O0,O1,O2的狀態(tài)關(guān)系,S2與S1,S4存在著狀態(tài)關(guān)系,等等,在此種狀態(tài)空間表示的情況下,通過計算詞與詞之間的狀態(tài)關(guān)系,得到狀態(tài)空間表示圖。

根據(jù)文獻(xiàn)[1],本文將詞與詞之間的依存關(guān)系窗口定義為前后三個窗格,列如圖1中,S4就與S1,S2,S3存在著關(guān)系,但是關(guān)系圖中O4的影響則應(yīng)該是比較小的。

結(jié)合上節(jié)的多項式貝葉斯算法,其實

通過求解狀態(tài)空間最終獲得各個參數(shù)向量的綜合評定結(jié)果。

1.3程序算法

多項式貝葉斯分類模型的訓(xùn)練算法如下所示:

1 //C,類別集合,D,用于訓(xùn)練的文本文件集合

2 TrainMultinomialNB(C,D):

3//統(tǒng)計訓(xùn)練樣本包含多少種單詞

4V←ExtractVocabulary(D)

5//類ci下單詞wik在訓(xùn)練的文本文件集合中出現(xiàn)過的次數(shù)之和

6N←CountTokens(D)

7for c in C

8//計算類別ci下的單詞總數(shù)

9Nc←CountTokensInClass(D,c)

10prior[c]←Nc/N

11 //將類別ci下的文檔連接成一個大字符串

12textc←ConcatenateTextOfAllDocsInClass(D,c)

13for t in V

14 //計算類ci下單詞wi的出現(xiàn)次數(shù)

15ct←CountTokensOfTerm(textc,t)

16for t in V

17//計算P(wi|ci)

18condprob[t][c]←(Tct + 1)/(Sum(Tct)+ |V|)

19

return V,prior,condprob

狀態(tài)空間的帶權(quán)圖搜索算法的實現(xiàn)本文參考文獻(xiàn)[3]進行修改實現(xiàn)。

1.4訓(xùn)練源數(shù)據(jù)

本文利用大連理工大學(xué)信息檢索研究室所做的標(biāo)記的情感詞匯本體庫作為訓(xùn)練樣本數(shù)據(jù),數(shù)據(jù)文本示例如下表所示。

情感強度分為1,3,5,7,9五檔,9表示強度最大,1為強度最小。

該本體庫有21種情感分類,如表所示:

表1 情感詞匯本體庫示例

表2 情感詞匯本體庫情感分類表

經(jīng)統(tǒng)計分析發(fā)現(xiàn)妒忌(NK)的詞匯過于稀少,其所占的概率權(quán)重極低,考慮到訓(xùn)練結(jié)果的合理性,本文不對該種情感特種做訓(xùn)練。

2 實驗結(jié)果與分析

本實驗挑取了兩條微博做結(jié)果展示,所有結(jié)果都經(jīng)過歸一化處理了,情感值在區(qū)間之間,值越大表示情感程度越強烈:

微博一[4]:為啥公共場合女生不能蹲一下?犯法了嗎?影響他人了嗎?既然沒有,那累了為啥不能蹲一下?蹲著也很好看啊,人家蹲一下都要被拍照發(fā)微博受批判指責(zé)人家沒教養(yǎng),瘋了吧?沒經(jīng)女生同意就拍人家發(fā)微博才沒教養(yǎng)好吧,這點事都要批判,智障。

圖2 微博一的情感結(jié)果展示

表3 微博一的情感結(jié)果

通過結(jié)果可以看出該條微博所主要隱含的三大類情感是失望、憤怒、羞。通過自然人對文字的理解大致也可以判斷出這三大類感情要素。

微博二[5]:【人生感悟】人生最悲哀的事情,就是你發(fā)現(xiàn)曾經(jīng)一路上,和你一起的人,漸漸地就離你遠(yuǎn)去了。也許是因為結(jié)婚生子,也許是因為勞累不堪負(fù)荷,也許是因為理想漸異,也許是因為反目成仇。但是你還是要繼續(xù)孤獨地走下去。在你想要放棄的那一刻,想想為什么當(dāng)初堅持走到了這里。[春暖花開]

通過對該條微博文本的計算,主要包含的三大類情感要素為:贊揚、相信、快樂,這和人的理解大致吻合。

3 結(jié)語

本文給出了多情感分析的一種實現(xiàn)方法,該算法結(jié)合多項式貝葉斯分類模型算法和文本狀態(tài)空間模型,對文本多情感分析做了研究,具有一定的實際意義。通過對文本數(shù)據(jù)的訓(xùn)練研究,使得計算結(jié)果更貼切于人的理解,遺憾的是現(xiàn)階段對文本情感領(lǐng)域的研究基本停留在二項分析,沒有過多的算法研究可以對比。

圖3 微博二的情感展示圖

表4 微博二的情感結(jié)果

參考文獻(xiàn):

[1]趙軍,黃昌寧.漢語基本名詞短語結(jié)構(gòu)分析模型.計算機學(xué)報,1999,22(2):141-146.

[2]維基百科.隱馬爾可夫模型[EB/OL].[2015-03-08].https://zh.wikipedia.org/wiki/隱馬爾可夫模型.

[3]衷路生,宋執(zhí)環(huán).局部加權(quán)組合狀態(tài)空間系統(tǒng)正交梯度辨識[J].控制與決策,2008,23(8):879-882,887.DOI:10.3321/j.issn:1001-0920.2008.08.007.

[4]http://weibo.com/1220291284/DjMMOB6ca

[5]http://weibo.com/1879549382/Dls8SiDlO

Analysis and Simulation of Multi-Emotion in Short Text Based on Bayes Multinomial Model

LIU Zheng,HUANG Zhen-hua
(School of Electronics and Information,Tongji University,Shanghai 201804)

Abstract:

Nowadays,text sentiment classification is mainly for text sentiment propensity analysis,positive and negative emotion classification.Studies the text short text in the field of multi-sentiment analysis work,through the establishment of a multinomial model of Bayes classifier and the state-space representation,to build and train the entire model.Experimental results show that emotional text classification has certain rationality in actual results,analysis results can be obtained through a variety of emotional analysis algorithm.

Keywords:

目前文本情感分類主要是針對文本情感的傾向性分析,主要研究正負(fù)情感的分類。主要研究短文本領(lǐng)域的文本多情感分析工作,通過建立多項式貝葉斯分類模型以及結(jié)合狀態(tài)空間,構(gòu)建并訓(xùn)練整個分析模型。實驗結(jié)果表明,文本的情感分類在實際結(jié)果中具有一定的合理性,可以通過算法的分析得出多種情感的分析結(jié)果。

多項式貝葉斯分類模型;狀態(tài)空間模型;多情感分析

基金項目:

國家自然科學(xué)基金(No.71171148)

文章編號:1007-1423(2016)14-0039-05

DOI:10.3969/j.issn.1007-1423.2016.14.008

作者簡介:

劉正(1990-),男,浙江湖州人,碩士研究生,研究方向為文本數(shù)據(jù)挖掘分析

黃震華(1980-),男,上海人,博士,副教授,研究方向為信息檢索、不確定數(shù)據(jù)處理、數(shù)據(jù)挖掘

收稿日期:2016-03-21修稿日期:2016-04-30

Bayes Multinomial Model;State-Space Representation;Multi-Emotion Analysis

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 亚洲天堂网在线播放| 狠狠干综合| 国产成人精品男人的天堂下载| 国产在线自乱拍播放| 素人激情视频福利| 国产原创第一页在线观看| 亚洲熟女偷拍| 亚洲成AV人手机在线观看网站| 国产精品久线在线观看| 久久精品娱乐亚洲领先| 一区二区影院| 激情综合婷婷丁香五月尤物| 91精品人妻互换| 美女国内精品自产拍在线播放| 找国产毛片看| 伊人蕉久影院| 国产精品免费久久久久影院无码| 麻豆精品在线播放| 91福利片| 精品人妻AV区| 在线国产91| 久热中文字幕在线| 在线欧美国产| 精品国产一区91在线| 国产99在线观看| 国产凹凸一区在线观看视频| 看看一级毛片| 国产极品嫩模在线观看91| 日本人妻一区二区三区不卡影院| 国产成年无码AⅤ片在线| 亚洲AⅤ综合在线欧美一区| 久久精品国产免费观看频道| 成人毛片免费观看| 国产精品自拍合集| 国产成人综合亚洲网址| 波多野结衣国产精品| 中文字幕第4页| 五月天福利视频| 1024你懂的国产精品| 国产人人乐人人爱| 国产精品自在在线午夜区app| 亚洲专区一区二区在线观看| 免费久久一级欧美特大黄| 欧美国产菊爆免费观看| 亚洲成人播放| 在线观看亚洲精品福利片| 国产高清在线观看| 麻豆国产精品| 91精品专区| 国产精品亚洲αv天堂无码| 国产麻豆永久视频| 亚洲看片网| 日韩无码黄色| www.亚洲天堂| 午夜影院a级片| a欧美在线| 国产精品不卡永久免费| 亚洲精品国产乱码不卡| 伊人久久青草青青综合| 在线99视频| 国产精品私拍在线爆乳| 国产精品成人不卡在线观看| 欧美午夜视频在线| 伊人国产无码高清视频| 日韩不卡免费视频| 国产美女免费网站| 亚洲人在线| 2021无码专区人妻系列日韩| 日本午夜视频在线观看| 久久久久久久久18禁秘| 亚洲an第二区国产精品| 白丝美女办公室高潮喷水视频 | 国产精品55夜色66夜色| 人人91人人澡人人妻人人爽| 欧美国产日韩在线| 精品综合久久久久久97| 亚洲αv毛片| 亚洲第一福利视频导航| 国产第八页| 91精品国产自产在线观看| 思思热精品在线8| 四虎成人在线视频|