999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于表情詞典的中文微博情感分析模型研究

2015-09-26 05:17:41梁亞偉上海海事大學信息工程學院上海201306
現代計算機 2015年21期
關鍵詞:詞匯分類文本

梁亞偉(上海海事大學信息工程學院,上海 201306)

基于表情詞典的中文微博情感分析模型研究

梁亞偉
(上海海事大學信息工程學院,上海201306)

0 引言

眾所周知,微博消息中包含了文本、表情、圖像和視頻等信息表達方式。其中,表情符號由于具有生動、形象的信息表達特點而被用戶廣泛采納,在一些情感極性比較明顯的微博消息中,表情符號在情感表達中起著舉足輕重的作用。鑒于缺乏表情情感詞典的研究現狀,本文提出一種基于情感詞典的微博表情情感詞典的構建與更新方法。首先,基于微博消息中文本的情感強度值,構造出針對整條微博消息的情感曲線。然后,根據表情符號出現在情感曲線上的坐標位置,按照就近原則和加窗方法,找到表情符號臨近的情感詞,根據情感詞的情感強度計算出表情符號的情感傾向性。最后,采用基于閾值的方法,對表情符號的情感傾向性進行推理和歸納,得出表情符號的情感強度和極性,進而構建表情情感詞典。

基于微博文本情感分析和微博表情情感詞典的研究成果,分析與量化微博消息的情感傾向性。抽取微博情感曲線波動性、微博情感強度、微博情感傾向性、微博正向情感值、微博負向情感值、文本曲線波動性、文本情感強度、文本情感傾向性、文本正向情感值、文本負向情感值、表情曲線波動性、表情情感強度、表情情感傾向性、表情正向情感值、表情負向情感值。基于上述特征,手動對微博情感進行標注,采用機器學習的方法對微博消息的情感類別進行分類。首先基于15種特征,后來采用LDA特征選擇,基于選擇出來的特征進行情感分類,選擇分類效果最好的分類方法評價微博情感。

1 基于情感詞典的微博表情情感詞典的構建

本文基于現有的情感詞匯本體資源庫,采取從文本情感類別倒推表情情感類別的方式,開發一種基于文本的表情情感詞典的構建方法。

1.1文本預處理以及微博表情符號抽取

在微博情感分析的研究中,針對微博文本信息的分詞和詞匯情感強度量化操作是通過文本預處理操作來完成的。本文采用中科院分詞工具ICTCLAS和大連理工大學中文情感本體資源庫分別對微博文本進行分詞和詞匯情感強度量化操作。表1是對該情感詞匯本體的格式舉例。

表1 情感詞匯本體格式舉例

微博消息轉換成文本格式后,其中包含的表情符號具有一定的文本格式。例如高興的表情符號在微博消息中的表達方式為“[高興]”,即用“[]”將情感詞匯包裹起來進而區分微博文本消息和表情符號。因此,在抽取微博表情符號時,采用正則表達式對微博文本進行處理,抽取文本中包含的表情符號。

1.2微博文本情感分析

基于上文對文本分詞和詞匯情感強度量化的研究成果,本節對微博文本情感進行量化分析。依據文本中出現的情感詞和副詞的情感強度,分別計算微博文本正向情感值、負向情感值和情感傾向性等特征。上述三種特征不僅可以作為后續基于情感詞典和表情詞典情感分析與評價工作的數據特征,而且可以通過上述三個特征值描繪出反映文本情感變化的微博文本情感曲線,并作為對表情符號情感傾向性、強度和極性等量化操作的數據基礎。

1.3微博文本情感曲線

微博文本情感曲線根據微博消息中出現的情感詞和語氣詞的情感強度,反映了微博消息所包含的情感變化。具體來說,根據微博的文本正向情感值和負向情感值,可以描繪出文本情感曲線來反映該文本所包含的情感變化。首先獲得文本中出現的每個情感詞匯的正向情感值和負向情感值,并記錄每個情感詞匯在文本中出現的相對位置;然后按照情感詞在文本中出現的先后順序,以1為單位勾畫出文本情感曲線。本節對具體的微博消息勾畫文本情感曲線,并展示相應結果。具體的微博消息如下所示:

誰的佐料都沒自己的好,領老婆(自己家的)去看場電影也不錯滴!

要喝風花雪月啤酒!

我有!

哈爾濱啤酒節,我來了!

明天我過節,童心未泯呀!

你就不怕事大,不過我同意!

今天新聞說,9月起個稅起征點調到了3500,是不是意味著我們工資要上調了呢?盡管不多,也是漲啊,好兆頭!

哎!因為堵車,我都不敢出門了!

同感!

奶奶的!藥廠又放味,熏得我頭疼,關鍵熏到孩子怎么辦,喪盡天良!放味者必遭天譴!

也要上班了,肚子也消停了,真怪!看來2012的運程不得不信啊!

該微博文本情感曲線勾畫結果如圖1所示。圖中橫坐標表示微博消息中出現的情感詞匯,縱軸表示每個情感詞匯的情感強度值。

圖1 微博文本情感曲線

1.4微博表情情感詞典的構建

根據1.2節微博文本情感分析的研究成果計算表情符號的情感傾向性、情感強度和極性等量化值,采用聚類的方法對表情符號進行分類,結合本體理論對構建的情感詞典進行組織和管理。

對于表情情感詞典構建方法,其主要步驟敘述如下:

(1)針對采集到的所有微博文本,依次輪循每個微博文本并計算其情感曲線;

(2)對于沒有包含表情符號的微博文本進行判斷。當微博文本中沒有出現表情符號時,則執行(5),反之執行(3);

(3)對微博文本的分詞結果進行位置編號。獲得表情符號在文本中的相對位置;

(4)根據微博情感曲線計算并存儲表情符號情感強度和極性。確切地說,根據(3)獲得的相對位置,對表情符號所在的文本語句進行情感強度和極性計算,即將該文本語句的情感強度作為表情符號的情感強度,對文本語句中出現的正向情感詞和負向情感詞的情感強度進行求和再平均操作;

(5)判斷所有文本是否輪循完畢。完畢后,執行(6),反之,執行(1);

(6)針對所有微博文本中出現的每一個表情符號進行情感傾向性計算,計算公式如式(1)所示。其中,FT表示表情符號情感傾向性,Efi表示所有微博文本中每個表情符號的情感強度,m為表情符號的個數。此外,根據存儲的表情符號情感強度和極性值,分別采用平均求和與投票的方法獲得每種表情符號的情感強度和極性;

(7)針對所有表情符號,將其情感強度、極性和情感傾向性作為數據特征,采用聚類的方法對所有表情符號進行分類。獲得相應的分類結果后,采用人工標注的方法,將所有表情分為生氣、高興、厭惡和悲傷等四大類;

(8)流程結束,采用定義好的表情詞典本體資源庫對表情符號進行存儲和管理。表情情感詞典本體格式舉例如表2所示。其中,以[怒]、[吐]、[哈哈]和[傷心]等四個微博表情為例,分別給出本文計算出的情感傾向性、情感強度和極性值。

表2 表情情感詞典本體格式舉例

2 基于情感詞典和表情詞典的微博情感分析與評價方法

基于上一節的研究成果,本文提出一種自動化地基于情感詞典和表情詞典的微博情感分析與評價策略。該策略主要采用機器學習方法,將進行了手動式情感標注的微博信息作為訓練樣本,對新的微博測試樣本進行情感傾向性評價。該策略主要流程敘述如下:

(1)根據需要可以獲取單個用戶或者多個用戶的微博消息并將其轉化為文本格式,方便后續處理。針對單個用戶的微博消息獲取與處理,可以獲得該用戶某段時間內的情感變化,主要應用于面向個人喜好的人物情感追蹤。針對多個用戶的微博消息獲取與處理,可以獲得用戶對某一事件的情感傾向進而應用在面向政府機構的輿情監控;

(2)對獲得的微博文本進行情感詞匯和表情符號抽取,用于計算各種微博情感特征;

(3)基于情感詞典和表情詞典的情感詞匯、表情符號屬性值查詢與獲取;

(4)基于微博文本中包含的情感詞匯和表情符號情感強度屬性值,計算該微博的情感曲線;

(5)基于微博文本中包含的情感詞匯、表情符號等各種屬性值,以及微博情感曲線,抽取微博消息的情感波動性、情感強度和情感傾向性等多種情感特征;

(6)基于抽取的情感特征,為了避免多種特征之間由于具有較強關聯性而出現共線性進而影響分類器分類效果的現象,采用線性判別分析(LDA)的方法對多種特征進行特征選擇操作;

(7)基于特征選擇結果,首先采用人工標注的方式對大量的微博文本進行類別標注,與微博表情情感類別一致,本文將微博情感分為生氣、厭惡、高興和悲傷四大類。然后采用Bayes分類器對微博消息進行情感分類,并分析該分類器的分類效果;

(8)采用Bayes分類器對每條微博消息進行情感類別概率計算,設計多個閾值劃定情感類別界限,根據類別概率與類別界限之間的相對距離,對微博情感進行評價。

3 實驗介紹

本文使用的微博語料數據由第六屆中文傾向性分析評測(COAE2014)競賽提供,共包含了279個用戶的微博數據,每個用戶擁有10條微博消息,總共2790條微博語料。我們首先采用人工標注的方法對下載的微博語料進行情感標注。經過人工標注后,2790條微博數據包含的正向情感微博數、負向情感微博數和中性情感微博數如表3所示。

表3 微博數據統計表

本文采用準確率(precision)、召回率(recall)和F測度值(F-Measure)三種評估指標,評價基于情感詞典和表情詞典的微博情感分類結果。以計算正向情感分類準確率、召回率以及F測度值為例,其數學公式分別如下:

本文分別采用基于情感詞典的微博情感分析方法以及基于情感詞典和表情詞典的微博情感分析方法,將LDA的特征選擇結果作為Bayes分類方法的輸入,對微博數據分別進行正向情感、負向情感和中性情感的三分類操作。一方面,說明引入表情詞典有利于提高對微博情感進行分析的準確性。另一方面,驗證本文提出的表情詞典構建與更新方法在微博情感分析工作中具有有效性。基于情感詞典的三種情感類別分類結果如表4所示。結果顯示,正向情感類別和負向情感類別的分類準確率都在75%以上,中性情感類別的分類準確率為56.3%。說明采用大連理工情感詞匯本體庫對微博文本包含的情感詞匯進行量化操作的方法具有有效性。

表4 基于情感詞典的三種情感類別分類結果

表5 基于情感詞典和表情詞典的三種情感類別分類結果

基于情感詞典和表情詞典的三種情感類別分類結果如表5所示。結果顯示,正向情感類別和負向情感類別的分類準確率都在85%以上,中性情感類別的分類準確率達到了68.3%。經過對比,各項分類指標都優于基于情感詞典的情感分類結果,不僅說明了引入表情詞典對微博情感分析的有效性,而且驗證了本文提出的自動化表情詞典構建與更新方法具有應用價值。

4 結語

本文基于情感詞典和表情詞典的微博情感分類方法雖然取得了一定的成果,但仍然存在著一些不足和需要改進的地方,仍有較大的提升空間。例如,本文方法對微博中性情感類別分類率不高,主要是因為微博語料中出現了較多字義上帶有主觀情緒但在特定語境下為中性情感的情感詞匯,因此,在不同場景下對情感詞匯進行語義性識別、提高中性情感詞匯的識別率將在未來工作中加以考慮。

[1]喻琦.中文微博情感分析技術研究[D].浙江工商大學,2013.

[2]李炤.基于微博情感分析的網絡輿情熱點發現模型研究[D].蘭州大學,2013.

[3]王文遠.面向情感傾向分析的微博表情情感詞典構建及應用[D].東北大學,2012.

[4]楊希.基于情感詞典與規則結合的微博情感分析模型研究[D].安徽大學,2014.

[5]Yang C,Lin K H,Chen H H.Emotion classification using web blog corpora[C].Web Intelligence,IEEE/WIC/ACM International Conference on.IEEE,2007:275-278.

[6]Quan C,Ren F.Sentence emotion analysis and recognition based on emotion words using Ren-CECps[J].International Journal of Advanced Intelligence,2010,2(1):105-117.

[7]劉志明,劉魯.基于機器學習的中文微博情感分類實證研究[J].計算機工程與應用,2012,01:1-4.

[8]謝麗星,周明,孫茂松.基于層次結構的多策略中文微博情感分析和特征抽取[J].中文信息學報,2012,01:73-83.

[9]林江豪.中文微博情感分析關鍵技術研究[D].廣東外語外貿大學,2013.

[10]鄭毅.基于情感詞典的中文微博情感分析研究[D].中山大學,2014.

Microblog Emotion Analysis;Emotion Curve;Expression Dictionary;Emotion Dictionary

Research on the Chinese Microblog Sentiment Analysis Model Based on Emotion Dictionary

LIANG Ya-wei
(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)

1007-1423(2015)21-0007-05

10.3969/j.issn.1007-1423.2015.21.002

梁亞偉(1990-),男,河南鹿邑人,碩士研究生,研究方向為數據挖掘

2015-05-26

2015-07-14

提出一種反映微博文本情感變化的文本情感曲線,采用加窗的方法計算表情符號情感強度,實現自動化的微博表情情感詞典構建。其次,基于情感詞典和表情詞典,計算出反映微博情感變化的微博情感曲線,抽取微博情感曲線波動性、微博情感強度和微博情感傾向性等15種情感特征,采用線性判別分析和貝葉斯分類方法分別對微博進行特征選擇和情感分類操作,從而判斷微博的情感傾向性。

微博情感分析;情感曲線;表情詞典;情感詞典

Proposes a text emotion curve to reflect the emotional changes of microblog text.Shifts the window to calculate emotional intensity of emoticons,develops an automatic construct and update method of emoticon dictionary.Then,based on emotion and emoticon dictionary,calculates the emotional curve to reflect the emotion changes of microblog,extracts the 15 emotion features such as volatility of emotion curve,emotion intensity and emotional bias,uses linear discriminant analysis and Bayesian method to select features and classify emotions,and then judge the emotional tendentiousness of microblog.

猜你喜歡
詞匯分類文本
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产成本人片免费a∨短片| 夜夜拍夜夜爽| 国产SUV精品一区二区| 婷婷色婷婷| 五月天丁香婷婷综合久久| 久久亚洲国产最新网站| 91视频精品| 日韩a级片视频| 午夜视频日本| 国产大全韩国亚洲一区二区三区| 国产成人午夜福利免费无码r| 拍国产真实乱人偷精品| 丁香五月激情图片| 萌白酱国产一区二区| 亚洲色图欧美在线| 久久99精品国产麻豆宅宅| 精品国产免费观看一区| 日日拍夜夜嗷嗷叫国产| www.99精品视频在线播放| 美女扒开下面流白浆在线试听| 国产h视频免费观看| 国产国产人成免费视频77777| 国产美女在线观看| 91青青在线视频| 无码精品国产VA在线观看DVD| 666精品国产精品亚洲| a级毛片免费看| 国产丝袜一区二区三区视频免下载| 亚洲无码免费黄色网址| 国产精品无码翘臀在线看纯欲| 国产91透明丝袜美腿在线| 国产黑丝视频在线观看| 青青操国产视频| 最新国产网站| 国产精品九九视频| 91热爆在线| 无码AV高清毛片中国一级毛片| 一边摸一边做爽的视频17国产 | 亚洲精品中文字幕午夜| 最新国产在线| 亚洲日韩国产精品综合在线观看| 亚洲综合色区在线播放2019| a级毛片视频免费观看| v天堂中文在线| 国产成人超碰无码| 成人免费黄色小视频| 国产国产人免费视频成18| 欧美.成人.综合在线| 久久精品视频亚洲| 亚洲青涩在线| 热久久国产| 热伊人99re久久精品最新地| 九九热精品在线视频| 欧美精品不卡| 国模粉嫩小泬视频在线观看| 四虎精品黑人视频| 午夜少妇精品视频小电影| 国产精品亚洲一区二区在线观看| 伊人天堂网| 天天综合网色| 亚洲天堂网在线视频| 午夜啪啪福利| 91po国产在线精品免费观看| 波多野结衣视频一区二区 | 久久精品人妻中文系列| 国产精品丝袜在线| 亚洲热线99精品视频| 日韩麻豆小视频| 麻豆精品在线视频| 99在线观看国产| 色偷偷男人的天堂亚洲av| 国产毛片片精品天天看视频| 日本在线国产| 丁香婷婷综合激情| 9cao视频精品| 91免费观看视频| 日本午夜三级| 美女一级毛片无遮挡内谢| 国产精品久久久久久影院| 国产天天射| 久久久久人妻一区精品色奶水| 亚洲国产精品无码久久一线|