999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于話題的微博多特征情感極性分類

2017-09-04 00:31:10劉志遠高俊波
網絡安全與數據管理 2017年16期
關鍵詞:分類特征文本

劉志遠,高俊波

(上海海事大學 信息工程學院,上海 201306)

基于話題的微博多特征情感極性分類

劉志遠,高俊波

(上海海事大學 信息工程學院,上海 201306)

通過對新浪微博特點的分析與研究,利用話題下微博文本的多特征,建立微博情感極性分類模型,運用機器學習的分類方法對微博情感極性進行判定,應用微博的轉發、評論、點贊、粉絲數與關注數等的關系進行圖優化,提出一種基于話題的微博多特征情感極性分類方法。實驗結果表明,該方法對微博情感極性分類具有良好的效果。

多特征;機器學習;微博;情感極性

0 引言

隨著科學技術的快速發展,人與人之間的社交活動逐漸偏向于網絡,大眾慢慢地習慣了在網上瀏覽新聞,互動交流,表達對生活中某些事情的觀點。微博,作為一個社會網絡平臺,用戶可以獲得豐富的實時信息,也為用戶提供了方便的交流方式。根據統計表明,截止到2016年8月,每個月微博有2.82億使用者,每天有1.26億使用者。如此多的活躍用戶量使微博擁有很多的數據,在這樣多的數據中,其中的大部分是帶有情感傾向的文本數據,這樣的情感文本數據是特別有用的意見資源,對這些話題下的微博內容使用文本情感分類的方法進行情感極性的分類研究。

與傳統的文本相比,微博內容相對簡單,它的文本短小,其內容不能超過140字。而且微博用戶會使用網絡用語、表情符號與鏈接,每個用戶關注事情的角度非常廣泛,這些都增加了微博情感分析的難度。

近年來,對于微博情感的研究引起了許多學者的興趣,國內外研究者已在文本情感分析方向做了許多的研究工作,并取得了很多的成果。目前,對文本的情感分類常用的研究方法大致概括為兩種:第一種是使用情感詞典分類的方法,第二種是使用機器學習分類的方法。基于情感詞典的方法是通過利用詞典獲得文本的情感。基于機器學習的方法重點是文本特征的準確判定,利用選擇的特征進行組合計算文本的情感極性。

本文通過觀察微博的特征提出了利用話題下微博內容的多特征,建立話題下微博情感分類模型,運用機器學習的分類方法對微博情感極性進行判定,應用微博的轉發、評論、點贊、粉絲數與關注數等的關系進行圖優化,提出一種基于話題的微博多特征情感極性分類方法。

1 相關工作

近年來,微博的情感分類已經成為自然語言研究的熱門方向,關于文本情感分類方法的研究學術界已經取得了豐富的成果。總的來說,情感分類的途徑可以概括為下面的兩種常用的方法。

1.1 基于情感詞典的分類方法

基于詞典的分類方法通常采用WordNet、HowNet詞典來判斷詞語的相同的程度。文獻[1]使用WordNet計算特征詞在積極種子詞與消極種子詞之間的距離,判斷情感極性。文獻[2]建立情感知識庫使用WordNet,對評論中的詞語的情感極性進行選取并確認,判別評論的全體的情感極性。文獻[3]使用PMI方法,計算出微博內容中與規則短語的語義傾向相符合的,判斷微博內容的整體傾向。

1.2 基于機器學習的分類方法

基于機器學習方法的步驟:先人工識別文本情感類別并進行標注,把這些標注了的語料作為訓練集,然后運用合適的方法進行文本特征的表示,最后利用機器學習的方法建立可獲得待測文本的情感類別的分類器,得到希望的效果。文獻[4]使用樸素貝葉斯、最大熵和SVM的算法,實驗結果顯示,SVM分類器在幾種分類方法得到了最理想的效果。文獻[5]使用語義特征和機器學習結合的方法,對褒貶詞、否定詞、程度副詞這幾種詞匯迭代遞增選取特征集,使用SVM分類器與對詞的頻率進行加權統計的方法,對實驗的數據進行褒貶分類。文獻[6]在特征的提取方法上進行了改進,提出了將詞性、詞組內部組成形式、詞語上下文語境多種語法特征結合的方法。文獻[7]在分類方法的角度上進行了研究,提出了一種組合的思路,即將不同的分類器進行組合來提高情感分類的性能。

1.3 微博情感分類方法

微博是一個人們獲取消息,表達觀點的快速交流的信息平臺,現在對微博內容的情感分類研究已有了較多的方法。文獻[8]提出了對Twitter上的微博內容使用距離監督的方法來進行情感判斷,把表情符當成標簽,訓練集為采集到的英文語料,沒有了人工識別標注語料的步驟。文獻[9]提出一種在微博文本上利用與評價目標有關系的特征,以此增加情感分類精度。文獻[10]使用詞、詞性與句法模式利用CRF模型獲得評論句里評價對象,然后用SVM分類器對評論句中的情感進行分類。文獻[11]選擇并自行標明大規模微博沒有標注的語料,把自動標注的語料運用為訓練集建立微博情感分類器,自動對微博情感類別分類。

由于微博中存在轉發、回復等評論轉發方式,加上用戶可同時參與多個話題的談論,這種相互聯系,形成基于評論文本的交互信息網絡。通過網絡爬蟲等工具可以獲取文本內容及相互間交流的過程,這些信息也可以加入到對微博短文本分析過程中。文獻[12]將微博使用者的社會關系聚類,將聚類所得作為特征用以提高分類的效果。文獻[13]針對文本特征向量的維度,對獲取信息的文本結構以及情感表達特點進行分析,使用一種改進的KNN算法進行文本情感分類。

與以上文獻的工作不同的是,本文利用話題下微博文本的多特征,建立微博文本情感分類模型,運用機器學習的分類方法對微博情感極性進行判定,應用微博的轉發、評論、點贊、粉絲數與關注數等的關系進行圖優化,提出一種基于話題的微博多特征情感極性分類方法。

2 情感極性分類器設計

本文主要研究微博文本情感極性的分類。本文的輸入是話題下所有采集的微博內容,輸出是微博文本的情感極性。運用3個步驟進行情感極性分類的研究。第一步進行主觀性分類,判斷輸入語料庫中的文本是主觀的還是客觀的。第二步進行情感極性判斷,判斷第一步中被分類為主觀的文本的情感極性是積極的還是消極的。第三步性能優化,提高分類的性能。本文使用LIBSVM分類器進行研究。

對于文本情感分類的途徑已經有許多有效的方法,例如:詞性特征、表情符號特征、上下文關系。在本文的實驗中,有些特征被使用。但是這些特征都是文本本身的特征,忽略了微博文本的特殊性,微博的轉發、評論、點贊、粉絲數與關注數等的多因素是微博文本相對于其他文本特有的特征,本文將這些特征應用于微博文本情感分類。

通常人們表達他們對于某個主題的情感,不是對主題本身,而是對跟主題有相關性的事情。例如,某個人表達對一部電影的評論,他可能選擇電影里面的一個片段或者背景音樂進行評論,讀者可以從這些評論中得到他對于主題的觀點。

本文,文本多的特征一共有5個,分別是:副詞加動詞(例如:我很喜歡這電影,“很”加“喜歡”作為一個特征)、及物動詞加主語、及物動詞加賓語、及物動詞單獨出現和形容詞單獨出現。利用一個二元關系表示這些特征,如果有某個特征即為1,否則為0。

主題通常模糊不清,把主題的外部關系考慮進去可能有更好的效果。本文考慮了微博的轉發、評論、點贊、粉絲數與關注數等。轉發別人的微博,通常不改變別人的內容,通常表達了相同的情感。評論可能支持也可能反對本微博的情感。點贊大多數表達對微博的贊同,表達了相同的情感。粉絲大部分都對作者的微博認同,也表達了相似的情感。

情感極性分為積極、消極和中立3種,本文利用下面的公式進行圖優化:

(1)

3 實驗結果及分析

3.1 實驗設置

本實驗使用了“2017再出發”、“汽車”、“美聯儲加息”、“考研”、“霧霾來襲”這5個主題下的數據,利用微博爬蟲從網絡上采集實驗需要的數據,每個主題采集500個微博,然后進行人工標注微博的情感極性,最終得到實驗使用的數據集,正向情感有1 056條微博,負向情感有856條微博,中立情感有553條微博,如表1所示。

表1 實驗數據

3.2 主客觀性分類

用不同的特征來對比主客觀性分類的效果,為了進行對比,加入了Hownet詞典的分類方法作為對比。實驗中,選取正向與負向的1 912條微博為主觀性的微博,中立的553條微博為客觀性的微博,選取1 400條的主觀性微博與410條客觀性微博為訓練集,余下的512條主觀性微博與143條客觀性微博作為測試集。實驗結果如表2所示。

表2 主客觀性分類的準確性

從表2可以看出,只用文本特征得到的準確率最低,為62.8%,情感詞典對提高準確率有幫助,本文提出的方法的準確率最高,為69.3%。結果表明,本文的方法對情感極性分類的準確率有所提高。

3.3 情感極性分類

選取每個主題每個極性下的2/3作為訓練集,剩下的1/3作為測試集,選擇不同的特征,利用SVM方法分類。

表3 情感極性分類的準確性

實驗結果如表3所示。

從表3可以看出,只用文本特征得到的準確率最低,為76.6%,情感詞典對提高準確率有幫助,本文提出的方法的準確率最高,為86.3%。結果表明,本文的方法對情感極性分類的準確率有所提高。

3.4 結果的優化

主題下有的微博沒有轉發、評論、點贊關系,使用擁有這些關系的微博進行試驗,得到的實驗結果如表4所示。

表4 優化的準確率

從表4可以看出,優化方法對極性分類的準確率有所提高。

4 結論

微博情感分類吸引了很多人去研究,本文提出結合微博文本本身與文本上下文的特征微博情感極性分類方法,并利用微博的轉發、評論、點贊、粉絲數與關注數等的關系進行圖優化。與之前的利用微博文本方法不同,本文提出了利用文本上下文特征的方法進行微博情感極性分類。實驗結果表明,本文方法分類的準確度優于使用微博文本。

在本文方法中,有許多地方有待改進,如將聯系比較緊密的名詞或名詞短語作為擴展目標,添加到話題詞的集合中,提高情感極性分類的效果,這是今后的研究方向。

[1] KAMPS J,MARX M J,MOKKEN R J,et al.Using WordNet to measure semantic orientations of adjectives[C]. Proceedings of the 4th International and Evaluation, 2014:1115-1118.

[2] Hu Minqing, Liu Bing. Mining and summarizing customer reviews[C]. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004: 168-177.

[3] TURKEY P D.Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002:417-424.

[4] Pang Bo,LEE L,VAITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]. Proceedings of the 2002 Conference on Empircal Method in Language Processing,2002:79-86.

[5] 徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J].中文信息學報,2007,21(1):98-102.

[6] Wei Jin,HO H H,SRIHARI R K.Opinion miner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009:1195-1204.

[7] PRABOWO R,THELWALL M.Sentiment analysis: a combined approach[J].Journal of Informetrics,2009,3(2):143-157.

[8] JOSHI A, BALAMURALI A R, BHATTACHEARYYA P, et al.C-feel-i:a sentiment analyzer for micro-blog[C].Proceeding of the ACL-HLT 2011 System Demonstration.Portland,Oregon,USA, 2011:127-132.

[9] BARBOSA L,Feng Junlan. Robust sentiment detection on twitter from biased and noisy data[C].Proceedings of the 23th International Conference on Computational Linguistic.Poster,Stroudsburg,PA,USA,2010:36-44.

[10] 包亮,張莉,許鑫. 蘇州園林網絡評論意見挖掘研究[J]. 微型機與應用,2016,35(13):86-89.

[11] 龐磊,李壽山,周國棟.基于情緒知識的中文微博情感分類方法[J]. 計算機工程,2012,38(13):156-158,162.

[12] CHURCHILL A L,LIODAKIS E G,SIMON H Y. Twitter relevance filtering via joint bayes calssifiers from user clustering[EB.OL].(2013-02-26)[2017-02-25]http://cs229.stanford.edu/proj2010/churchill Liodakis Ye Twitter Relevance Filtering Via Joint Bayesclassifiers Fromllser Clustering.pdf.

[13] 劉曉菲,丁香乾,石碩,等.基于改進KNN的消費者評價信息情感分類研究[J].微型機與應用, 2014,33(24):81-83,86.

Multi-feature based sentiment orientation identification for micro-blog topics

Liu Zhiyuan, Gao Junbo

(College of InformationEngineering,Shanghai Maritime University,Shanghai 201306, China)

Basing on analyzing and researching the characteristics of micro-blog, by utilizing multiple features of micro-blog text under the topic, this paper establishes the micro-blog sentiment polarity classification model, judges the polarity of micro-blog by adopting a classification method of machine learning, uses the relationship between the repostment,the comment and the praise of micro-blog, the number of fans and the number of concerns to implement graph-based optimization, and proposes a method of micro-blog’s multi feature sentiment polarity classification based on the topic of micro-blog. The experimental results demonstrates that this method has a favorable effect on sentiment polarity classification of micro-blog.

multi-feature; machine learning; micro-blog; sentiment polarity

TP391

A

10.19358/j.issn.1674- 7720.2017.16.017

劉志遠,高俊波.基于話題的微博多特征情感極性分類[J].微型機與應用,2017,36(16):60-62,66.

2017-02-25)

劉志遠(1992-),通信作者,男,碩士研究生,主要研究方向:數據挖掘。E-mail:liu770105275@163.com。

高俊波(1972-),男,博士,副教授,主要研究方向:計算智能、數據挖掘。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 色有码无码视频| 亚洲无码高清一区| 99热这里只有免费国产精品| jijzzizz老师出水喷水喷出| 无码丝袜人妻| 91精品国产自产在线观看| 香蕉蕉亚亚洲aav综合| 91在线视频福利| 精品久久久无码专区中文字幕| 蜜芽国产尤物av尤物在线看| 亚洲成人播放| 日本久久免费| 午夜国产精品视频| 色婷婷亚洲综合五月| 中文字幕在线不卡视频| 日韩第九页| 美女国产在线| 免费国产小视频在线观看| 伊人蕉久影院| 国产在线第二页| 4虎影视国产在线观看精品| 亚洲热线99精品视频| 欧美一级一级做性视频| 亚洲精品天堂在线观看| 国产91av在线| 四虎精品国产AV二区| 一级爱做片免费观看久久 | 国产经典三级在线| 国产二级毛片| 夜夜操天天摸| 亚洲欧州色色免费AV| 久久99热66这里只有精品一| 欧美日韩国产在线播放| 久久福利片| 国产亚洲欧美日韩在线观看一区二区 | 国产美女在线观看| 欧美中文一区| 色婷婷在线影院| 国产肉感大码AV无码| 女人18毛片一级毛片在线| 毛片网站在线看| 日本黄色不卡视频| 国产主播一区二区三区| 日韩欧美综合在线制服| 亚洲色欲色欲www网| www中文字幕在线观看| 欧美亚洲网| 精品久久高清| 狠狠综合久久久久综| 国产十八禁在线观看免费| 国产主播喷水| 在线精品视频成人网| 中文国产成人精品久久| 国产99精品久久| 国产一级精品毛片基地| 青青草国产在线视频| 中国精品久久| 日韩a级片视频| 日韩毛片在线播放| 成人第一页| 一级毛片免费不卡在线| 欧美全免费aaaaaa特黄在线| 在线日本国产成人免费的| 伊人五月丁香综合AⅤ| 婷婷亚洲视频| 精品国产网| 国产午夜一级毛片| 国产国语一级毛片| 狠狠色丁婷婷综合久久| 全部免费特黄特色大片视频| 国产成人亚洲综合A∨在线播放| 依依成人精品无v国产| aaa国产一级毛片| 国产一级在线播放| 亚洲an第二区国产精品| 亚洲va视频| 欧美不卡在线视频| 欧洲亚洲一区| 99久久无色码中文字幕| 色婷婷在线播放| 中文字幕亚洲综久久2021| 免费看一级毛片波多结衣|