999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM和詞向量的Web新聞傾向性分析

2016-06-22 09:18:00肖宇倫歐陽純萍劉志明南華大學計算機科學與技術學院衡陽421000
現代計算機 2016年14期
關鍵詞:關鍵分類文本

肖宇倫,歐陽純萍,劉志明(南華大學計算機科學與技術學院,衡陽 421000)

?

基于SVM和詞向量的Web新聞傾向性分析

肖宇倫,歐陽純萍,劉志明
(南華大學計算機科學與技術學院,衡陽421000)

摘要:

關鍵詞:

0 引言

隨著互聯網的普及,網絡上的信息量與日俱增,而這些信息多是以文本方式產生的,因此利用計算機對文本進行有效、準確的傾向性分析是一項非常有意義的研究課題。例如對商品評論進行褒貶分析,可以反映該商品是否受到消費者的青睞。新聞作為輿情的一個重要來源,反映了公眾對某一事件的關注度,同時隨著新聞的傳播容易誘發網絡輿情。從而對Web新聞傾向性進行全面、有效和準確地分析可以幫助有關部門對突發的輿情進行預警。

在對于篇章級的新聞文本進行傾向性分類上,黃萱菁等[1]認為若將篇章作為一個整體籠統地進行傾向性分析存在很大的局限,其主要缺陷在于文本中包含多個對象,而不同對象涉及到的主觀信息是有差異的。因此目前針對篇章級文本的傾向分類的方法主要是對文本進行降維,降維后再以基于語義或基于機器學習的方法進行篇章傾向性分析。

在基于語義的篇章性分析中,左維松[2]等在進行分析時,將篇章拆分為句子,通過對句子的情感分析,得出篇章的情感傾向性。申曉曄等[3]在分析Web新聞傾向性時,選取文本中每個段落的情感傾向性強度最高的句子,作為代表該段的關鍵句。再根據關鍵句的位置及關鍵句所在段落位置計算關鍵句的權值,最后結合關鍵句的傾向值和權值得到篇章的傾向性。尤建清等[4]提出了基于主題句抽取的新聞文本傾向性分析方法,該方法通過分析新聞文本中的高頻詞、新聞標題、句子位置和傾向詞等特征提取出文本的主題句,由主題句的傾向性作為整個篇章的傾向性。

基于機器學習的傾向性分析主要分為兩個階段:特征選擇階段和機器學習階段。昝紅英等[5]在特征選擇時,將詞匯的IDF與Χ2統計量結合起來,并采用SVM進行分類。在語料不平衡的情況下取得了較高的正確率。徐軍等[6]在特征選擇時,不僅考慮了詞匯的TF和Binary一些統計特征,還結合了詞匯的詞性和否定詞。分類器采用Naive Bayes和Maximum Entropy。實驗結果表明在結合了文本的語義后,分類的正確率有一定的提高。Dongwen Zhang等[7]在對商品評價的分類上,將語料通過Word2Vec進行訓練后,獲取詞匯的上下文信息,然后將詞匯的上下文信息及詞性作為特征,使用SVM進行分類。這種方法同樣取得了較高的正確率。此外Google公司在2013年發布的一款用于訓練詞向量[8]的軟件工具——Word2Vec。它可以根據給定的語料庫,快速的將一個詞語表示為向量形式。Word2Vec訓練出的詞向量的形式為distributed representation。一個distributed representation是一個稠密、低維的實值向量,它的每一維表示詞語的一個潛在特征,該特征捕獲了有用的句法和語義特性。由于詞向量具有良好的語義特征,因此我們選取詞向量和SVM來進行Web新聞的傾向性分析。

1 Web新聞的傾向性分析框架設計

對Web新聞文本的傾向性分析是指利用分類算法分析出該新聞的情感主題是褒義還是貶義,我們圍繞這一目標主要完成以下工作:第一,對收集到的新聞語料進行分詞,并通過Word2Vec進行訓練,獲得詞語的詞向量表示。第二,對需要分類的新聞文本,依次進行以下三個步驟:提取關鍵句、分詞及詞性標注及通過SVM進行分類。最后得到由SVM分類后的新聞類別。具體框架如圖1所示。

圖1 系統功能框圖

2 特征抽取及情感分類

2.1關鍵句的提取

由于新聞文本的特殊性,可以從文本中提取到一些其他文本所不具有的信息。因此以下三個影響因素被確定為選取關鍵句的標準。

(1)含有新聞文本標題中實詞的句子

Web新聞標題不同于傳統的報紙一樣,講究各種修辭表達方法、講究生動形象和講究對稱有韻味等,而是以最簡潔的語言以最直接的方式把主要新聞事實敘述出來。因此含有新聞文本標題中實詞的句子跟新聞主題有一定的關聯度,含有新聞標題中的實詞越多的句子與新聞主題的關聯度越大。

(2)含有主張詞的句子

對Web新聞進行觀察后,發現有這樣的一類詞,例如“認為”,“覺得”等,我們把這些詞稱為主張詞。含有主張詞的句子往往代表觀點持有者的一種態度,具有強烈的傾向性。特別是在評論性的新聞文本中,例如:“我認為,事情到了今天這個地步,必須要回答下列問題——除了山西,別的地方還有多少類似的人道主義危機”。

(3)句子在文本中所處的位置

申曉曄等[3]在處理句子位置權值時,認為處于文章開頭和結尾的句子相較于文本中的其他句子具有較高的權值。本文采取同樣的方式。計算方式如下:

其中i是句子在文本中的位置,a是文本中所有的句子總數。

2.2傾向性句子的識別

(1)預處理階段

由于要獲取到某個詞語在大多數文本中的句法和語義特性,因此本文預先選擇大規模的新聞文本語料,然后通過Word2Vec進行訓練,獲得詞語的詞向量表示。在實驗中,采用默認參數對新聞文本語料進行訓練。

(2)特征選擇

在分類算法中,詞語的詞性通常用來作為分類特征。不同詞性的選擇可能會導致分類結果的不同[9]。例如,如果只以形容詞作為特征,分類結果并不會好于以名詞、動詞和形容詞同時作為特征。這是由于不同的詞性有不同的語義傾向[7]。因此,本文在對新聞文本進行分詞和詞性標注后,保留名詞、動詞、形容詞和副詞,以這些文本中出現頻率最高的詞性作為特征。

(3)SVM訓練和分類

SVM(支持向量機)目前廣泛運用于模式識別、知識發現、計算機視覺與圖像識別和自然語言處理等技術中。在自然語言處理中SVM廣泛運用于短語識別、詞義消歧、文本自動分類、信息過濾等方面。本文采用臺灣大學林智仁教授等開發的LIBSVM用于模型的訓練和新聞文本的分類,訓練采用LIBSVM提供的默認參數。核函數選擇徑向基核函數,以保證分類時不會出現太大的偏差,在無參調優的情況下能同時保證準確率和召回率[10]。

3 實驗結果與系統實現

3.1實驗結果

實驗中訓練詞向量的語料和句子級的傾向性分析實驗數據均來自于譚松波博士提供的10 000篇中文酒店評論語料。選取6000條評論語料,其中褒義類3000篇,貶義類3000篇,將訓練數據和測試數據按2:1隨機分配。實驗結果如表1所示。

表1 基于詞性特征的實驗結果

從表2中可以看出,以名詞、動詞、形容詞和副詞作為特征進行分類,比單一特征具有較高的F值。同時又發現只以形容詞做特征時,正面情感分類的正確率和負面情感分類的召回率都比較高,但F值相較于其他結果卻比較低。這是由于大多數形容詞具有明顯的語義傾向,是傾向性分類的一個重要依據。但在形容詞與否定副詞結合后,原有的語義傾向發生了改變。因此只以形容詞作為特征時,分類的綜合性能較差。

3.2系統實現

本方法已在南華大學輿情監測系統傾向分析模塊中實現,系統預先通過信息提取模塊采集到2002年至2015年之間所有針對南華大學的新聞,新聞分別來自于人民網、騰訊網、新浪網、鳳凰網等主流新聞媒體。然后對所有新聞進行傾向性分析,并按網站進行分類,分別得出每個網站在這段時間內對對南華大學有關報道的正負面新聞。

(1)獲取文章關鍵句

傾向性分析模塊每次從新聞中抽取3句話作為代表該新聞的關鍵句。以發表于新華網的《南華大學分專業靠抓鬮引質疑回應稱院領導醞釀討論良久》新聞為例,分析得到關鍵句如圖2所示。

圖2 新聞關鍵句SVM分類

例如圖2內三個句子進行分在獲得新聞關鍵句之后,再通過特征提取,獲取關鍵句的詞向量表示,最后通過SVM進行分類,就可以得到每個關鍵句的傾向性。分類后,傾向性分別是1.0,-1.0,1.0,以1.0表示正面,-1.0表示負面。由此得出該篇新聞是一篇總體傾向為中性的新聞。

(2)新聞傾向性分析結果

在對搜狐、紅網論壇、新浪等網站進行傾向性分析后,統計各個網站在一段時間內對南華大學褒、中、貶三種傾向的新聞報道的數量,分析結果展示如圖3所示。

圖3 新聞傾向性分析結果

4 結語

本文研究了對Web新聞傾向性分析問題,通過提取文章關鍵句,在大規模新聞文本下構建詞向量反映詞語的上下文含義,選擇傾向性詞語常用詞性作為特征,采用SVM對關鍵句傾向性進行分類,最后以關鍵句傾向性反映Web新聞的傾向性。由于詞語的詞性不足以反應詞語的語義傾向,下一步的工作將對特征選擇的方法進行改進,進一步提高關鍵句的分類正確率。

參考文獻:

[1]黃萱菁,趙軍.中文文本情感傾向性分析[J].中國計算機學會通訊,2008,4(2):41-46.

[2]左維松.規則和統計相結合的篇章情感傾向性分析研究[D].碩士學位論文].鄭州:鄭州大學,2010.

[3]申曉曄,封化民,毋非.基于語義理解的Web新聞傾向性分析.in第四屆全國信息檢索與內容安全學術會議論文集(上).2008.

[4]尤建清,張仰森,童毅軒.基于主題句抽取的新聞文本傾向性分析方法.第十五屆漢語詞匯語義學國際研討會.2014.中國澳門.

[5]Zan H Y,Guo M,Chai Y M,et al.Research on News Report Text Sentiment Tendency[J].Jisuanji Gongcheng/ Computer Engineering,2010,36(15).

[6]徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007,21(6):95-100.

[7]Zhang,D.,et al.,Chinese Comments Sentiment Classification Based on Word2vec and SVM perf.Expert Systems with Applications,2015.42(4):p.1857-1863.

[8]Turian J,Ratinov L,Bengio Y.Word Representations:a Simple and General Method for Semi-Supervised Learning[C].Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:384-394.

[9]Liu B,Zhang L.A Survey of Opinion Mining and Sentiment Analysis[M].Mining text data.Springer US,2012:415-463.

[10]劉銘,昝紅英,原慧斌.基于SVM與RNN的文本情感關鍵句判定與抽取[J].山東大學學報(理學版),2014,49(11):68-73.

Web News Sentiment Analysis Based on SVM and Word Embedding

XIAO Yu-lun,OUYANG Chun-ping,LIU Zhi-ming
(School of Computer Science and Technology,University of South China,Hengyang 421000)

Abstract:

Proposes an approach for classifying the sentiment of news text based on SVM and Word Embedding.Firstly,word embedding is achieved by training the pre-collected news corpus with word2vec.Secondly,key sentences are constructed from some key words in news text.At last,the word embedding and key words' part-of-speech are selected as combination features to apply in SVM algorithm,and then the sentiment classification of news text is obtained.Experimental results show that SVM based on combination features has high F value in sentiment classification.

Keywords:

提出一種通過提取詞向量,并利用機器學習對新聞文本進行分類的方法。首先,通過對預先收集好的新聞語料進行分析,獲取到詞的向量表示形式;然后通過新聞中的一些關鍵詞提取出新聞的關鍵句;最后把詞向量和關鍵句當中的關鍵詞詞性作為組合特征,采用SVM算法進行分類,得到新聞的傾向性類別。實驗表明,基于組合特征的SVM文本分類方法具有較高的F值。

新聞傾向性分析;SVM;詞向量;詞性特征

基金項目:

湖南省哲學社會科學基金(No.14YBA335)

文章編號:1007-1423(2016)14-0052-04

DOI:10.3969/j.issn.1007-1423.2016.14.011

作者簡介:

肖宇倫(1995-),男,湖南懷化人,本科,研究方向為自然語言處理

歐陽純萍(1979-),女,湖南衡陽人,副教授,碩士生導師,研究方向為自然語言處理、語義網

劉志明(1972-),男,湖南瀏陽人,教授,碩士生導師,研究方向為大數據分析、知識工程

收稿日期:2016-03-17修稿日期:2016-05-10

News Sentiment Analysis;SVM;Word Embedding;Part-of-Speech Feature

猜你喜歡
關鍵分類文本
高考考好是關鍵
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品亚洲日韩AⅤ在线观看| 香蕉在线视频网站| 亚洲精品在线91| 国产自在线拍| 手机永久AV在线播放| 无码专区第一页| 成人在线第一页| 99久久无色码中文字幕| 一级毛片免费观看不卡视频| 99re视频在线| 国产欧美综合在线观看第七页| 久久无码av三级| 亚洲第一福利视频导航| a网站在线观看| 国产美女91视频| 国产白浆视频| 98精品全国免费观看视频| 高潮毛片无遮挡高清视频播放| av一区二区三区高清久久| 欧美亚洲一二三区| 91丨九色丨首页在线播放| 91亚瑟视频| 无码专区在线观看| 伊人国产无码高清视频| 直接黄91麻豆网站| 中国黄色一级视频| 日韩黄色精品| 四虎精品国产AV二区| 国产偷国产偷在线高清| 色偷偷一区| 四虎精品国产永久在线观看| 丰满人妻一区二区三区视频| 久久精品视频一| 亚洲VA中文字幕| 国产精品永久在线| 久久久受www免费人成| 久久无码高潮喷水| 在线色国产| 国产不卡一级毛片视频| 精品无码国产一区二区三区AV| 黄色福利在线| 国产va视频| 久久精品66| 综1合AV在线播放| 潮喷在线无码白浆| 国产情侣一区| 亚洲国产成人超福利久久精品| 日韩小视频在线播放| 欧美激情福利| 国产精品综合久久久| 91网红精品在线观看| 国产毛片不卡| 国产精品成| 亚洲成aⅴ人在线观看| 高清无码一本到东京热| 欧美一级大片在线观看| 先锋资源久久| 亚洲啪啪网| 青草免费在线观看| 欧美不卡二区| 色偷偷一区| 婷婷丁香在线观看| 日韩福利在线观看| 免费国产一级 片内射老| 午夜电影在线观看国产1区| 色婷婷啪啪| 久久国产精品77777| 久久国产拍爱| 亚洲日本中文字幕天堂网| 好紧好深好大乳无码中文字幕| 亚洲综合色婷婷| 久久久久久久久18禁秘 | 热久久国产| 22sihu国产精品视频影视资讯| 亚洲精品卡2卡3卡4卡5卡区| 97青青青国产在线播放| 97国产在线视频| 自拍欧美亚洲| 黄色片中文字幕| 91精品伊人久久大香线蕉| 久久久波多野结衣av一区二区| 99在线观看免费视频|