999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種無指導的情感短語極性判別方法

2011-10-13 01:11:42羅侃海量信息技術有限公司北京100190
天津科技 2011年2期
關鍵詞:情感分析方法

羅侃(海量信息技術有限公司北京100190)

寧建軍(文匯新民聯合報業集團·新民網上海200041)

一種無指導的情感短語極性判別方法

羅侃(海量信息技術有限公司北京100190)

寧建軍(文匯新民聯合報業集團·新民網上海200041)

在情感分析任務中,情感詞或情感短語的極性判別是一項非常重要的任務。提出一種新的基于無指導學習的情感短語極性判別的方法。在該方法中,首先從新聞網站上抓取大量無標注的新聞評論數據。經過去除噪音并進行分詞和詞性標注之后,使用預先設定的模板抽取情感短語。然后人工標注少量種子詞。通過分析種子詞和情感短語的共現信息,最終得到情感短語的極性值。實驗證明,這種方法可以有效判別情感短語的極性,并且能夠用于句子級別的情感傾向分析。

情感分析情感極性判別情感短語

0 引言

隨著Web 2.0概念的深入人心,越來越多的網站開始注重以與用戶交互的方式來吸引用戶;另一方面,用戶也習慣在各個平臺上發表自己對于產品、人物、事件等各個要素的評論。這些評論不但數量巨大,且覆蓋面極廣。無論是潛在的消費者、商家還是政府,甚至更多的個人和組織都可以從這些海量的評論中得到有用的信息以幫助決策。例如,一個潛在的消費者可以通過查找其他消費者對于某款產品的評論而了解到該產品的優劣,繼而可以幫助用戶選購到合適的商品。又如,政府可以通過分析大量的評論了解廣大民眾最關心的時政問題并據此進行相應的決策。

然而,互聯網上的評論數量往往非常巨大。在如此多的評論面前,僅憑人力難以逐個閱讀。因此,將評論分類并得到相應的統計信息是一個非常自然的想法。在已有的情感分析任務中,有的研究者延循傳統的文本分類方法:整理收集有標簽的語料并抽取相應的特征,然后使用統計模型進行分類。這種方法在實際應用中面臨兩方面的問題:①不同領域的特征差異較大。例如在手機這個領域中,“大”是一個表達正面情緒的特征;而在筆記本這個領域中,該特征卻是一個表達負面情緒的特征。②在某些領域,例如時政新聞類,還沒有公開的有標注的數據。此外,博客、論壇上還有大量的未標注評論。這兩點原因導致基于有指導學習的方法難以滿足現實的要求。

有的研究者關注于如何構建一個情感詞典。在這樣的體系下,情感傾向的判斷依賴于詞典的覆蓋率和準確率。然而,將詞的情感傾向進行轉義是非常常見的語言現象。例如,“滿意”是一個正面的詞語。在收集的評論中,“滿意”出現的次數為2 568次,“不滿意”出現的次數為725次,“……才滿意?”類型的反問或疑問句類型出現的次數為68次。因此,一個好的基于詞表的情感傾向的判別系統還要處理各種變化的否定式等轉義現象。而且,領域的相關性也是在構造詞表過程中出現的非常困難的一個問題。此外,在現實數據中,大量的評論有錯別字、漏字、簡寫、縮寫等現象。綜合以上這些因素,基于詞表的系統在判別文檔情感極性時面臨很大的困難。

針對以上提出的問題,本文將抽取的對象鎖定在短語級別。與單個詞相比,短語具有如下幾個優點:①在不同語境下存在不同傾向性的可能性更小。例如“期待奇跡發生”表達了非常明確的正面情感傾向。單個詞“期待”則有可能在正面或是負面的情形下使用,例如“還是別期待”就表述了負面的情緒。②在某些情況下,單個詞沒有主觀傾向性或者傾向性不明。例如,“取消”在一般情形下表達了否定的含義。“稅收”則是一個客觀性的名詞。兩者結合之后形成的短語“取消了稅收”在大部分語言環境下蘊含了正面的情感傾向。

本文提出的基于無指導學習的情感短語極性判別方法能夠在極少量的人工標注基礎上得到質量較高的情感短語及其情感傾向,并且抽取出來的情感短語能夠有效的用于評論的傾向性判別。

1 相關工作的分析

國內面向中文的情感分析研究,隨著兩屆《中文傾向性分析評測》(Chinese Opinion Analysis Evaluation,COAE2008,COAE2009)的召開,獲得了極大的關注,而之前的研究則較為零散。COAE評測的任務涵蓋了情感分析這一方向的大部分問題,如情感詞的識別與極性判斷、情感相關要素的抽取、句子及篇章的主客觀識別與褒貶傾向判斷等。在情感表達的語言單位上,大部分國內的研究定位于詞匯,即識別情感詞以及判斷其極性。對這一問題的主要方法是在HowNet等現有的情感語義資源的基礎上進行領域擴展,從而獲得領域相關的情感詞詞表。擴展的主要依據有詞性、句式、句法等語言學約束條件,[1-2]與HowNet等現有情感詞的共現關系,[1]情感詞的上下文模版等。[3]

一個詞的情感性質(是否是情感詞,極性如何)依賴于其出現的上下文。因此,COAE要求抽取而得的情感詞要注明前后的語境,以判斷其是否確實作為情感詞出現。這是一種消除詞匯情感不確定性的手段,如果直接將情感識別定位于短語層面,這樣的不確定性將很自然的基本得到消除。

文獻[4]的研究不是以詞匯為基礎進行情感分析。在文獻中,作者在人工標注好的主客觀訓練語料中抽取了連續雙詞詞類組合模式作為區分主觀文本與客觀文本的特征,進而對文本進行主客觀性的分類。因為是長度為2的順序詞類,這樣的特征比詞匯顯得更“抽象”,也無法談到褒貶極性的區分。

國外情感分析的研究起步更早,在各個級別的會議上都已發表了大量的相關文獻。研究詞的情感極性問題最早見于文獻[5]。在文獻[5]中,研究者通過分析形容詞之間組成的詞對來判別形容詞的情感傾向。這些詞對通過“and”、“or”、“but”、“either-or”以及“nether-nor”連接起來。這個方法是基于這樣一種假設:通過這些詞連接的詞對擁有相同或是相反的情感極性。例如使用“and”相連接的詞對就含有相同的極性。通過輸入一些初始詞及其情感極性,最終能夠得到大量形容詞的情感極性。

Turney[6]提出了另一種方法來計算詞語的情感極性。該方法先輸入少量的正面和負面的種子詞,通過搜索引擎搜索種子詞與目標詞共現的次數,并通過點間互信息(Point-wise Mutual Information,PMI)得到目標詞的情感極性。然而,該方法需要連接到外部的網絡資源。此外,主流中文搜索引擎不支持該方法所需的“NEAR”修飾符:即兩個詞只在一定距離之內共現。

文獻[7]則是通過分析WordNet來得到目標詞的情感極性。該方法首先通過WordNet以及同義詞構建出詞網絡。每個目標詞的極性則是通過判斷該詞與“Good”和“Bad”之間的距離哪一個更近來獲得。

2 基于無指導學習的情感短語極性判別方法

該方法的第一步是抽取帶有情感傾向的短語。已有工作闡述了單個形容詞表達情感傾向的重要性。[8]正如第一點提到的,單個形容詞在不同上下文會存在轉義的現象,并且不同領域的形容詞可能含有不同的主觀傾向。因此,本文使用短語作為基本的情感傾向單元。通過人工方式總結了一批模板,使用這些模板作為抽取短語的方式。

首先,算法需要將評論進行切詞和詞性標注。使用海量分詞研究版作為切詞工具以及BasePoS1http://bcmi.sjtu.edu.cn/~zhaohai/index.ch.htm l作為詞性標注工具。該詞性標注工具的標準依照賓州樹庫的詞性標注標準。表1列出了抽取短語過程中所使用的模板。其中,AD為副詞,VA為表語形容詞,VV為其他類動詞,AS為語助詞,DEC為“的”字語助詞,NN為名詞等等。更多的解釋可以參考相關文檔2ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz。

該方法的第二步是計算每個短語的情感極性。使用淺層語義分析(Latent Semantic Analysis,LSA)技術來比較情感短語與種子詞之間的強弱關系。LSA使用矩陣奇異值分解(Singular Value Decomposition,SVD)來分析詞語間的統計關系。LSA首先需要將文本轉換為矩陣形式,其中行向量表示短語,列向量表示文檔。和傳統做法不同的是,將屬于同一篇新聞的評論整合為一個文檔。這種做法暗含了一個假設,即隸屬于同一篇新聞的評論往往含有類似的情感極性。通過觀察發現,這個假設在大部分情況下是成立的。另外一個原因是:新聞類評論的文本往往很短,一句話往往只有一個候選短語。因此如果把單篇評論作為一個文檔來對待,很難得到短語間的共現信息。

表1 短語模板

SVD分解會將矩陣X分解為3個矩陣的積,即:X=UΣVT。假設矩陣X的秩為r,選擇K≤r。那么Xk=UkΣk是秩為K時對X矩陣的最好近似。假設Phrase1和Phrase2在矩陣中相應的行向量分別那么它們的相似度:LSA(Phrase1,Phrase2)

人工選擇了4個正面種子詞和4個負面種子詞共計8個種子詞作為初始輸入。8個種子詞的列表見表2。這些種子詞在語料中都有很高的出現頻率,而且出現轉義等情形也較少。

表2 種子詞列表

對于任意一個短語Phrase,其情感極性SP用如下公式計算:

其中s表示種子詞。當SP大于零時,該短語為正面性短語,反之當SP小于零時,該短語為負面性短語。

該方法的第三步是計算文檔的情感極性。將文檔中所有已計算極性值的情感短語抽取出來。然后對所有的情感極性值取平均。當平均值大于0.05時,評論被歸類到正面類評論。當平均值小于-0.05時評論被歸類到負面類評論。當平均值居于-0.05和0.05之間時則為中立類評論。

3 實驗及其結果

3.1 實驗數據說明

抓取了新民網32 006 538條時政、民生類新聞評論。通過隨機的方式選擇了977篇新聞及其對應的15 004條評論進行標注。標注的類別為:正面、負面、中立和未知。正面類的主要包括了贊揚、同意、支持等主觀傾向。負面類的主要包括了憤怒、貶損、辱罵、抗議等主觀傾向。中立類的主要包括了感慨等主觀傾向以及客觀類評論。未知類的標注準則則是當該評論難以判斷其所屬的類別時使用。4個類別對應的數量見表3:

3.2 情感分類實驗

考察了不同大小的情感極性值對于分類結果的影響。結果見表4所示。其中,短語集大小的百分比指的是依據SP值從大到小選取的短語占所有抽取短語的比例。例如,10%表示實驗中使用了正面短語集合和負面短語集合各自SP值最大的10%短語。第二列指的是15 004條評論中含有特定短語集中短語的比例。第三列指的是只考慮正面和負面類評論時得到的準確率。第四列指的是考慮正面、負面以及中立評論得到的準確率。準確率的計算公式為:實驗結果顯示,當只考慮正面以及負面類評論時,基于短語情感極性最高能得到87.15%的準確率。相應的代價是只能命中大約1/5的評論。而此時,分為3類的準確率也能達到65.8%。隨著短語集的增大,準確率隨之減小而命中的評論數量則隨之增大。短語集合中SP值較小的短語大多為出現頻率很低的短語。因此,可以認為當候選短語出現了足夠多的數量,基于無指導學習的方式能夠有效的學習到其情感傾向。

4 結論與展望

提出了一種基于短語與種子詞的共現信息來計算情感短語的極性。大規模真實語料上的實驗表明,當問題定義為正負面的二類問題時,使用該方法得到的情感短語用以判斷評論的情感傾向最高能得到87%的準確率。

基于短語的方法主要的問題是不能命中大部分的評論,且短語的抽取工作依靠人工總結的規則。下一步的研究方向是擴大短語抽取的規則集合以及機器自動識別情感短語的方法。■

[1]喬春庚,孫麗華,吳韶.基于模式的中文傾向性分析研究[C].北京:第一屆中文傾向性分析評測論文集,2008:21-31.

[2]劉軍,劉全升,陳漠沙.第一屆中文傾向性分析評測結果淺析[C].北京:第一屆中文傾向性分析評測論文集,2008:125-141.

[3]王秉卿,張姝,張奇.中文情感詞識別[C].北京:第一屆中文傾向性分析評測論文集,2008:63-69.

[4]葉強,張紫瓊,羅振雄.面向互聯網評論情感分析的中文主觀性自動判別研究[J].信息系統學報,2007(1):79-91.

[5]Hatzivassiloglou and McKeown.Predicting the semantic orientation of adjectives[M].Madrid,Spain:Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics,1997:174-181.

[6]P.D.Turney.Thumbs up or Thumbs down?Semantic orientation applied to unsupervised classification of reviews[C].Philadelphia:Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,2002:417-424.

[7]J.Kamps,M.Marx,R.J.Mokken et.al.Using WordNet to measure semantic orientation of adjectives[J].Lisbon,Portugal:Proceedings of the 4th International Conference on Language Resources and Evaluation,2004(4):1115-1118.

[8]J.M.Wiebe.Learning subjective adjectives f rom corpora[C].Menlo Park:Proceedings of the 17th National Conference on Artificial Intelligence,2000:735-740.

注:本文為基金項目論文,獲上海市科學技術委員會科研項目《新聞網站專題頁面富媒體信息搜編技術研究及其系統實現》(課題號:09dz1502000)資金資助。

2011-03-08

猜你喜歡
情感分析方法
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
如何在情感中自我成長,保持獨立
電力系統及其自動化發展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: h视频在线观看网站| 亚洲六月丁香六月婷婷蜜芽| 中日韩欧亚无码视频| 免费AV在线播放观看18禁强制| 思思99热精品在线| 亚洲欧美成人| 成人国产精品网站在线看| 久久人与动人物A级毛片| 久久香蕉国产线看观看精品蕉| 五月婷婷激情四射| 亚洲VA中文字幕| 久久综合九色综合97网| 永久在线播放| 国产va视频| 狠狠色狠狠综合久久| 国产精品露脸视频| 国产精品va| 宅男噜噜噜66国产在线观看| 午夜国产精品视频| 爱做久久久久久| 成人日韩精品| 91精品国产自产在线老师啪l| 国产成人精品无码一区二| 国产成人a毛片在线| 亚洲国产午夜精华无码福利| 99人妻碰碰碰久久久久禁片| h视频在线播放| 国产清纯在线一区二区WWW| 国产一在线观看| 亚洲三级a| 国产精品爆乳99久久| 天天爽免费视频| 日韩成人午夜| 99九九成人免费视频精品| 国精品91人妻无码一区二区三区| 丁香五月激情图片| 国产精选小视频在线观看| 老汉色老汉首页a亚洲| 亚洲区视频在线观看| 在线日韩一区二区| 亚洲人成成无码网WWW| 亚洲精品视频免费观看| 欧美69视频在线| 97视频在线精品国自产拍| 欧美日在线观看| 国产一级α片| 成人在线综合| 成年人国产网站| 欧美伦理一区| 不卡午夜视频| 亚洲精品国偷自产在线91正片| 99国产在线视频| 久久精品无码国产一区二区三区 | 日本一区二区三区精品国产| 亚洲第一在线播放| 污污网站在线观看| 四虎影院国产| 久久精品这里只有国产中文精品 | 扒开粉嫩的小缝隙喷白浆视频| 国产成人亚洲精品色欲AV | 久久福利网| 国产香蕉97碰碰视频VA碰碰看| 亚洲欧洲AV一区二区三区| 免费久久一级欧美特大黄| 欧美福利在线观看| 国产精品永久久久久| 免费a在线观看播放| 伊人无码视屏| 日韩在线2020专区| 一本大道香蕉久中文在线播放| 狠狠v日韩v欧美v| 69av免费视频| 欧美精品伊人久久| 日韩毛片在线播放| 国产在线精品99一区不卡| 99这里只有精品在线| 无码一区二区三区视频在线播放| 97久久精品人人做人人爽| 中国丰满人妻无码束缚啪啪| 国产在线拍偷自揄拍精品| 亚洲视频四区| 影音先锋亚洲无码|