999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本特征的短文本傾向性分析研究

2015-04-21 09:26:52程南昌滕永林
中文信息學(xué)報 2015年2期
關(guān)鍵詞:特征文本情感

程南昌, 侯 敏, 滕永林

(1. 中國科學(xué)院自動化研究所 模式識別國家重點實驗室,北京 100190;2. 中國傳媒大學(xué) 國家語言資源監(jiān)測與研究中心有聲媒體語言中心, 北京 100024)

?

基于文本特征的短文本傾向性分析研究

程南昌1, 侯 敏2, 滕永林2

(1. 中國科學(xué)院自動化研究所 模式識別國家重點實驗室,北京 100190;2. 中國傳媒大學(xué) 國家語言資源監(jiān)測與研究中心有聲媒體語言中心, 北京 100024)

語篇傾向性分析是傾向性分析的較高層次領(lǐng)域。根據(jù)文本篇幅和結(jié)構(gòu)可以將語篇分為短文本和長文本。該文以網(wǎng)絡(luò)商品評論作為樣本研究短文本傾向性分析的特點和策略。根據(jù)傾向極性在文中的決定性因素的不同表現(xiàn),短文本可以分為含顯性歸總句、含隱性歸總句、含特征詞以及一般文本四類,針對不同類別文本采用不同的處理策略。在此基礎(chǔ)上,運用詞典、規(guī)則的方法構(gòu)建了語篇傾向性分析系統(tǒng)CUCsas,該方法在第四屆中文傾向性分析評測(COAE2012)中取得了較好成績。

短文本;文本特征;歸總句;傾向性分析;詞典與規(guī)則

1 引言

過去時代,在傳統(tǒng)媒體中發(fā)表意見、體現(xiàn)輿情的主要是一些較長的評論性文章,我們稱之為“長文本”;隨著網(wǎng)絡(luò)論壇的出現(xiàn),尤其是微博這一新媒體的出現(xiàn),人們發(fā)表意見的陣地極大拓寬,但與傳統(tǒng)評論文不同,論壇帖子一般不會很長,微博更是要求在140字之內(nèi),我們稱之為“短文本”。長文本和短文本都可以發(fā)表意見、表達態(tài)度,但它們具有不同的語篇結(jié)構(gòu)和語言特點,所以在進行傾向性分析時,所采用的策略和方法也不相同。本文主要以網(wǎng)絡(luò)商品評論為樣本研究短文本傾向性分析的特點和策略。

2 相關(guān)技術(shù)

傾向性分析(也稱情感分析、情感傾向分析、意見挖掘等),旨在研究人們對人物、事件及其屬性的主觀意見和評價[1-3]。該課題屬于多學(xué)科綜合的研究領(lǐng)域[4],其中涵蓋了自然語言處理、信息檢索、信息抽取、機器學(xué)習(xí)等多個領(lǐng)域[5]。按照處理文本的粒度不同,傾向性分析可以分為詞語級、短語級、句子級與篇章級幾個研究層次。每向上遞增一級,情感分析難度要大很多。下面按不同顆粒度論述相關(guān)技術(shù)。

(1) 詞匯級

詞匯級的傾向性分析,基于WordNet和HowNet 等知識庫的方法和基于語料庫的方法較為常見。Kamps等[6]利用WordNet 中詞語的同義結(jié)構(gòu)圖,通過待測詞語與種子詞的相似度計算得出待測詞傾向值。朱嫣嵐等[7]在提取一定基準(zhǔn)詞的基礎(chǔ)上,利用HowNet提供的語義相似度和語義相關(guān)場功能計算待測詞語與基準(zhǔn)詞的相似度來進行傾向值計算。Kim和Hovy[8]運用手工的方式收集了一些褒義和貶義的詞匯,在此基礎(chǔ)上借助WordNet 同義詞來擴展這個集合。通過對詞語同義詞組在原始褒義詞集合和貶義詞集合對比上,計算詞語的褒貶置信度,最后根據(jù)閾值判斷詞語極性。基于語料庫的方法主要是利用詞語之間的連詞以及統(tǒng)計特征來判別詞語的情感極性。Yuen等人[9]利用Turney的點互信息,用小規(guī)模的語料庫來判別詞語的傾向極性。具體算法是將傾向極性已確定且情感色彩強烈的詞語作為種子詞,通過計算需要判斷傾向極性的詞語與這些種子詞的互信息。

(2) 短語級

短語的傾向計算難度比詞匯的要大,這主要體現(xiàn)在修飾語與情感詞間的動態(tài)關(guān)系計算的復(fù)雜性上[10]。李鈍等[11]從語言學(xué)角度出發(fā),采用情感傾向定義權(quán)重優(yōu)先的計算方法獲得短語中各詞的語義傾向度,然后分析短語中各詞組合方式的特點,提出中心詞概念來對各詞的傾向性進行計算,以識別短語的傾向性和傾向強度。李雪燕等[12]研究了傾向性短語中較為復(fù)雜的否定性傾向短語,通過不同類別的否定傾向模式,制定相應(yīng)計算規(guī)則,實現(xiàn)了對否定傾向短語的計算。

(3) 句子級

句子的傾向分析難度主要表現(xiàn)在表達方式的多樣化與句式的復(fù)雜性上,以句式來說,比較句與否定句的傾向分析就是兩個難點。姚天昉等[13]利用領(lǐng)域本體來抽取主觀句的主題及其屬性,然后在句法分析的基礎(chǔ)上,識別主題和情感描述項之間的關(guān)系,從而最終決定語句中每個主題的傾向極性。劉康等[14]在基于單層模型的句子褒貶度分類方法中,針對標(biāo)記冗余引起的分類精度不高的問題,提出了基于層疊CRFs 模型的句子褒貶度分析方法。

(4) 篇章級

語篇的傾向性分析是傾向性分析的較高層次,所采用的技術(shù)無外乎基于規(guī)則的方法和基于統(tǒng)計的方法。基于規(guī)則的方法一般可以從計算詞語的傾向值開始,然后逐級計算,到短語、句子,最后獲得整個篇章的傾向性。楊江[15]提出了一種基于淺層篇章結(jié)構(gòu)的評論文傾向性分析方法,主要采用情感詞典與規(guī)則相結(jié)合的方法,在實驗中取得了較好的成績。基于統(tǒng)計的方法則把傾向性分析看作一類特殊的分類問題,關(guān)鍵的環(huán)節(jié)在于構(gòu)造合適的分類器以及選擇恰當(dāng)?shù)奶卣鳌ang等[16]采用標(biāo)準(zhǔn)詞袋技術(shù)和樸素貝葉斯、最大熵、SVM 分類方法,對Usenet 上的電影評論進行文本傾向分類,并將它們和手工分類結(jié)果進行比較。實驗結(jié)果顯示,SVM 在幾種分類方法中效果最好,分類準(zhǔn)確率最高接近80%。Turney[17]采用無指導(dǎo)的學(xué)習(xí)算法對評論文進行褒貶分類,首先通過計算給定詞或短語與“Excellent”和“Poor”的互信息差來度量其語義傾向,然后將文本中詞和短語的平均語義傾向作為給定評論文的整體傾向。

在篇章級的傾向分析中,基于統(tǒng)計的方法把傾向性分析看作特殊的分類問題,而基于規(guī)則的方法一般是通過詞、短語以及句子的逐級計算,最后取平均值。目前的研究通常較少關(guān)注到語篇本身的特征在傾向性分析中的作用,因此,無法體現(xiàn)篇章級傾向分析與句子(短語、詞)傾向性分析的區(qū)別,也很難取得理想的效果。

3 短文本傾向性分析

3.1 短文本特征 短文本與長文本不僅篇幅長短不同,在語篇結(jié)構(gòu)及表現(xiàn)特征上也不相同。先看下面兩個網(wǎng)絡(luò)商品評論的短文本實例*文本所有用例均來源于COAE2012任務(wù)3提供的訓(xùn)練和測試語料,后面為該文本在語料中的統(tǒng)一編號。:

例1 總體來說還是蠻不錯的!這個價錢能做成這樣我覺得我們不應(yīng)該更挑剔了。而且效果和一般的機子真的不在一個層次上!而且收到的是心里想的黑色的,呵呵。最后說一句,在信號不怎么好的地方,用配送的那個天線,效果真的不一樣哦!

例2 是1628時買的,好像是比較低的價格了,雖然有IPONE4,又來買了2個,一個送給自己,一個送給女朋友,女朋友非常喜歡。可玩性很高,完全后悔買IDSI了,很多的游戲,只是有些需要花錢,不過還真是科技含量很高,很值得一賞。

上述兩個短文本顯示了網(wǎng)絡(luò)商品評論的一般特征,歸納起來主要有以下幾點:

1. 沒有標(biāo)題,表達隨意

與大部分論壇帖子和微博一樣,商品評論也沒有標(biāo)題。標(biāo)題是篇章主旨的表現(xiàn),由于沒有標(biāo)題的約束,而且作者也并沒有把其當(dāng)作一個正式的文章來寫,想到哪就寫到哪,因此,短文本在表達意見時用語很隨意。

2. 文本結(jié)構(gòu)簡單,喜歡用歸總句

短文本作者需要在很短篇幅內(nèi)闡明自己的看法,所以通常是開門見山地提出自己的意見,或經(jīng)簡單的點評,在末尾給出自己的看法。例如例一的開頭: 總體來說還是蠻不錯的!例二則在“價錢”與“可玩性”兩方面潦草的評說后,在結(jié)尾給出了自己的總體看法: 很值得一賞。該情況主要源于短文本的篇幅,由于篇幅短小,無法展開論述,又需要表達自己對產(chǎn)品的看法,因此只能采用概括力較強的歸總性語句來表達自己對某個產(chǎn)品的總體看法。故而,在短文本中類似于下面的句子較多:

(1) 總之,奇瑞轎車的質(zhì)量還是挺讓人放心的。

(2) 總體來看不錯,按鍵的感覺很好,拿在手里很舒服,屏幕顯示很細(xì)膩。

(3) 總而言之,作為一輛家用型代步工具,馬六可能性價比不是最高,但鮮明的特點也為我?guī)砹吮容^強烈的駕駛樂趣,值得推薦。

上述三個句子,帶有歸總標(biāo)記詞“總之”等,具有明顯的歸總意義,這樣的句子,我們稱之為“歸總句”。

3. 意見表達直截了當(dāng),主觀性強

語言通俗直白,表達意見直截了當(dāng),不拐彎抹角;主觀性很強,常常會說“我認(rèn)為、我覺得”。請看下面三個例句:

例1 我沒開過好車,在我開過的車中我認(rèn)為帕薩特剎車性能是最好的。

例2 我認(rèn)為奧德賽有點矮,所以看過去比較小氣。

例3 算一下數(shù),買了新車后還要花一萬元的費用,但我覺得非常值得。

4. 句式簡單

句子短小,復(fù)句較少,一般以單句為主。

5. 書寫不規(guī)范

書寫很隨意,文本不統(tǒng)一、不規(guī)范的情況比比皆是。亂用標(biāo)點符號,常常有錯別字,語法也不夠規(guī)范,帶有濃重的口語色彩。

綜上所述,以商品評論為樣本的短文本語篇的特點是篇幅短小,沒有標(biāo)題,表達意見直截了當(dāng),句式簡單,往往愛用歸總句,這些特點決定了我們在對其進行傾向性分析時采取的策略。

3.2 短文本傾向性分析策略

短文本篇幅短小,句式簡單,因此在傾向性分析時,主要以單句為主。另外,短文本表達意見往往直截了當(dāng),喜用歸總句,而且,歸總句的傾向極性直接決定了語篇的傾向極性。因此,我們可以首先根據(jù)歸總句的存現(xiàn)特征,將商品評論文分成三類:

(1) 有顯性歸總句的文本;

(2) 有隱性歸總句的文本;

(3) 沒有歸總句的文本。

沒有歸總句的文本還可以根據(jù)其是否有特征項再分為“含特征項的文本”以及“一般文本”兩類。對不同的文本要采取不同的處理策略,以做到有的放矢,下面具體說明。

1. 含顯性歸總句文本

顯性歸總句指的是以如下詞語做標(biāo)記的句子* 只列出部分歸總句顯性標(biāo)記,隱性標(biāo)記與此相同。:

總體來說、總體說來、總體看、總體感覺、總的來說、總的說來、總之、總而言之、總結(jié)、整體感覺、整體來說、整體來看、整體的、整體還、整體上、整體看、綜上所述等。

顯性歸總句約占網(wǎng)絡(luò)商品評論比例的16%* 在COAE2012汽車訓(xùn)練文本中統(tǒng)計得出,訓(xùn)練文本為3 000個,含有隱性歸總詞語的文本為477個。。含顯性歸總句的文本,一般情況來說,只需要處理歸總句即可,其他句子可以不考慮。為有效識別這類句子,我們建立了一個歸總句顯性標(biāo)記詞表。

2. 含隱性歸總句文本

有些文本中沒有明顯的歸總句標(biāo)記,但是文本的首句、末句含有下面這樣的詞語:

大體上、大體還、我認(rèn)為、我覺得、覺得、個人認(rèn)為、個人覺得、我感覺、一句話等等。

這種句子我們稱之為隱性歸總句。含該類句子的文本約占網(wǎng)絡(luò)商品評論的20%*在COAE2012汽車訓(xùn)練文本中統(tǒng)計得出,訓(xùn)練文本為3 000個,含有隱性歸總詞語的文本為597個。。

還有一些文本,其末尾一句含有傾向比較明確或者傾向性較強的詞語,也可以被認(rèn)為具有歸總的意思。例如,建議大家不要買了、推薦購買、夠用了、喜歡喜歡、很值得、太讓人失望了、我好失望、堅決不買xx車。這類詞語我們稱其為歸總隱性標(biāo)記,也建立一個相應(yīng)的詞表。

“開門見山”和“卒章顯志”是漢語語篇的重要特點,在評論產(chǎn)品時候,極少有人非常耐心地去長篇大論,通常是直接給出自己的觀點,或者稍稍評價后,在最后發(fā)表自己的意見。對于產(chǎn)品評價來說,要特別注意文本末尾的幾句。無論前面說了些什么,如果含有上面這些強烈的情感傾向的詞語,前面語句基本上都可以不用去分析。檢索末尾一句的時候,如果末尾一句是“呵呵、嘻嘻、哈哈”這樣一些感嘆詞,那么要選擇倒數(shù)第二句。

對于含有隱性歸總句的文本,在加權(quán)算法中,隱性歸總句在整個文本的得分中占有較高的比例。

3. 沒有歸總句文本

如前所述,沒有歸總句的文本還可以細(xì)分為含

有特征項的文本與一般文本,含有特征項的文本可以分成多種情況,下面是三種典型情況:

(1) 有罵人的話。例如,你媽的、NMLGB、你ma、我操、我操你媽、我日、狗屁、黃花菜都涼了等。

(2) 含有“唯一”加情感詞。“唯一”加正面情感的如: 唯一的亮點、唯一的優(yōu)點;加負(fù)面情感的如: 唯一的遺憾、唯一的不足等。

(3) 含有極限程度副詞加情感詞。極限程度副詞是指“非常、特別、極度、特、超、超級、絕倫、絕對、絕頂、最、無比”等。極限程度副詞加正面情感詞的如“非常棒、非常滿意”,加負(fù)面情感詞的如“非常糟糕、非常討厭”。

將上述特征項收錄進特征詞表,作為分析帶特征項的非歸總句資源。

沒有歸總句,也沒有特征項的一般文本將根據(jù)文本中情感句的傾向值來處理。

3.3 短文本傾向計算

根據(jù)短文本的處理策略,我們制定了相應(yīng)的算法,圖1是短文本計算流程。

圖1 語篇傾向性分析系統(tǒng)CUCsas工作流程

圖1說明:

(1) 圖1中分詞標(biāo)注、情感標(biāo)注、計算情感度幾個步驟與侯敏[18]、周紅照[19]基本一致,不再贅述。“計算情感度”這一工作完成后,得到的是句子上標(biāo)有情感值的文本。

(2) 用歸總句顯性標(biāo)記詞表,對文本進行顯性歸總句計算。對于含有顯性歸總句的文本,歸總句的得分就是整個文本的得分。

(3) 用歸總句隱性標(biāo)記詞表,對其余文本進行隱性歸總句計算。對于含有隱性歸總句的文本,如果隱性歸總句在文本的首句,該句在整個文本的得分中占的比重為50%,文本中其他所有情感句的得分占整個得分的50%。如果一個文本含有五個情感句,各個句子的得分分別為S1、S2、S3、S4、S5,整個文本得分計算方法如公式(1)所示。

(1)

如果隱性歸總句在文本尾句,該句在整個文本得分中占的比重為60%,其他所有句子的得分占整個文本得分的40%。整個文本得分的計算方法如公式(2)所示。

(2)

(4) 沒有歸總句的文本,利用特征詞表,計算特征項對應(yīng)的分值。

(5) 上述步驟完成后剩余的一般文本,將所有情感句得分之和除以情感句的總數(shù),所得為該文本分值。計算方法如公式(3)所示。

TextScore=

(3)

如果情感句是首句或者末句,還要進行一定程度的加分(P),默認(rèn)是加0.1分。

4 實驗(評測)及結(jié)果分析

為驗證短文本計算方法的有效性,我們參加了2012年中文信息學(xué)會組織的中文傾向性分析評測(COAE2012)任務(wù)3篇章級傾向性打分的評測。評測要求對網(wǎng)絡(luò)商品評論文進行打分,共分五個等級,5分表示強烈褒義,1分表示強烈貶義。下面論述實驗過程。

4.1 實驗準(zhǔn)備

為了獲得語料的基本情況,我們對訓(xùn)練語料得分情況與用戶心理進行了分析,訓(xùn)練文本的得分情況如表1。

表1 訓(xùn)練語料各個等級得分比例

表1顯示: 在汽車領(lǐng)域,等級為3的文本,占72%,超過了其他所有等級的總和,等級為1和2的特別少;電子領(lǐng)域的各個等級分布相對來說比較均勻,但是5分與4分之和占了總比例的70%。我們從用戶消費心理的角度出發(fā)分析了上述得分情況。

先看汽車。一方面,由于汽車是較大的商品,花的錢多,用戶往往反復(fù)比較、挑選,對一些小問題很計較;另一方面,出廠的汽車,一般都經(jīng)過了反復(fù)的檢測和實驗,不會太差。因此,汽車領(lǐng)域得好評(等級4、5)的不多,得差評(等級1、2)的也很少,得中評的特別多。

而電子產(chǎn)品一般都比較小,花的錢不多,如錄音筆、手機、耳機等,用戶比較容易滿足,只要看上去漂亮、音質(zhì)好、服務(wù)態(tài)度好的都直接給高分了,因此,電子領(lǐng)域得好評的多。

通過對訓(xùn)練語料得分及用戶消費心理的分析,我們不僅了解了訓(xùn)練語料的總體情況,也了解了其背后的原因。

4.2 算法調(diào)整

運用CUCsas系統(tǒng)進行短文本計算,所獲得的是文本的傾向值,根據(jù)評測的要求,需要把得分分成五個等級。通過對訓(xùn)練文本打分發(fā)現(xiàn),文本的得分基本與等級的走向一致,即: 等級高的得分高,等級低的得分低。這說明短文本計算所得的傾向值是有效的,我們通過設(shè)定閾值的方法,把得分與等級對應(yīng)起來。

4.3 實驗(評測)結(jié)果及分析

1. 評測結(jié)果

表2是第四屆中文傾向性分析評測(COAE2012)中任務(wù)3篇章級傾向性打分的評測結(jié)果。表2顯示,CUCsas系統(tǒng)在任務(wù)3中取得了最好成績。汽車語篇的精度達到了83%,電子語篇的精度達到69%,分別高出平均成績34%和32%。

2. 結(jié)果分析

對系統(tǒng)判斷錯誤的文本進行分析,錯誤的產(chǎn)生主要有以下幾個原因:

表2 COAE2012篇章傾向性分析評測結(jié)果

(1) 文本情感值轉(zhuǎn)換成等級時錯誤

文本傾向的5度打分,難度要比傾向極性判斷大。雖然文本的整體傾向分析正確,但在具體劃分到某個等級時,容易發(fā)生錯誤,特別是相鄰的等級。例如,下面的文本:

一次點亮,完美兼容,唯一可惜的就是32bit的win7只能識別3G的內(nèi)存,顯示的是“4G(2.99G可用)”,不想破解系統(tǒng),也不想換64bit的系統(tǒng),湊合用了。至少內(nèi)存增加了,而且有了雙通道,性能多少會有提升!卓越包裝那個結(jié)實啊,都有些受寵若驚,價格也實惠,贊一個!

計算機給該文本的得分為0.6分,屬于等級4,標(biāo)準(zhǔn)答案顯示該文本的等級是5。該文本有“唯一可惜”與“湊合用”,同時也有“完美兼容”與“贊一個”,兼有4級與5級的特征,因此計算機判斷起來較困難。表3顯示,電子所取得的成績沒有汽車好,主要是因為電子領(lǐng)域等級為4和5的文本占的比重大,而4與5的文本在得分上相交的范圍比較大,因此判別起來容易出錯。

(2) 有兩個評價對象時容易出錯

在汽車領(lǐng)域,用戶在評論某個品牌的車時,往往喜歡拿其他的品牌來對比,例如,“花冠比伊蘭特貴近3萬,但是聽說韓系車用幾年后小故障比較多。”對兩種對象評價意見不相同時,計算機容易誤判。

(3) 分詞與情感詞典問題

有部分是因為領(lǐng)域?qū)S性~語分詞錯誤引起的,例如,“大捷龍”是一種品牌,被誤分成“大捷”和“龍”。此外,情感詞典中有小部分領(lǐng)域?qū)S械脑u價詞語未收錄,比如“飄”用來形容汽車不穩(wěn),屬于貶義。

(4) 歸總句識別精度問題

我們從電子測試文本中抽取了前100個文本進行歸總句識別,共識別出25個含有歸總句的文本,其中顯性歸總句20個,隱性歸總句5個。通過人工鑒定,共發(fā)現(xiàn)3個錯誤,其中顯性歸總句2個,隱性歸總句1個,識別精度為0.88。

3. 方法比較

參加COAE2012的各支隊伍采用的方法以統(tǒng)計為主。以哈工大為例[20],其采用的是最大熵分類器,在篇章傾向性打分中,采用情感相似度計算方法。在汽車領(lǐng)域取得了準(zhǔn)確率75%的較好成績。但基于統(tǒng)計的方法受訓(xùn)練語料影響較大,其在電子領(lǐng)域的準(zhǔn)確率為42%,略高于平均成績。哈工大在結(jié)果分析中提到,因電子領(lǐng)域的語料來源于京東評論數(shù)據(jù),包含用戶對多種商品的評論文本,而汽車領(lǐng)域的訓(xùn)練語料和測試數(shù)據(jù)具有更相似的語言現(xiàn)象,所以電子的成績沒有汽車的好。

我們采用基于文本特征的方法,通過對短文本特征的深入分析,按歸總句的存現(xiàn)特征對短文本進行分類,針對不同的類別采用不同的對策。在篇章傾向性分析中,該方法獲得了所有參賽隊伍的最好成績。為了驗證處理歸總句和不處理歸總句對于系統(tǒng)性能的影響,去除了圖1中前面的歸總句及特征詞語計算過程,只采用計算情感句總得分,然后取平均值的做法。在同樣的測試文本上進行試驗,汽車與電子取得的準(zhǔn)確率分別為: 0.637 6與0.391 8,均略高于平均成績。采用處理歸總句的方法在汽車與電子領(lǐng)域提高的幅度分別為: 0.194 2與0.299 6。

綜合比較統(tǒng)計與規(guī)則兩種方法,統(tǒng)計的方法基本不分析語言特征,只需要建立合適的分類器,其領(lǐng)域適應(yīng)性較強,在從一個領(lǐng)域轉(zhuǎn)向另一個領(lǐng)域時,其效率要明顯優(yōu)于規(guī)則的方法。但是,統(tǒng)計的方法對訓(xùn)練語料的依賴性較大,并且,傾向性分析涉及到復(fù)雜的語言學(xué)知識,屬于較高層次的文本分析,僅把其看成特殊分類問題的做法,顯得有點簡單。規(guī)則的方法通過對語言特征的分析,針對不同的特征采取不同的處理策略,在傾向性分析中具有一定的優(yōu)勢,但其不足之處也較為明顯。規(guī)則的方法需要構(gòu)建評價與語義詞典,詞典的規(guī)模及詞的情感標(biāo)記,對傾向性分析影響較大,規(guī)則的制定需要投入較多的時間和人力。而且,隨著規(guī)則的增加,合理調(diào)整規(guī)則間的優(yōu)先級,避免沖突,也是一個較大的難題。

5 結(jié)語

本文以網(wǎng)絡(luò)評論文為樣本研究短文本傾向性分析方法。通過對短文本篇章結(jié)構(gòu)的分析,抓住對短文本傾向性有決定作用的歸總句進行處理,從而鎖定決定整個篇章情感傾向的核心內(nèi)容。該方法在COAE2012篇章級傾向性分析評測中獲得了最好成績,證明該方法是有效的。

[1] Liu B, Hu M, Cheng J. Opinion observer: analyzing and comparing opinions on the Web[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 342-351.

[2] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135.

[3] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010, 21(8): 1834-1848.

[4] 姚天昉, 程希文, 徐飛玉, 等. 文本意見挖掘綜述[J]. 中文信息學(xué)報, 2008, 22(3): 71-80.

[5] 劉康,王素格,廖祥文,等.第一屆中文傾向性分析評測技術(shù)報告[C]//第一屆中文傾向性分析評測會議(COAE2008), 北京, 2008: 1-20.

[6] Kamps J, Marx M J, Mokken R J, et al. Using wordnet to measure semantic orientations of adjectives[J]. 2004.

[7] 朱嫣嵐, 閔錦, 周雅倩, 等. 基于 HowNet 的詞匯語義傾向計算[J]. 中文信息學(xué)報, 2006, 20(1): 14-20.

[8] Kim S M, Hovy E. Determining the sentiment of opinions[C]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004: 1367.

[9] Yuen R W M, Chan T Y W, Lai T B Y, et al. Morpheme-based derivation of bipolar semantic orientation of Chinese words[C]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004: 1008.

[10] Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis[C]//Proceedings of the 14th ACM international conference on Information and knowledge management. ACM, 2005: 625-631.

[11] 李鈍, 曹付元, 曹元大, 等. 基于短語模式的文本情感分類研究[J]. 計算機科學(xué), 2008, 35(4): 132-134.

[12] 李雪燕,侯明午,侯敏,等. 漢語否定形式的傾向性研究[C]. 第四屆中文傾向性分析(COAE2012)評測研討會論文. 南昌,2012.

[13] 姚天昉, 婁德成. 漢語語句主題語義傾向分析方法的研究[J]. 中文信息學(xué)報, 2007, 21(5): 73-79.

[14] 劉康, 趙軍. 基于層疊 CRFs 模型的句子褒貶度分析研究[J]. 中文信息學(xué)報, 2008, 22(1): 123-128.

[15] 楊江, 侯敏, 王寧. 基于淺層篇章結(jié)構(gòu)的評論文傾向性分析[J]. 中文信息學(xué)報, 2011, 25(2): 83-88.

[16] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.

[17] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 417-424.

[18] 侯敏,滕永林,鄭雙美,等.話題型微博語言特點及其傾向性分析策略研究[J].語言文字應(yīng)用,2013(2): 135-143.

[19] 周紅照,侯明午,侯敏,等. 基于語義分類的比較句識別與比較要素抽取研究[C]//第四屆中文傾向性分析(COAE2012)評測研討會論文.南昌, 2012.

[20] 唐都鈺,石秋慧. HITIRSYS:COAE2012情感分析系統(tǒng)[C]//第四屆中文傾向性分析(COAE2012)評測研討會論文. 南昌,2012.

Short Text Attitude Analysis Based on Textual Characteristics

CHENG Nanchang1, HOU Min2, TENG Yonglin2

(1. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China; 2. Broadcast Media Language Branch, National Langage Resources Monitoring and Research Center, Communication University of China, Beijing 100024, China)

This paper takes the online product reviews as samples to investigate the characteristics and strategies in the attitude analysis of short texts. According to different performances of decisive factors of attitude polarity, the online review texts can be divided into four categories: the text containing overt summery sentence, the texts containing covert summary sentence, the texts containing characteristic words and the normal texts. Different strategies are established to deal with different types of texts, and a text attitude analysis system CUCsas is constructed based on dictionaries and rules. The system generates promising results in the Fourth Chinese Opinion Analysis Evaluation- COAE2012.

short text;textual characteristics; summary sentence; attitude analysis; dictionary and rules

程南昌(1976—),博士,講師,主要研究領(lǐng)域為計算語言學(xué)、輿情監(jiān)測。E?mail:nanyanfei666666@126.com侯敏(1952—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為計算語言學(xué),語言監(jiān)測。E?mail:houmin@cuc.edu.cn滕永林(1962—),副教授,主要研究領(lǐng)域為語言信息處理。E?mail:tengyonglin@cuc.edu.cn

1003-0077(2015)02-0163-07

2012-12-06 定稿日期: 2013-09-24

國家語委十二五規(guī)劃重點項目(ZDI125-3)。

TP391

A

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产高清色视频免费看的网址| 中文国产成人精品久久| 国产成+人+综合+亚洲欧美| 久久99蜜桃精品久久久久小说| 国产精品片在线观看手机版| 欧美亚洲第一页| 欧美日韩一区二区在线播放| 91国内外精品自在线播放| 蜜臀AVWWW国产天堂| 久久人搡人人玩人妻精品 | 中文字幕欧美日韩高清| 国内精品久久人妻无码大片高| 国产黄视频网站| 欧美精品亚洲二区| 视频二区中文无码| 国产精品久久久久久久久| 国产区91| 亚洲日韩国产精品综合在线观看| 特级精品毛片免费观看| 青青热久免费精品视频6| 国产精品丝袜视频| 亚洲综合色婷婷| 精品国产免费人成在线观看| 伊人婷婷色香五月综合缴缴情| 真实国产精品vr专区| 日本人又色又爽的视频| 成年人视频一区二区| 又黄又湿又爽的视频| 久久这里只有精品66| 国产日韩欧美一区二区三区在线| 色悠久久久久久久综合网伊人| 99久久这里只精品麻豆| 国产v精品成人免费视频71pao | 国产欧美在线| 欧洲高清无码在线| 国产在线日本| 亚洲午夜18| 欧美啪啪网| 日韩欧美中文在线| 夜夜拍夜夜爽| 1024国产在线| 欧美亚洲第一页| 国产精品九九视频| 日韩精品亚洲一区中文字幕| 四虎影视无码永久免费观看| 久久国产精品影院| 67194亚洲无码| 日本国产一区在线观看| 天堂在线www网亚洲| 亚洲午夜福利精品无码不卡| 在线视频精品一区| 天天综合网亚洲网站| 国产在线观看精品| 最新国产在线| 国产另类视频| 日韩美毛片| 婷婷六月激情综合一区| 朝桐光一区二区| 99re视频在线| 亚亚洲乱码一二三四区| 青青极品在线| 国产va免费精品观看| 在线观看91香蕉国产免费| 亚欧成人无码AV在线播放| 91 九色视频丝袜| 成人午夜视频免费看欧美| 久久午夜夜伦鲁鲁片不卡| 热伊人99re久久精品最新地| 91精品国产自产在线观看| 国产麻豆精品久久一二三| 91九色最新地址| 午夜视频www| 国产亚洲精品自在久久不卡 | 国产中文一区二区苍井空| 亚洲资源站av无码网址| a毛片免费在线观看| 乱人伦中文视频在线观看免费| 毛片在线区| 久久永久免费人妻精品| 91成人免费观看| 亚洲欧洲国产成人综合不卡| 国内精品久久久久鸭|