基于主題的微博小句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞分析

2016-05-09 09:47:26牟彥霏

現(xiàn)代語(yǔ)文 2016年3期

摘要：本文針對(duì)給定主題的微博小句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞情況，采取基于規(guī)則的方法，利用（CUCsas）傾向性分析系統(tǒng)（CUCsas），以第八屆SIGHAN中文信息處理研討會(huì)（SIGHAN-8）提供的評(píng)測(cè)語(yǔ)料為研究對(duì)象進(jìn)行實(shí)驗(yàn)，并得出相關(guān)結(jié)論。

關(guān)鍵詞：評(píng)價(jià) 微博主題規(guī)則

一、研究背景

目前，傾向性分析主要集中于詞語(yǔ)、句子、語(yǔ)篇三個(gè)層面，采用的主要是基于規(guī)則與基于機(jī)器學(xué)習(xí)的方法兩種。這兩種技術(shù)在傾向性分析領(lǐng)域各有優(yōu)劣。基于規(guī)則的方法對(duì)語(yǔ)言本體研究較為深入，對(duì)于指定語(yǔ)料分析效果較好，但普適性相對(duì)不高。基于機(jī)器學(xué)習(xí)的方法在COAE、CCF等歷屆評(píng)測(cè)中雖占據(jù)主流，但效果并不理想。

雖然目前國(guó)內(nèi)對(duì)微博的傾向性分析研究較多，但大多集中于整體文本的處理與策略的研究，而對(duì)特定微博主題的評(píng)價(jià)對(duì)象與評(píng)價(jià)詞的句內(nèi)或跨句搭配研究并不十分深入。本文針對(duì)這類問(wèn)題，采取基于規(guī)則的方法，利用CUCsas傾向性分析系統(tǒng)，以第八屆SIGHAN中文信息處理研討會(huì)（SIGHAN-8）提供的評(píng)測(cè)語(yǔ)料為研究對(duì)象進(jìn)行實(shí)驗(yàn)，并得出相關(guān)結(jié)論。

二、相關(guān)工作

（一）系統(tǒng)及運(yùn)行流程

傾向性分析系統(tǒng)（CUCsas）由短語(yǔ)和句子傾向性計(jì)算規(guī)則解釋器、評(píng)價(jià)對(duì)象抽取與極性判定規(guī)則解釋器以及詞典、規(guī)則庫(kù)組成。短語(yǔ)和句子傾向性計(jì)算規(guī)則解釋器加載語(yǔ)料、詞典、短語(yǔ)規(guī)則庫(kù)。詞典除原有分詞詞典以外，還包括用戶詞典、情感詞典、褒貶值詞典、語(yǔ)義詞典等多部詞典。借助詞典對(duì)語(yǔ)料進(jìn)行分詞及詞性、語(yǔ)義、傾向、傾向值4層標(biāo)注。詞典加載切分結(jié)束后，進(jìn)行短語(yǔ)規(guī)則庫(kù)匹配，根據(jù)規(guī)則與相關(guān)公式對(duì)整個(gè)句子或整條微博進(jìn)行傾向值的計(jì)算。傾向性計(jì)算后，通過(guò)評(píng)價(jià)對(duì)象抽取與極性判定規(guī)則解釋器對(duì)評(píng)價(jià)對(duì)象提取規(guī)則進(jìn)行解釋，完成評(píng)價(jià)對(duì)象的抽取。

本次評(píng)測(cè)的任務(wù)是基于主題的漢語(yǔ)短信息極性分類（Topic-Based Chinese Message Polarity Classification），語(yǔ)料中主題（topic）已經(jīng)給定，因此傾向性分析系統(tǒng)（CUCsas）在運(yùn)行時(shí)與以往略有不同，不再提取評(píng)價(jià)對(duì)象，而在語(yǔ)義詞典中對(duì)給定或與之相關(guān)的主題賦予“topic”的標(biāo)簽。

（二）確定評(píng)價(jià)對(duì)象

本次評(píng)測(cè)提供的訓(xùn)練語(yǔ)料共5000條微博，分為五個(gè)話題，分別是：日本馬桶、三星S6、霧霾、央行降息、油價(jià)。其中非評(píng)價(jià)句4016條，評(píng)價(jià)句984條。每個(gè)話題各1000條。根據(jù)評(píng)測(cè)給定的五個(gè)話題，我們對(duì)央行、央媽、油價(jià)、霧霾、降息、馬桶蓋、馬桶、馬桶圈、馬桶蓋子、日本馬桶、s6、S6、三星、三星S6、三星s6、S6旗艦、S6手機(jī)、三星手機(jī)、S6手機(jī)、S系列、Edge、edge、GalaxyS6Edge、GalaxyS6、S6旗艦等詞或短語(yǔ)賦予“topic”的標(biāo)記。我們暫時(shí)認(rèn)為這些詞是評(píng)價(jià)對(duì)象。

（三）選取語(yǔ)料

由于本次評(píng)測(cè)提供的訓(xùn)練語(yǔ)料中非評(píng)價(jià)句居多，為保證研究效果，我們從5000條微博中每話題選取100句能確定答案正確的微博，且選取的評(píng)價(jià)句與非評(píng)價(jià)句數(shù)量基本相當(dāng)。最終在500句中確定評(píng)價(jià)句228條，非評(píng)價(jià)句272條。評(píng)價(jià)句中褒義有79句，貶義有149句。

微博語(yǔ)料與以前傳統(tǒng)語(yǔ)料在形式、內(nèi)容上都有很大差別。由于微博具有“轉(zhuǎn)發(fā)”功能，因此用戶除發(fā)表自己觀點(diǎn)以外還可以轉(zhuǎn)發(fā)其他用戶內(nèi)容，因此在形式上就會(huì)出現(xiàn)一些特殊標(biāo)記。如“轉(zhuǎn)發(fā)”會(huì)有“//”標(biāo)記。發(fā)布或轉(zhuǎn)發(fā)新聞時(shí)，新聞標(biāo)題會(huì)用“【】”標(biāo)記。我們認(rèn)為新聞標(biāo)題中的評(píng)價(jià)詞不是針對(duì)整個(gè)微博做出的評(píng)價(jià)，因此對(duì)語(yǔ)料進(jìn)行預(yù)處理時(shí)首先屏蔽掉了“【】”中的內(nèi)容。

（四）相關(guān)數(shù)據(jù)統(tǒng)計(jì)

為了研究微博句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞距離關(guān)系，運(yùn)行如下短語(yǔ)規(guī)則進(jìn)行實(shí)驗(yàn)：

*/w+#[*/！（w|topic）]+*/（po|ne）+#[*/！（w|topic）]=#3：0

該規(guī)則的含義是：兩相鄰標(biāo)點(diǎn)間（即小句內(nèi)）如果有評(píng)價(jià)詞而沒(méi)有主題“topic”標(biāo)記，則取消評(píng)價(jià)詞的情感值。這是一條覆蓋面非常廣的規(guī)則，如果將該規(guī)則放在所有短語(yǔ)規(guī)則最前面，則其他規(guī)則必須經(jīng)過(guò)此規(guī)則篩選后方可運(yùn)行，而如果放在后面則此規(guī)則毫無(wú)意義。這條規(guī)則對(duì)主題與評(píng)價(jià)詞在小句內(nèi)共現(xiàn)的情況可以得到較好處理，但對(duì)于跨句評(píng)價(jià)的情況則判斷錯(cuò)誤。因此該規(guī)則只是用來(lái)驗(yàn)證研究微博句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞距離關(guān)系，而不能盲目地放進(jìn)系統(tǒng)作為常駐規(guī)則運(yùn)行。

系統(tǒng)未運(yùn)行該規(guī)則前，短語(yǔ)規(guī)則計(jì)算出5000條微博的總體準(zhǔn)確率為54.42%，500條微博為76.2%；運(yùn)行該規(guī)則后5000條微博總體準(zhǔn)確率為71.9%，500條微博為72.4%。系統(tǒng)未運(yùn)行該規(guī)則前評(píng)價(jià)規(guī)則計(jì)算出5000條微博的總體準(zhǔn)確率為73.82%，500條微博為77%；運(yùn)行該規(guī)則后5000條微博總體準(zhǔn)確率為75.66%，500條微博為69.2%。

對(duì)500條微博語(yǔ)料進(jìn)行統(tǒng)計(jì)。從小句的角度看，文本中出現(xiàn)主題“topic”標(biāo)記809處，“topic”標(biāo)記與評(píng)價(jià)詞（即帶有“ne”或“po”標(biāo)記的詞）出現(xiàn)在同一小句的情況314處。以每條微博為單位進(jìn)行統(tǒng)計(jì)，小句中有“topic”標(biāo)記而無(wú)評(píng)價(jià)詞標(biāo)記的情況有182處，占總數(shù)的36.4%。“topic”標(biāo)記與評(píng)價(jià)詞標(biāo)記在小句中共現(xiàn)的情況有259處，占總數(shù)的51.8%。整篇微博中因?yàn)椤啊尽俊毙侣剺?biāo)題標(biāo)記而預(yù)處理的文本中有“topic”標(biāo)記的情況有58處，占總數(shù)的11.6%。

三、實(shí)驗(yàn)結(jié)果分析

（一）運(yùn)行小句內(nèi)規(guī)則

從整體看，5000句微博在運(yùn)行該規(guī)則后短語(yǔ)規(guī)則的總體準(zhǔn)確率由54.42%提升到71.9%；從準(zhǔn)確率看，褒義、貶義都有所提升，但中性下降；從召回率看，褒義、貶義下降幅度較大而中性提升幅度較大；從F值看，褒義、貶義都有所下降，中性較大幅度提升。500句微博褒義、貶義、中性的準(zhǔn)確率、召回率變化情況與5000條微博大致相當(dāng)，但F值有所下降，整體準(zhǔn)確率由77%降為69.2%。

5000條微博的語(yǔ)料中，非評(píng)價(jià)句占大多數(shù)，而該規(guī)則屏蔽掉了大量評(píng)價(jià)詞的值，這就將很多原系統(tǒng)歸為評(píng)價(jià)句的微博歸到非評(píng)價(jià)句中，從而使得總體正確率有較大提高，但召回率褒義、貶義都有所下降而中性提高。由此可見(jiàn)，500篇評(píng)價(jià)句與非評(píng)價(jià)句數(shù)量大致相當(dāng)?shù)恼Z(yǔ)料在運(yùn)行該規(guī)則時(shí)說(shuō)服力可能相對(duì)強(qiáng)一些。

由于該規(guī)則放在所有規(guī)則之前運(yùn)行，且傾向性分析系統(tǒng)（CUCsas）先運(yùn)行短語(yǔ)規(guī)則之后再運(yùn)行評(píng)價(jià)規(guī)則，因此在該條規(guī)則的影響下，運(yùn)行評(píng)價(jià)規(guī)則情況與短語(yǔ)規(guī)則大致相當(dāng)。

（二）主題“topic”與評(píng)價(jià)詞共現(xiàn)情況

通過(guò)語(yǔ)料可知，主題“topic”與評(píng)價(jià)詞共現(xiàn)情況占總數(shù)的51.8%。運(yùn)行主題“topic”與評(píng)價(jià)詞的小句共現(xiàn)規(guī)則，整體正確率為64.09%，中性準(zhǔn)確率最高，達(dá)86.67%。可見(jiàn)，小句中主題詞與評(píng)價(jià)詞共現(xiàn)情況在總文本中所占比例較大，且小句內(nèi)的評(píng)價(jià)詞對(duì)評(píng)價(jià)對(duì)象（即主題“topic”）有很大影響。如：

（-1）（Y：-0.25）【1-1-427】（：/w）（魅族/nq）（黃章/nr）（叫板/v）（三星/nq）（Galaxy/x）（S6/nq）（也/d/clue）（不/d/mone1）（過(guò)/v）（如此/r/mopo：-0.25）（！/w）（http/x）（@/w）（鳳凰/n）（新聞/n）（客戶端/n）

例句中被標(biāo)記“topic”的詞為“三星”和“S6”。

（三）主題“topic”與評(píng)價(jià)詞跨句情況

這種情況下小句內(nèi)無(wú)評(píng)價(jià)詞對(duì)主題topic產(chǎn)生影響。因此，中性切分較好，達(dá)97.16%，而褒義、貶義切分較差。

如果將該規(guī)則放在所有短語(yǔ)規(guī)則前運(yùn)行，因?yàn)橹黝}topic與評(píng)價(jià)詞不在同一小句內(nèi)，本應(yīng)該所有小句都被認(rèn)為是非評(píng)價(jià)句，但這種情況下CUCsas傾向性分析系統(tǒng)切分得到的結(jié)果存在有傾向性的情況。如：

（-1）（Y：-0.25）【312-312-8657】（：/w）（出來(lái)/v）（混/v）（早晚/n）（還是/d/clue）（要/v）（還/v）（的/u）（，/w）（柴靜/nr）（你/r）（也/d/clue）（不/d/mone1）（過(guò)/v）（如此/r/mopo：-0.25）（。/w）（——/w）（看到/v）（周忠民/nr）（的/u）（博文/n）（《/w）（崔永元/nr）（點(diǎn)評(píng)/v）（柴靜/nr）（：/w）（紀(jì)錄片/n）（如果/c）（能/v）（治/v）（霧霾/n）（，/w）（還/d）（要/v）（有關(guān)/v）（部門/n）（干/a）（啥/r）（》/w）（有感而發(fā)/lv）（的/u）（評(píng)論/v）（。/w）（http/x）

出現(xiàn)這種情況的原因是，“如此/r/mopo：-0.25”這類詞或語(yǔ)的情感值不是在情感詞典中被賦予的，而是運(yùn)行短語(yǔ)規(guī)則后得到情感值。

例句中“如此/r/mopo：-0.25”運(yùn)行的短語(yǔ)規(guī)則是：

（1）不/d+過(guò)/%+如此/%+*/w|y=#3：-0.25

（1）VL=N1

例句中第一條規(guī)則的含義是，副詞“不”與任意詞性的“過(guò)”“如此”三詞連用時(shí)，如果后面直接連接任意標(biāo)點(diǎn)符號(hào)或語(yǔ)氣詞時(shí)，該規(guī)則中匹配的第三項(xiàng)（即例句中的“如此”）被賦予“-0.25”的情感值。該規(guī)則運(yùn)行一次。例1中第二條規(guī)則是匹配沒(méi)有關(guān)系的句子，第一條規(guī)則運(yùn)行幾次就產(chǎn)生幾個(gè)“VL”。該例句中第一條規(guī)則運(yùn)行一次，產(chǎn)生一個(gè)“VL”，則該句的情感值就是“VL”的值。第二條規(guī)則運(yùn)行一次。

雖然小句內(nèi)規(guī)則導(dǎo)致了很多錯(cuò)誤，但（CUCsas）傾向性分析系統(tǒng)（CUCsas）有一定的修正能力。由此可見(jiàn)，基于規(guī)則的方法在解決這類問(wèn)題上非常有效果。

（四）小句內(nèi)規(guī)則放在短語(yǔ)規(guī)則最后

本文前面對(duì)小句內(nèi)規(guī)則“*/w+#[*/！（w|topic）]+*/（po|ne）+#[*/！（w|topic）]=#3：0”放在短語(yǔ)規(guī)則最前部的情況進(jìn)行了相關(guān)實(shí)驗(yàn)，對(duì)主題“topic”與評(píng)價(jià)詞在小句內(nèi)外的情況進(jìn)行了驗(yàn)證。我們可以看出，該規(guī)則對(duì)語(yǔ)料的影響非常大，雖然可以解決一定問(wèn)題，但也導(dǎo)致了很多不可解決的錯(cuò)誤。盡管（CUCsas）傾向性分析系統(tǒng)（CUCsas）有一定的修正能力，但不能保證準(zhǔn)確客觀。該規(guī)則最大的問(wèn)題是過(guò)分地將很多跨句對(duì)評(píng)價(jià)對(duì)象進(jìn)行評(píng)價(jià)的詞取消了情感值。為了避免這一點(diǎn)，下面將該規(guī)則置于短語(yǔ)規(guī)則最后面，使用500條微博語(yǔ)料進(jìn)行實(shí)驗(yàn)，短語(yǔ)規(guī)則計(jì)算得出總體準(zhǔn)確率為76.6%。運(yùn)行評(píng)價(jià)規(guī)則后，總體準(zhǔn)確率為73%。整體來(lái)看，將規(guī)則置于最后雖然比將規(guī)則置于最前效果好一些，運(yùn)行短語(yǔ)規(guī)則后總體準(zhǔn)確率較原系統(tǒng)也略高，但運(yùn)行評(píng)價(jià)規(guī)則后效果依然不如原系統(tǒng)好。

四、結(jié)語(yǔ)

本文在傾向性分析系統(tǒng)（CUCsas）的基礎(chǔ)上，通過(guò)基于規(guī)則的方法對(duì)微博句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞距離進(jìn)行了相關(guān)實(shí)驗(yàn)。驗(yàn)證發(fā)現(xiàn)，雖然目前基于規(guī)則的方法在學(xué)術(shù)界并不是普遍流行的用法，但我們堅(jiān)信基于規(guī)則的方法對(duì)語(yǔ)言的深度研究是十分必要的。

本文只是從5000條微博中抽取500條作為樣例進(jìn)行研究，由于能力與精力所限，研究的語(yǔ)料規(guī)模不夠大，語(yǔ)料分析的程度不夠細(xì)致，所得結(jié)論也存在很多偏差，沒(méi)能完全做到科學(xué)準(zhǔn)確，仍需進(jìn)一步探索與研究。對(duì)微博文本進(jìn)行傾向性分析有非常重要的研究?jī)r(jià)值和應(yīng)用價(jià)值，相關(guān)問(wèn)題有待進(jìn)一步探討。

參考文獻(xiàn)：

[1]侯敏，滕永林，李雪燕等.話題型微博語(yǔ)言特點(diǎn)及其情感分析策

略[J].語(yǔ)言文字應(yīng)用，2013，（2）：135?143.

[2]劉鴻宇，趙妍妍，秦兵等.評(píng)價(jià)對(duì)象抽取及其傾向性分析[J].

中文信息學(xué)學(xué)報(bào)，2010，（1）：84?88

[3]周紅照，侯明午，顏彭莉等.語(yǔ)義特征在評(píng)價(jià)對(duì)象抽取與極性

判定中的作用[J].北京大學(xué)學(xué)報(bào)（自然科學(xué)版），2014，（1）：93-99.

（牟彥霏北京中國(guó)傳媒大學(xué)文法學(xué)部文學(xué)院 100024）