999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題的微博小句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞分析

2016-05-09 09:47:26牟彥霏
現(xiàn)代語(yǔ)文 2016年3期
關(guān)鍵詞:規(guī)則評(píng)價(jià)

摘 要:本文針對(duì)給定主題的微博小句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞情況,采取基于規(guī)則的方法,利用(CUCsas)傾向性分析系統(tǒng)(CUCsas),以第八屆SIGHAN中文信息處理研討會(huì)(SIGHAN-8)提供的評(píng)測(cè)語(yǔ)料為研究對(duì)象進(jìn)行實(shí)驗(yàn),并得出相關(guān)結(jié)論。

關(guān)鍵詞:評(píng)價(jià) 微博 主題 規(guī)則

一、研究背景

目前,傾向性分析主要集中于詞語(yǔ)、句子、語(yǔ)篇三個(gè)層面,采用的主要是基于規(guī)則與基于機(jī)器學(xué)習(xí)的方法兩種。這兩種技術(shù)在傾向性分析領(lǐng)域各有優(yōu)劣。基于規(guī)則的方法對(duì)語(yǔ)言本體研究較為深入,對(duì)于指定語(yǔ)料分析效果較好,但普適性相對(duì)不高。基于機(jī)器學(xué)習(xí)的方法在COAE、CCF等歷屆評(píng)測(cè)中雖占據(jù)主流,但效果并不理想。

雖然目前國(guó)內(nèi)對(duì)微博的傾向性分析研究較多,但大多集中于整體文本的處理與策略的研究,而對(duì)特定微博主題的評(píng)價(jià)對(duì)象與評(píng)價(jià)詞的句內(nèi)或跨句搭配研究并不十分深入。本文針對(duì)這類問(wèn)題,采取基于規(guī)則的方法,利用CUCsas傾向性分析系統(tǒng),以第八屆SIGHAN中文信息處理研討會(huì)(SIGHAN-8)提供的評(píng)測(cè)語(yǔ)料為研究對(duì)象進(jìn)行實(shí)驗(yàn),并得出相關(guān)結(jié)論。

二、相關(guān)工作

(一)系統(tǒng)及運(yùn)行流程

傾向性分析系統(tǒng)(CUCsas)由短語(yǔ)和句子傾向性計(jì)算規(guī)則解釋器、評(píng)價(jià)對(duì)象抽取與極性判定規(guī)則解釋器以及詞典、規(guī)則庫(kù)組成。短語(yǔ)和句子傾向性計(jì)算規(guī)則解釋器加載語(yǔ)料、詞典、短語(yǔ)規(guī)則庫(kù)。詞典除原有分詞詞典以外,還包括用戶詞典、情感詞典、褒貶值詞典、語(yǔ)義詞典等多部詞典。借助詞典對(duì)語(yǔ)料進(jìn)行分詞及詞性、語(yǔ)義、傾向、傾向值4層標(biāo)注。詞典加載切分結(jié)束后,進(jìn)行短語(yǔ)規(guī)則庫(kù)匹配,根據(jù)規(guī)則與相關(guān)公式對(duì)整個(gè)句子或整條微博進(jìn)行傾向值的計(jì)算。傾向性計(jì)算后,通過(guò)評(píng)價(jià)對(duì)象抽取與極性判定規(guī)則解釋器對(duì)評(píng)價(jià)對(duì)象提取規(guī)則進(jìn)行解釋,完成評(píng)價(jià)對(duì)象的抽取。

本次評(píng)測(cè)的任務(wù)是基于主題的漢語(yǔ)短信息極性分類(Topic-Based Chinese Message Polarity Classification),語(yǔ)料中主題(topic)已經(jīng)給定,因此傾向性分析系統(tǒng)(CUCsas)在運(yùn)行時(shí)與以往略有不同,不再提取評(píng)價(jià)對(duì)象,而在語(yǔ)義詞典中對(duì)給定或與之相關(guān)的主題賦予“topic”的標(biāo)簽。

(二)確定評(píng)價(jià)對(duì)象

本次評(píng)測(cè)提供的訓(xùn)練語(yǔ)料共5000條微博,分為五個(gè)話題,分別是:日本馬桶、三星S6、霧霾、央行降息、油價(jià)。其中非評(píng)價(jià)句4016條,評(píng)價(jià)句984條。每個(gè)話題各1000條。根據(jù)評(píng)測(cè)給定的五個(gè)話題,我們對(duì)央行、央媽、油價(jià)、霧霾、降息、馬桶蓋、馬桶、馬桶圈、馬桶蓋子、日本馬桶、s6、S6、三星、三星S6、三星s6、S6旗艦、S6手機(jī)、三星手機(jī)、S6手機(jī)、S系列、Edge、edge、GalaxyS6Edge、GalaxyS6、S6旗艦等詞或短語(yǔ)賦予“topic”的標(biāo)記。我們暫時(shí)認(rèn)為這些詞是評(píng)價(jià)對(duì)象。

(三)選取語(yǔ)料

由于本次評(píng)測(cè)提供的訓(xùn)練語(yǔ)料中非評(píng)價(jià)句居多,為保證研究效果,我們從5000條微博中每話題選取100句能確定答案正確的微博,且選取的評(píng)價(jià)句與非評(píng)價(jià)句數(shù)量基本相當(dāng)。最終在500句中確定評(píng)價(jià)句228條,非評(píng)價(jià)句272條。評(píng)價(jià)句中褒義有79句,貶義有149句。

微博語(yǔ)料與以前傳統(tǒng)語(yǔ)料在形式、內(nèi)容上都有很大差別。由于微博具有“轉(zhuǎn)發(fā)”功能,因此用戶除發(fā)表自己觀點(diǎn)以外還可以轉(zhuǎn)發(fā)其他用戶內(nèi)容,因此在形式上就會(huì)出現(xiàn)一些特殊標(biāo)記。如“轉(zhuǎn)發(fā)”會(huì)有“//”標(biāo)記。發(fā)布或轉(zhuǎn)發(fā)新聞時(shí),新聞標(biāo)題會(huì)用“【】”標(biāo)記。我們認(rèn)為新聞標(biāo)題中的評(píng)價(jià)詞不是針對(duì)整個(gè)微博做出的評(píng)價(jià),因此對(duì)語(yǔ)料進(jìn)行預(yù)處理時(shí)首先屏蔽掉了“【】”中的內(nèi)容。

(四)相關(guān)數(shù)據(jù)統(tǒng)計(jì)

為了研究微博句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞距離關(guān)系,運(yùn)行如下短語(yǔ)規(guī)則進(jìn)行實(shí)驗(yàn):

*/w+#[*/!(w|topic)]+*/(po|ne)+#[*/!(w|topic)]=#3:0

該規(guī)則的含義是:兩相鄰標(biāo)點(diǎn)間(即小句內(nèi))如果有評(píng)價(jià)詞而沒(méi)有主題“topic”標(biāo)記,則取消評(píng)價(jià)詞的情感值。這是一條覆蓋面非常廣的規(guī)則,如果將該規(guī)則放在所有短語(yǔ)規(guī)則最前面,則其他規(guī)則必須經(jīng)過(guò)此規(guī)則篩選后方可運(yùn)行,而如果放在后面則此規(guī)則毫無(wú)意義。這條規(guī)則對(duì)主題與評(píng)價(jià)詞在小句內(nèi)共現(xiàn)的情況可以得到較好處理,但對(duì)于跨句評(píng)價(jià)的情況則判斷錯(cuò)誤。因此該規(guī)則只是用來(lái)驗(yàn)證研究微博句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞距離關(guān)系,而不能盲目地放進(jìn)系統(tǒng)作為常駐規(guī)則運(yùn)行。

系統(tǒng)未運(yùn)行該規(guī)則前,短語(yǔ)規(guī)則計(jì)算出5000條微博的總體準(zhǔn)確率為54.42%,500條微博為76.2%;運(yùn)行該規(guī)則后5000條微博總體準(zhǔn)確率為71.9%,500條微博為72.4%。系統(tǒng)未運(yùn)行該規(guī)則前評(píng)價(jià)規(guī)則計(jì)算出5000條微博的總體準(zhǔn)確率為73.82%,500條微博為77%;運(yùn)行該規(guī)則后5000條微博總體準(zhǔn)確率為75.66%,500條微博為69.2%。

對(duì)500條微博語(yǔ)料進(jìn)行統(tǒng)計(jì)。從小句的角度看,文本中出現(xiàn)主題“topic”標(biāo)記809處,“topic”標(biāo)記與評(píng)價(jià)詞(即帶有“ne”或“po”標(biāo)記的詞)出現(xiàn)在同一小句的情況314處。以每條微博為單位進(jìn)行統(tǒng)計(jì),小句中有“topic”標(biāo)記而無(wú)評(píng)價(jià)詞標(biāo)記的情況有182處,占總數(shù)的36.4%。“topic”標(biāo)記與評(píng)價(jià)詞標(biāo)記在小句中共現(xiàn)的情況有259處,占總數(shù)的51.8%。整篇微博中因?yàn)椤啊尽俊毙侣剺?biāo)題標(biāo)記而預(yù)處理的文本中有“topic”標(biāo)記的情況有58處,占總數(shù)的11.6%。

三、實(shí)驗(yàn)結(jié)果分析

(一)運(yùn)行小句內(nèi)規(guī)則

從整體看,5000句微博在運(yùn)行該規(guī)則后短語(yǔ)規(guī)則的總體準(zhǔn)確率由54.42%提升到71.9%;從準(zhǔn)確率看,褒義、貶義都有所提升,但中性下降;從召回率看,褒義、貶義下降幅度較大而中性提升幅度較大;從F值看,褒義、貶義都有所下降,中性較大幅度提升。500句微博褒義、貶義、中性的準(zhǔn)確率、召回率變化情況與5000條微博大致相當(dāng),但F值有所下降,整體準(zhǔn)確率由77%降為69.2%。

5000條微博的語(yǔ)料中,非評(píng)價(jià)句占大多數(shù),而該規(guī)則屏蔽掉了大量評(píng)價(jià)詞的值,這就將很多原系統(tǒng)歸為評(píng)價(jià)句的微博歸到非評(píng)價(jià)句中,從而使得總體正確率有較大提高,但召回率褒義、貶義都有所下降而中性提高。由此可見(jiàn),500篇評(píng)價(jià)句與非評(píng)價(jià)句數(shù)量大致相當(dāng)?shù)恼Z(yǔ)料在運(yùn)行該規(guī)則時(shí)說(shuō)服力可能相對(duì)強(qiáng)一些。

由于該規(guī)則放在所有規(guī)則之前運(yùn)行,且傾向性分析系統(tǒng)(CUCsas)先運(yùn)行短語(yǔ)規(guī)則之后再運(yùn)行評(píng)價(jià)規(guī)則,因此在該條規(guī)則的影響下,運(yùn)行評(píng)價(jià)規(guī)則情況與短語(yǔ)規(guī)則大致相當(dāng)。

(二)主題“topic”與評(píng)價(jià)詞共現(xiàn)情況

通過(guò)語(yǔ)料可知,主題“topic”與評(píng)價(jià)詞共現(xiàn)情況占總數(shù)的51.8%。運(yùn)行主題“topic”與評(píng)價(jià)詞的小句共現(xiàn)規(guī)則,整體正確率為64.09%,中性準(zhǔn)確率最高,達(dá)86.67%。可見(jiàn),小句中主題詞與評(píng)價(jià)詞共現(xiàn)情況在總文本中所占比例較大,且小句內(nèi)的評(píng)價(jià)詞對(duì)評(píng)價(jià)對(duì)象(即主題“topic”)有很大影響。如:

(-1)(Y:-0.25)【1-1-427】(:/w)(魅族/nq)(黃章/nr)(叫板/v)(三星/nq)(Galaxy/x)(S6/nq)(也/d/clue)(不/d/mone1)(過(guò)/v)(如此/r/mopo:-0.25)(!/w)(http/x)(@/w)(鳳凰/n)(新聞/n)(客戶端/n)

例句中被標(biāo)記“topic”的詞為“三星”和“S6”。

(三)主題“topic”與評(píng)價(jià)詞跨句情況

這種情況下小句內(nèi)無(wú)評(píng)價(jià)詞對(duì)主題topic產(chǎn)生影響。因此,中性切分較好,達(dá)97.16%,而褒義、貶義切分較差。

如果將該規(guī)則放在所有短語(yǔ)規(guī)則前運(yùn)行,因?yàn)橹黝}topic與評(píng)價(jià)詞不在同一小句內(nèi),本應(yīng)該所有小句都被認(rèn)為是非評(píng)價(jià)句,但這種情況下CUCsas傾向性分析系統(tǒng)切分得到的結(jié)果存在有傾向性的情況。如:

(-1)(Y:-0.25)【312-312-8657】(:/w)(出來(lái)/v)(混/v)(早晚/n)(還是/d/clue)(要/v)(還/v)(的/u)(,/w)(柴靜/nr)(你/r)(也/d/clue)(不/d/mone1)(過(guò)/v)(如此/r/mopo:-0.25)(。/w)(——/w)(看到/v)(周忠民/nr)(的/u)(博文/n)(《/w)(崔永元/nr)(點(diǎn)評(píng)/v)(柴靜/nr)(:/w)(紀(jì)錄片/n)(如果/c)(能/v)(治/v)(霧霾/n)(,/w)(還/d)(要/v)(有關(guān)/v)(部門/n)(干/a)(啥/r)(》/w)(有感而發(fā)/lv)(的/u)(評(píng)論/v)(。/w)(http/x)

出現(xiàn)這種情況的原因是,“如此/r/mopo:-0.25”這類詞或語(yǔ)的情感值不是在情感詞典中被賦予的,而是運(yùn)行短語(yǔ)規(guī)則后得到情感值。

例句中“如此/r/mopo:-0.25”運(yùn)行的短語(yǔ)規(guī)則是:

(1)不/d+過(guò)/%+如此/%+*/w|y=#3:-0.25

(1)VL=N1

例句中第一條規(guī)則的含義是,副詞“不”與任意詞性的“過(guò)”“如此”三詞連用時(shí),如果后面直接連接任意標(biāo)點(diǎn)符號(hào)或語(yǔ)氣詞時(shí),該規(guī)則中匹配的第三項(xiàng)(即例句中的“如此”)被賦予“-0.25”的情感值。該規(guī)則運(yùn)行一次。例1中第二條規(guī)則是匹配沒(méi)有關(guān)系的句子,第一條規(guī)則運(yùn)行幾次就產(chǎn)生幾個(gè)“VL”。該例句中第一條規(guī)則運(yùn)行一次,產(chǎn)生一個(gè)“VL”,則該句的情感值就是“VL”的值。第二條規(guī)則運(yùn)行一次。

雖然小句內(nèi)規(guī)則導(dǎo)致了很多錯(cuò)誤,但(CUCsas)傾向性分析系統(tǒng)(CUCsas)有一定的修正能力。由此可見(jiàn),基于規(guī)則的方法在解決這類問(wèn)題上非常有效果。

(四)小句內(nèi)規(guī)則放在短語(yǔ)規(guī)則最后

本文前面對(duì)小句內(nèi)規(guī)則“*/w+#[*/!(w|topic)]+*/(po|ne)+#[*/!(w|topic)]=#3:0”放在短語(yǔ)規(guī)則最前部的情況進(jìn)行了相關(guān)實(shí)驗(yàn),對(duì)主題“topic”與評(píng)價(jià)詞在小句內(nèi)外的情況進(jìn)行了驗(yàn)證。我們可以看出,該規(guī)則對(duì)語(yǔ)料的影響非常大,雖然可以解決一定問(wèn)題,但也導(dǎo)致了很多不可解決的錯(cuò)誤。盡管(CUCsas)傾向性分析系統(tǒng)(CUCsas)有一定的修正能力,但不能保證準(zhǔn)確客觀。該規(guī)則最大的問(wèn)題是過(guò)分地將很多跨句對(duì)評(píng)價(jià)對(duì)象進(jìn)行評(píng)價(jià)的詞取消了情感值。為了避免這一點(diǎn),下面將該規(guī)則置于短語(yǔ)規(guī)則最后面,使用500條微博語(yǔ)料進(jìn)行實(shí)驗(yàn),短語(yǔ)規(guī)則計(jì)算得出總體準(zhǔn)確率為76.6%。運(yùn)行評(píng)價(jià)規(guī)則后,總體準(zhǔn)確率為73%。整體來(lái)看,將規(guī)則置于最后雖然比將規(guī)則置于最前效果好一些,運(yùn)行短語(yǔ)規(guī)則后總體準(zhǔn)確率較原系統(tǒng)也略高,但運(yùn)行評(píng)價(jià)規(guī)則后效果依然不如原系統(tǒng)好。

四、結(jié)語(yǔ)

本文在傾向性分析系統(tǒng)(CUCsas)的基礎(chǔ)上,通過(guò)基于規(guī)則的方法對(duì)微博句內(nèi)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞距離進(jìn)行了相關(guān)實(shí)驗(yàn)。驗(yàn)證發(fā)現(xiàn),雖然目前基于規(guī)則的方法在學(xué)術(shù)界并不是普遍流行的用法,但我們堅(jiān)信基于規(guī)則的方法對(duì)語(yǔ)言的深度研究是十分必要的。

本文只是從5000條微博中抽取500條作為樣例進(jìn)行研究,由于能力與精力所限,研究的語(yǔ)料規(guī)模不夠大,語(yǔ)料分析的程度不夠細(xì)致,所得結(jié)論也存在很多偏差,沒(méi)能完全做到科學(xué)準(zhǔn)確,仍需進(jìn)一步探索與研究。對(duì)微博文本進(jìn)行傾向性分析有非常重要的研究?jī)r(jià)值和應(yīng)用價(jià)值,相關(guān)問(wèn)題有待進(jìn)一步探討。

參考文獻(xiàn):

[1]侯敏,滕永林,李雪燕等.話題型微博語(yǔ)言特點(diǎn)及其情感分析策

略[J].語(yǔ)言文字應(yīng)用,2013,(2):135?143.

[2]劉鴻宇,趙妍妍,秦兵等.評(píng)價(jià)對(duì)象抽取及其傾向性分析[J].

中文信息學(xué)學(xué)報(bào),2010,(1):84?88

[3]周紅照,侯明午,顏彭莉等.語(yǔ)義特征在評(píng)價(jià)對(duì)象抽取與極性

判定中的作用[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,(1):93-99.

(牟彥霏 北京 中國(guó)傳媒大學(xué)文法學(xué)部文學(xué)院 100024)

猜你喜歡
規(guī)則評(píng)價(jià)
撐竿跳規(guī)則的制定
SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
數(shù)獨(dú)的規(guī)則和演變
中藥治療室性早搏系統(tǒng)評(píng)價(jià)再評(píng)價(jià)
規(guī)則的正確打開(kāi)方式
幸福(2018年33期)2018-12-05 05:22:42
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
搜索新規(guī)則
基于Moodle的學(xué)習(xí)評(píng)價(jià)
關(guān)于項(xiàng)目后評(píng)價(jià)中“專項(xiàng)”后評(píng)價(jià)的探討
主站蜘蛛池模板: 国产成人久久综合一区| 一本大道无码日韩精品影视| 亚洲日韩精品欧美中文字幕| 色首页AV在线| 欧美伊人色综合久久天天| 人人91人人澡人人妻人人爽| 日本成人一区| 丝袜亚洲综合| 一区二区三区四区精品视频 | 亚洲日本一本dvd高清| 亚洲,国产,日韩,综合一区| 亚洲男人天堂2018| 92精品国产自产在线观看| 情侣午夜国产在线一区无码| 色天堂无毒不卡| 激情国产精品一区| 人妻精品久久无码区| 精品精品国产高清A毛片| 亚洲欧美在线综合图区| 在线免费观看AV| 亚洲男人的天堂在线观看| 亚洲欧美日韩中文字幕在线一区| 91po国产在线精品免费观看| 亚洲乱码精品久久久久..| 国产精品熟女亚洲AV麻豆| 婷婷色狠狠干| 国产欧美日韩va另类在线播放| 伊人蕉久影院| 亚洲热线99精品视频| 天天操天天噜| 欧美精品在线看| 午夜视频免费一区二区在线看| 91精品视频在线播放| 欧美第一页在线| 2021最新国产精品网站| 国产成人综合日韩精品无码首页| 91精品啪在线观看国产60岁| 色久综合在线| 视频一本大道香蕉久在线播放| 91免费片| 婷婷亚洲天堂| 亚洲色偷偷偷鲁综合| 在线观看91精品国产剧情免费| 亚洲天堂伊人| 国产特级毛片aaaaaaa高清| 成人国产免费| 久久福利网| 手机在线免费不卡一区二| 四虎国产永久在线观看| 另类综合视频| 九九精品在线观看| 国产日韩精品一区在线不卡| 激情国产精品一区| 久久久久无码精品| 亚洲欧美在线精品一区二区| 青青青国产视频手机| 欧美成人午夜视频| 亚洲无码日韩一区| 亚洲天堂777| 亚洲欧美h| 在线观看av永久| 久久精品中文无码资源站| 一本大道香蕉高清久久| 日韩欧美国产成人| 亚洲人成网7777777国产| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲av综合网| 日本一区高清| 免费观看成人久久网免费观看| 亚洲精品视频免费看| 97精品国产高清久久久久蜜芽| 国产精品女主播| 国产精品毛片一区| 亚洲经典在线中文字幕| 黄片一区二区三区| 88av在线播放| 色综合激情网| 国产成人精品男人的天堂下载| 97亚洲色综久久精品| 亚洲av无码牛牛影视在线二区| 在线观看精品国产入口| 毛片在线播放a|