999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存關系和最大熵的特征-情感對分類

2014-02-10 05:46:08黎紅友
電子科技大學學報 2014年3期
關鍵詞:特征情感產品

張 磊,李 珊,彭 艦,陳 黎,黎紅友

(1. 四川大學計算機學院 成都 610065; 2. 四川大學商學院 成都 610065)

在當今飛速發展的互聯網時代,“情感分析”(sentiment analysis)[1-2]或“觀點挖掘”(opinion mining)[3]已經逐步成為Web數據挖掘領域的重點。為了更好地分析特征詞所包含的情感,許多研究關注的是提取產品特征詞(feature)及其相關聯的情感詞(opinion),形成特征-情感對,從而可以判斷基于特征級的情感。

文獻[4]提出了一個基于統計的方法,利用關聯規則識別高詞頻的特征詞。文獻[5]開發了一個無監督的信息提取系統OPINE,使用松散標注方法識別詞匯之間的語義傾向性。這兩類方法均依賴于詞的固定位置來發現詞間的關聯性,但針對語法結構較為靈活的中文表示則效果不佳。文獻[6]對電影評論進行分類和歸納,主要利用候選關鍵詞列表和依存關系模板識別特征-情感對,但由于使用的關鍵詞列表固定不變,因而系統的識別能力有限。文獻[7]對文獻[4]的方法進行了擴展,增加了一些規則來處理不同的句子結構。至此還沒有一個系統性的和完整的針對中文語法的依存關系模板。

針對上述已有研究的不足,本文重點針對數碼相機評論中的特征-情感對的分類進行研究,主要貢獻包括:1) 改進了文獻[8-9]的常用英文依存關系語法,總結出5種中文產品評論依存關系,可以有效地應用于產品評論特征-情感對的提取;2) 設計了基于中文依存關系的復合特征模板,利用最大熵模型進行訓練。

1 概 述

依存關系是一種非對稱的二分關系(首詞, 依存詞)[10],如圖1所示。

本文使用的依存標記包括定中關系ATT(attribute)和主謂關系SBV(subject-verb)等。圖1中提取的依存關系是SBV(漂亮, 外觀),即(漂亮, 外觀)構成了一個特征-情感對。

圖1 依存關系的標注示例

2 最大熵模型

2.1 最大熵模型

從已有研究[4-6]發現,最大熵模型的提取性能優于樸素貝葉斯模型。本文使用最大熵模型對產品特征-情感對分類[11],從而產生特征與情感相關的類及特征與情感無關的類。

2.2 特征模板的設計

針對特征詞和情感詞的提取,一個關鍵步驟就是特征模板的設計[13]。本文主要考慮以下幾類特征:特征詞和情感詞的左右詞的距離和詞性;依存關系的結構、距離以及路徑特征。其中,前者屬于語義特征[14-15],詳細過程見參考[16-17]。

3 基于依存關系的特征-情感對分類

3.1 改進的中文產品評論依存關系分析

在文獻[18-19]的英文依存關系的基礎上,本文總結出5類針對產品評論的中文特征情感詞的依存關系。主要利用了哈工大信息檢索實驗室的HIT-CDT 樹庫(HIT chinese dependency treebank)[16],采用的依存關系分析工具來源于HIT所開發的LTP依存分析模塊[17]。

5種依存關系如圖2所示。其中,PF代表產品特征詞,O代表情感詞,A代表祖先關系。

圖2 中文特征情感詞依存關系

圖2a表示“兒子關系”,即產品特征詞作為情感詞的“兒子”;圖2b表示“父親關系”,即產品特征詞作為情感詞的“父親”;圖2c表示“兄弟關系”,即產品特征詞和情感詞是同一個祖先詞的兒子;圖2d表示“子孫關系”,即情感詞與特征詞是“祖孫關系”;圖2e表示“祖父關系”,即產品特征詞與情感詞是“祖孫關系”。

祖父關系的依存關系標注如圖3所示,其他依存關系的詳細標注參考文獻[20-21]。

圖3 祖父關系

3.2 基于依存關系的特征模板

根據上述中文依存關系的特征,著重構建以下3種類型的特征模板。

3.2.1 依存關系的結構模板

依存關系結構特征模板如表1所示。

表1 依存關系結構模板

3.2.2 依存關系的距離模板

特征情感詞的距離可反映兩者的主觀聯系[20],構建距離特征模板如表2所示。

表2 依存關系距離模板

3.2.3 依存關系的路徑模板

特征詞與情感詞之間的路徑既包含了兩者的語義特征,又保證了兩者之間的路徑特殊性。因此,構建依存關系的路徑模板如表3所示。

表3 依存關系路徑模板

3.2.4 依存關系復合模板

從文獻[13]的實驗結果可以看出,利用單個模板進行特征的識別,識別率較低,且準確性較差。因此,本文針對產品特征詞和情感詞的組合,構造了7種復合特征模板,目的是提高識別的準確率。

本文使用了文獻[21]中所使用的詞性標注(partof-speech, POS)特征模板 F1F2,代表目標詞左右 2個詞及詞性,表示為:P(Fw/Sw | +/- | 1/ 2)。其中,Fw表示產品特征詞,Sw表示情感詞,P( )代表目標詞詞性。詞性特征模板如表4所示。

表4 目標詞左右鄰詞的詞性特征模板

根據上述POS特征模板F1F2,設依存關系的結構模板、距離模板和路徑模板分別為關系結構F5、F6和F7,則最終構成的7種復合模板如表5所示。

表5 依存關系復合模板

這樣,最大熵分類器將根據表5的復合模板,學習產品特征詞與情感詞之間的依存關系,最終提取出特征-情感對。綜上所述,一個完整的依存關系標注示例如圖4所示。

圖4 完整的依存關系標注示例

針對特征-情感對(外觀, 精巧),利用依存關系復合模板F1F2F5F6F7,可以依次構建特征函數如式(5)所示,其中Fw表示目標特征詞“外觀”,Sw表示目標情感詞“精巧”。

4 實驗

4.1 實驗數據

本實驗的產品評論數據來源于ZOL中關村在線(http://detail.zol.com.cn),根據文獻[13]和文獻[21]選定數碼相機評論中情感傾向性比較明顯的20個形容詞作為情感詞核心種子詞語:

褒義種子集Seed A={快、先進、好、漂亮、美觀、出色、穩定、方便、不錯、滿意}

貶義種子集Seed B={慢、低、差、遺憾、失望、落后、不足、粗糙、復雜、難看}

從爬取到的共13 217篇文檔的評論語料庫中篩選出包含上述20個情感詞的句子,至少要涉及數碼相機的品牌或產品特征。根據亞馬遜網站提供的數碼相機英文評論的數據集(包含83 005篇評論,1 350個產品,2009年8月),同時結合ZOL中關村在線的產品品牌研究報告,統計發現消費者對數碼相機主要關注的十個特征詞為:{閃光燈、電池、焦距、鏡頭、屏幕、像素、曝光、存儲卡、光圈、快門},其中,通過篩選,提取出1 553句目標句作為本次實驗的原始語料。

4.2 實驗設計和評估方法

將上述1 553句目標句集合按照4:1的比例進行隨機提取,其中1 253句作為訓練集,而剩下的300句作為測試集,所有訓練集中通過人工標注指明產品特征詞和情感詞。分類器使用的是Weka 3.6.0版本。所有測試結果都是通過5次交叉實驗得到。最大熵模型的參數ia通過GIS評估算法迭代100次得到[18]。

實驗的評估標準采用經典的查準率p、查全率r和F-score分別定義如下:

式中,TP表示被正確分類的特征-情感對的數量;FP表示被錯誤分類的數量;FN表示未被分類的數量;TP+FP表示所有被分類的數量;TP+FN表示所有正確的數量。

4.3 實驗結果和評估

為了發現各類特征模板對模型性能的影響,本實驗首先針對兩種特征-情感對形式進行對比,然后針對復合模板進行對比測試,最后同文獻[4]的方法、文獻[5]以及Baseline方法進行對比。

4.3.1 兩種特征-情感對形式對比

從1 553個目標句子中,共獲得候選特征-情感對1 876個,其中關聯對985個,非關聯對891個。按產品特征詞Fw和情感詞Sw的相對位置[13],分為:1) 形式為的候選特征-情感對共有1 537個,其中關聯對951個,非關聯對586個。2) 形式為的候選特征-情感對共有339個,其中關聯對76個,非關聯對263個。

選擇依存關系復合模板 F1F2F5F6和復合模板F1F2F6F7進行對比測試,實驗結果如表6所示。可以看出,同樣的復合模板應用于兩種形式的特征-情感對,其中形式的性能較差。這是因為在中文表達習慣中,產品特征的評論大多采用形式,這一點可從實驗的句子集合中看出。

表6 兩種特征-情感對表示方法性能比較

4.3.2 復合模板實驗

為了觀察句子的依存語法模板在特征-情感對識別中的作用,選擇表5中的4類復合模板(均包含F1、F2、F6)進行對比測試。其中,所選定的復合模板都擁有F1、F2、F6,因為通過文獻[21]實驗發現,目標詞及其詞性,以及依存關系的距離是判斷特征情感對的主要因素。結果如表7所示。

表7 復合模板性能比較

可以看出,復合模板 F1F2F5F6F7具有最高的查準率,同時F1F2F5F6模板的查全率和F-score最好,同基于句法的特征模板相比較,基于依存關系的特征模板在查全率和F-score方面有了較大的提升。

4.3.3 性能對比

將本文的依存關系模型同文獻[4]的方法和文獻[5]的方法進行對比。同時,Baseline方法使用最大熵模型,模板采用的是文獻[21]中提出的語義特征復合模板F1F2F3F4,其中F3是與目標詞相關的詞構成的模板,F4是英文字母和數字的組合模板。由于F3F4不屬于依存關系特征,故本文不作詳細闡述,請參閱文獻[21]。

利用實驗數據集分成的5個組的數據進行對比,其查準率、查全率、F-score結果分別如圖5~圖7所示,表8顯示了這4種方法的平均結果。

圖5 4種方法查準率比較

圖6 4種方法查全率比較

圖7 4種方法F-score比較

表8 4種方法平均結果對比

從查準率、查全率、F-score來看,本文方法的性能要優于Hu的方法和Popesecu的方法。從平均結果來看,本文的方法在查全率和 F-score上比Baseline方法略高,這表明本文的方法在提取未知的產品特征詞方面,即保證召回率方面,性能更為優異。

5 結 論

本文總結出了5種中文產品評論依存關系,提出了基于依存關系的復合特征模板,利用最大熵模型進行訓練,提取出產品評論的特征-情感對。在未來的研究中,將采用更廣泛的語義標注方法加工一定規模的語料,進一步探索語義和語法信息在情感分析中的作用。

[1] SANJIV D, M IKE C. Yahoo! for amazon: Extracting market sentiment from stock message boards[C]//Proceedings of the Asia Pacific Finance Association Annual Conference.Bangkok, Thailand: ACM, 2001: 127-131.

[2] RICHARD M T. An operational system for detecting and tracking opinions in on-line discussion [C]//Proceedings of the Workshop on Operational Text Classification (OTC 2001). NewOrleans, Louisiana, US: ACM, 2001: 357- 362.

[3] KUSHAL D, STEVE L, DAVID M P. M ining the peanut gallery: opinion extraction and semantic classification of product reviews[C]//Proceedings of WWW 2003. Budapest,Hungary: ACM, 2003: 519-528.

[4] HU M, LIU B. M ining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining. New York, NY, USA: ACM, 2004: 168-177.

[5] ANA M P, OREN E. Extracting product features and opinions from reviews[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing.Stroudsburg, PA, USA: ACM, 2005: 339-346.

[6] ZHUANG L, JING F, ZHU X. Movie review m ining and summarization[C]//Proceedings of the International Conference on Information and Know ledge Management.New York, NY, USA: ACM, 2006: 43-50.

[7] DING X, LIU B, YU P S. A holistic lexiconbased approach to opinion m ining[C]//Proceeding of the international conference on Web Search and Web Data M ining(WSDM’08). New York, NY, USA: ACM, 2008: 231-239.

[8] HU M in-qing, LIU Bing. M ining opinion features in customer reviews[C]//Proceedings of AAAI. Pittsburgh,USA: ACM, 2004:755-760.

[9] LIU Bing. Web data m ining: Exploring hyperlinks, contents,and usage data[M]. Berlin: Springer, 2006.

[10] DEBUSMANN, R, DENYS D, GEERT J M K. Extensible dependency grammar: a new methodology[C]//Proceedings of the Workshop on Recent Advances in Dependency Grammar. Geneva, Suisse: ACM, 2004: 78-85.

[11] JAYNES E T. information theory and statistical mechanics[J]. Physical Review Series II, 1957, 106(4):620-630.

[12] DARROCH J N, RATCLIFF D. Generalized iterative scaling for log-linear models[J]. Ann Math Statist, 1972,43(5): 1470-1480.

[13] 王素格. 基于Web的評論文本情感分類問題研究[D]. 上海: 上海大學, 2008.

WANG Su-ge. Research on problems for sentiment classification of review texts based on web[D]. Shanghai:Shanghai University, 2008.

[14] GARSIDE R, LEECH G, SAMPSON G. The computational analysis of English: a corpus-based approach [M]. London:Longman, 1987.

[15] MARCUS M P, SANTORINI B, MARCINKIEWICZ M A.Building a large annotated corpus of English: the penn treebank[J]. Computational Linguistics, 1993, 19(2):313-330.

[16] 劉挺, 馬金山, 李生. 基于詞匯支配度的漢語依存分析模型[J]. 軟件學報, 2006, 17(9): 1876-1883.

LIU Ting, MA Jin-shan, LI Sheng. Chinese dependency parsing model based on lexical governing degree[J].Journal of Software, 2006, 17(9): 1876-1883.

[17] CHE Wan-xiang, LI Zheng-hua, LIU Ting. LTP: a chinese language technology platform[C]//Proceedings of the Coling 2010. Stroudsburg, PA, USA: ACM, 2010: 13-16.

[18] QIU Guang, LIU Bing, BU Jia-jun, et al. expanding domain sentiment lexicon through double propagation[C]//IJCAI 2009. Pasadena, CA: ACM, 2009: 1199-1204.

[19] SOMPRASERTSRI G, LALITROJWONG P. M ining feature-opinion in online customer reviews for opinion summarization[J]. Journal of Universal Computer Science,2010, 16(6): 38-955.

[20] 樊娜, 蔡皖東, 趙煜. 基于最大熵模型的觀點句主觀關系提取[J]. 計算機工程, 2010, 36(2): 4-6.

FAN Na, CAI Wan-dong, ZHAO Yu. Extraction of subjective relation in opinion sentences based on maximum entropy model[J]. Computer Engineering, 2010, 36(2): 4-6.

[21] 張磊. 商業WEB挖掘關鍵技術研究[D]. 成都:四川大學,2011.

ZHANG Lei. Research on the key technologies of web data m ining in commerce[D]. Chengdu: Sichuan University,2011.

編 輯 稅 紅

猜你喜歡
特征情感產品
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
2015產品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
新產品
玩具(2009年10期)2009-11-04 02:33:14
主站蜘蛛池模板: 亚洲国内精品自在自线官| 欧美在线精品一区二区三区| 久久99精品久久久久纯品| 国产一区二区福利| 99视频在线免费| 亚洲一区免费看| 国产经典在线观看一区| 综合久久五月天| 91亚洲影院| 91麻豆精品视频| 亚洲AV无码不卡无码 | 小13箩利洗澡无码视频免费网站| 国产www网站| 呦女精品网站| 久久久久免费精品国产| 青青青亚洲精品国产| 国产精品欧美激情| 波多野结衣久久高清免费| 在线国产综合一区二区三区| 免费 国产 无码久久久| 99在线视频精品| 91福利免费| 婷婷亚洲天堂| 国产美女精品一区二区| 精品伊人久久久大香线蕉欧美 | 午夜日b视频| 成人在线视频一区| 第一页亚洲| 日韩高清成人| 亚洲av色吊丝无码| 永久毛片在线播| 亚洲第一天堂无码专区| 99精品国产自在现线观看| 福利在线不卡| 国产精品xxx| 91小视频在线观看免费版高清| 在线精品欧美日韩| 国产精品成人AⅤ在线一二三四| 亚洲AⅤ波多系列中文字幕| 在线观看免费人成视频色快速| 美女国产在线| 2024av在线无码中文最新| 国产精品视频a| 欧美亚洲中文精品三区| 亚洲AV成人一区二区三区AV| 新SSS无码手机在线观看| www.91在线播放| 国产乱子精品一区二区在线观看| 青草视频久久| 91激情视频| 亚洲中文字幕无码爆乳| 婷婷六月综合网| 亚洲中文在线视频| 国产精品爆乳99久久| 国产成人亚洲无码淙合青草| 国产成人精品一区二区秒拍1o| 天堂网国产| 米奇精品一区二区三区| 国产精品成人一区二区| 亚洲一区波多野结衣二区三区| 国产欧美日韩视频怡春院| 思思热在线视频精品| 欧美色视频在线| 免费看av在线网站网址| 88国产经典欧美一区二区三区| 国产在线一二三区| 色婷婷成人| swag国产精品| 国产新AV天堂| 精品無碼一區在線觀看 | 久久婷婷六月| 大香网伊人久久综合网2020| 最新国产午夜精品视频成人| 亚洲制服丝袜第一页| 久热这里只有精品6| 99热最新在线| 91口爆吞精国产对白第三集| 精品国产美女福到在线直播| a网站在线观看| 国产精品天干天干在线观看| 免费观看欧美性一级| 欧美日韩午夜|