基于依存關系和最大熵的特征-情感對分類

2014-02-10 05:46:08黎紅友

電子科技大學學報 2014年3期

張磊，李珊，彭艦，陳黎，黎紅友

(1. 四川大學計算機學院成都 610065； 2. 四川大學商學院成都 610065)

在當今飛速發展的互聯網時代，“情感分析”(sentiment analysis)[1-2]或“觀點挖掘”(opinion mining)[3]已經逐步成為Web數據挖掘領域的重點。為了更好地分析特征詞所包含的情感，許多研究關注的是提取產品特征詞(feature)及其相關聯的情感詞(opinion)，形成特征-情感對，從而可以判斷基于特征級的情感。

文獻[4]提出了一個基于統計的方法，利用關聯規則識別高詞頻的特征詞。文獻[5]開發了一個無監督的信息提取系統OPINE，使用松散標注方法識別詞匯之間的語義傾向性。這兩類方法均依賴于詞的固定位置來發現詞間的關聯性，但針對語法結構較為靈活的中文表示則效果不佳。文獻[6]對電影評論進行分類和歸納，主要利用候選關鍵詞列表和依存關系模板識別特征-情感對，但由于使用的關鍵詞列表固定不變，因而系統的識別能力有限。文獻[7]對文獻[4]的方法進行了擴展，增加了一些規則來處理不同的句子結構。至此還沒有一個系統性的和完整的針對中文語法的依存關系模板。

針對上述已有研究的不足，本文重點針對數碼相機評論中的特征-情感對的分類進行研究，主要貢獻包括：1) 改進了文獻[8-9]的常用英文依存關系語法，總結出5種中文產品評論依存關系，可以有效地應用于產品評論特征-情感對的提取；2) 設計了基于中文依存關系的復合特征模板，利用最大熵模型進行訓練。

1 概述

依存關系是一種非對稱的二分關系(首詞, 依存詞)[10]，如圖1所示。

本文使用的依存標記包括定中關系ATT(attribute)和主謂關系SBV(subject-verb)等。圖1中提取的依存關系是SBV(漂亮, 外觀)，即(漂亮, 外觀)構成了一個特征-情感對。

圖1 依存關系的標注示例

2 最大熵模型

2.1 最大熵模型

從已有研究[4-6]發現，最大熵模型的提取性能優于樸素貝葉斯模型。本文使用最大熵模型對產品特征-情感對分類[11]，從而產生特征與情感相關的類及特征與情感無關的類。

2.2 特征模板的設計

針對特征詞和情感詞的提取，一個關鍵步驟就是特征模板的設計[13]。本文主要考慮以下幾類特征：特征詞和情感詞的左右詞的距離和詞性；依存關系的結構、距離以及路徑特征。其中，前者屬于語義特征[14-15]，詳細過程見參考[16-17]。

3 基于依存關系的特征-情感對分類

3.1 改進的中文產品評論依存關系分析

在文獻[18-19]的英文依存關系的基礎上，本文總結出5類針對產品評論的中文特征情感詞的依存關系。主要利用了哈工大信息檢索實驗室的HIT-CDT 樹庫(HIT chinese dependency treebank)[16]，采用的依存關系分析工具來源于HIT所開發的LTP依存分析模塊[17]。

5種依存關系如圖2所示。其中，PF代表產品特征詞，O代表情感詞，A代表祖先關系。

圖2 中文特征情感詞依存關系

圖2a表示“兒子關系”，即產品特征詞作為情感詞的“兒子”；圖2b表示“父親關系”，即產品特征詞作為情感詞的“父親”；圖2c表示“兄弟關系”，即產品特征詞和情感詞是同一個祖先詞的兒子；圖2d表示“子孫關系”，即情感詞與特征詞是“祖孫關系”；圖2e表示“祖父關系”，即產品特征詞與情感詞是“祖孫關系”。

祖父關系的依存關系標注如圖3所示，其他依存關系的詳細標注參考文獻[20-21]。

圖3 祖父關系

3.2 基于依存關系的特征模板

根據上述中文依存關系的特征，著重構建以下3種類型的特征模板。

3.2.1 依存關系的結構模板

依存關系結構特征模板如表1所示。

表1 依存關系結構模板

3.2.2 依存關系的距離模板

特征情感詞的距離可反映兩者的主觀聯系[20]，構建距離特征模板如表2所示。

表2 依存關系距離模板

3.2.3 依存關系的路徑模板

特征詞與情感詞之間的路徑既包含了兩者的語義特征，又保證了兩者之間的路徑特殊性。因此，構建依存關系的路徑模板如表3所示。

表3 依存關系路徑模板

3.2.4 依存關系復合模板

從文獻[13]的實驗結果可以看出，利用單個模板進行特征的識別，識別率較低，且準確性較差。因此，本文針對產品特征詞和情感詞的組合，構造了7種復合特征模板，目的是提高識別的準確率。

本文使用了文獻[21]中所使用的詞性標注(partof-speech, POS)特征模板 F1F2，代表目標詞左右 2個詞及詞性，表示為：P(Fw/Sw | +/- | 1/ 2)。其中，Fw表示產品特征詞，Sw表示情感詞，P( )代表目標詞詞性。詞性特征模板如表4所示。

表4 目標詞左右鄰詞的詞性特征模板

根據上述POS特征模板F1F2，設依存關系的結構模板、距離模板和路徑模板分別為關系結構F5、F6和F7，則最終構成的7種復合模板如表5所示。

表5 依存關系復合模板

這樣，最大熵分類器將根據表5的復合模板，學習產品特征詞與情感詞之間的依存關系，最終提取出特征-情感對。綜上所述，一個完整的依存關系標注示例如圖4所示。

圖4 完整的依存關系標注示例

針對特征-情感對(外觀, 精巧)，利用依存關系復合模板F1F2F5F6F7，可以依次構建特征函數如式(5)所示，其中Fw表示目標特征詞“外觀”，Sw表示目標情感詞“精巧”。

4 實驗

4.1 實驗數據

本實驗的產品評論數據來源于ZOL中關村在線(http://detail.zol.com.cn)，根據文獻[13]和文獻[21]選定數碼相機評論中情感傾向性比較明顯的20個形容詞作為情感詞核心種子詞語：

褒義種子集Seed A={快、先進、好、漂亮、美觀、出色、穩定、方便、不錯、滿意}

貶義種子集Seed B={慢、低、差、遺憾、失望、落后、不足、粗糙、復雜、難看}

從爬取到的共13 217篇文檔的評論語料庫中篩選出包含上述20個情感詞的句子，至少要涉及數碼相機的品牌或產品特征。根據亞馬遜網站提供的數碼相機英文評論的數據集(包含83 005篇評論，1 350個產品，2009年8月)，同時結合ZOL中關村在線的產品品牌研究報告，統計發現消費者對數碼相機主要關注的十個特征詞為：{閃光燈、電池、焦距、鏡頭、屏幕、像素、曝光、存儲卡、光圈、快門}，其中，通過篩選，提取出1 553句目標句作為本次實驗的原始語料。

4.2 實驗設計和評估方法

將上述1 553句目標句集合按照4:1的比例進行隨機提取，其中1 253句作為訓練集，而剩下的300句作為測試集，所有訓練集中通過人工標注指明產品特征詞和情感詞。分類器使用的是Weka 3.6.0版本。所有測試結果都是通過5次交叉實驗得到。最大熵模型的參數ia通過GIS評估算法迭代100次得到[18]。

實驗的評估標準采用經典的查準率p、查全率r和F-score分別定義如下：

式中，TP表示被正確分類的特征-情感對的數量；FP表示被錯誤分類的數量；FN表示未被分類的數量；TP+FP表示所有被分類的數量；TP+FN表示所有正確的數量。

4.3 實驗結果和評估

為了發現各類特征模板對模型性能的影響，本實驗首先針對兩種特征-情感對形式進行對比，然后針對復合模板進行對比測試，最后同文獻[4]的方法、文獻[5]以及Baseline方法進行對比。

4.3.1 兩種特征-情感對形式對比

從1 553個目標句子中，共獲得候選特征-情感對1 876個，其中關聯對985個，非關聯對891個。按產品特征詞Fw和情感詞Sw的相對位置[13]，分為：1) 形式為的候選特征-情感對共有1 537個，其中關聯對951個，非關聯對586個。2) 形式為的候選特征-情感對共有339個，其中關聯對76個，非關聯對263個。

選擇依存關系復合模板 F1F2F5F6和復合模板F1F2F6F7進行對比測試，實驗結果如表6所示。可以看出，同樣的復合模板應用于兩種形式的特征-情感對，其中形式的性能較差。這是因為在中文表達習慣中，產品特征的評論大多采用形式，這一點可從實驗的句子集合中看出。

表6 兩種特征-情感對表示方法性能比較

4.3.2 復合模板實驗

為了觀察句子的依存語法模板在特征-情感對識別中的作用，選擇表5中的4類復合模板(均包含F1、F2、F6)進行對比測試。其中，所選定的復合模板都擁有F1、F2、F6，因為通過文獻[21]實驗發現，目標詞及其詞性，以及依存關系的距離是判斷特征情感對的主要因素。結果如表7所示。

表7 復合模板性能比較

可以看出，復合模板 F1F2F5F6F7具有最高的查準率，同時F1F2F5F6模板的查全率和F-score最好，同基于句法的特征模板相比較，基于依存關系的特征模板在查全率和F-score方面有了較大的提升。

4.3.3 性能對比

將本文的依存關系模型同文獻[4]的方法和文獻[5]的方法進行對比。同時，Baseline方法使用最大熵模型，模板采用的是文獻[21]中提出的語義特征復合模板F1F2F3F4，其中F3是與目標詞相關的詞構成的模板，F4是英文字母和數字的組合模板。由于F3F4不屬于依存關系特征，故本文不作詳細闡述，請參閱文獻[21]。

利用實驗數據集分成的5個組的數據進行對比，其查準率、查全率、F-score結果分別如圖5～圖7所示，表8顯示了這4種方法的平均結果。

圖5 4種方法查準率比較

圖6 4種方法查全率比較

圖7 4種方法F-score比較

表8 4種方法平均結果對比

從查準率、查全率、F-score來看，本文方法的性能要優于Hu的方法和Popesecu的方法。從平均結果來看，本文的方法在查全率和 F-score上比Baseline方法略高，這表明本文的方法在提取未知的產品特征詞方面，即保證召回率方面，性能更為優異。

5 結論

本文總結出了5種中文產品評論依存關系，提出了基于依存關系的復合特征模板，利用最大熵模型進行訓練，提取出產品評論的特征-情感對。在未來的研究中，將采用更廣泛的語義標注方法加工一定規模的語料，進一步探索語義和語法信息在情感分析中的作用。

[1] SANJIV D, M IKE C. Yahoo! for amazon: Extracting market sentiment from stock message boards[C]//Proceedings of the Asia Pacific Finance Association Annual Conference.Bangkok, Thailand: ACM, 2001: 127-131.

[2] RICHARD M T. An operational system for detecting and tracking opinions in on-line discussion [C]//Proceedings of the Workshop on Operational Text Classification (OTC 2001). NewOrleans, Louisiana, US: ACM, 2001: 357- 362.

[3] KUSHAL D, STEVE L, DAVID M P. M ining the peanut gallery: opinion extraction and semantic classification of product reviews[C]//Proceedings of WWW 2003. Budapest,Hungary: ACM, 2003: 519-528.

[4] HU M, LIU B. M ining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining. New York, NY, USA: ACM, 2004: 168-177.

[5] ANA M P, OREN E. Extracting product features and opinions from reviews[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing.Stroudsburg, PA, USA: ACM, 2005: 339-346.

[6] ZHUANG L, JING F, ZHU X. Movie review m ining and summarization[C]//Proceedings of the International Conference on Information and Know ledge Management.New York, NY, USA: ACM, 2006: 43-50.

[7] DING X, LIU B, YU P S. A holistic lexiconbased approach to opinion m ining[C]//Proceeding of the international conference on Web Search and Web Data M ining(WSDM’08). New York, NY, USA: ACM, 2008: 231-239.

[8] HU M in-qing, LIU Bing. M ining opinion features in customer reviews[C]//Proceedings of AAAI. Pittsburgh,USA: ACM, 2004:755-760.

[9] LIU Bing. Web data m ining: Exploring hyperlinks, contents,and usage data[M]. Berlin: Springer, 2006.

[10] DEBUSMANN, R, DENYS D, GEERT J M K. Extensible dependency grammar: a new methodology[C]//Proceedings of the Workshop on Recent Advances in Dependency Grammar. Geneva, Suisse: ACM, 2004: 78-85.

[11] JAYNES E T. information theory and statistical mechanics[J]. Physical Review Series II, 1957, 106(4):620-630.

[12] DARROCH J N, RATCLIFF D. Generalized iterative scaling for log-linear models[J]. Ann Math Statist, 1972,43(5): 1470-1480.

[13] 王素格. 基于Web的評論文本情感分類問題研究[D]. 上海: 上海大學, 2008.

WANG Su-ge. Research on problems for sentiment classification of review texts based on web[D]. Shanghai:Shanghai University, 2008.

[14] GARSIDE R, LEECH G, SAMPSON G. The computational analysis of English: a corpus-based approach [M]. London:Longman, 1987.

[15] MARCUS M P, SANTORINI B, MARCINKIEWICZ M A.Building a large annotated corpus of English: the penn treebank[J]. Computational Linguistics, 1993, 19(2):313-330.

[16] 劉挺, 馬金山, 李生. 基于詞匯支配度的漢語依存分析模型[J]. 軟件學報, 2006, 17(9): 1876-1883.

LIU Ting, MA Jin-shan, LI Sheng. Chinese dependency parsing model based on lexical governing degree[J].Journal of Software, 2006, 17(9): 1876-1883.

[17] CHE Wan-xiang, LI Zheng-hua, LIU Ting. LTP: a chinese language technology platform[C]//Proceedings of the Coling 2010. Stroudsburg, PA, USA: ACM, 2010: 13-16.

[18] QIU Guang, LIU Bing, BU Jia-jun, et al. expanding domain sentiment lexicon through double propagation[C]//IJCAI 2009. Pasadena, CA: ACM, 2009: 1199-1204.

[19] SOMPRASERTSRI G, LALITROJWONG P. M ining feature-opinion in online customer reviews for opinion summarization[J]. Journal of Universal Computer Science,2010, 16(6): 38-955.

[20] 樊娜, 蔡皖東, 趙煜. 基于最大熵模型的觀點句主觀關系提取[J]. 計算機工程, 2010, 36(2): 4-6.

FAN Na, CAI Wan-dong, ZHAO Yu. Extraction of subjective relation in opinion sentences based on maximum entropy model[J]. Computer Engineering, 2010, 36(2): 4-6.

[21] 張磊. 商業WEB挖掘關鍵技術研究[D]. 成都:四川大學,2011.

ZHANG Lei. Research on the key technologies of web data m ining in commerce[D]. Chengdu: Sichuan University,2011.

編輯稅紅