基于CBC—LIKE算法的產品特征詞聚類的研究

2017-07-25 12:52:43江偉路松峰楊莉萍

現代電子技術 2017年14期

江偉+路松峰+楊莉萍

摘要：用戶評論中存在產品特征表達多樣性問題，在細粒度觀點挖掘任務中需要對產品特征詞聚類。首先，結合不同的語義相似度計算的特點，提出基于語義知識和上下文熵模型的語義相似度混合計算方法，計算抽取得到的特征詞語義相似度；然后改進了傳統CBC算法，提出適用于產品特征詞聚類的CBC?LIKE方法實現聚類。最后在三個領域的真實評論語料上進行實驗，對提出的語義相似度計算方法和聚類算法的性能進行了分析。實驗結果表明，所提方法是有效的，與另外兩種基線方法相比性能較優，取得了較好效果。

關鍵詞：產品特征；語義相似度；聚類算法；觀點挖掘

中圖分類號： TN911?34 文獻標識碼： A 文章編號： 1004?373X（2017）14?0081?04

Abstract： Aiming at the problem of the various product feature expressions existing in user reviews， it′s necessary to cluster the product feature words in the task of fine?grained opinion mining. According to the calculation characteristics of different semantic similarities， a semantic similarity mixture calculation method based on semantic knowledge and context entropy model is proposed to calculate the extract the semantic similarity of feature words. The traditional CBC algorithm is improved. A CBC?LIKE method suitable for product feature words clustering is proposed. The experiment is conducted for the real review corpus in three domains. The performances of the proposed semantic similarity calculation method and clustering algorithm are analyzed. The experimental results show that the method is effective， its performance is better than that of other two benchmark methods， which has perfect effect.

Keywords： product feature； semantic similarity； clustering algorithm； opinion mining

產品評論領域中的細粒度意見挖掘旨在深入到產品特征層面，產品特征包含商品本身、商品的部件和屬性、以及屬性的特征等[1?2]。比如下面評論句子：I browsed the [pictures] in the computer， and found the [photos] were perfect and the [resolution] was high。其中方括號括起來的是相機這一領域產品評論的特征，而下劃線的詞語是針對該特征用戶表達的觀點。由于用戶發表評論時通常具有很大的自由度和隨意性，并且不同用戶的表達習慣也并不相同，因此，用戶評論文本呈現出高度的隨意性和不確定性特點。例如在數碼相機領域中，不同用戶可能分別采用“picture quality”和“image clarity”表示“照片”特征，而相機產品評論中提到的“picture”，“image”和“photo”這三個特征表示的是同一特征[3?4]。針對產品特征詞聚類問題，本文在完成特征抽取任務的基礎上，結合不同的語義相似度計算的特點，提出基于語義知識和基于上下文熵模型的語義相似度混合計算方法，計算抽取得到的特征詞的語義相似度，然后提出CBC?LIKE聚類方法完成特征詞集合的聚類任務。最后對來自于三個領域的真實評論語料上的仿真實驗結果表明，本文提出的方法對特征詞的聚類效果是有效的，優于另外兩種基線方法。

1 產品特征詞聚類

1.1 混合特征詞語義相似度計算

本文采用基于三種語義相似度計算的混合計算方法用于特征聚類。

（1）對產品特征的表達往往會共享同樣的詞[5]。比如，“LCD screen”， “LCD viewfinder”，指的都是同樣的產品特征“display”，這時，screen和viewfinder具有相同的含義，所以對共享詞相似度的計算公式如下：

（2）基于WordNet[6]的語義相似度量方法，常用Jiang & Conrath算法[7]，其計算方法如下：

式中：LCS表示和之間的最小公共包含（Least Common Subsumer）；IC表示信息量；是一個常量，表示WordNet的名詞分類中概念總數。比如，本文實驗中計算的產品特征“image”和“photo”語義相似度為0.744，而“image”和“battery”計算結果為0.221。

（3）基于詞典的方法的局限在于詞典容量有限，語義覆蓋程度不足[8]。所以本文進一步引入基于上下文熵的方法計算詞的相似度，計算方法如下：

式中：，分別表示分布上下文中出現的特征詞；，其中，和表示當前詞的左上下文向量和右上下文向量[9]，上下文向量中的每個維度用TF?IDF作為向量值。，之間的距離可以通過它們的左右上下文分布的KL?divergence之和計算得到[10]。因為兩個特征詞分別都有其對應的左邊上下文向量和右上下文向量，所以將兩個相加計算得到，如下：

式中：和分別表示第維的詞出現在特征詞和的左（右）上下文向量中的概率權值；表示向量的維度。

最后，本文對基于上述三個語義相似度度量方法相結合，得到最終的相似度計算公式：

式中，和分別為語義相似度計算方法的權重，本文根據多次重復實驗結果取值分別為0.7和0.4，實驗中也對不同的語義相似度計算方法對聚類結果產生的影響進行了分析。

1.2 基于CBC算法的產品特征聚類

CBC算法[11]由Pantel等人提出，其基本思想是首先根據待聚類數據集中的數據緊湊度形成若干簇，然后采用遞歸的方法將高質量的候選聚類簇形成真正的中心，刪除與其沖突的候選中心，待所有聚類中心確定后，計算殘余元素與聚類中心的相似度，確定其歸屬。與K?means算法只用一個元素表示聚類的思想不同之處在于，該算法通過計算簇中元素的平均距離確定聚類的質心，從而可以避免因局部最優解而導致的較大誤差，并且已被證明在根據詞的語義相似度聚類中是有效的[11]。本文對傳統CBC算法進行改進，提出CBC?LIKE算法用于特征詞的聚類任務。與原始CBC算法一樣該算法也分為三個步驟，不同的是，原始算法中需要兩個閾值進行判斷，而CBC?LIKE算法中只需要一個閾值即可，本文根據經驗設置其值為0.35。另一方面改進是原始CBC算法的聚類簇數是未知的，所以其總是盡可能構建聚類簇，但在產品特征聚類任務中，事先可以根據產品領域人工設定聚類簇數[5]，比如“Battery Cluster”，“Photography Cluster”等，從而提高聚類效果。算法如下：

CBC?LIKE算法描述：

輸入：產品特征詞集合S

聚類簇個數p

（Committee）種子成員個數q

輸出：特征詞聚類結果C

步驟1：for each feature in S

計算語義相似度：ss（，），，屬于S且將ss（，）按降序存入集合

end for

步驟2：for each feature in S

選擇中前q個特征構成的committee：

計算的平均相似度：

end for

將按照降序存入集合

定義C為存儲聚類中心集合的一個列表，初始化為空

for each in

if 相似度s（C，）<且

if 為空 then 返回 C

end if

end for

步驟3：for each residue feature

分別計算與p個committee的語義相似度

把fi并入語義相似度最近的簇

end if

2 實驗結果與分析

2.1 實驗數據集與評估指標

為測試本文提出方法的有效性，使用從亞馬遜電商網站（http：//www.amazon.com/）中收集的3個領域的語料，分別是Digital Camera，Vacuum，Cell Phone。為得到最佳標準，三個標注者對抽取的產品特征進行人工分類，從中選擇至少兩個以上相同標注者標注的標簽作為最終標注結果。表1給出了收集語料和標注結果的基本統計信息。

文中，對于特征聚類效果的評價指標使用熵值（Entropy）和純度（Purity）[6]，熵值用來衡量結果與標準劃分相比的混亂程度，值越小，分類結果的混亂程度越低；純度用來衡量分類結果與標準劃分的一致性程度，值越大，分類結果的純度越高。給定產品特征詞集合FS和簇數，對該集合的最佳分類記作，聚類算法將特征詞集合FS劃分為k個獨立子集，其熵值：

式中，表示結果類中包含標準類中元素的比例。給定一組對于每個特征詞分類子集，其純度：

式中，表示結果類中包含標準類中元素的比例。另外，為評估本文提出的基于CBC?LIKE聚類方法的效果，引入K?means和基于自動標注的半監督EM方法這兩種聚類策略作為基線方法進行對比。

2.2 實驗結果及分析

為了驗證本文提出的CBC?LIKE算法中種子（committee）的個數對聚類效果的影響，實驗中設置種子個數從1～6，在三個領域語料上分別進行了5輪實驗，計算其對應的純度和熵值。實驗結果如圖1所示。隨著種子個數的增加，CBC?LIKE算法的性能首先是在增加，然后在某些點的位置上減少。這表明種子個數對產品特征聚類是有幫助的，但是隨著種子數量的增加，會隨之帶來一些噪聲信息。為了驗證本文提出的基于CBC?LIKE聚類方法的有效性，將其與其他兩個基線方法進行了比較，表2給出了不同聚類算法在三種產品領域集上Entropy和Purity值的比較結果。其中，對于特征詞之間的相似度計算采用了本文提出的三種相似度計算結合的計算方法。可以看到，與KM和EM方法相比，雖然在某些領域上面CBC?LIKE方法的Entropy值和Purity值這兩個指標不占優，但是其在三種產品領域的平均Entropy值上都取得了最小值，同時平均Purity值取得了最大值，準確率上與KM算法比較，具有較為明顯優勢，這表明，本文提出的CBC?LIKE方法在聚類性能上要優于其他兩種聚類方法。

為了進一步分析不同的相似度計算對于CBC?LIKE聚類算法效果的影響。下面分別給出了基于詞典的計算方法和基于共同詞的相似度計算方法（WordNet+SW），基于上下文熵模型和共同詞的計算方法（CE+SW），本文前述的基于三種方法結合的相似度計算方法（FS），實驗結果如表3所示。從實驗結果中可以看出，采用三種相似度計算相結合的方法在最后的聚類效果上要優于另外兩種。從平均Entropy值和Purity的結果上可以看到，FS要優于前兩種方法，而CE+SW又優于WN+SW的方法，說明采用上下文熵模型對于特征詞的相似度度量方法具有較好效果，能較好地反應特征詞在產品評論中的語義關系，這個和本文實驗中對于兩個調和參數α和β的實驗性選取上是相印證的。

3 結論

針對產品評論觀點挖掘產品特征聚類進行了研究，提出在三種不同語義相似度的混合計算方法的基礎上，用CBC?LIKE聚類算法完成特征詞集合的聚類。最后的仿真實驗結果表明，本文提出的三種不同語義相似度混合計算方法以及CBC?LIKE聚類算法能有效完成聚類任務，純度和熵值這兩個指標上的表現優于基線方法。

參考文獻

[1] BALAZS J A， VEL?SQUEZ J D. Opinion mining and information fusion： a survey [J]. Information fusion， 2015， 27（C）： 95?110.

[2] HU M Q， LIU B. Mining and summarizing customer reviews [C]// Proceedings of 2004 the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle： ACM， 2004： 168?177.

[3] YU Jianxing， ZHA Zhengjun， WANG Meng， et al. Aspect ranking： identifying important product aspects from online consumer reviews [C]// Proceedings of 2011 Annual Meeting of the Association for Computational Linguistics： Human Language Technologies. Portland： Association for Computational Linguistics， 2011： 1496?1505.

[4] XU H， ZHANG F， WANG W. Implicit feature identification in Chinese reviews using explicit topic mining model [J]. Knowledge?based systems， 2015， 76（5）： 166?175.

[5] ZHANG S， JIA W， XIA Y， et al. Product features extraction and categorization in Chinese reviews [C]// Proceedings of 2010 IEEE the 6th International Conference on Advanced Information Management and Service. [S.l.]： IEEE， 2010： 324?329.

[6] MILLER G A. WordNet： a lexical database for English [J]. Communications of the ACM， 1995， 38（11）： 39?41.

[7] ZHAI Zhongwu， LIU Bing， XU Hua， et al. Clustering product features for opinion mining [C]// Proceedings of the Forth International Conference on Web Search and Web Data Mining. Hong Kong， China： IEEE， 2011： 347?354.

[8] BRYNIELSSON J， JOHANSSON F， JONSSON C， et al. Emotion classification of social media posts for estimating people′s reactions to communicated alert messages during crises [J]. Security informatics， 2014， 3（1）： 1?11.

[9] XU T， PENG Q， CHENG Y. Identifying the semantic orientation of terms using S?HAL for sentiment analysis [J]. Knowledge?based systems， 2012， 35（15）： 279?289.

[10] ZHENG X， LIN Z， WANG X， et al. Incorporating appraisal expression patterns into topic modeling for aspect and sentiment word identification [J]. Knowledge?based systems， 2014， 61（2）： 29?47.

[11] PANTEL P， LIN D. Discovering word senses from text [C]// Proceedings of 2002 ACM SIGKDD Conference on Knowledge Discovery and Data Mining. [S.l.]： ACM， 2002： 613?619.

現代電子技術2017年14期

現代電子技術的其它文章: Virtex5 FPGA GTP_DUAL硬核兩個收發器獨立使用的實現; 基于改進神經網絡的4K超高清圖像清晰化技術研究; 網絡危險數據細分控制器的設計與實現; 一種新型智能電子秤系統的開發; VxWorks下龍芯3A中斷控制技術的研究; 一種新型的快速響應矩陣碼圖像定位算法