產品評論挖掘中特征同義詞的識別

2016-05-03 13:02:31郗亞輝

中文信息學報 2016年4期

關鍵詞：利用特征產品

郗亞輝

(河北大學數學與計算機學院，河北保定 071002)

產品評論挖掘中特征同義詞的識別

郗亞輝

(河北大學數學與計算機學院，河北保定 071002)

隨著電子商務的飛速發展，電子商務網站上的各種產品評論數量也在飛速增長。如何從Web中大量存在的產品評論中挖掘出對消費者和生產廠商都有價值的信息，已經成為一個非常重要的研究領域。在產品評論中，用戶往往會用不同的詞語描述同一產品特征。識別這些產品特征同義詞才能更好地進行觀點匯總。該文經過對產品評論的分析，抽取了must-link和can-not-link兩類約束，并使用約束層次聚類算法識別產品特征同義詞。同時，比較了幾種不同產品特征相似度計算方法的結果。實驗結果表明，該文的方法在實際產品評論數據集上取得了較好的效果。

產品評論挖掘；產品特征同義詞；相似度；約束層次聚類算法

1 引言

飛速發展的Web技術及電子商務正在極大地改變著人們的工作和生活方式。以前，消費者往往根據產品的口碑或者廣告來購買產品，很難對不同品牌的同類產品進行較全面的比較。而隨著Web技術及電子商務的快速發展，電子商務網站提供了越來越多的產品，越來越多的消費者也開始習慣于通過電子商務網站購買各類產品。為了提高消費者的滿意度以及改善消費者的購物體驗，電子商務網站大都允許消費者對其購買的產品發表評論。在這些產品評論中，包含了消費者關于產品觀點的豐富信息，它們不僅可以幫助消費者全面、綜合地了解其他消費者對產品的評價，從而挑選出更適合自己的產品，還可以幫助生產廠商通過評論來了解自己產品的優勢以及不足，從而改進產品的設計，獲得競爭優勢[1-2]。

網絡上存在著大量的產品評論，有些熱門商品可能包含成千上萬的評論。巨大的評論數量使得消費者和生產廠商很難通過人工對產品評論進行分析和處理，獲取產品評論中包含的大量有用信息。因此，以獲取產品評論中有用信息為目標的非結構化數據挖掘技術——“評論挖掘”，吸引了越來越多的學者的關注。

基于產品特征的觀點匯總是產品評論挖掘的任務之一[1]。首先，將產品評論中的產品特征抽取出來；然后，把產品特征對應的觀點收集起來并形成基于產品特征的觀點匯總。產品特征既包含產品的部件，也包含產品部件的屬性。例如，“屏幕”、“屏幕分辨率”都是手機的產品特征。近年來，已經出現了一些基于產品特征的觀點匯總系統。Opinion Observer[3]不僅以產品特征為單位匯總了其褒義和貶義的句子，而且以圖形的方式對比了不同產品在產品特征上得到的褒義和貶義評價。Red Opal[4]依據用戶對產品的評分以及評論中出現的特征計算產品在不同特征上的分值，并在此基礎上給出了一個產品推薦系統。

由于人們不同的表達習慣，在產品評論中往往會用不同的詞或詞組來描述同一個產品特征。例如，手機的“外觀”和“外型”指的是同一產品特征。在基于產品特征的觀點匯總系統中，產品特征同義詞的識別將直接影響匯總的效果[3]。同一產品的評論中往往就包含數百個產品特征，人工標注產品特征同義詞將是一項非常耗時的工作，所以需要尋找一種自動的方法來識別產品特征同義詞。

《同義詞詞林》《知網》[5-6]等語義字典可以用來識別產品特征同義詞，但是其效果并不理想。因為一些在產品評論中描述同一特征的詞或詞組，在語義詞典中并不是同義詞。例如，“外觀”和“造型”在手機評論中描述同一特征，但在語義字典中不是同義詞。也可以根據產品特征間的分布相似度，用無監督的聚類算法來識別特征同義詞。但實驗表明，這些方法的效果也不理想。半監督聚類算法中一般以成對約束信息作為先驗信息來監督聚類[7]。成對約束信息包含must-link和can-not-link兩類約束，分別表示兩個點應該屬于同一類和屬于不同類，這些信息能提高聚類效果。

本文提出了使用半監督的約束層次聚類算法識別產品特征同義詞。首先，利用語義詞典和產品評論中存在的先驗知識構造了must-link和can-not-link兩類約束；然后，利用產品特征在語料中的分布相似度進行約束層次聚類。該算法在產品特征同義詞的識別中取得了較好的效果。

2 相關研究

Qiu等[8]提出了雙向傳播算法，利用情感詞和特征詞之間、情感詞之間、特征詞之間的語法依賴模式獲取情感詞和特征詞的抽取模版。通過初始的情感詞種子集，利用抽取模版不斷迭代來獲取新的特征詞和情感詞。該方法在中等規模的語料上表現良好，但是對于小規模和大規模的語料集其準確率和召回率都不高[9]。為了解決這個問題，Zhang等[9]引入了“no”模式和“整體-部分”模式抽取產品特征，提高了召回率，使用THIS算法對候選產品特征進行排序，提高了準確率。Xi等[10]針對中文產品評論，進一步改進了雙向傳播算法。

田久樂等[5]充分分析了同義詞詞林的編碼及結構特點，利用詞語中義項的編號，根據兩個義項的語義距離，計算出義項的相似度，并取兩個詞語中最大義項相似度作為詞語的相似度。在《知網》中每個詞的語義由多個義原組成，所有義原根據上下位關系構成一個樹狀層次結構。劉群等[6]通過計算義原間的路徑距離得到相似度，并將兩個詞各自義原中最大相似度作為兩詞的相似度。

Lee等[11]將詞的上下文表示成空間向量，并用Cosine、Jaccard、Dice等方法計算詞的相似度。Turney[12]提出了基于搜索引擎的同義詞識別算法PMI-IR，利用互信息來計算兩個詞的相似度。Higgins[13]在PMI-IR算法的基礎上提出了LC_IR算法，要求兩詞必須完全相鄰，并且排除了詞的固定搭配和修飾詞對互信息計算的影響，提高了準確率。

Carenini等[14]利用領域知識建立了一個產品特征的層次模型，并根據WordNet的同義詞集以及距離度量函數計算挖掘到的產品特征與該產品特征層次模型中特征的相似度，然后利用相似度將挖掘到的產品特征映射到特征層次模型。Shi等[15]人工建立了一個產品特征的層次模型，并將相似的產品特征聚集在一起。

Guo等[16]提出了無監督的Multi-LaSA算法對產品特征進行歸類。首先，使用LaSA模型將產品特征中的詞映射到一系列主題的集合，并根據產品特征中每個詞所對應的主題，為所有特征建立潛在主題結構。然后，再次使用LaSA模型，利用產品特征的潛在主題結構以及上下文信息，將所有產品特征劃分為特定的類別。Zhai等[17]針對產品特征歸類，提出了一種半監督的SC-EM算法。SC-EM算法利用產品評論中特征周圍特定窗口中的詞構造特征的向量空間，并少量標注出一些特征的類別作為訓練集，然后利用基于樸素貝葉斯分類器的半監督EM算法對產品特征進行分類。SC-EM算法在分類過程中，利用了兩條先驗知識來改善分類效果：第一，含有相同字的兩個產品特征可能是同類特征；第二，同義詞的兩個產品特征可能是同類特征。楊源等[18]對SC-EM算法進行了改進，充分考慮了產品評論中的情感因素，從語料中抽取出產品特征和情感詞的搭配，利用這些搭配對形成二部圖，然后用權重標準化SimRank算法[19]計算各個產品特征之間的相似度，并把所得的結果與SC-EM算法中的貝葉斯分類器進行融合，得到了更好的分類結果。

半監督聚類算法允許利用一些先驗知識來限制或指導聚類算法，從而提高聚類效果[20-22]。成對約束是一種常用的先驗知識表示形式。Wagstaff和Cardie[20-21]提出了must-link和can-not-link兩類約束，must-link約束表示兩個點應該屬于同一類別，而can-not-link約束表示兩個點不應屬于同一類別。Klein等[7]進一步擴展了must-link約束，認為不僅兩個滿足must-link約束的點應該屬于同一類別，而且這兩個點鄰近的點也更傾向于屬于同一類別。Zhai等[23]根據對產品評論的大量分析，進一步擴展了產品特征歸類的約束規則：含有相同字的兩個產品特征可能是同類特征，在同一句子中出現的產品特征可能不是同類特征；然后，根據這兩種規則構造了must-link和can-not-link約束，并利用半監督的LDA算法對產品特征進行聚類。

3 算法描述

本文提出了半監督的層次聚類算法來識別產品特征同義詞。針對中文產品評論，首先抽取了產品特征及其情感詞；其次，對每個產品特征抽取其上下文詞匯構造相應的特征向量，并根據特征向量計算產品特征間的相似度；再次，利用語義詞典和產品評論中存在的先驗知識構造了must-link和can-not-link兩類約束來指導產品特征同義詞的聚類過程；最后，使用半監督的層次聚類算法完成產品特征同義詞的識別。

3.1 產品特征及其情感詞的獲取

產品特征及其情感的抽取是產品評論挖掘的基本工作之一，很多學者提出了各種算法來完成這項工作[1-3,8-10]。本文利用雙向傳播算法[10]完成產品特征及其情感詞的抽取工作。雙向傳播算法利用情感詞和產品特征之間的語法依賴模式抽取產品特征及其情感詞，不需要標注大量的訓練數據，只需要一部分情感詞種子就可以完成抽取任務。

3.2 上下文詞匯抽取

為了計算產品特征間的相似度，需要為每一個產品特征構造相應的特征向量。產品特征的特征向量由其上下文中的詞匯構成，本文采用了兩種上下文的抽取方式。

基于窗口的上下文抽取：將產品評論中所有包含產品特征Fi的句子抽取出來形成集合Si，然后遍歷集合Si，把每個句子中產品特征Fi周圍特定窗口[-t,t]中的詞抽取出來，去掉停用詞后形成Fi的特征向量vi。本文根據實驗，將窗口大小t設為3。例如，在包含產品特征“屏幕”的句子“手機屏幕的分辨率非常高”中，抽取的上下文為“手機，分辨率，高”，其中“的”和“非常”由于是停用詞而被去掉。

基于挖掘結果的上下文抽取：雙向傳播算法利用產品特征和情感詞間的句法依賴抽取產品特征及其情感詞；將挖掘結果中產品特征Fi周圍特定窗口中的動詞和名詞，以及Fi對應的情感詞抽取出來，形成其特征向量vi。

3.3 相似度計算

3.3.1 語義詞典相似度

《同義詞詞林擴展版》[24]是哈爾濱工業大學信息檢索實驗室編制的一部同義類詞典，按照樹狀層次結構把所有收錄的詞組織在一起，將詞分成大、中、小三類。每個小類中都包含若干行，同一行的詞語詞義相同或有很強的相關性。本文利用《同義詞詞林擴展版》來進行產品特征同義詞的判別。

知網(HowNet) 是一個以漢語和英語詞語所代表的概念為描述對象，以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。每個詞的語義由多個義原組成，所有義原根據上下位關系構成一個樹狀層次結構。本文利用文獻[6]中的算法來計算產品特征間的相似度。

3.3.2 余弦相似度

在產品評論中，描述同一產品特征的特征同義詞往往具有相似的上下文。例如，“屏幕”和“觸摸屏”都經常和“分辨率”、“清晰”等詞匯共同出現。基于語義詞典的相似度并沒有利用產品評論中特征的上下文信息。將產品特征周圍的詞表示成向量空間中的特征向量，使用詞的TF-IDF值作為其向量中的權重，可以用余弦相似度計算兩個產品特征的相似度如式(1)所示。

(1)

3.3.3 加權SimRank相似度

產品特征和其上下文中的詞匯可以形成一張二部圖(如圖1所示)，左邊是產品特征，右邊是產品特征的上下文詞匯，由上下文詞匯指向產品特征形成了圖中的有向邊。

圖1 產品特征及其上下文詞匯形成的二部圖

SimRank算法[26]是由Jeh等人提出的結構相似度算法，利用圖的結構信息來計算對象的相似度。其思想是：與相似節點相連的結點相似。產品特征同義詞往往具有相似的上下文詞匯，因此可以利用SimRank算法來計算產品特征的相似度。SimRank算法的計算公式如式(2)所示。

(2)

SimRank在計算節點間相似度的時候僅利用了有向圖的結構信息，而沒有考慮有向邊的權重。也就是說沒有利用產品特征上下文中不同詞匯的權重信息。本文采用了馬云龍等人[19]提出的權重標準化SimRank算法(NormalizedWeightSimRank)計算產品特征的相似度。

NWS算法首先對圖中每個節點的入邊權重進行標準化，使之對于任意節點vt均滿足式(3)。

(3)

NWS算法的計算公式如式(4)和式(5)所示。

(4)

(5)

(6)

3.4 約束條件

約束聚類能利用約束信息指導聚類過程，但聚類性能的提升很大程度上依賴于約束的選取。為了對產品特征同義詞聚類，本文抽取了must-link和can-not-link兩類約束。經過對語料中大量產品特征的分析，我們發現了兩個規則：首先，用戶往往用一個詞組表達多個產品特征。例如，在句子“屏幕分辨率很高”中，詞組“屏幕分辨率”描述了“屏幕”和“分辨率”兩個產品特征。但同一詞組中出現的多個產品特征一般具有上下位關系，不是同義詞。其次，用戶經常在一個句子中評論多個產品特征。例如，“屏幕清晰，電池耐用。”但句子中相鄰兩個特征一般不是同義詞。同時我們利用了語義字典《同義詞詞林擴展版》中的同義詞聯系，抽取出如下的約束。

Must-link約束：如果兩個產品特征在語義字典中是同義詞，那么它們屬于同一類。

Can-not-link約束1：如果兩個產品特征出現在同一產品特征詞組中，那么它們不屬于同一類。

Can-not-link約束2：如果兩個產品特征在句子中相鄰，那么它們不屬于同一類。

3.5 約束層次聚類

以must-link和can-not-link成對約束形式表示的聚類算法是一種典型的約束聚類算法，能有效地提高聚類效果[20-22]。對聚類算法添加約束條件后，能使聚類結果滿足所有約束條件，但卻沒有深入挖掘這些約束條件的隱含信息[7]。例如，圖2(a)為原始數據，圖2(b)中雙線相連的兩點表示滿足must-link約束的點，圖2(b)和圖2(c)的聚類結果都滿足所有約束條件，但圖2(c)的聚類結果更好。因為這兩對must-link約束隱性地改變了其周圍點的相互關系，不僅兩個must-link約束的點應屬于同一聚類中，和這兩個點非常鄰近的點也應該屬于同一聚類。同樣，can-not-link約束也有類似的性質。

圖2 添加兩個must-link約束的聚類結果

3.5.1 實施和傳遞約束

聚類算法通常需要維護一個數據集中實例間的距離矩陣。針對給出的must-link和can-not-link成對約束，按照如下基本原則更新距離矩陣。

原則1：如果一個實例對屬于must-link約束集合，那么應該使這兩個實例之間的距離盡可能近。

原則2：如果一個實例對屬于can-not-link約束集合，那么應該使這兩個實例之間的距離盡可能遠。

為了進一步利用約束條件所包含的隱性信息，按照如下的兩個傳播原則更新距離矩陣，以傳播約束的信息。

原則3：如果兩個實例屬于must-link約束集合，那么與這兩個實例距離相近的實例間的距離也應該很近，如圖3所示。

圖3 must-link約束對實例間距離的影響

原則4：如果兩個實例屬于can-not-link約束集合,那么與這兩個實例距離相近的實例間的距離也應該很遠，如圖4所示。

3.5.2Must-link約束

對于must-link約束的實例，需要減小部分實例間的距離。將距離矩陣對應到一張圖，矩陣的值作為圖上點之間的距離。首先，將must-link約束集合中實例間的距離設為0；然后，減小那些經過兩個must-link約束點的路徑上點之間的距離。如圖5所示，A與C的距離為2，B與C的距離為2，由于B和C滿足must-link約束，所以將B和C的距離設為0，A和C之間有路徑A→B→C，而A到B的距離為1，所以A到C的距離更新為其最短路徑1。

圖5 距離更新示例

可以看出，更新距離矩陣的過程就是找出所以經過must-link約束點的路徑，并將路徑上點之間的距離改為最短路徑。可以通過多源最短路徑算法來解決這個問題，這里我們使用如下所示的修正Floyd-Warshall算法來更新距離矩陣的值。

3.5.3Can-not-link約束

對于can-not-link約束的實例，需要增大其實例間的距離。如果同時利用must-link約束和can-not-link約束的傳播原則更新距離矩陣，時間復雜度太大。因此，我們處理can-not-link約束時，只將其相關實例的距離設為極大值。但在聚類算法中，選擇兩個類中實例間的最大距離作為兩個類的距離，從而隱式地滿足了can-not-link約束的傳播原則。

3.5.4 聚類算法

本文使用加入must-link約束和can-not-link約束的凝聚層次聚類算法來識別產品特征同義詞，其具體算法如下：

Input:Distance MatrixD, ConstraintsC

Output:Cluster

Function:

1. for (i,j)∈Cmust

2.Dij,Dji= 0

3.I=i: ?j≠i,(i,j)∈Cmust

4. fork∈I, fori∈{1:n},forj∈{1:n}

5.Dij= min(Dij,Dik+Dkj)

6. for (i,j)∈Ccannot

7.Dij,Dji= ∞

8.Cluster= {cifor each pointi}

9. distancesd(ci,cj) =Dij

10.while |Cluster| > 1

11. choose closest (c1,c2) = argminc1 ,c2∈Clusterd(c1,c2)

12. mergc1andc2intocnewinCluster

13. forci∈Cluster

14.d(ci,cnew) = max(d(ci,c1),

d(ci,c2))

4 結果分析

4.1 實驗數據

本文的產品評論數據都取自一些電子商務網站以及評論網站。網絡上存在著大量的電子商務網站以及評論網站，經過分析我們選擇了亞馬遜、京東商城、中關村在線、it168這四個典型的網站作為我們評論數據的來源。電子產品是網絡上評論數量最多的一類產品，本文選擇了以上網站中的手機、數碼相機這兩種典型電子產品的評論來構造實驗用的評論數據集。首先，將數據集中所有評論切分為句子，并用哈爾濱工業大學自然語言處理平臺進行詞性標注和語法分析，表1給出了數據集中評論和句子的數量；然后，用雙向傳播算法抽取產品特征及其情感詞，并手工標注產品特征同義詞。

表1 實驗數據集

4.2 評價標準

(7)

(8)

其中，a表示在C和P中都屬于同一類的樣本對個數；b表示在C中屬于同一類，但在P中不屬于同一類的樣本對個數；c表示在C中不屬于同一類，但在P中屬于同一類的樣本對個數；d表示在C和P中都不屬于同一類的樣本對個數。

4.3 實驗結果

本文使用了幾種產品特征相似度的計算方法，包括：基于《同義詞詞林擴展版》的同義詞識別；基于《知網》的相似度[6]；基于產品特征上下文信息的TF-IDF余弦相似度和加權SimRank相似度。表2對比了基于這幾種相似度計算方法的層次聚類結果。

從表2的結果中可以看出，使用《同義詞詞林擴展版》識別產品特征同義詞可以獲得較好的效果。其他幾種相似度計算方法中，基于產品特征上下文信息的TF-IDF余弦相似度效果最好。利用《同義詞詞林擴展版》能夠準確地識別產品特征同義詞，但很多產品特征同義詞并不在其中。例如，“屏幕”和“觸屏”在《同義詞詞林擴展版》中不是同義詞，但是產品特征同義詞。因此需要結合產品特征上下文信息識別這些同義詞。基于《知網》的相似度考慮了詞的義原的上下位關系，有些具有很大相似度的詞并不是同義詞，例如，“電池”和“鍵盤”的相似度很大，因此該方法效果并不好。在產品評論中，描述同一產品特征的特征同義詞往往具有相似的上下文，因

表2 不同相似度計算方法的層次聚類結果

此可以通過產品特征的上下文信息識別產品特征同義詞。在產品評論語料上，TF-IDF余弦相似度表現的比加權SimRank相似度更好。僅靠上下文信息，產品特征同義詞識別的效果也不理想，因為有些經常出現的特征搭配具有相似的上下文，但它們并不是同義詞。例如，“攝像頭”和“分辨率”經常在一起搭配出現，因此具有相似的上下文。

本文采用了兩種上下文的抽取方式：基于窗口的上下文抽取和基于挖掘結果的上下文抽取。表3對比了使用TF-IDF余弦相似度時這兩種上下文抽取方式的效果。從實驗結果可以看出基于窗口的上下文抽取方式效果更好。其主要原因是雙向傳播算法使用情感詞和產品特征之間的語法依賴模式抽取產品特征及其情感詞，由于自然語言處理技術的限制，產品特征和情感詞的準確率和召回率都不是很高，因此影響了特征向量的構建及相似度計算。

表3 不同上下文抽取方式的聚類結果

約束聚類可以利用一些約束規則指導聚類算法，從而提高聚類效果。我們基于窗口上下文抽取的TF-IDF余弦相似度作為產品特征間相似度的計算方法，并使用3.4節中的約束條件指導聚類過程，其結果如表4所示。

表4 約束聚類結果

從結果中可知：首先，所有的約束層次聚類都比原始層次聚類效果好，證明了約束聚類在產品特征同義詞識別中的有效性；其次，單獨使用must-link約束和can-not-link約束都能改善聚類的效果，證明了這兩類約束規則的有效性；最后，相對于單獨使用這兩類約束，聯合使用must-link約束和can-not-link約束能較大改善聚類效果，證明了同時使用這兩類約束的必要性。

5 結論和進一步的工作

在基于產品特征的觀點匯總系統中，產品特征同義詞的識別將直接影響匯總的效果。本文抽取了must-link和can-not-link兩類約束，并在此基礎上提出了約束層次聚類算法來識別產品特征同義詞，并對比了幾種不同產品特征相似度計算方法的效果。在兩種電子產品評論語料集上驗證了我們方法的有效性。下一步我們將探索更多的約束規則、相似度計算方法和聚類算法以提高產品特征同義詞識別的效果。

[1] M Hu, B Liu. Mining and summarizing customer reviews[C], Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2004:168-177.

[2] A M Popescu, O Etzioni. Extracting product features and opinions from review[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA :Association for Computational Linguistics, 2005:339-346.

[3] B Liu, M Hu, J Cheng. Opinion Observer: Analyzing and Comparing Opinions on the Web[C]//Proceedings of WWW. Chiba,Japan:ACM Press, 2005:342-351.

[4] C Scaffidi, K Bierhoff, E Chang. Red Opal: Product-Feature Scoring from Reviews[C]//Proceedings of 8th ACM Conference on Electronic Commerce. New York, USA:ACM Press,2007:182-191 .

[5] 田久樂, 趙蔚. 基于同義詞詞林的詞語相似度計算方法[J]. 吉林大學學報(信息科學版), 2010,28(6):602-608.

[6] 劉群, 李素建. 基于《知網》的詞匯語義相似度計算[J]. 中文計算語言學, 2002,7(2):59-76.

[7] D Klein, S D Kamvar, C D Manning. From instance level constraints to space-level constraints: making the most of prior knowledge in data clustering[C]//Proceedings of the 19th International Conference on Machine Learning .San Francisco, USA:Morgan Kaufmann Publishers,2002:307-314.

[8] G Qiu, B Liu, J Bu, et al. Chen. Expanding domain sentiment lexicon through double propagation. Proceedings of the 21st International Joint Conference on Artificial Intelligence. Pasadena, USA:AAAI Press,2009:1199-1204.

[9] L Zhang, B Liu, S H Lim, et al. Extracting and ranking product features in opinion documents [C]//Proceedings of the 23rd International Conference on Computational Linguistics . Beijing, China : Association for Computational Linguistics,2010: 1462-1470.

[10] Y Xi. Extracting Product Features from Chinese Product Reviews [J]. Journal of Multimedia, 2013,8(6):647-654.

[11] L Lee.Measures of Distributional Similarity[C]//Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. Maryland, USA: Association for Computational Linguistics,1999:25-32.

[12] P D Turney. Mining the Web for Synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the 12th European Conference on Machine Learning. Freiburg, Germany: Springer-Verlag,2001:491-502.

[13] D Higgins. Which statistics reflect semantics? rethinking synonymy and word similarity[C]//Proceedings of the International Conference on Linguistic Evidence. Tübingen,Germany: Walter de Gruyter,2004:265-284.

[14] G Carenini, R T Ng, E Zwart. Extracting Knowledge from Evaluative Text[C]//Proceedings of the 3rd International Conference on Knowledge Capture. New York, USA: ACM Press, 2005:11-18.

[15] B Shi, K Chang. Mining Chinese Review[C]//Proceedings of the 6rd International Conference on Data Mining. Washington, USA:IEEE Computer Society, 2006:585-589.

[16] H Guo, H Zhu, Z Guo, et al. Product feature categorization with multilevel latent semantic association[C]//Proceedings of the 18th ACM conference on Information and knowledge management. Hong Kong: ACM Press, 2009:1087-1096.

[17] Z Zhai, B Liu, H Xu, et al. Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, China:Association for Computational Linguistics, 2010:1272-1280.

[18] 楊源,馬云龍,林鴻飛. 評論挖掘中產品屬性歸類問題研究[J]. 中文信息學報. 2012, 26(3):104-108.

[19] Y L Ma, H F Lin, S Jin. A Revised SimRank Approach for Query Expansion[C]//Proceedings of the 6th Asia Information Retrieval Societies Conference. Taipei: Springer-Verlag, 2010:564-575.

[20] K Wagstaff, C Cardie. Clustering with Instance-level Constraints[C]//Proceedings of the Seventeenth International Conference on Machine Learning. Stanford, USA: AAAI Press,2000: 1103-1110.

[21] K Wagstaff, C Cardie, S Rogers, et al. Constrained k-means Clustering with Background Knowledge [C]//Proceedings of the Eighteenth International Conference on Machine Learning. Williamstown, USA: AAAI Press,2001: 577-584.

[22] S Basu, A Banerjee, R Mooney. Active Semi-supervision for Pairwise Constrained Clustering[C]//Proceedings of the SIAM International Conference on Data Mining. Lake Buena Vista, USA:SIAM,2004:333-344.

[23] Z Zhai, B Liu, H Xu, et al. Constrained LDA for Grouping Product Features in Opinion Mining. Proceedings of the 15th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Shenzhen, China: Springer-Verlag,2011:448-459.

[24] 同義詞詞林(擴展版),哈爾濱工業大學信息檢索研究室:http://ir.hit.edu.cn/[EB/OL].

[25] 知網, 董振東:http://www.keenage.com/[EB/OL].

[26] G Jeh, J Widom. SimRank: A Measure of Structural-Context Similarity[C]//Proceedings of the 8thACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Edmonton, Canada: ACM Press, 2002:538-543.

Recognizing the Feature Synonyms in Product Review

XI Yahui

(College of Mathematics and Computer Science, HeBei University, Baoding, Hebei 071002, China)

With the great development of e-commerce, the product review mining has recently received a lot of attention. In product reviews, people often use different words and phrases to describe the same product feature, which are necessary to be recognized as synonyms for effective opinion summary. In this paper, we first calculate the similarity of product features. Then the must-link and cannot-link constraints are exacted based on the analysis of product reviews. Finally, the constrained hierarchical clustering algorithm and the extracted constraints are applied to recognize product feature synonyms. Experiments on diverse real-life datasets show promising results.

product review mining; product feature synonyms; similarity; constrained hierarchical clustering algorithm

郗亞輝(1977-),男,副教授,主要研究領域為文本挖掘、信息檢索。E-mail:xiyahui@hbu.edu.cn

1003-0077(2016)04-0150-09

2014-10-27 定稿日期： 2015-04-30

國家自然科學基金(61170039)

TP391