中文在線評論中的商品特征聚類研究

2016-08-05 08:03:31秦成磊

計算機應用與軟件 2016年7期

關鍵詞：語義特征

秦成磊　魏　曉

(上海應用技術大學計算機科學與信息工程學院　上海 201418)

中文在線評論中的商品特征聚類研究

秦成磊魏曉*

(上海應用技術大學計算機科學與信息工程學院上海 201418)

摘要針對評論中蘊含的商品特征數目繁多且同一特征具有多種不同描述的情況，提出一種基于語義相似度的商品特征聚類算法。算法包括 “分配”和“轉移”兩個過程。“分配”過程對特征詞進行聚類得到初始簇序列；“轉移”過程依次遍歷初始簇序列將簇內可能存在的與其他簇語義相似度更高的特征詞轉移到對應的簇。實驗結果表明該算法聚類質量高、時間復雜度小且對數據輸入次序不敏感。

關鍵詞商品特征聚類特征聚類語義相似度評論挖掘

0引言

Godes David等[1]早在2004年針對服裝、計算機、旅游等行業的研究發現，有近半數以上的網購消費者在做出購買決定前參考了該商品的評論信息。Cone公司在發布的《2011年網絡影響趨勢跟蹤》中也得到類似結論：89%的消費者認為通過網絡渠道獲得的商品信息是值得信賴的，64%的消費者主要根據商品的相關評論來驗證該商品的質量[2]。事實上，很多消費者無論是網上購物還是實體店購物都會事先在相關網站上查看該商品的評價信息以便作出有利的決策。因此，如何在海量的評論中挖掘出有價值的信息是目前研究的熱點之一。

商品特征聚類在獲取消費者對商品性能的關注度、輔助商家提升商品質量等方面具有重要作用。目前的研究主要包括從評論中抽取商品特征、提取觀點詞、判斷情感極性等。而近幾年網購用戶數量驟增[3]，一件商品的評論數也大大增加，不同的用戶所關注商品特征的視角往往不同，對同一商品特征的描述也不盡相同。這給基于特征詞、觀點詞判斷用戶情感極性帶來較大的困難，致使挖掘結果不夠直觀。因此，有必要對商品特征進行聚類。

本文首先從評論中提取商品特征，其次計算特征詞之間的語義相似度，最后根據本文提出的聚類算法將同類特征進行聚類。實驗結果表明，該算法具有聚類質量高等優點。

1相關工作

商品特征聚類的關鍵技術之一是從評論語料中提取商品特征。現有的文本特征選擇方法如TF-IDF、信息增益、X2統計量、互信息等[4,5]對主題較為鮮明的文本具有較好的抽取效果。但用戶的商品評論通常只含一個句子，較為簡短。因此，上述方法在商品特征抽取中效果并不理想。

商品特征抽取分為人工定義和自動提取：

姚天昉等[6]人工定義了汽車領域的商品特征，準確度較高。網絡的快速發展，使得人工定義商品特征的缺陷逐漸顯現出來：首先沒有考慮用戶對商品特征的描述，其次商品更新時需要手工添加新的特征。

商品特征自動提取最具代表性方法的是MinQing Hu等[7]提出的利用詞性標注提取評論中的名詞或名詞性短語并生成事務集，根據Apriori算法[8]提取特征候選集，最后利用鄰近規則和獨立支持度規則過濾商品特征。李實等[9]在Hu的方法上做了一些改進，使其適合中文商品特征自動提取。

在商品特征聚類方面，Zhongwu Zhai等[10]認為對同一特征描述的詞語或詞組應該放在一類中，提出一種半監督SC-EM商品特征聚類算法，但隨著數據規模擴大，對自動化程度的要求逐漸提高，該算法適用性有待提高。張珠等[11]以語素和評價詞作為衡量商品屬性之間關聯程度的特征，采用K-Means方法進行商品屬性歸類，但K-Means聚類方法存在固有的缺陷，如聚類質量易受數據輸入次序、離群點等影響。李愛清等[12]通過構建商品特征粒度樹對商品特征進行歸類，但對商品新特征的識別分類存在著一定的不足。

2商品特征聚類

2.1提取商品特征

要對商品特征進行聚類首先要從用戶評論中提取商品特征。文中所述的商品特征主要包括商品屬性名稱、功能性名稱。為方便處理，將抓取的評論存放到文件中，每一行代表一條評論。商品特征提取步驟如下：

(1) 為了提高評論分詞的效果首先要構建停用詞表和用戶詞庫并對用戶詞庫中的詞條進行詞性標注；

(2) 利用中科院分詞動態連接庫對評論進行分詞，剔除評論中的人名、地名、團體機構名和其他專用名稱，只保留名詞性慣用語和名詞性語素并生成事務集；

(3) 使用Apriori算法從事務集中提取頻繁1項集、頻繁2項集、頻繁3項集[7]。為了提高獲取商品特征的準確率，頻繁項集的最小支持頻度分別為為5、3、2；

(5) 商品特征列表List中存在著一定數量的非商品特征的名詞，如“理由”、“心愿”等。因此還要用獨立規則[9]除去這些詞。特征詞a在頻繁2項集、頻繁3項集中的父項分別表示為(a,b)、(a,b,c)，評論集S(S1,S2,…,Sn)中含有a、(a,b)、(a,b,c)的評論條數分別是K1、K2、K3，要求(K1-K2-K3)≥3，則認為特征詞是符合要求的，否則從商品特征列表List中刪除。

經過上述五個步驟之后，從評論中挖掘的商品特征具有較高的準確率。

2.2特征詞相似度計算方法

2.2.1同義詞詞林簡介

目前常用的中文語義詞典主要有《知網》、《同義詞詞林》。《知網》中兩個主要的概念：“概念”與“義原”。“概念”是對詞匯語義的描述而“義原”是描述“概念”的最小語義單位。由于中文意境廣博深遠， “概念”與“語義”并沒有明顯的分界線，用于計算語義相似度有一定的不足。因此，本文根據《同義詞詞林》計算特征詞之間的語義相似度。

《同義詞詞林》是梅家駒等于1983年編寫而成，但由于時間久遠，本文采用的是哈工大信息檢索研究室的《同義詞詞林擴展版》[15]。《同義詞詞林》把其收錄的詞匯分成大、中、小3類，大類12個，中類97個，小類1 400個。每個小類中的詞根據語義相關性又分成若干行，每行中的詞匯語義基本相同或者具有很強的相關性。

擴展版同時提供五級編碼，也就是說為詞林中的小類中每行詞匯提供編碼，如下所示：

Aa01A01= 人士人物人士人氏人選

Bk02C07# 大腦中腦小腦前腦丘腦

Di09D52# 計劃科考評科調查科行政科保衛科調研

《同義詞詞林擴展版》收錄高達7萬余個詞條，但還是不夠完善。因此，還要將擴展版未收錄的一些詞匯添加到詞林中，如“WIFI、藍牙、無線網”等添加到“網、網絡”所在的行。

2.2.2相似度計算方法

《同義詞詞林擴展版》提供五級編碼使計算詞匯之間的語義相似度具有可行性。文中采用田久樂等[12]提出的詞語相似度計算方法。

(1) 兩個詞匯不在同一棵樹上：

Sim(A,B)=f

(1)

(2) 兩個詞匯在一棵樹上：

(a) 在第二層分支：

(2)

(b) 在第三層分支：

(3)

(4)

(d) 在第五層分支：

(5)

原文f、a、b、c、d的取值分別為0.1、0.65、0.8、0.9、0.96； n,k分別表示分支層總結點數和分支層之間的距離。本文中β在第二層分支取0.6，第三層分支取0.8，第四層分支取0.9，第五層分支取0.95；若詞匯的編碼完全相同，則Sim(A,B)=1；若兩個詞匯不在一棵樹上，則Sim(A,B)=0.1。

2.3商品特征聚類算法

2.3.1“分配”過程算法描述

本文提出的基于語義相似度的商品特征聚類算法將商品同類特征進行聚類，同類特征之間具有很強的語義相似度，因此本文認為每個簇的簇中心一旦確定就不再改變。“分配”過程具體算法描述如下：

(1) 獲取商品特征列表List中每個商品特征在擴展版中的編碼，構建<編碼，特征詞>對，形如< Aa01A01,人物>記為efList{(E1,f1),(E2,f2),(E3,f3),…,(En,fn)}；

(2) 任選(Ei,fi)其中1≤i≤n作為第一個簇的簇中心并創建Cluster[0]{(Ei,fi)}；遍歷efList剩余元素計算Sim(efList[j].Encoding,Cluster[0][0].Encoding)(Encoding表示特證詞在同義詞詞林中對應的編碼)其中1≤j≤n且j≠i，若Sim>0.85，將efList[j]加入到Cluster[0]中，否則將(Ej,fj)作為第二個簇的簇中心并創建Cluster[1]{(Ej,fj)}；遍歷efList剩余元素，計算Sim1(efList[k].Encoding,Cluster[0][0].Encoding)其中1≤k≤n且k≠i且k≠j，若Sim1≥0.85，則將efList[k]放入Cluster[0]中；否則，再計算Sim2(efList[k].Encoding,Cluster[1][0].Encoding)，若Sim2≥0.85，則將efList[k]放進入Cluster[1]；否則將(Ek,fk)作為第三個簇的簇中心并創建Cluster[2]{(Ek,fk)}，重復上述過程，直到遍歷完特征列表為止。也就是取efList中剩余的元素的編碼依次與已創建過的簇的簇中心計算相似度，一旦符合條件將該元素放進對應的簇中，如果直到遍歷完所有的簇都不符合條件，則創建一個新簇，并將該元素作為新簇的簇中心。算法偽代碼如下所示。

Begin：

1構建<編碼，特征詞對>，記為:

efList{(E1,f1),(E2,f2),…,(En,fn)}；

2設置信號量p=0；

3for(i=1;i<=features.Count;i++)

4if(Clusters.Count==0)

5將(Ei,fi)作為Cluster[0]的簇中心創建Cluster[0]{(Ei,fi)}；

6else//計算簇中心與特征詞的相似度

7for(j=0;j

8計算sim(efList[i].Encoding,Cluster[j][0].Encoding)

9if(sim>=0.85)

10設置p=1;

11將(Ei,fi)加入Cluster[j]中；

12else

13Break；

14if(p!=1)

15將(Ei,fi)作為Cluster[j+1]的簇中心并創建Cluster[j+1]{(Ei,fi)}；

End.

算法執行的示意如圖1所示。

圖1　“分配”過程算法執行示意圖

2.3.2“轉移”過程算法描述

上述算法執行完后，可能存在著 efList[k].Encoding與后創建簇的簇中心相似度較大的情況。因此為提高聚類質量，還需進行以下操作。將生成的簇按照生成順序排列，即{Cluster[0],Cluster[1],Cluster[2],…,Cluster[n]}，將Cluster[p]中除簇中心外的所有元素分別與所有Cluster[q]的簇中心計算相似度，其中0≤p

2.3.3時間復雜度分析

3實驗及分析

為驗證提出方法的有效性，本文首先進行了商品特征提取實驗并與李實等提出的方法進行對比；其次將提取出的商品特征進行聚類并與人工聚類結果對比。實驗數據集分別來自京東商城某型號手機的用戶點評數據和攜程網某酒店的用戶點評數據，評論數分別為2165、3700條。

3.1商品特征提取與對比實驗

本文在李實等提出的鄰近規則基礎上做了改進，改進后的鄰近規則在識別商品特征詞組具有較高的準確率。實驗結果如表1所示。

表1　鄰近規則對比實驗

實驗表明改進的鄰近規則有較高的準確率，使抽取到的商品特征的維度降低，能夠提升商品特征聚類的效率。

3.2商品特征聚類與對比實驗

為驗證提出的算法具有聚類質量高的優點，進行聚類實驗。本文的商品特征聚類算法的聚類結果如圖2所示。

從圖2的數據可以發現，廠家所給的商品參數與用戶在評論中使用的特征名稱有較大的出入，如“機身尺寸”在評論中簡稱為“尺寸”、“副攝像頭”被稱為“前攝像頭”或“前置攝像頭”等；自動聚類結果有效的降低了商品特征的維度并與人工聚類的結果相近。手機、酒店的特征聚類部分結果如表2、表3所示，表中第一列表示的是該簇的簇中心。

表2　手機特征聚類部分結果

表3　酒店特征聚類部分結果

從表中可看出，算法聚類結果質量較高且不受離群點的影響，如“贈品”、“保安”都作為單獨的一個簇。而K-Means算法聚類質量易受離群點影響，即離群點終將被分到與其距離最近的簇中，從而影響聚類的質量。

4結語

本文提出的基于語義相似度的商品特征聚類算法能夠有效地對相同或相近的商品特征進行聚類，降低商品特征維度，為評論挖掘的進一步研究奠定基礎。但也存在著一些不足，如語義詞典更新周期長，不能及時地收錄新詞，這給基于語義的相關研究工作帶來不便。針對這些存在的不足，將做進一步研究。

參考文獻

[1] Godes David,Mayzlin Dina.Using online conversations to studyword-of-mouth communication[J].Marketing Science,2004,23(4):545-560.

[2] Cone Communications LLC.Cone Releases the 2011 Online Influence Trend Tracker[OL].[2011].http://www.conecomm.com/contentmgr/showdetails.php/id/4008.

[3] 第31次中國互聯網絡發展狀況統計報告[R].中國互聯網絡信息中心,2012.

[4] 宗成慶.統計自然語言處理[M].北京:清華大學出版社,2008.

[5] 代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學報,2004,18(1):26-32.

[6] 姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統[C]//北京:中國中文信息學會二十五周年學術會議,2006:260-281.

[7] Minqing Hu,Bing Liu.Mining Opinion Features in Customer Reviews[C]//InAAAI,2004:755-760.

[8] Rakesh Agrawal,Ramakrishnan Srikant.Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases (VLDB)1994.Santiago:ACM,1994:487-499.

[9] 李實,葉強,李一軍.中文網絡客戶評論的商品特征挖掘方法研究[J].管理科學學報,2009,12(2):142-152.

[10] Zhongwu Zhai,Bing Liu,Hua Xu,et al.Clustering product features for opinion mining[C]//Proceedings of the 4th international conference on Web search and data mining(WSDM)2011.Hongkong:ACM,2011:347-354.

[11] 張珠,賈文杰,夏迎炬,等.商品屬性歸類技術研究[C]//黑龍江:第六屆全國信息檢索學術會議,2010.

[12] 李愛清,何爍,郗亞輝.商品評論挖掘可視化實驗平臺的開發[J].河北大學學報:自然科學版,2012,32(2):212-217.

[13] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報:信息科學版,2010,28(6):602-608.

[14] 梅家駒,竺一鳴,高蘊琦.同義詞詞林[M ].上海:上海辭書出版社,1983.

[15] 哈工大社會計算與信息檢索研究中心.同義詞詞林擴展版說明[OL].[2012].http://www.datatang.com/datares/go.aspx?dataid=612465.

收稿日期：2014-12-02。秦成磊，碩士生，主研領域：Web文本挖掘，Web智能信息處理。魏曉，副教授。

中圖分類號TP3

文獻標識碼A

DOI:10.3969/j.issn.1000-386x.2016.07.015

RESEARCH ON COMMODITY FEATURES CLUSTERING IN CHINESE ONLINE COMMENTS

Qin ChengleiWei Xiao*

(SchoolofComputerScienceandInformationEngineering,ShanghaiInstituteofTechnology,Shanghai201418,China)

AbstractIn light of the situation that in comments there are so many commodity feature numbers while multiple different descriptions are just for one feature, we proposed a semantic similarity-based commodity features clustering algorithm. The algorithm includes two processes, the “allocation” and the “transfer”. The “allocation” process clusters the feature words to get primary clusters sequence; and the “transfer” process traverses the primary clusters sequence in turn and transfers the feature words within a cluster which possibly have higher similarity in semantics as of other clusters to the corresponding cluster. Experimental results indicate that the algorithm has high quality, small time complexity and is insensitive to data input order.

KeywordsCommodity features clusteringFeatures clusteringSemantic similarityComment mining