畢建武,劉 洋,樊治平
(東北大學工商管理學院,遼寧沈陽110167)
隨著互聯網的不斷發展,越來越多的電子商務網站和社交媒體平臺鼓勵消費者在網站上發表他們已購買或使用過的商品的相關評論信急[1,2].與商品賣方提供的商品描述相比,這些由消費者提供的商品在線評論信急能夠更加客觀的反應商品的真實情況.一些研究結果表明,大眾消費者在購買商品(尤其是價格較高的商品)之前通常會閱讀關于該商品的在線評論信急,并依據商品在線評論信急做出最終的購買決策[3?6].然而,由于商品在線評論屬于非結構化文本數據而且其數量往往較大,如果讓消費者逐條閱讀和分析大量在線評論信急進而做出購買決策將會非常繁瑣和困難[7].因此,為了支持消費者的購買決策,如何客觀的對大量的商品在線評論進行自動化分析并對相關商品進行排序是一個非常值得關注的研究問題.
目前,基于在線評論的商品排序已經引起了國內外一些學者的關注,并取得了一些研究成果.例如Zhang等[8]較早的關注到了基于在線評論的商品排序問題并提出了相應的排序方法,在其方法中,首先提出了一種動態規劃技術來識別評論中的比較語句和評價語句,然后依據情感分析技術對比較語句和評價語句的情感傾向進行判定,在此基礎上構建了針對同類商品比較的有向加權圖,依據有向加權圖采用改進的PageRank算法確定了商品排序.在文獻[8]的基礎上,Zhang等[9,10]通過考慮在線評論所涉及的商品屬性,評論獲得的有用性投票(點贊)數量和評論發表時間等因素,對文獻[8]所提出的方法進行了改進.Peng等[11]通過統計商品在線評論中不同屬性特征詞出現的頻率,確定了消費者所關注的重要商品屬性,在此基礎上,提出了一種基于模糊PROMETHEE的商品排序方法.Chen等[12]依據同類商品的在線評論信急,通過集成主題模型,TOPSIS和多維尺度分析提出了一種基于在線評論的市場結構可視化方法,通過使用該方法可以確定同類商品的排序.Najmi等[13]通過考慮商品的品牌,評論的情感傾向和評論的有用性等因素,提出了一種基于在線評論的商品綜合排序方法.Yang等[14]同時考慮了消費者針對商品的打分評級,文本評論和對比性投票等三類信急,提出了一種基于有向加權圖的商品排序方法.
已有研究對于基于在線評論的商品排序做出了重要貢獻.然而,目前針對此方面研究所取得的研究成果非常有限,仍顯不足.在已有的研究中[8?14],通常是首先識別在線評論的正向或負向的情感傾向,再依據得到正向和負向的情感傾向進行商品排序.目前,一些學者已經明確指出,僅識別在線評論的正向和負向的情感傾向而不考慮相同情感傾向評論的不同情感強度,是過于簡化的處理方式,容易導致信急損失[15,16].如果可以識別商品在線評論不同的情感強度,則可以基于大量在線評論的情感強度來確定商品的排序.為此,本文提出一種基于多粒度情感強度分析和隨機TOPSIS的商品排序方法.在該方法中,首先通過提出多粒度情感強度分析算法確定每條評論針對商品屬性的情感強度值,然后構建備選商品針對商品屬性的多粒度情感強度分布形式的屬性值,進而采用隨機TOPSIS方法確定備選商品的排序.
圖1展示了一類依據商品在線評論的商品排序問題.由圖1可以看出,消費者在購買商品之前,通常會根據自身的需要和商品的價格等相關信急,初步確定幾款備選商品.為了從多個備選商品中選擇最適合的商品,消費者可能會通過商品銷售和評論網站獲取備選商品的相關在線評論信急.依據消費者關注的備選商品和屬性,如何依據在線評論確定備選商品針對屬性的評價結果,并依據屬性評價結果和屬性權重確定備選商品的排序,這是本文所要解決的問題.為了便于分析說明,下面的符號用來描述該問題中所涉及的集合和變量.
A={A1,A2,...,An}表示消費者關注的n個備選商品集合,其中Ai表示消費者關注的第i個備選商品,i=1,2,...,n.F={f1,f2,...,fm}表示消費者關注的m個商品屬性集合,其中fj表示消費者關注的第j個屬性,j=1,2,...,m.w=(w1,w2,...,wm)表示消費者關注的備選商品屬性權重向量,其中wj表示屬性fj的權重,且滿足wj=1,wj≥0,j=1,2,...,m.備選商品屬性權重向量可以由消費者根據自身偏好預先給定.Q=(q1,q2,...,qn)表示備選商品的評論數量向量,其中qi表示針對備選商品Ai的評論數量,i=1,2,...,n.Ri={Ri1,Ri2,...,Riqi}表示針對備選商品Ai的評論集合,其中Rik表示針對商品Ai的第k條評論,i=1,2,...,n,k=1,2,...,qi.本文所要解決的問題是,依據消費者提供的屬性F,屬性權重w和在線評論信急Ri,i=1,2,...,n,如何確定備選商品A1,A2,...,An的排序,以支持消費者進行商品購買決策.

圖1 基于商品在線評論的商品排序問題Fig.1 The goods ranking problem based on online reviews
為了解決上述問題,這里給出一種基于多粒度情感強度分析和隨機TOPSIS的商品排序方法.該方法的基本思想是:首先,采用爬蟲軟件和ICTCLAS軟件對消費者關注的備選商品的在線評論進行獲取和預處理;然后,依據預處理后的評論,通過提出多粒度情感強度分析算法確定每條評論針對消費者關注的商品屬性的情感強度值;再次,通過對得到的情感強度值進行統計分析,構建備選商品針對商品屬性的多粒度情感強度分布形式的屬性值;最后,依據得到屬性值,可以采用隨機TOPSIS方法確定備選商品的排序.下面給出該方法的具體描述.
2.2.1 備選商品在線評論獲取和預處理
備選商品在線評論獲取和預處理是備選商品在線評論多粒度情感強度分析的基礎工作.本文采用爬蟲軟件對商品在線評論進行獲取,采用ICTCLAS漢語分詞系統(http://ictclas.nlpir.org/)對獲取的評論進行預處理,具體過程如下:
1)備選商品在線評論獲取
根據消費者關注的備選商品集合A={A1,A2,...,An},采用爬蟲軟件按照設定的規則對備選商品在線評論進行獲取,可以得到備選商品在線評論Ri={Ri1,Ri2,...,Riqi},i=1,2,...,n.
2)備選商品在線評論預處理
針對備選商品在線評論的預處理包括兩個步驟,即分詞和詞性標注和停用詞刪除.下面分別針對這兩個步驟給出具體的描述.
(a)分詞和詞性標注.采用ICTCLAS漢語分詞系統對備選商品在線評論進行分詞和詞性標注.通過分詞和詞性標注能夠將句子形式的評論分解成若干詞語并且在每個詞后標注了相應的詞性.例如,評論“畫質非常好”經過分詞和詞性標注得到的結果為“畫質/n非常/d好/a”,其中n,d和a分別表示名詞,副詞和形容詞.
(b)停用詞刪除.停用詞通常是指出現頻率高,但又沒有實際意義的詞,例如“了”,“的”,“呢”等.為了提高情感強度分析的效率,通常需要對評論中的停用詞進行刪除.本文使用中文停用詞表對停用詞進行刪除.具體的,將分詞及詞性標注處理后的評論與中文停用詞表中的停用詞(保留標點符號)進行比對,并刪除在停用詞表中出現的詞.
將經過預處理后得到的關于備選商品Ai的第k條評論的詞集合記為其中表示WSik中的第v個詞,qik表示WSik中的詞總數,i=1,2,...,n,k=1,2,...,qi,v=1,2,...,qik.
2.2.2 備選商品屬性評論多粒度情感強度分析
依據備選商品在線評論預處理結果,為了進行商品排序,需要確定備選商品在線評論針對消費者關注的商品屬性的多粒度情感強度值.為此,這里給出一種基于情感詞典的在線評論多粒度情感強度分析方法,該方法主要包括三個步驟,包括備選商品屬性的同義詞合并,備選商品領域情感詞典建立和備選商品屬性評論多粒度情感強度識別.下面給出每個步驟的具體描述.
1)備選商品屬性的同義詞合并
不同的評論者在發表評論時描述同類商品的同一屬性可能使用不同的詞,因此有必要首先對描述同一商品屬性的同義詞進行合并.本文采用基于詞語相似度的方法來對描述同一商品屬性的同義詞進行合并.具體過程如下.
首先,依據備選商品在線評論預處理結果,從所有備選商品的評論詞集合中提取名詞.令WSnoun=表示從所有備選商品評論中提取的名詞集合,其中表示WSnoun中第l個名詞,qnoun表示名詞集合中名詞的數量,l=1,2,...,qnoun.
然后,令Wfj表示針對商品屬性fj的標準用詞,j=1,2,...,m.通常,針對消費者可能關注的屬性,電子商務網站可以預先設定商品屬性的標準用詞,并且要求消費者通過對所提供的標準用詞進行勾選來確定消費者所關注的商品屬性.因此,考慮針對各商品屬性的標準用詞為已知條件.這樣,通過文獻[17]提出的方法,可以計算詞與商品屬性標準用詞Wfj的相似度sim(Wfj,),即

其中Dis(Wfj,)表示依據同義詞詞林[17]計算得到的Wfj和之間的距離;α為可調參數,α的默認取值為1.6.
由sim(Wfj,)的值的大小可確定詞Wfj和是否為同義詞.具體的,若sim(Wfj,)≥0.5,則認為詞Wfj是Wlnoun的同義詞;如果sim(Wfj,)<0.5,則認為詞Wfj不是的同義詞[11,17].通過相似度計算,可以得到針對詞Wfj的同義詞集合其中,表示WSj,將評論詞集合WSik中的替換為Wfj,即可完成同義詞合并,i=1,2,...,n,j=1,2,...,m,k=1,2,...,qi,p=1,2,...,qfi.
通常一條商品評論中可能包含針對多個屬性的評論信急,為了識別一條評論中關于不同屬性的多粒度情感強度值,需要首先識別一條評論中針對不同屬性的評論信急.記為WSik中的針對屬性j的評論信急,i=1,2,...,n,j=1,2,...,m,k=1,2,...,qi.關于的確定方式如下:將替換同義詞后得到的WSik中的詞與屬性標準用詞Wfj進行比對,如果Wfj∈WSik,則提取WSik中包含詞Wfj的兩個相鄰標點符號之間的評論所包含的形容詞,動詞和副詞[18],可以得到其中表示中的第 u個詞,qj表示中詞的總數,i=1,2,...,n,j=1,2,...,m,k=1,2,...,qi.特別的,如果Wfj/∈WSik,則記= “? ”,i=1,2,...,n,j=1,2,...,m,k=1,2,...,qi.
2)備選商品領域情感詞典建立
考慮到針對不同商品的情感詞集合可能不同,為了提高多粒度情感強度分析的準確性,有必要建立商品領域情感詞典.備選商品領域情感詞典建立的具體過程如下.
令WS′={W1,W2,...,Wq′}為針對備選商品評論的意見詞集合,其中Wg表示WS′中的第g個意見詞,q′表示 WS′中詞總數,g=1,2,...,q′.WS′可以通過式(2)確定,即

依據得到的WS′,本文利用HowNet(http://www.keenage.com/)來構建商品領域的正向情感詞典和負向情感詞典.具體的,令和分別為HowNet中通用的正向評價詞語和負向評價詞語的集合.根據和WS′初步構建備選商品領域正向情感詞典和負向情感詞典其中

需要指出的是,由于可能出現WS′中的部分詞同時不屬于的情況,針對以上情況需要通過人工識別來確定相應詞所隸屬的領域情感詞典,并最終得到備選商品領域情感詞典.記WS+和WS?分別表示最終確定的備選商品領域正向情感詞典和備選商品領域負向情感詞典.
3)備選商品屬性評論多粒度情感強度識別
步驟1判斷是否為空集,若= ?,則←0;否則跳轉到步驟2;
步驟2判斷是否為 “?”,若=“?”,則←“?”;否則跳轉到步驟3;
步驟3判斷與WS+的交集是否為空集,若WS+∩?= ?,則← 1;否則← 0;
步驟4判斷與WS?的交集是否為空集,若WS?∩?=?,則←1;否則←0;
步驟5判斷與WSneg的交集是否為空集,若WSneg?=?,則←1;否則←0;
步驟6判斷與WSd的交集是否為空集,若WSd= ?,則← 0;若則←1;否則←?1;
步驟7若==0或者=1,則←0;若=1,=0和=1或者=0,則←?2?否則

其中i=1,2,...,n,j=1,2,...,m,k=1,2,...,qi.
2.2.3 備選商品排序

其中i=1,2,...,n,j=1,2,...,m.


針對Pij(x),x=?1,?2,?3,0,1,2,3的表達式,相應的累積分布函數可以寫為

在此基礎上,可以采用隨機TOPSIS方法[19],對備選商品進行排序.

備選商品Ai關于屬性fj的多粒度情感強度分布形式的屬性值Pij(x)的累積分布函數Fij(x)到和的距離可以采用式(11)和式(12)進行計算,即



可見,Ci的值越大,備選商品Ai越優.因此按照計算得到的Ci的值的大小對所有備選商品排序,可以得到所有備選商品的優劣排序結果.
綜上,下面給出依據商品在線評論的基于多粒度情感強度分析和隨機TOPSIS的商品排序方法的具體計算步驟.
步驟1采用爬蟲軟件獲取備選商品在線評論Ri={Ri1,Ri2,...,Rqi},對Ri進行預處理得到每條評論的詞集合
步驟2根據式(1),對備選商品屬性的同義詞進行合并,并確定每條評論中針對不同屬性的評論信急=1,2,...,n,j=1,2,...,m,k=1,2,...,qi;
步驟3根據式(2)~式(4),建立商品領域正向情感詞典WS+和負向情感詞典WS?;
步驟4根據算法1,計算備選商品屬性評論多粒度情感強度值=1,2,...,n,j=1,2,...,m,k=1,2,...,qi;
步驟5根據式(5)~式(8),構建備選商品針對商品屬性的多粒度情感強度分布形式的屬性值Pij(x),i=1,2,...,n,j=1,2,...,m;
步驟6根據式(9)~式(10),構建正、負理想累積分布向量F+和F?;
步驟7根據式(11)~式(15),計算備選商品Ai的貼近度Ci,并根據Ci由大到小對備選商品進行排序,i=1,2,...,n.
為了進一步說明本文提出方法的潛在應用,本部分給出一個依據在線評論信急對多款相機商品排序的算例分析.考慮某消費者欲購買一款價格在1萬元左右的數碼相機,通過多方面了解信急,初步確定了4款備選數碼相機,即
A1:佳能6D套機(24 mm~105 mm);
A2:佳能7D套機(18 mm~135 mm);
A3:尼康D610套機(24 mm~120 mm);
A4:尼康D750套機(24 mm~120 mm).
該消費者關注的備選相機屬性為:性價比(f1),操控(f2),畫質(f3),電池(f4),鏡頭(f5),對焦(f6),快門(f7),并且該消費者給出的備選相機屬性權重向量為w=(0.2,0.1,0.2,0.1,0.1,0.1,0.2).
為了支持該消費者做出合理的購買決策,需要依據在線評論對以上4款備選相機進行排序.
首先,以中關村在線(http://www.zol.com.cn/)提供的商品點評作為備選相機評論來源,使用Locoy Spider軟件采集備選相機在線評論,得到備選相機在線評論Ri={Ri1,Ri2,...,Riqi},對Ri進行預處理得到每條評論的詞集合WSik=,i=1,2,3,4,k=1,2,...,qi,q1=402,q2=201,q3=220,q4=350.以備選相機A1為例,對其評論進行預處理的結果如表1所示.
根據式(1),對描述相機屬性的同義詞進行合并,并識別每條評論中針對不同屬性的評論信急,即確定這里以備選相機A1的第一條評論R11為例進行說明,R11中僅包含畫質(f3)的評論語句,對該條評論進行同義詞合并,提取包含描述屬性f3的詞Wf3(畫質)的兩個相鄰標點符號之間的形容詞,動詞和副詞可以得到該條評論中針對畫質(Wf3)的評論信急為={非常/d,好/a}.

表1 備選相機A1的評論預處理結果Table 1 The pre-processing results of the reviews concerning alternative camera A1
然后,根據式(2)~式(4),建立相機領域正向情感詞典WS+和負向情感詞典WS?,部分情感詞見表2.

表2 部分情感詞Table 2 Partial sentiment words
根據情感強度分析算法,計算備選相機針對屬性的評論的情感強度值=1,2,3,4,k=1,2,...,qi,q1=402,q2=201,q3=220,q4=350.這里以={非常/d,好/a}為例來進一步說明如何通過情感強度分析算法確定的值.由于中僅存在正向情感詞“好”和情感強度增強詞“非常”,即由情感強度分析算法的步驟3,步驟4,步驟5和步驟6可分別確定各指示變量的值,即在此基礎上,可以由情感強度分析算法的步驟7確定的值,即=2+1=3.最終得到該條評論關于屬性f3的情感強度值為3.
依據表3和式(8),可以得到針對Pij(x)的累積分布函數Fij(x),i=1,2,3,4,j=1,2,...,7.為了節省篇幅,這里以F11(x)為例,簡要說明其計算過程.

表3 備選相機關于屬性的多粒度情感強度分布形式的屬性值Table 3 Feature values in the form of distribution concerning multi-granularity sentiment strengths on alternative cameras

表4 正、負理想累積分布向量Table 4 The probability distributions of the ideal and nadir solutions
由表3可知,備選相機A1關于屬性f1的多粒度情感強度分布形式的屬性值為

依據式(8),P11(x)的相應累積分布函數F11(x)可以寫為

在此基礎上,依據式(9)和式(10),可構建正、負理想累積分布向量和結果如表4所示.
根據式(11)~式(14),計算備選相機Ai到正向和負向理想累積分布向量F+和F?的距離,即i=1,2,3,4.計算結果為=0.533 1,=0.744 9,=0.724 1,=0.497 9,=0.872 4,=0.660 5,=0.681 3,=0.907 5.最后,依據式(15),可計算備選相機的貼近度,計算結果為C1=0.620 7,C2=0.470 0,C3=0.484 7,C4=0.645 7.通過比較4款備選相機的貼近度的值可得到4款相機排序結果為A4?A1?A3?A2,即該消費者可以考慮購買備選相機A4.
本文給出了一種依據商品在線評論的基于多粒度情感強度分析和隨機TOPSIS的商品排序方法.在該方法中,首先,采用爬蟲軟件和ICTCLAS對消費者關注的備選商品的在線評論信急進行獲取和預處理.然后,依據預處理后的評論,通過提出的多粒度情感強度分析算法可以確定每條評論針對消費者關注的商品屬性的情感強度值.進一步地,通過對得到的情感強度值進行統計分析,可以構建備選商品針對商品屬性的多粒度情感強度分布形式的屬性值.在此基礎上,可以依據隨機TOPSIS方法確定備選商品的排序.該方法具有概念清晰、計算簡單等特點,有較強的可操作性和實用性,為解決依據在線評論的商品排序問題提供了一種新的思路.
需要強調的是,在本文研究中,提出了一種多粒度情感強度分析算法.使用該算法,可以將在線評論的情感強度劃分為七個情感粒度,進而通過統計分析,可以將海量在線評論中所蘊含的針對商品的情感強度轉化為多粒度情感強度分布形式的屬性值.這種處理方式,一方面避免了僅考慮正向和負向情感傾向所造成的大量信急損失,另一方面方便借助已有的基于隨機(頻度)分布的信急處理和決策分析方法進行基于海量在線評論信急的信急處理與決策分析,為進一步開展基于在線評論信急的決策分析奠定了良好的基礎.