何有世等



摘要:以在線評論內容為節點,內容間的語義相似度為鏈接的權重,結合復雜網絡思想,構建在線評論網絡,該網絡的可行性也通過網絡的全局統計數據得到了論證。在評論網絡的“社區結構特性”的基礎上劃分面向主題的網絡社區;基于傳統復雜網絡節點重要性評價方法的同時,結合社區屬性,構建重要評論的多屬性決策方法。并通過仿真實驗驗證了該模型在全局以及局部網絡的可行性與準確性。
關鍵詞:在線評論;復雜網絡;網絡社區;語義相似度
DOI:10.13956/j.ss.1001-8409.2015.10.25
中圖分類號:F713;TP311文獻標識碼:A 文章編號:1001-8409(2015)10-0115-05
Abstract:Based on complex network theory, this paper constructed online reviews network through regarding reviews content as the network nodes and the semantic similarity between reviews as the weights of link. The feasibility of network was demonstrated by the analysis of the global statistics. This paper demonstrated the rationality of the network through the analysis of the global statistics of reviews network. And it divided the reviews network community of subjectoriented according to the “community structure features” of reviews network. Based on the traditional node importance evaluation methods of complex network in combination with community attribute, it built a multipleattribute decisionmaking method of important reviews. And through the simulation experiments, it verified the feasibility and accuracy of the model.
Key words:online reviews; complex networks; network community; semantic similarity
據CNNIC關于網絡購物中消費者的相關行為研究發現,43%的消費者將在線評論作為網絡購買決策的重要依據[1]。而且在線評論也可以作為反饋信息,幫助生產商和網絡銷售商改進產品以及服務,從而獲得優勢。
但是面對海量評論,消費者無法快速辨別和利用有價值的信息來作出正確的決策。因此針對在線評論挖掘的研究被學者們所關注,Popescuam等將在線評論挖掘細分為4個子任務:特征抽取、觀點抽取、極性判斷、結果匯總[2]。而關于在線評論的有用性影響因素的研究[3],大多數基于特定的易于獲取的評論數據源,如亞馬遜商城數據[4]等。
傳統在線評論的有用性研究中,評論數據源獲取缺乏普遍性,并沒有充分挖掘網絡世界中海量的相關主題的在線評論,導致研究方法缺乏適用性,并且針對在線評論的有用性研究只是對評論進行有用或無用的劃分,評論數據源并沒有實質性的縮減,而且有用的評論間也有可能存在不同的觀點,這時確定誰的觀點更重要就尤為關鍵。本文依據相關主題在線評論在內容上具有的“普遍聯系”、“語義內聚”的特點,將在線評論數據源看做以特定方式相聯系的一種網絡拓撲形態,并引入復雜網絡思想[5],將在線評論中的每條評論設定為復雜網絡中的一個節點,利用評論節點間的語義相似度確定節點的鏈接關系,構建基于復雜網絡的評論網絡模型。
1在線評論網絡模型分析
面對海量的在線評論,幫助消費者快速識別評論內容的重要性是評論網絡模型的關鍵功能,而若要從海量、存在大量噪聲的評論數據中提取出合適的數據源,不能單獨以評論文本內容的長度以及深度作為判斷標準。就評論節點個體而言,節點的內容是隨機的,但評論節點組成的網絡呈現出的“語義內聚”與“普遍聯系”的特點恰好與復雜網絡的“無標度特性”、“小世界效應”以及“社區結構特性”相吻合。所以不能片面看待評論節點的內容質量,而要結合節點內容之間的語義關聯,從宏觀層面上識別對消費者指定主題具有重要影響的評論[6]。本文以網絡化的視角來刻畫在線評論之間的關聯,并提出基于復雜網絡融合產品主題的重要在線評論挖掘方法,主要包括以下兩個模塊。
(1)構建評論節點的復雜網絡
將評論以網絡的形式進行表示,評論間的語義關聯轉化為鏈接的關系,可以將原本無序的評論以清晰的網絡結構整合起來,利于探索評論節點間的相互作用。評論網絡與傳統的社會網絡具有相似性,構建評論網絡需要明確網絡中的兩個要素,節點以及節點間的鏈接,節點間的鏈接關系必須是基于節點中某種可度量的屬性來確定的。
(2)面向主題的評論網絡社區劃分
評論網絡中的“社區結構特性”是由于同一產品或相似產品主題的評論節點在語義上具有相似性,使得評論網絡依據產品主題呈現社區結構,評論社區的劃分可以快速定位消費者指定的主題。在面向主題的社區基礎上,基于多屬性決策提取相關主題的重要評論[7]。
2構建評論網絡
一個完整的網絡是節點以及節點間鏈接的集合體,參照一般社會網絡的構建方法,本文以每條評論的文本內容為節點信息,評論間的語義關聯為鏈接,構建評論網絡G=(V,E), V={v1,v2,…,vn}是評論網絡中的n個節點,即n條在線評論集合,E是vi與vj組成的邊的集合,而邊(vi,vj)依據節點之間的相似性wij確定,設定閥值μ,若wij≥μ,則節點vi、vj間存在鏈接。
21節點表示以及鏈路預測
評論網絡中的節點以單條在線評論為主體,并將評論的文本內容以向量空間模型(VSM)的形式表示,考慮到節點的社區歸屬問題,節點的信息還包括社區標號,節點v的信息在網絡中表示成v={(v1,v2,…,vm),m}。
網絡中的鏈路預測是指通過已知的網絡拓撲結構或節點屬性等信息預測網絡中兩個節點之間存在鏈接的可能性。本文構建的評論網絡,不同于人際網絡、生物網絡等,鏈路預測之前并不存在網絡拓撲結構,因此利用節點的語義信息預測網絡中的鏈路。
在構建評論網絡的過程中,采用TF.IDF的方法計算評論節點間的語義相似度,設節點u和v的文檔向量形式是U=u1,u2,...,um,V=v1,v2,...,vm,其中,ui和vi分別表示特征詞i在各自評論中的指標值,通過TF.IDF計算[8]:
w(u,v)=U·VU×V=∑mi=1uivi∑mi=1u2i∑mi=1v2i(1)
并用w(u,v)表示邊(u,v)的權重,若w(u,v)≥μ,則節點u、v間存在鏈接。
在利用節點間的語義相似度進行鏈路預測的同時,通過實驗結果分析得到同一網頁中的評論絕大多數描述的是同一個主題,但可能存在評論觀點相對,導致網頁內評論間的語義相似度較低,使得網頁內的鏈路較少,因此本文初始化評論網絡中網頁內的節點間存在鏈接。
22閥值μ的確定
本文通過百度搜索引擎獲取實驗數據,并以手機、筆記本以及相機3種產品作為研究對象,進行實驗數據的采集,并以各采集到1000個網頁為采集器停止條件,對采集的網頁進行清洗,提取產品評論數據,實驗數據集如表1所示。
通過實驗數據集構建評論網絡,并初始化網頁內的節點間存在鏈接。運用半正態概率圖法對評論節點間語義相似度數據進行假設檢驗,結果顯示它們近似服從半正態分布,如圖1所示。
在初始化的評論網絡中,網頁內的節點間存在鏈接,網頁間的節點間沒有鏈接,隨著閾值μ的增大,網頁內節點間的鏈接減少的比例不斷增加,而網頁間節點間的鏈接增加的比例不斷減少,如圖2所示。
由圖2發現,在半正態分布的4σ點評論網絡鏈接數量保持穩定,說明這時網絡魯棒性最強,本文設定節點間語義相似度的閾值μ=4σ,并且在4σ點網頁內節點間的鏈接比例占80%左右,網頁間節點間的鏈接比例只占20%左右,符合帕累托法則。評論網絡的閥值設定與節點間鏈接的關系如表2所示,從表2中的節點數與節點間鏈接的比例發現,隨著評論節點數的增加,節點間的鏈接占整個評論網絡的比例逐漸減少,這是由于節點數增多時網頁間的節點對占整個網絡的比例上升,而網頁間的節點間語義相似度相比于網頁內的節點間語義相似度而言相對較小。
23評論網絡的全局統計數據分析
通過節點間的語義相似度與閥值μ的比較,去除網頁內節點間語義相似度wij<μ的鏈接,添加網頁間節點間語義相似度wij≥μ的鏈接,形成評論網絡,對構建的評論網絡使用可視化網絡分析軟件pajek,通過分析評論網絡的度分布[9]、平均路徑長度[10]和聚集系數3個指標與隨機網絡的關系,以確定本文構建的評論網絡符合復雜網絡的特性。全局統計數據如表3所示。
(1)度分布
在評論網絡中,度分布表示與某一評論節點具有鏈接的節點數量,實驗中3個評論網絡的節點平均度分布分別為11、12、14,基本符合隨機網絡的節點平均度分布,而且評論網絡中少數評論節點具有較大的度分布,包含了某一主題內的消費者關注的大部分信息,因此,評論網絡的度分布基本滿足冪律分布。
(2)平均路徑長度
平均路徑長度是指評論網絡中任意兩個節點之間距離的平均值[6]。由上表可知3個評論網絡的平均路徑長度與相同規模的隨機網絡平均路徑長度基本一樣,可以認為3個網絡都具有良好的連通性,基于在線評論構建的評論網絡相比其他的數據源,更適合評論的挖掘。
(3)聚集系數
聚集系數反映的是相鄰節點之間聯系的緊密程度,具有小世界效應的評論網絡的聚集系數遠遠大于隨機網絡的聚集系數[6],這是因為面向單個主題的評論網絡中的大多數節點具有較高的語義相似度而聚集,并聚集在度大的節點旁,這也近一步說明了評論網絡中能對消費者購買決策產生影響的節點是少部分重要評論節點。
通過分析評論網絡的全局統計數據,發現評論網絡的度分布符合冪律分布,認為評論網絡具有復雜網絡的無標度特征,另外,較小的平均路徑長度以及較高的聚集系數體現了評論網絡的小世界特征。因此,本文經過3個在線評論數據集的實證,論證了基于復雜網絡理論構建評論網絡的合理性。
3面向主題的評論網絡社區劃分
31在線評論網絡社區結構
消費者需求的不同導致評論內容的不同,不同消費者在意的產品特征具有很大差異,但關注相同特征的評論發布者,所發布的評論之間又具有較強的語義相似度。在構建的評論網絡中,以具有相同特征的評論節點為中心,形成若干規模不等的局部語義相似度較大的網絡拓撲結構,就是本文需要劃分的在線評論網絡社區。
評論網絡中評論節點間的語義除了具有相似性之外,還可能存在包含關系,如評論節點Vi是關于筆記本整體的評論,而Vj是關于某具體品牌筆記本的評論,那么節點Vj從屬于Vi,評論網絡就具有了層次性的社區結構特征。社區結構的另一個特征是重疊性,指評論網絡中的某些節點同時屬于多個社區,如評論節點Vi的語義中同時包括對特征A和B的描述,那么節點Vi就被同時劃分到社區A和B中。這樣的節點被稱為“騎墻節點”。
傳統的社團結構劃分方法都是從節點的角度出發,把網絡中的節點看作是研究對象,根據節點之間的相似度,把它們劃分到不同的社區,這樣的處理方法很難從根本上解決“騎墻節點”的歸屬問題[11]。
考慮到評論網絡具有的層次性以及重疊性,本文采用一種能夠同時劃分層次性與重疊性的算法[12],該算法以邊為研究對象,依據邊之間的相似度對網絡進行社區劃分,由于邊的社區歸屬性是唯一確定的,這就可以避免“騎墻節點”對社區劃分結果的影響。
32基于邊的社區劃分算法
該算法核心是根據邊的凝聚過程得到網絡的層次樹結構,對層次樹在合適位置處切割,得到社區結構。為了完成邊的凝聚,定義相鄰邊的相似度S為:
4面向主題的在線評論挖掘
復雜網絡非同質的拓撲結構,決定了評論網絡中節點的重要性的差異。挖掘評論網絡中的特定主題的在線評論社區,對其中的重要性在線評論進行深入分析,可以幫助消費者快速做出購買決策。目前,復雜網絡中節點重要性的評估方法分為社會網絡分析和系統科學分析兩類[13],這兩類方法各有其優缺點,缺點在于將研究視角局限在某一種網絡拓撲結構中。
41結合社區屬性的多屬性決策
評論網絡是一個加權網絡,從單一的網絡拓撲結構特征分析節點的重要性具有局限性,評論網絡中節點的重要性與評論網絡的整體結構相關,需要依據不同的網絡拓撲結構特征綜合分析。因此,本文提出了一種多屬性決策方法,綜合考慮評論網絡的社會網絡分析中的介數中心性以及系統科學分析中的Damage值,這些指標綜合考慮了評論網絡的各項拓撲結構,計算公式分別為:
為了能夠確定網絡社區內節點的排序,對網絡中的節點進行編號,給網絡中的每個節點賦予一個ID編碼,編碼形式為(n,m),n為網絡中節點的唯一標識,m為節點被劃分到社區的編號。結合社區屬性的節點1~10的多屬性決策值如表4所示。
對多屬性決策變量a的結果進行排序,首先基于整個評論網絡進行排序,排序結果為r;再基于所屬社區進行排序,得到結果r′。
則將多屬性決策變量a表示為a=(n,m,r,r′,a),其中,n為節點編號,m為節點n的所屬的社區編號,r為節點n在整個網絡中的重要性排名,r′為節點n在社區m中的重要性排名。
5結論與展望
在線評論作為產品口碑傳播的一種新形式,對消費者的決策起著重要的影響,但其中大量的良莠不齊的評論也影響了消費者對可靠信息的獲取[2]。本文以不同于以往的重要在線評論挖掘研究的思路,構建以評論為節點、節點間的語義相似度作為鏈接的復雜網絡,將原本無序的評論以清晰的網絡結構整合起來。在分析評論網絡的全局統計數據的基礎上,論證了基于復雜網絡思想構建在線評論網絡的合理性。
考慮到評論網絡具有的層次性以及重疊性,本文采用以邊為研究對象的一種能夠同時劃分層次性與重疊性的算法,得到了評論網絡的層次樹狀圖,并通過分區密度D對其進行了社區劃分。
最后通過結合社區屬性的多屬性決策方法來評估評論網絡中的節點重要性,該方法不僅具有良好的穩定性,而且將重要在線評論的挖掘細化到產品主題,適合消費者從產品的不同角度進行決策。
參考文獻:
[1]CNNIC.2009年中國網絡購物市場研究報告[R].北京:中國互聯網絡信息中心,2009.38-42.
[2]李金海,何有世.在線評論信息挖掘分析的數據來源可靠性研究[J].軟科學,2015,29(4):94-99.
[3]龔艷萍,梁樹霖. 在線評論對新技術產品消費者采用意愿的影響研究[J].軟科學,2014,28(2):96-105.
[4]廖成林,蔡春江,李憶.電子商務中在線評論有用性影響因素實證研究[J].軟科學,2013,27(5):46-50.
[5]Sun Ye, Liu Chuang, Zhang Chuxu, et al. Epidemic Spreading on Weighted Complex Networks [J]. Physics Letters A, 2014, 378(7):635-640.
[6]姜巍,張莉,戴翼,等.面向用戶需求獲取的在線評論有用性分析[J].計算機學報,2013,36(1):119-131.
[7]肖忠東,羅志潔,周光輝.復雜網絡節點重要性評價方法在生態工業系統中的應用[J].科技進步與對策,2014,31(5):123-126.
[8]Salton G. The SMART Retrieval System- Experiments in Automatic Document Processing [M]. Englewood Cliffs, New Jersey : Prentice Hall Inc,1971.
[9]Gabrilovich E, Markovitch S. Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[A].Proceedings of the 20th International Jonit Conference on Artificial Intelligence[C].2007.1606-1611.
[10]汪小帆,李翔,陳關榮.復雜網絡理論及其應用[M].北京:清華大學出版社,2006.
[11]汪小帆,劉亞冰.復雜網絡中的社團結構算法綜述[J].電子科技大學學報,2009,38(5):537-543.
[12]Ahn Y Y, Bagrow J P, Lehmann S. Communities and Hierarchical Organization of Links in Complex Networks [EB/OL]. http://www.arXiv.org, 2009-03-12.
[13]周漩,張鳳鳴,李克武等.利用重要度評價矩陣確定復雜網絡關鍵節點[J].物理學報,2012,61(5):1-7.
(責任編輯:楊銳)