在線評(píng)論的評(píng)論有用性判定

2019-11-17 04:05:19陳雪晶程銳

電腦知識(shí)與技術(shù) 2019年26期

陳雪晶程銳

摘要：為了更好地為消費(fèi)者提供具有參考價(jià)值的在線評(píng)價(jià)，本論文基于對(duì)網(wǎng)上評(píng)論內(nèi)容的分析，借助LDA主題模型挖掘出評(píng)論內(nèi)容中所隱藏的主題信息，并與標(biāo)準(zhǔn)訓(xùn)練語(yǔ)料的主題信息進(jìn)行對(duì)比，計(jì)算它們之間的信息熵，使用計(jì)算出來(lái)的信息熵來(lái)表示評(píng)論內(nèi)容偏離標(biāo)準(zhǔn)語(yǔ)料庫(kù)的程度，從而得到評(píng)論內(nèi)容的有用程度。

關(guān)鍵詞：評(píng)論有用性;KL距離;LDA主題模型;信息熵

中圖分類(lèi)號(hào)： TP31? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）26-0266-03

開(kāi)放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

Abstract： In order to better provide consumers with online evaluations of reference value， this thesis is based on the analysis of online comments， use the LDA theme model to dig out the hidden subject information in the comments， and compare it to the subject matter of the standard training corpus， calculate the information entropy between them， use the calculated information entropy to indicate the degree to which the content of the comment deviates from the standard Corpus， to obtain the usefulness of the content of the comments.

Key words： Comment Usefulness; KL distance; LDA topic model;? Information Entropy

1 引言

隨著電子商務(wù)的發(fā)展，消費(fèi)者的購(gòu)物習(xí)慣、行為模式等都發(fā)生了相應(yīng)的變化[1]。評(píng)論信息是潛在消費(fèi)者消費(fèi)意愿的重要依據(jù)，而商家可以參考用戶(hù)評(píng)論調(diào)整其產(chǎn)品，變革銷(xiāo)售模式等來(lái)獲取更大的利潤(rùn)[2]。現(xiàn)如今，在線點(diǎn)評(píng)的低門(mén)檻和松于審核導(dǎo)致了在線點(diǎn)評(píng)的泛濫，不僅評(píng)論質(zhì)量參差不齊，而且大量垃圾評(píng)論充斥其中，垃圾評(píng)論是一些沒(méi)有任何意義或用戶(hù)帶有某些目的性質(zhì)的在線評(píng)論的統(tǒng)稱(chēng)，這些評(píng)論是由用戶(hù)隨意或者是故意發(fā)布的不真實(shí)的甚至是帶有欺騙性質(zhì)的評(píng)論信息[3]。現(xiàn)如今，在線評(píng)論的評(píng)論有用性判定已經(jīng)逐步成了衡量在線評(píng)論質(zhì)量的最便捷有效的手段之一[4]。有用性可以看作是對(duì)評(píng)論中所包含的一些潛在價(jià)值進(jìn)行主觀測(cè)量，評(píng)論的有用性可以等同于評(píng)論的價(jià)值[5]。基于以上分析，研究在線評(píng)論的評(píng)論有用性是具有實(shí)際意義，本論文也將圍繞在線評(píng)論的有用性判定進(jìn)行展開(kāi)。

2 原理分析

本論文實(shí)施的主要原理是通過(guò)LDA主題模型能夠得到評(píng)論文本的主題分布概率，也就是這條評(píng)論屬于各個(gè)主題的概率是大，所得到的這些概率分布就可以作為計(jì)算KL距離的輸入，進(jìn)而得到評(píng)論樣本和評(píng)論總體之間的差異性，如果差異性很大，則認(rèn)為該評(píng)論樣本“不合格”，即判定為該條評(píng)論是無(wú)用的;如果差異性很小，則認(rèn)為評(píng)論樣本“合格”，即判定為是該條評(píng)論是有用的。

3 算法描述

3.1 算法流程圖

本論文提出的評(píng)論有用性判定算法結(jié)合了信息熵和LDA主題模型，其判定算法的整體流程如圖1所示：

3.2 文檔預(yù)處理

文檔預(yù)處理主要是對(duì)訓(xùn)練語(yǔ)料以及評(píng)論文檔進(jìn)行相應(yīng)的處理，其處理實(shí)現(xiàn)的詳細(xì)流程如圖2所示：

文檔預(yù)處理的實(shí)驗(yàn)結(jié)果如圖3所示：

3.3 主題特征計(jì)算

主題特征計(jì)算的流程如圖4所示：

以上流程圖主要描述了如何對(duì)文本主題特征進(jìn)行計(jì)算，主題特征計(jì)算其本質(zhì)主要就是利用Gibbs Sampling采樣法結(jié)合LDA主題模型對(duì)隱變量進(jìn)行估計(jì)，從而得到文本隱含的主題表示。綜合各方面進(jìn)行考慮，本論文中最終選用的參數(shù)估計(jì)算法所選擇的是Gibbs Sampling算法，Gibbs算法的大致實(shí)現(xiàn)步驟主要由：1、初始化;2、更新糾正詞語(yǔ)分配給每個(gè)主題的概率;3、收斂到目標(biāo)分布之后間隔取樣;4、迭代完成之后對(duì)取樣的樣本取均值四個(gè)步驟組成。

3.4 主題相關(guān)性度量

通過(guò)計(jì)算主題特征，可以得到語(yǔ)料庫(kù)中的評(píng)論和用戶(hù)提交的評(píng)論的主題特征，但語(yǔ)料庫(kù)中的評(píng)論的主題特征是一個(gè)M*K矩陣，而文檔主題特征是一個(gè)擁有K個(gè)元素的一維矩陣，語(yǔ)料庫(kù)中的評(píng)論和用戶(hù)提交的評(píng)論的主題特征的維度不一致，信息熵只能計(jì)算兩個(gè)維度相同的概率分布的差異性，因此，無(wú)法直接求解它們之間的信息熵，要想求解只能將他們轉(zhuǎn)換為同一緯度的矩陣。本論文利用歸一化指數(shù)函數(shù)softmax函數(shù)對(duì)語(yǔ)料庫(kù)中的文檔主題分布進(jìn)行歸一化處理，處理后語(yǔ)料庫(kù)中的文檔主題特征轉(zhuǎn)換為了一維矩陣，此時(shí)，它們的維度就達(dá)到了一致，再通過(guò)求解信息熵即可評(píng)估其差異性。差異性評(píng)估的算法流程如圖5所示：

4 實(shí)驗(yàn)過(guò)程

4.1 實(shí)驗(yàn)數(shù)據(jù)獲取

本論文通過(guò)設(shè)計(jì)語(yǔ)料擴(kuò)充模塊獲得對(duì)LDA主題模型進(jìn)行訓(xùn)練的文檔。其實(shí)現(xiàn)的算法流程如圖6所示。

4.2 參數(shù)調(diào)節(jié)

LDA主題模型中的主題數(shù)K，burn in的大小會(huì)影響整個(gè)算法的效果，本論文通過(guò)實(shí)驗(yàn)對(duì)burn in進(jìn)行分析得到每個(gè)參數(shù)的最優(yōu)值。

⑴burn in參數(shù)調(diào)節(jié)

burn in最小時(shí)算法的建模能力最強(qiáng)，根據(jù)burn in參數(shù)調(diào)節(jié)圖可以看出當(dāng)burn in取值為17500時(shí)算法的性能最佳。

⑵主題數(shù)量K參數(shù)調(diào)節(jié)

困惑度越小越算法建模的能力越好，從主題數(shù)量K參數(shù)調(diào)節(jié)圖中可以看出，當(dāng)K的取值為20時(shí)，實(shí)驗(yàn)的算法效果是最好。

5 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)結(jié)果的結(jié)果圖如圖9所示：

我們根據(jù)圖9，對(duì)比曲線A和B可以明顯發(fā)現(xiàn)兩條曲線之間存在某個(gè)可以將他們區(qū)分開(kāi)來(lái)的數(shù)值，我們預(yù)測(cè)此值即為判斷評(píng)論是否有用的閾值，為了進(jìn)一步確定出這個(gè)值是多少，我們?cè)黾訕?biāo)記為“合格”的評(píng)論至5500條，增加標(biāo)記為“不合格”的評(píng)論至2400條，閾值從0.3到0.4進(jìn)行取值實(shí)驗(yàn)，并每次試驗(yàn)的結(jié)果進(jìn)行統(tǒng)計(jì)如表1所示：

從表1中可以看出，當(dāng)閾值取0.34時(shí)，算法的分類(lèi)效果最好，所以判斷評(píng)論是否有效的主題分布對(duì)稱(chēng)性誤差為0.34。

6 總結(jié)

本論文針對(duì)評(píng)論有用性判定的問(wèn)題，提出了結(jié)合主題分布和信息熵的方法。LDA主題模型基于優(yōu)良的數(shù)學(xué)理論挖掘出訓(xùn)練語(yǔ)料和用戶(hù)提交的評(píng)論中所隱含的主題，得到的主題特征作為信息熵的輸入，得到它們之間在主題層面上的差異的非對(duì)稱(chēng)性度量，通過(guò)主題差異性非對(duì)稱(chēng)性度量，可以從側(cè)面對(duì)用戶(hù)提交的評(píng)論的有用性進(jìn)行判定。

參考文獻(xiàn)：

[1] 張麗. 在線評(píng)論的客戶(hù)參與動(dòng)機(jī)與評(píng)論有效性研究[D]. 南開(kāi)大學(xué)， 2011.

[2] 張恒. 基于深度學(xué)習(xí)的虛假評(píng)論識(shí)別方法研究[D]. 哈爾濱工業(yè)大學(xué)， 2011.

[3] Bing L. Web Data Mining： Exploring Hyperlinks， Contents， and Usage Data（Data-Centric Systems and Applications）[J].Acm Sigkdd Explorations Newsletter，2008，10（2）：23-25.

[4] 劉苗苗，黃沛. 在線評(píng)論有用性的實(shí)證研究述評(píng)與展望[J]. 未來(lái)與發(fā)展， 2017， 41（12）：64-67.

[5] 方佳明，王鈺瑩，趙志榮. 不同產(chǎn)品品牌聲譽(yù)對(duì)在線評(píng)論有用性影響因素的調(diào)節(jié)效應(yīng)[J]. 軟科學(xué)， 2016， 30（3）.

【通聯(lián)編輯：梁書(shū)】

電腦知識(shí)與技術(shù)2019年26期

電腦知識(shí)與技術(shù)的其它文章: 電子商務(wù)對(duì)市場(chǎng)營(yíng)銷(xiāo)的影響及策略研究; 在新網(wǎng)絡(luò)形勢(shì)下淺談企事業(yè)單位安全服務(wù)互聯(lián)網(wǎng)絡(luò)系統(tǒng)的建立; 淺議基于大數(shù)據(jù)的互聯(lián)網(wǎng)+氣象服務(wù)體系建設(shè); 歐亞超市進(jìn)銷(xiāo)存管理系統(tǒng); 鋼鐵信息化面臨企業(yè)整合挑戰(zhàn); 基于SSM的母嬰購(gòu)物網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)