999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線評(píng)論的評(píng)論有用性判定

2019-11-17 04:05:19陳雪晶程銳
電腦知識(shí)與技術(shù) 2019年26期

陳雪晶 程銳

摘要:為了更好地為消費(fèi)者提供具有參考價(jià)值的在線評(píng)價(jià),本論文基于對(duì)網(wǎng)上評(píng)論內(nèi)容的分析,借助LDA主題模型挖掘出評(píng)論內(nèi)容中所隱藏的主題信息,并與標(biāo)準(zhǔn)訓(xùn)練語(yǔ)料的主題信息進(jìn)行對(duì)比,計(jì)算它們之間的信息熵,使用計(jì)算出來(lái)的信息熵來(lái)表示評(píng)論內(nèi)容偏離標(biāo)準(zhǔn)語(yǔ)料庫(kù)的程度,從而得到評(píng)論內(nèi)容的有用程度。

關(guān)鍵詞:評(píng)論有用性;KL距離;LDA主題模型;信息熵

中圖分類(lèi)號(hào): TP31? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)26-0266-03

開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

Abstract: In order to better provide consumers with online evaluations of reference value, this thesis is based on the analysis of online comments, use the LDA theme model to dig out the hidden subject information in the comments, and compare it to the subject matter of the standard training corpus, calculate the information entropy between them, use the calculated information entropy to indicate the degree to which the content of the comment deviates from the standard Corpus, to obtain the usefulness of the content of the comments.

Key words: Comment Usefulness; KL distance; LDA topic model;? Information Entropy

1 引言

隨著電子商務(wù)的發(fā)展,消費(fèi)者的購(gòu)物習(xí)慣、行為模式等都發(fā)生了相應(yīng)的變化[1]。評(píng)論信息是潛在消費(fèi)者消費(fèi)意愿的重要依據(jù),而商家可以參考用戶(hù)評(píng)論調(diào)整其產(chǎn)品,變革銷(xiāo)售模式等來(lái)獲取更大的利潤(rùn)[2]。現(xiàn)如今,在線點(diǎn)評(píng)的低門(mén)檻和松于審核導(dǎo)致了在線點(diǎn)評(píng)的泛濫,不僅評(píng)論質(zhì)量參差不齊,而且大量垃圾評(píng)論充斥其中,垃圾評(píng)論是一些沒(méi)有任何意義或用戶(hù)帶有某些目的性質(zhì)的在線評(píng)論的統(tǒng)稱(chēng),這些評(píng)論是由用戶(hù)隨意或者是故意發(fā)布的不真實(shí)的甚至是帶有欺騙性質(zhì)的評(píng)論信息[3]。現(xiàn)如今,在線評(píng)論的評(píng)論有用性判定已經(jīng)逐步成了衡量在線評(píng)論質(zhì)量的最便捷有效的手段之一[4]。有用性可以看作是對(duì)評(píng)論中所包含的一些潛在價(jià)值進(jìn)行主觀測(cè)量,評(píng)論的有用性可以等同于評(píng)論的價(jià)值[5]。基于以上分析,研究在線評(píng)論的評(píng)論有用性是具有實(shí)際意義,本論文也將圍繞在線評(píng)論的有用性判定進(jìn)行展開(kāi)。

2 原理分析

本論文實(shí)施的主要原理是通過(guò)LDA主題模型能夠得到評(píng)論文本的主題分布概率,也就是這條評(píng)論屬于各個(gè)主題的概率是大,所得到的這些概率分布就可以作為計(jì)算KL距離的輸入,進(jìn)而得到評(píng)論樣本和評(píng)論總體之間的差異性,如果差異性很大,則認(rèn)為該評(píng)論樣本“不合格”,即判定為該條評(píng)論是無(wú)用的;如果差異性很小,則認(rèn)為評(píng)論樣本“合格”,即判定為是該條評(píng)論是有用的。

3 算法描述

3.1 算法流程圖

本論文提出的評(píng)論有用性判定算法結(jié)合了信息熵和LDA主題模型,其判定算法的整體流程如圖1所示:

3.2 文檔預(yù)處理

文檔預(yù)處理主要是對(duì)訓(xùn)練語(yǔ)料以及評(píng)論文檔進(jìn)行相應(yīng)的處理,其處理實(shí)現(xiàn)的詳細(xì)流程如圖2所示:

文檔預(yù)處理的實(shí)驗(yàn)結(jié)果如圖3所示:

3.3 主題特征計(jì)算

主題特征計(jì)算的流程如圖4所示:

以上流程圖主要描述了如何對(duì)文本主題特征進(jìn)行計(jì)算,主題特征計(jì)算其本質(zhì)主要就是利用Gibbs Sampling采樣法結(jié)合LDA主題模型對(duì)隱變量進(jìn)行估計(jì),從而得到文本隱含的主題表示。綜合各方面進(jìn)行考慮,本論文中最終選用的參數(shù)估計(jì)算法所選擇的是Gibbs Sampling算法,Gibbs算法的大致實(shí)現(xiàn)步驟主要由:1、初始化;2、更新糾正詞語(yǔ)分配給每個(gè)主題的概率;3、收斂到目標(biāo)分布之后間隔取樣;4、迭代完成之后對(duì)取樣的樣本取均值四個(gè)步驟組成。

3.4 主題相關(guān)性度量

通過(guò)計(jì)算主題特征,可以得到語(yǔ)料庫(kù)中的評(píng)論和用戶(hù)提交的評(píng)論的主題特征,但語(yǔ)料庫(kù)中的評(píng)論的主題特征是一個(gè)M*K矩陣,而文檔主題特征是一個(gè)擁有K個(gè)元素的一維矩陣,語(yǔ)料庫(kù)中的評(píng)論和用戶(hù)提交的評(píng)論的主題特征的維度不一致,信息熵只能計(jì)算兩個(gè)維度相同的概率分布的差異性,因此,無(wú)法直接求解它們之間的信息熵,要想求解只能將他們轉(zhuǎn)換為同一緯度的矩陣。本論文利用歸一化指數(shù)函數(shù)softmax函數(shù)對(duì)語(yǔ)料庫(kù)中的文檔主題分布進(jìn)行歸一化處理,處理后語(yǔ)料庫(kù)中的文檔主題特征轉(zhuǎn)換為了一維矩陣,此時(shí),它們的維度就達(dá)到了一致,再通過(guò)求解信息熵即可評(píng)估其差異性。差異性評(píng)估的算法流程如圖5所示:

4 實(shí)驗(yàn)過(guò)程

4.1 實(shí)驗(yàn)數(shù)據(jù)獲取

本論文通過(guò)設(shè)計(jì)語(yǔ)料擴(kuò)充模塊獲得對(duì)LDA主題模型進(jìn)行訓(xùn)練的文檔。其實(shí)現(xiàn)的算法流程如圖6所示。

4.2 參數(shù)調(diào)節(jié)

LDA主題模型中的主題數(shù)K,burn in的大小會(huì)影響整個(gè)算法的效果,本論文通過(guò)實(shí)驗(yàn)對(duì)burn in進(jìn)行分析得到每個(gè)參數(shù)的最優(yōu)值。

⑴burn in參數(shù)調(diào)節(jié)

burn in最小時(shí)算法的建模能力最強(qiáng),根據(jù)burn in參數(shù)調(diào)節(jié)圖可以看出當(dāng)burn in取值為17500時(shí)算法的性能最佳。

⑵主題數(shù)量K參數(shù)調(diào)節(jié)

困惑度越小越算法建模的能力越好,從主題數(shù)量K參數(shù)調(diào)節(jié)圖中可以看出,當(dāng)K的取值為20時(shí),實(shí)驗(yàn)的算法效果是最好。

5 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)結(jié)果的結(jié)果圖如圖9所示:

我們根據(jù)圖9,對(duì)比曲線A和B可以明顯發(fā)現(xiàn)兩條曲線之間存在某個(gè)可以將他們區(qū)分開(kāi)來(lái)的數(shù)值,我們預(yù)測(cè)此值即為判斷評(píng)論是否有用的閾值,為了進(jìn)一步確定出這個(gè)值是多少,我們?cè)黾訕?biāo)記為“合格”的評(píng)論至5500條,增加標(biāo)記為“不合格”的評(píng)論至2400條,閾值從0.3到0.4進(jìn)行取值實(shí)驗(yàn),并每次試驗(yàn)的結(jié)果進(jìn)行統(tǒng)計(jì)如表1所示:

從表1中可以看出,當(dāng)閾值取0.34時(shí),算法的分類(lèi)效果最好,所以判斷評(píng)論是否有效的主題分布對(duì)稱(chēng)性誤差為0.34。

6 總結(jié)

本論文針對(duì)評(píng)論有用性判定的問(wèn)題,提出了結(jié)合主題分布和信息熵的方法。LDA主題模型基于優(yōu)良的數(shù)學(xué)理論挖掘出訓(xùn)練語(yǔ)料和用戶(hù)提交的評(píng)論中所隱含的主題,得到的主題特征作為信息熵的輸入,得到它們之間在主題層面上的差異的非對(duì)稱(chēng)性度量,通過(guò)主題差異性非對(duì)稱(chēng)性度量,可以從側(cè)面對(duì)用戶(hù)提交的評(píng)論的有用性進(jìn)行判定。

參考文獻(xiàn):

[1] 張麗. 在線評(píng)論的客戶(hù)參與動(dòng)機(jī)與評(píng)論有效性研究[D]. 南開(kāi)大學(xué), 2011.

[2] 張恒. 基于深度學(xué)習(xí)的虛假評(píng)論識(shí)別方法研究[D]. 哈爾濱工業(yè)大學(xué), 2011.

[3] Bing L. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data(Data-Centric Systems and Applications)[J].Acm Sigkdd Explorations Newsletter,2008,10(2):23-25.

[4] 劉苗苗,黃沛. 在線評(píng)論有用性的實(shí)證研究述評(píng)與展望[J]. 未來(lái)與發(fā)展, 2017, 41(12):64-67.

[5] 方佳明,王鈺瑩,趙志榮. 不同產(chǎn)品品牌聲譽(yù)對(duì)在線評(píng)論有用性影響因素的調(diào)節(jié)效應(yīng)[J]. 軟科學(xué), 2016, 30(3).

【通聯(lián)編輯:梁書(shū)】

主站蜘蛛池模板: 一个色综合久久| 亚洲69视频| 国产成人一区在线播放| 亚洲一区网站| 在线欧美日韩| 色悠久久久| 亚洲欧美日韩精品专区| 99热国产这里只有精品9九| 无码精品福利一区二区三区| 99久久人妻精品免费二区| 97久久免费视频| 日韩精品成人在线| 激情视频综合网| 国产精品一区二区国产主播| 91精品视频网站| 亚洲欧美成aⅴ人在线观看| 91成人在线免费视频| 国产69精品久久| 98超碰在线观看| 日本成人不卡视频| 国产大全韩国亚洲一区二区三区| 嫩草在线视频| 国产微拍精品| 亚洲精品老司机| 久久久久久久久亚洲精品| 欧美精品一区在线看| 国产在线98福利播放视频免费 | 韩日午夜在线资源一区二区| 国产欧美自拍视频| 国产精品尤物铁牛tv| 欧美成人aⅴ| 亚洲精品日产精品乱码不卡| 国产成人喷潮在线观看| 五月六月伊人狠狠丁香网| 网友自拍视频精品区| 亚洲欧美日韩高清综合678| 亚洲IV视频免费在线光看| 国产91小视频在线观看| 国产精品亚洲一区二区三区在线观看 | 国产精品自在拍首页视频8| 日韩国产精品无码一区二区三区| 91国内视频在线观看| 99精品欧美一区| 国产呦精品一区二区三区下载| 激情無極限的亚洲一区免费| 国产在线无码av完整版在线观看| 亚洲日韩国产精品综合在线观看| 在线人成精品免费视频| 国产成人免费手机在线观看视频 | 国产成人禁片在线观看| 97青草最新免费精品视频| 2021国产乱人伦在线播放| 91亚洲国产视频| 91国内在线观看| 91在线一9|永久视频在线| 欧美黄网站免费观看| 国产乱子伦无码精品小说| 91亚洲精品国产自在现线| 欧美久久网| 国产三级韩国三级理| 99热国产这里只有精品无卡顿"| 亚洲资源站av无码网址| 亚洲乱码精品久久久久..| 青青国产视频| www.亚洲一区| 亚洲中文字幕在线观看| 国产无人区一区二区三区| 操操操综合网| 天天摸天天操免费播放小视频| 国产高清国内精品福利| 一级爱做片免费观看久久 | 99热线精品大全在线观看| 日本成人一区| 国产精品男人的天堂| 91无码视频在线观看| 中文字幕66页| 无码免费的亚洲视频| 欧美激情,国产精品| 免费三A级毛片视频| 久久久精品久久久久三级| 91九色最新地址| 麻豆国产在线不卡一区二区|