999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類與句子加權(quán)的欺騙性評論檢測

2019-06-10 01:01:19張建鑫
軟件導(dǎo)刊 2019年2期

張建鑫

摘 要:消費者在購物前往往會參考產(chǎn)品評論,欺騙性評論容易誤導(dǎo)顧客使其作出錯誤決定。現(xiàn)有檢測欺騙性垃圾評論的方法大多采用機器學(xué)習(xí)方法,難以學(xué)習(xí)評論的潛在語義。因此提出一個基于聚類與注意力機制的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)評論語義表示。該模型使用基于密度峰值的快速搜索聚類算法找出詞向量空間語義群,通過KL-divergence計算權(quán)重,然后綜合句子中單詞與單詞所屬的語義群得到句子表示。實驗結(jié)果表明,該模型準(zhǔn)確率達82.2%,超過現(xiàn)有基準(zhǔn),在欺騙性垃圾評論識別中具有一定使用價值。

關(guān)鍵詞:欺騙性評論;聚類;句子加權(quán);神經(jīng)網(wǎng)絡(luò)

DOI:10. 11907/rjdk. 182701

中圖分類號:TP306文獻標(biāo)識碼:A文章編號:1672-7800(2019)002-0034-04

Abstract:Consumers prefer to read product reviews before shopping. Deceptive comments can easily mislead customers to make wrong decisions. Existing methods for detecting fraudulent spam comments mostly use machine learning, but it is difficult to learn the underlying semantics of comments. This paper proposes a neural network model based on clustering and attention mechanism to learn the semantic representation of comments. Specifically, this paper first makes the fast search clustering algorithm based on density peaks to find the semantic group in the word vector space, and calculates the weight by KL-divergence. Then it synthesizes the words in the sentence and the semantic group to which the word belongs to get the sentence representation. The experimental results show that the accuracy of the proposed model reaches 82.2%, which exceeds the current benchmark. Therefore, it has certain value in the identification of fraudulent spam comments.

Key Words:deceptive review detection;clustering;sentence weighting;neural network

0 引言

欺騙性評論檢測是自然語言處理領(lǐng)域一項緊迫且有意義的任務(wù)。隨著用戶評論不斷增長,欺騙性垃圾信息的出現(xiàn)引起了廣泛關(guān)注。欺騙性評論是一種虛假評論,故意將其寫得真實可信,使受眾難以辨別。因此檢測欺騙性評論的研究是必要且有意義的[1-2]。

評論通常是簡短的文本。檢測的目的是區(qū)分文本是否為虛假評論。由于虛假評論具有隱藏性與多樣性,比如人類手工標(biāo)注的評論數(shù)據(jù)集中必定存在一定數(shù)量的影響分類器的誤例。大多數(shù)現(xiàn)有方法遵循Ott等[3]利用機器學(xué)習(xí)算法構(gòu)建分類器的方法。任亞峰等[4]提出一種創(chuàng)新的PU學(xué)習(xí)框架識別虛假評論;Ott、Shojaee及Li等[5-7]使用詞袋特征、詞性特征及文體特征等多種特征進行模型訓(xùn)練,在眾包平臺構(gòu)造的數(shù)據(jù)集上,獲得74%~79.6%的檢測準(zhǔn)確率;Li&Hammad[8]、Mukherjee等[9]運用元數(shù)據(jù)特征對評論文本進行數(shù)據(jù)分析及虛假評論檢測。但以上方法均無學(xué)習(xí)文本的語義表示。

基于神經(jīng)網(wǎng)絡(luò)模型良好性能的自然語言處理任務(wù),如語言建模[12-13]、情感分析任務(wù)[14-15]與文本分類,本文提出一種新模型,通過使用詞向量聚類與句子加權(quán)的新方法學(xué)習(xí)評論語義表示,并檢測垃圾評論。通過學(xué)習(xí)文檔級的表示可以捕獲全局特征并考慮詞序與句子順序。

1 相關(guān)知識介紹

1.1 詞向量聚類

在嵌入空間中,相鄰單詞通常語義相關(guān)[16]。因此,可利用聚類方法發(fā)現(xiàn)語義群,但是在選擇聚類算法的過程中存在問題,如語義群數(shù)量事先未知,詞向量維度通常很高,導(dǎo)致模型計算量巨大。為了解決以上問題,本文采用基于密度峰值搜索的快速算法[17-18]實現(xiàn)詞嵌入聚類。

聚類算法假定聚類中心被局部密度較低的鄰居包圍,它們與任意一個局部密度較高的點之間的距離相對較大,正好滿足詞向量分布特性。該算法需要計算局部密度及密度較高點的距離。

局部密度[ρi]定義為:

其中函數(shù)

[dij]是數(shù)據(jù)點之間的距離, [dc]是截止距離。

與密度較高點的距離[δi]計算公式為:

1.2 句子加權(quán)

在區(qū)分垃圾評論與真實評論時,有些詞極其重要。因為在語義表示中,單詞詞義不同會導(dǎo)致單詞在句子中作用不同。因此,單詞不同的句子權(quán)重也不同。

對于文本T來說,獲得語義表示的方法中存在的關(guān)鍵問題為:T的語義通常由一些關(guān)鍵短語確定。如果只是簡單地將T的單詞進行語義表示,可能會引起歧義,并影響整個語句的語義表示。本文根據(jù)句子中單詞及單詞所屬的語義群計算句子權(quán)重,采用KL-divergence作為語義群與單詞的權(quán)重。KL-divergence的值代表特征在劃分文檔中的能力。

如圖1所示,本文模型首先在嵌入空間中使用聚類算法發(fā)現(xiàn)語義群,并使用KL-divergence計算語義群權(quán)重。在卷積層將輸入評論的每個句子轉(zhuǎn)換為固定長度矢量。根據(jù)句子權(quán)重計算公式得出每個句子的權(quán)重,最后通過上下文確定詞向量語義構(gòu)成,計算文本語義表示。卷積層通過卷積核對語義表示進行卷積計算,提取高層次局部特征,利用K-Max Pooling對卷積層輸出特征圖進行下采樣,生成全局特征。最后,采用Softmax損失函數(shù)作為分類器。

1.3 架構(gòu)描述

卷積層計算如式(4)所示,將卷積核與輸入矩陣向量作內(nèi)積計算。

在卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過卷積操作后放進池化層,以提取局部均值與最大值,根據(jù)計算出來的值分為均值池化層與最大值池化層。為獲取具有固定長度的最相關(guān)全局特征,本文使用K-Max池化操作對特征進行下采樣,如式(5)所示。

使用正切函數(shù)計算特征,從而得到輸入評論文本的特征表示。

通過上述層次序列之后,獲得具有固定大小的語義表示。在模型網(wǎng)絡(luò)最后一層與權(quán)重連接,如式(7)所示。

最后輸出層輸出模型預(yù)測結(jié)果。為將向量轉(zhuǎn)換為概率分布,使用Softmax函數(shù)。輸出向量的每個分量均可視為標(biāo)簽得分。

為最小化交叉熵與所有樣本實際分布,在網(wǎng)絡(luò)訓(xùn)練中使用交叉熵函數(shù)。因為交叉熵函數(shù)被證明能夠加速反向傳播算法,并提供良好的整體網(wǎng)絡(luò)性能與相對較短的停滯期,特別是對于分類任務(wù)。

2 實驗

2.1 實驗數(shù)據(jù)集

本文通過垃圾評論檢測實驗,評估基于聚類與句子加權(quán)的語義表示模型。本文采用Li[19]發(fā)布的黃金標(biāo)準(zhǔn)垃圾評論審查數(shù)據(jù)集。該數(shù)據(jù)集包含3個領(lǐng)域的統(tǒng)計數(shù)據(jù)。數(shù)據(jù)集分布如表1所示。

2.2 基準(zhǔn)方法

將本文模型與如下基準(zhǔn)方法進行比較。

(1)CNN模型。Kim[20]提出將卷積神經(jīng)網(wǎng)絡(luò)用于分類模型。首先選擇詞向量作為原始特征,然后通過卷積神經(jīng)網(wǎng)絡(luò)進一步提取特征,最后訓(xùn)練出基于卷積神經(jīng)網(wǎng)絡(luò)的分類模型。

(2)LSTM模型[21]。該方法是具有一個隱含層的長短期記憶網(wǎng)絡(luò)模型。LSTM網(wǎng)絡(luò)比簡單的循環(huán)架構(gòu)更易于學(xué)習(xí)長期依賴。

(3)Bi-LSTM模型。雙向LSTM 模型是 LSTM 模型的變種,在處理很多自然語言任務(wù)時表現(xiàn)出良好性能。

2.3 實驗評估方法

本文采用準(zhǔn)確率、精度、召回率及F1值評估模型有效性。準(zhǔn)確率代表模型預(yù)測垃圾評論樣本和非垃圾評論的能力;精度反映模型預(yù)測垃圾評論的正確性能力;召回率反映在真實垃圾評論樣本中正確預(yù)測垃圾評論樣本的覆蓋范圍。

2.4 實驗結(jié)果與分析

本文使用10折交叉驗證法,通過與基準(zhǔn)方法比較從而評價模型。從表2實驗結(jié)果可以看到,本文模型在餐廳領(lǐng)域獲得最佳結(jié)果,但在醫(yī)生領(lǐng)域表現(xiàn)結(jié)果不理想。LSTM與Bi-LSTM等復(fù)雜模型的表現(xiàn)比CNN簡單模型遜色,其主要原因是過度擬合。對于小數(shù)據(jù)集,包含眾多參數(shù)的基于神經(jīng)網(wǎng)絡(luò)的模型未必是好的選擇。

本文模型在準(zhǔn)確率、精度、召回率方面均超過了其它基準(zhǔn)方法。主要原因歸結(jié)于兩個方面:①聚類算法的使用捕獲了內(nèi)部深層次聯(lián)系;②句子加權(quán)的使用使模型能更好理解文本信息。

考慮到不同聚類算法對欺騙性評論檢測的影響,為得到最理想的結(jié)果,本文對兩個比較有代表性的聚類算法進行對比:K-means算法和DBSCAN算法。由圖2可以看出模型使用聚類算法比不使用聚類算法效果更好,因為通過聚類算法有助于理解文本語義,提高模型識別能力。但是不同聚類算法在嵌入空間中聚類效果不同。從圖2可以看出,基于DBSCAN聚類算法的模型優(yōu)于基于K-means算法的模型。

同時本文還對比了兩種句子加權(quán)算法。在使用同類聚類算法條件下,從圖3可看出基于KL-divergence的加權(quán)優(yōu)于其它方法,使用句子加權(quán)方法可提高模型準(zhǔn)確率。

2.5 超參數(shù)影響

本部分通過實驗研究超參數(shù)(預(yù)設(shè)閾值與隱藏層長度)在本文模型檢測實驗中的效果。考慮聚類算法中閾值對算法性能的影響,本文對其進行實驗,結(jié)果如圖4所示,從中可知,當(dāng)歐氏距離太小時,模型表示不理想;當(dāng)歐氏距離太大時,模型準(zhǔn)確率趨于平穩(wěn)。

本文考慮到網(wǎng)絡(luò)隱藏層長度對算法性能有影響,使用卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型,如圖5所示。隨著隱藏層長度增加,模型準(zhǔn)確率與F1值隨之提高,但變化幅度不大且趨于穩(wěn)定。

3 結(jié)語

針對手工標(biāo)注的缺點,為更加準(zhǔn)確地獲取文本語義表示,本文提出一種基于聚類與句子加權(quán)的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)欺騙性評論的語義表示。通過在公共數(shù)據(jù)集上與多個基準(zhǔn)方法進行比較,結(jié)果表明,基于聚類與句子加權(quán)的神經(jīng)網(wǎng)絡(luò)比其它神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)更好,提高了整體模型準(zhǔn)確率、精度及F1值,證明了本文模型有效性。但是,由于本文使用嵌入空間的歐氏距離作為預(yù)設(shè)閾值,忽略了文本單詞親和度,在未來可以在嵌入空間中改進計算親和度。

參考文獻:

[1] 林政,譚松波,程學(xué)旗. 基于情感關(guān)鍵句抽取的情感分類研究[J]. 計算機研究與發(fā)展,2012,49(11):2376-2382.

[2] 李素科,蔣嚴冰. 基于情感特征聚類的半監(jiān)督情感分類[J]. 計算機研究與發(fā)展,2013, 50(12):2570-2577.

[3] OTT M,CHOI Y, CARDIE C,et al. Finding deceptive opinion spam by any stretch of the imagination[C]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics Human Language Technologies,2011: 309-319.

[4] 任亞峰,姬東鴻,張紅斌,等. 基于PU學(xué)習(xí)算法的虛假評論識別研究[J]. 計算機研究與發(fā)展,2015,52(3):639-648.

[5] 杜偉夫,譚松波,云曉春,等. 一種新的情感詞匯語義傾向計算方法[J]. 計算機研究與發(fā)展,2009,46(10):1713-1720.

[5] LI J, OTT M, CARDIE C, et al. Towards a general rule for identi-fying deceptive opinion spam[C]. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,2014: 1566-1576.

[6] SHOJAEE S,MURAD M A A,AZMAN A B,et al. Detecting decep-tive reviews using lexical and syntactic features[C]. 2013 13th International Conference on Intelligent Systems Design and Applications,2013: 53-58.

[7] LI F, HUANG M, YANG Y, et al. Learning to identify review spam[C].IJCAI Proceedings-International Joint Conference on Artificial Intelligence, 2011: 2488.

[8] HAMMAD A S A,EL-HALEES A. An approach for detecting spam in Arabic opinion reviews[J]. The International Arab Journal of Information Technology, 2013, 12(1):1-9.

[9] MUKHERJEE A,VENKATARAMAN V,LIU B,et al. What yelp fake review filter might be doing?[C]. Proceedings of the International Conference on Weblogs and Social Media,2013: 409-418.

[10] 胡熠,陸汝占,李學(xué)寧,等. 基于語言建模的文本情感分類研究[J]. 計算機研究與發(fā)展,2007,44(9):1469-1475.

[11] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]. International Conference on Neural Information Processing Systems,2013:3111-3119.

[13] MNIH A,HINTON G E. A scalable hierarchical distributed lan-guage model[C]. Advances in neural information processing sys-tems,2009: 1081-1088.

[14] BENGIO Y,DUCHARME R,VINCENT P,et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(2): 1137-1155.

[15] 趙妍妍,秦兵,劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010, 21(8):1834-1848.

[16] 張珊,于留寶,胡長軍. 基于表情圖片與情感詞的中文微博情感分析[J]. 計算機科學(xué),2012, 39(Z11):146-148.

[17] RODRIGUEZ A,LAIO A. Machine learning clustering by fast search and find of density peaks[J]. Science,2014,344(6191):1492.

[18] 賈培靈,建聰,彭延軍. 一種基于簇邊界的密度峰值點快速搜索聚類算法[J]. 南京大學(xué)學(xué)報:自然科學(xué),2017,53(2):368-377.

[19] OTT M. Linguistic models of deceptive opinion spam[C].The Workshop on Computational Approaches to Subjectivity,2013:31-33.

[20] KIM Y. Convolutional neural networks for sentence classification[DB/OL]. https://arxiv.org/abs/1408.5882.

[21] 胡新辰. 基于LSTM的語義關(guān)系分類研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2015.

(責(zé)任編輯:江 艷)

主站蜘蛛池模板: 在线无码av一区二区三区| 热这里只有精品国产热门精品| 日本爱爱精品一区二区| 中文字幕 91| 国产激爽爽爽大片在线观看| 国产sm重味一区二区三区| 国产福利一区在线| 尤物亚洲最大AV无码网站| 精品丝袜美腿国产一区| 国产精品久久久久久搜索| 伊人激情综合网| 玩两个丰满老熟女久久网| 日韩午夜福利在线观看| 国产丰满成熟女性性满足视频| 人妻中文字幕无码久久一区| 国内熟女少妇一线天| 日韩国产一区二区三区无码| 亚洲swag精品自拍一区| 91视频青青草| 国产在线视频二区| 亚洲乱码在线播放| 国产精品国产主播在线观看| 精品视频91| 伊人久久综在合线亚洲91| 成人噜噜噜视频在线观看| 激情综合婷婷丁香五月尤物| 免费无遮挡AV| 国产欧美精品专区一区二区| 最新日本中文字幕| 国产成人无码综合亚洲日韩不卡| 黑色丝袜高跟国产在线91| 日韩免费毛片视频| 免费毛片视频| 午夜啪啪福利| h视频在线观看网站| 国产高清自拍视频| 日韩第九页| 日韩精品亚洲一区中文字幕| 国产亚洲成AⅤ人片在线观看| 亚洲精品午夜无码电影网| 熟妇无码人妻| 国产毛片片精品天天看视频| 2021国产精品自产拍在线| 色综合久久无码网| 亚洲国语自产一区第二页| 国产麻豆精品在线观看| 99九九成人免费视频精品| 一区二区自拍| 粗大猛烈进出高潮视频无码| 国产日韩精品欧美一区喷| 亚洲人成影视在线观看| 国产精品手机在线观看你懂的 | 成人国产精品网站在线看| 国产一区二区三区夜色| 亚洲成肉网| 91视频国产高清| 72种姿势欧美久久久久大黄蕉| 无码一区二区波多野结衣播放搜索| 中文毛片无遮挡播放免费| 国产制服丝袜无码视频| 人妻无码中文字幕一区二区三区| 国产产在线精品亚洲aavv| 99re经典视频在线| 亚洲伊人天堂| 日韩精品中文字幕一区三区| 国产午夜福利亚洲第一| 奇米影视狠狠精品7777| 免费观看欧美性一级| 亚洲成年人网| 97色婷婷成人综合在线观看| 国产鲁鲁视频在线观看| 欧美黄色网站在线看| 欧美日韩在线亚洲国产人| 亚洲天堂成人在线观看| 一级香蕉人体视频| 亚洲制服中文字幕一区二区| 亚洲日韩精品伊甸| 国产一区二区三区精品欧美日韩| 亚洲精品波多野结衣| 青青青亚洲精品国产| 欧美一区二区自偷自拍视频| 成人看片欧美一区二区|