999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于有監督學習的店鋪類虛假評論檢測

2020-06-19 08:45:58王琢汪浩胡潤龍高颯
軟件導刊 2020年4期

王琢 汪浩 胡潤龍 高颯

摘要:網絡在線評論對于商家和顧客具有重要價值,因而日益受到虛假評論行為的沖擊。作為兩個重要的在線評論領域,產品類評論(如亞馬遜、淘寶)和店鋪類評論(如點評網、Yelp)在語言特性、評論行為等方面存在顯著差異。雖然研究者們已提出大量針對產品類虛假評論的檢測方法,但對于店鋪類虛假評論的研究仍然較少。針對Yelp.com網站上旅店、飯店有標注的點評數據,提取并分析各種評論欺詐特征,利用多種有監督學習方法進行虛假評論檢測。實驗結果表明,檢測精度最高可達74%,AUC值可達75%。雖然店鋪類虛假評論具有極強的隱蔽性,但通過權衡檢測精度和召回率,可利用有監督學習方法對店鋪類虛假評論進行有效檢測。

關鍵詞:網絡在線評論;虛假評論;店鋪類評論;有監督學習

DOI: 10. 11907/rjdk.191695

開放科學(資源服務)標識碼(OSID):

中圖分類號:TP306

文獻標識碼:A

文章編號:1672-7800(2020)004-0071-04

Store Fake Review Detection Based on Supervised Learning

WANG Zhuo.WANG Hao . HU Run-long, GAO Pei

(School of Information Scierzce and Engineering , rShenyang Ligong Univer.sity,SHenyang110159 . Ch ina )Abstract: Due to the iruportance for both the merchants and customers. online reviews are increasingly under the attack of' f'ake re-views. As the two main review domains , product reviews (e.g. Amazon,Taobao) and store reviews (e.g. Dianping.com, Yelp.com) sig-nificantly dif'ferentiate f'rom each other in linguistics and behaviors. While product fake review detection attracts much research inter-ests. store fake review detection has got less attention. In this paper, we focus on store fake review detection problem by exploiting thelabeled datasets containing hotel and restaurant reviews from Yelp.com. Specifically , we extract and analyse a number of review spamfeatures. with which we use supervised machine learning approaches to detect fake reviews. Experiruents suggest that the ruaximum pre-cision and AUC can reach 74% and 75% , respectively. Although the f'ake reviews f'rom Yelp.com are very deceptive, supervised learn-ing methods are effective in detecting fake store reviews by trading of'f detection precision and recall.Key Words : online review;fake review ; store review;supervised learning

O 引言

隨著Web2.0技術的發展,電子商務也發展迅速。網絡評論在網絡購物中發揮著重要作用,顧客已習慣于在購物前首先查看相關評論,因此好評或差評都將在很大程度上影響顧客的購買選擇。網絡評論不僅受到消費者重視,商家也極為重視,因此會千方百計提高白身產品或服務的好評度。然而,有些不法商家或個人受利益驅使,故意書寫虛假評論,以美化白身或貶低競爭對手[1]。據統計,產品評分每增加1分,商家可以增加約5.4%的收益[2]。

Jindal等[3]首先提出虛假評論檢測問題,并針對亞馬遜(Amazon.com)評論提取大量評論特征,然后使用樸素貝葉斯、邏輯回歸等機器學習算法對評論進行“虛假/真實”分類。其研究發現,虛假評論檢測的困難性在于難以獲取大量標注數據集用于分類器學習,而只能利用一些重復或接近重復的評論文本作為虛假評論,并選取非重復評論作為真實評論,訓練多種分類器。但隨著網絡評論重要性的不斷提高,評論作弊行為也越來越隱蔽,單純依賴評論文本已無法識別虛假評論。因此,國內外學者義提出基于評論文本3-7]、評論人之間關系[8-10]以及評論行為[11-14]的虛假評論檢測方法。

然而,網絡評論具有強烈的領域相關性,不同的評論領域(如圖書評論、飯店評論等)不僅評論文本有很大區別(如使用的詞匯、主題、文體、情感、習慣等),甚至評論行為(如打分、評論頻率)也有很大不同。因此,針對不同領域的虛假評論,必須使用不同檢測方法,才能有效提高檢測性能。本文將網絡評論分為針對產品的評論(product re-views)、針對店鋪的評論(store reviews)與服務類評論(ser-vice reviews)。除在評論文本和評論行為方面的差別外,產品評論和店鋪評論還有一個重要區別是店鋪數量一般遠遠少于產品數量,造成針對店鋪的評論數量大、評論顧客多。目前針對店鋪類虛假評論檢測的方法[8]較少,大部分檢測方法未對二者進行區分,缺乏針對性。因此,如何針對店鋪類虛假評論特點設計有效的檢測方法是一個重要研究課題。

本文首先利用有標注的Yelp數據集抽取店鋪類評論的作弊特征,然后利用決策樹、樸素貝葉斯、K近鄰、集成學習等機器學習算法,對店鋪類虛假評論進行檢測,揭示店鋪類虛假評論特征,比較不同機器學習算法的分類性能,為進一步深入理解J占鋪類虛假評論的特征模式、設計更為有效的檢測手段打下基礎。

1 Yelp評論數據集介紹

Yelp( www.yelp.com)是美國一個大型網絡評論社區,成立于2004年,主要目的是為人們提供當地商業活動的點評服務,內容涉及飯店、購物、家政、夜生活、美容等。由于商業競爭的加劇,Yelp受到大量虛假評論的困擾,因此該網站設置了虛假評論過濾器,利用多種算法發現可疑虛假評論。Mukherjee等[11]首先利用Yelp的虛假評論過濾器構造一個虛假評論標注數據集(YelpChi),之后Ravana等[15]義構造了YelpNYC與YelpZip標注數據集。其中YelpChi是美國芝加哥地區的飯店、旅店評論,YelpNYC為美國紐約市飯店和旅店評論,YelpZip是美國多個州郵編連續區域的飯店、旅店評論。由于虛假評論標注的困難性,這些標注數據集被認為是接近準確的(nearground-truth)。3個數據集都包含了旅店、飯店評論,本文利用YelpNYC和YelpZip對店鋪類評論的虛假性進行檢測,具體統計信息見表l。

2店鋪類評論特征提取

為實現對虛假評論與真實評論的準確分類,從評論數據中提取有效評論作弊特征是其中的關鍵。通過對Yelp標注數據集進行探索性數據分析,本文設計了一系列文本特征和行為特征,以提高分類的準確性和召回率。令評論v= ,其中v.r表示評論v的作者,v.p表示評論v所評論的店鋪或服務,v.為評論v的打分,v.t表示評論v的評論時間(日期)。文獻[11]指出詞頻特征(unlgram或higram)對于Yelp虛假評論區分度較低,故本研究不采用詞頻特征。

2.1文本特征

(1 )WorciCou nt:評論文本包含的單詞個數。虛假評論者一般沒有購買產品就書寫評論,加上書寫評論會耗費大量時間與精力,所以其評論數量通常比真實消費者包含的單詞個數要少。

(2)TextSentiment:虛假評論者為了故意夸大或貶低產品,其評論文本的情感極性通常比較明顯[6]。本文利用情感極性計算包TextBloh計算評論文本的情感極性,取值范圍為[-1,1]。為使特征具有單調性,本文取其絕對值作為該評論的情感極性特征。

2.2行為特征

( l)RatingDev:為了提升自身信譽或貶低競爭對手聲譽,虛假評論打分值一般與真實評論的打分具有顯著偏差[11.16]。該特征計算公式為:

即評論v的特征是該評論打分與同一產品其它評論打分的均值之差。

(2) ExtremeRate:評論作者所寫評論中極端打分所占比例。真實用戶一般根據對J占鋪的滿意度進行打分,分數不盡相同。但虛假評論者往往書寫極力提升或貶低的評論。該特征可表示為:

(3) UserReviews:評論作者累計書寫的評論數。評論欺詐者往往只參加一次欺詐活動,其評論數量一般較少。將此評論人特征作為為該評論特征。

(4)TimeSpan:評論作者活躍時間。一般作弊評論者賬戶活躍度差,而真實用戶會不時地書寫評論。本特征的計算可表示為:

其中VT、V.分別表示v.r的最后一次評論日期和第一次評論日期。

(5)Rank:為了使評論影響極大化,虛假評論往往搶先發布,其排列位置靠前。本特征取該評論在同一店鋪內的排列次序。

(6)KernelDen:在群體評論欺詐中,存在多個欺詐者同時對一個店鋪進行爆發型評論,導致短期內評論密度過大的現象。核密度估計可以較好地體現評論密集度[17-18]。為了綜合考慮不同店鋪的評論總量,本文將該評論的核密度估計值乘以該店鋪評論時間跨度作為本特征值。令x1.x2...xn為店鋪v.p所有評論的評論日期序列,共有n條評論,則日期x對應核密度可表示為:

其中h為鄰域寬度,一般取1,K(-)為核函數,可以取高斯核,則有: 于是有:

(7)TBurst:類似于KerneIDen特征,對一個占鋪而言,如果一條評論在相近時間內存在多條評論,則該評論有較大嫌疑。本特征取一條評論的周圍k條評論與該評論的平均時間差。本研究中取k=4。

2.3特征標準化

由于不同特征的取值范圍及其分布有顯著差異,不同特征之間難以相互比較,故采用文獻[15]提出的方法,按特征值進行排序,以其排列序號占總體評論數的比值作為其特征標準化值,從而使所有特征取值范圍均歸一化到[O,1]。進一步地,對于取值越小、越可疑的特征F,令F=1-F,從而使特征更趨近于1。

2.4特征有效性分析

通過比較每個特征中真實評論和虛假評論的累計分布函數( Cumulative Distribution Function,CDF)曲線,可以觀測到該特征對于分類的區分能力[19。YelpNYC數據集的9個特征對應的CDF比較曲線如圖1所示,可見各特征均有一定區分度,其中TimeSpan、UserReviews、ExtremeR -ate、WordCount、TextSentiment區分度明顯。RatingDev特征在該數據集中與文獻[11]、[16]中的亞馬遜數據集不一致,即本數據集中的作弊者打分偏差并不高于真實用戶,說明產品評論( Amazon)與店鋪評論數據存在不同行為特征。YelpZip與此類似,這里不再贅述。

3 基于有監督學習的虛假評論檢測

3.1檢測算法

由于不同機器學習算法采用不同的優化策略模型,根據“沒有免費午餐定理( No free lunch theorem)”,不同算法適合不同數據集。本文選取sklearn機器學習包中的決策樹( DecisionTree)、樸素貝葉斯(GaussianNB)、K近鄰(KNeighbors)以及集成學習算法隨機森林(RandomFor-est)。LightGBM[20]是最近提出的基于梯度提升決策樹的集成學習算法,被證實具有很高的學習效率與很好的分類性能,故本文引入LightGBM算法。

3.2檢測結果比較

對整個數據集采用交叉校驗法( Cross Validation),隨機抽取數據集中80%的數據作為訓練集,其余20%作為測試集。機器學習結果見表2、表3,其中每項指標的最優值用黑體顯示,可見YelpZip數據集檢測性能整體優于YelpNYC。如果側重檢測精度,則LightGBM和Random-Forest占優;如果考慮召回率,則GaussianNB占優。

由于評論數據中虛假評論占少數,屬于嚴重不均衡數據,所以高AUC值往往是第一目標。對于不平衡數據集,下采樣(Under-sampling)可以提高分類器性能[5]。將整個數據集的20%作為測試集,從其余80%樣本中取出全部虛假評論作為正例,然后從真實評論中隨機取出數量相等的評論作為負例,構造訓練集訓練分類器。其中,每次對測試集和訓練集分別采樣5次,取其平均值。YelpNYC和YelpZip實驗結果見表4、表5。

可見采用下采樣時,使用任何機器學習算法均可得到較高的召回率與較低精度,整體AUC值大幅提升。主要由于訓練集中虛假/真實評論比值為1:1,而測試數據集中真實評論數量明顯偏大,所以分類器傾向于將真實評論分類為虛假評論。總體來看,集成學習算法LGB和Random -Forest的性能較好。顯然,通過平衡下采樣訓練集中正例、負例的比率,可以權衡檢測精度和召回率。

4 結語

雖然學者們已提出多種針對產品類虛假評論的檢測方法,但對店鋪類虛假評論檢測的研究仍然較少。本文利用Yelp數據集中的虛假評論標注數據,提取虛假評論的文本特征和行為特征,分別利用交叉校驗和下采樣法,采用多種機器學習算法對J占鋪評論數據進行有監督分類。實驗結果表明,Yelp店鋪類評論欺詐具有極強的隱蔽性,虛假評論和真實評論特征分布區分度不明顯。有監督方法在店鋪虛假評論檢測中具有一定效果,但需要在召回率和精度之間作出權衡,并提出利用下采樣法在虛假評論檢測中平衡檢測精度和召回率。本研究提出的有監督方法在實際應用中取得了較好效果,也可為下一步設計基于無監督學習的檢測方法提供參考。

參考文獻:

[1]陳燕方,婁策群.在線商品虛假評論形成路徑研究[J]。現代情報,2015.35(1):49-53.

[2] LLCA M. Reviews, reputation, and revenue: the case of Yelp.Com[EB/OLl. https: //ssrn.com/abstract=1928601.

[3]IhrDAL N,LIL B Opinion spam and analysis[C].International Con-ference nn Weh Search&Data Mining, 2008.

[4]OTT M, CHOI Y,CARDIE C. et al. Finding deceptive opinion spambv aiUT stretch of the imagination[C]. In proc. of ACL:Human Lan-guage Technologies, 2011: 309-319.

[5]llil,QIN B, REN W,et al. Document representation and featurecomhination for deceptive spam review detection[J]. Neurncomput-ing, 2017,254(6):33-41.

[6]任亞峰,尹蘭.姬東鴻基于語言結構和情感極性的虛假評論識別[J].計算機科學與探索,2014.8(3):313-320.

[7]張建鑫 .基于聚類與句子加權的欺騙性評論檢測[J]軟件導刊 , 2019 ,18(2) : 34-37.

[8]WAhrC G, XIE S. LIU B. et al. Review graph based online store re-view spammer detec.tion[C] . Proceedings of ICDM , 201 I : 1 242-1247.

[9]WAhrG Z, HOU T. SONG D. et al. Detecting re,'iew spammer groupsvia hipartite graph projection [Jl. Computer Journal, 2016. 59(6) :861-874.

[10]WANG Z. CU S.ZHAO X. et al. Graph-hased review spammer groupdetection[J]. Knowledge and Information Systems, 2018. 55(3) :571-597.

[ll]MUKHERJEE A. VENKATARAMAN V. LIU B, et al. What yelpfake review filter might he doing:l[C]. Bosmn: Proceedings of IC-WSM , 2013.

[12]LIM E P. NCUYEhr y A. JINDAL N, et al. Detecting product review spammers using rating behaviors [C]. Proceedings of the 19th ACMConference on Information and Knowledge Management. 2010.

[13]孫升蕓 .田萱,何軍 .基 -T-評 ik行為的商 pOa垃圾評論的識別研究[J].計算機工程與設計 , 2012. 33(11) : 4314-43 19.

[14]LIH. FEI G, SHAO W, et al. Bimodal distrihution and co-hurstingin review spam detection rcl. Internatir,nal Conference on WorldWide Web . 2017.

[15]RAYAhrA S, AKOGLU L. Collectire opinion spam detection: bridg-ing review networks and metadata [c]. Sydney : Proceedings of KDD ,2015.

[16]MUKHERJEE A. KLrMAR A, LIU B, et al. Spotting opinion spam-mers using hehavioral footprint [C].Chicago : Prnceedings of KDD ,2013.

[17]FEI C. MUKHERJEE A, LIU B, et al. Exploiting hurstiness in re-views for reriew spammer detection [C]. 17th AAAI Conference onWehlogs and Social Media. 2013.

[18]wANG Z, cu s. XU X.CSLDA: LDA-hased group spamming de-tection in product reviews [J]. Applied Intelligence, 2018. 48 (9) :3094-3107.

[19]MUKHERJEE A. BINC L. GLAhrCE N. Spotting fake reviewergroups in consumer reviews [c].International Conference on V-orldWide Web . 2012.

[20]KEG, MENG Q, FIhrLEY T, et al. LightCBM: a highly efficientgradient boosting decision tree[C]. Long Beach: Proceedings ofNIPS.2017.

收稿日期:2019-05-13

作者簡介:王琢(1969-),男,碩士,CCF會員,沈陽理工大學信息科學與工程學院副教授,研究方向為機器學習;汪浩(1994-),男,沈陽

理工大學信息科學與工程學院碩士研究生,研究方向為機器學習。

主站蜘蛛池模板: 久久久精品无码一区二区三区| 日本国产精品一区久久久| 粗大猛烈进出高潮视频无码| 欧美综合中文字幕久久| 国产精品大白天新婚身材| 国产av色站网站| 中文字幕乱码中文乱码51精品| 亚洲成av人无码综合在线观看| 亚洲美女一区二区三区| 人人妻人人澡人人爽欧美一区| 久久国语对白| 国产精品色婷婷在线观看| 国产欧美精品一区aⅴ影院| 欧美成在线视频| 亚洲欧美日韩另类在线一| 青青久视频| 日本久久网站| 国产美女91视频| 欧美三级视频在线播放| 在线看免费无码av天堂的| 青青草国产免费国产| 国产成人无码综合亚洲日韩不卡| 久久综合伊人77777| 一级爆乳无码av| 中日韩一区二区三区中文免费视频 | 日本成人不卡视频| 成人在线亚洲| 一本大道无码日韩精品影视| 狠狠做深爱婷婷久久一区| 久久香蕉国产线| 亚洲精品第一在线观看视频| 欧美日韩国产一级| 午夜啪啪网| 久久99久久无码毛片一区二区| a毛片在线| 日韩精品免费一线在线观看| 国产丰满成熟女性性满足视频| 亚洲精品久综合蜜| 人人看人人鲁狠狠高清| 国产精品毛片一区| 亚洲无码一区在线观看| 国产精品视频第一专区| 欧美日本在线播放| 丰满人妻被猛烈进入无码| 欧美不卡视频在线| 日本草草视频在线观看| 老司国产精品视频| 中文字幕无码av专区久久| 天天综合天天综合| 欧美激情二区三区| 尤物精品视频一区二区三区| 国产理论一区| 在线观看国产一区二区三区99| 久久国产精品嫖妓| 99人妻碰碰碰久久久久禁片| 欧美色图久久| 国产无吗一区二区三区在线欢| 99热国产这里只有精品无卡顿" | 国产精品精品视频| 精品亚洲欧美中文字幕在线看| 亚洲天堂.com| 久久久精品无码一区二区三区| 在线网站18禁| 在线视频亚洲色图| 国产在线视频导航| 国产在线精品网址你懂的| 国产导航在线| www.狠狠| 亚洲五月激情网| 欧美亚洲一区二区三区导航| 国产精品xxx| 又污又黄又无遮挡网站| 亚洲香蕉在线| 国产日韩欧美一区二区三区在线| 免费激情网站| 国产精品真实对白精彩久久| 四虎免费视频网站| 日韩欧美网址| 制服丝袜一区二区三区在线| 国产精品毛片一区视频播| 漂亮人妻被中出中文字幕久久| 任我操在线视频|