

摘 要 近年來,國內外眾多學者對虛假評論檢測進行研究,本文針對虛假評論人進行檢測,利用無監督圖嵌入算法(node2vec)獲取評論人向量,進而獲得評論人之間的距離,根據距離計算出評論人的作弊度。同時將評論人特征融合為作弊先驗,有效地篩選出了有對產品進行虛假評論的評論人。
關鍵詞 虛假評論檢測;圖嵌入;無監督學習;特征融合
針對虛假評論檢測問題,本文構建評論人圖結構模型,使用無監督圖嵌入算法(node2vec)將評論人圖中的節點嵌入到低維向量空間中,使得圖中的評論人節點轉化為向量,通過計算評論人之間的Frobenius距離以估計評論人在向量空間中的距離,以此衡量評論人的作弊度并排序。
1相關算法
1.1 node2vec算法
node2vec算法[1]是圖嵌入方法的一種。該算法指定了兩個參數,p,q。參數p稱為返回參數,控制重復訪問剛剛訪問過頂點的概率,p值較高,概率較低。參數q稱為進出參數,控制著游走方向,實現指定游走趨向于DFS還是BFS,q>1傾向于BFS,q<1則更傾向于DFS。
1.2 特征融合
一組評論特征F{xl1,xl2…xlF},將F融合為一個作弊分數。后使用經驗累積分布函數統一為可比較的尺度和分布。
經過上述步驟后,不同特征極性均轉化為f(xli)的值,越低表示作弊嫌疑越高。
隨后將評論先驗轉化為評論人先驗。采用Abbr、RD、EXT、DEV、ETF、ISR等特征[2]將該評論人所有評論的最大先驗作為該評論人的作弊先驗 。
2算法模型分析
2.1 圖結構建立
假設有包含了m個評論人U={ui,i=1,2,...,m}對n個產品P={pk,k=1,2,...,n}的所有評論構成的數據集。數據集包括:評論人id,被評論人所評論的產品id,評論人對產品的打分評級,以及打分時間。如圖1所示,評論人ui對產品Pk撰寫了評分為ri的評論Vik,這一系列行為可以用一個元組的形式表示為vik=(ui, pk, rik)。
算法需要有效的虛假評論人的特征,并且當一個產品在短時間內突然接收到的評論量暴增時,往往會有大量的虛假評論人參與其中[2-3],這就涉及團體評論作弊活動。
為描述團體作弊活動,基于協同評論行為構建評論人圖模型,如圖1所示。兩條協同評論的緊密度通過兩者的評論vik和vjk計算得到。用協同行為緊密度來衡量評論緊密度如定義一。
定義1:給定評論同一產品的兩個評論人ui、uj,撰寫了評論Vik,Vjk,兩條評論的時間差Δt、打分差Δr,定義評論間的緊密度為:
評論人可能評論多個目標產品,因此通過多個協同評論行為定義評論人的緊密度。
定義2:評論人緊密度,給定兩個評論用戶ui、uj,Pi為評論人ui所評論的產品集合,兩個用戶間的緊密度:
2.2 圖結構算法模型
為計算每一個評論人的作弊度建立評論人-評論人圖模型,如定義3所示。
定義3:評論人圖,令U={u1,u2,u3…um}表示m個評論人的節點集合,根據公式得到評論人之間緊密度,建立評論人-評論人圖G=(V,E),E={(ui,uj)│collu(ui,uj)=1,ui,uj ∈U}。
3實驗結果分析
結果表明,本文方法與FraudScan方法相比充分利用圖結構信息,考慮協同評論行為,從全局到局部對虛假評論進行篩查,AP值,精度,NDCG值均有有效提升,并能有效降低篩查誤差。本研究提出的方法可有效應用于實際中,也可為設計基于無監督圖嵌入檢測方法的研究提供參考。
參考文獻
[1] GROVER A,LESKOVEC J.Node2vec:scalable feature learning for networks[C].Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining.San Francisco,California,USA:ACM,2016:855-864.
[2] Wang Z,Hu R,Chen Q,et al. ColluEagle: Collusive review spammer detection using Markov random fields [J]. Data Mining and Knowledge Discovery,2019(10):723.
[3] S. Rayana, L. Akoglu. Collective opinion spam detection: bridging review networks and metadata [C].In Proceedings of KDD,Sydney,Australia,2015:985-994.
作者簡介
彭明夷(1996-),女,遼寧省大連市人;沈陽理工大學在讀碩士研究生,專業:計算機技術,學歷:工程碩士,研究方向:大數據原理及應用。