一種基于時序鄰居序列的游離水軍群組檢測方法

2023-01-01 00:00:00李寧梁永全張琪

計算機應用研究 2023年3期

摘要：某些賣方通過雇傭水軍群組撰寫虛假評論和評分等手段來影響或誤導消費者的購買決策，而擁有造假間隔時間長、造假次數少、規模小等特殊造假特征的水軍群組即游離水軍群組，是難以識別的。為了檢測游離水軍群組，提出了一種基于時序鄰居序列的游離水軍群組檢測方法。首先，通過時序網絡建模評論者的共評論關系，并基于時序網絡形成時序鄰居序列；其次，基于時序鄰居序列生成、合并和凈化規則得到候選群組集合；最后，使用造假指標將候選群組分類排序，得到游離水軍群組。基于兩個真實數據集分別設計了三組實驗來驗證篩選高可疑度評論者可行性、在不同數據集上選擇合適的閾值等。結果顯示在兩個真實數據集上本方法優于基線方法。

關鍵詞：游離水軍群組；時序網絡；時序鄰居序列；造假指標

中圖分類號：TP391.4 文獻標志碼：A

文章編號：1001-3695（2023）03-021-0776-10

doi： 10.19734/j.issn.1001-3695.2022.07.0373

Method for detecting free spammer groups based on temporal neighbor sequence

Li Ning， Liang Yongquan， Zhang Qi

（Shandong Key Laboratory of Wisdom Mine Information Technology， Shandong University of Science amp; Technology， Qingdao Shandong 266590， China）

Abstract：Some sellers influence or mislead consumers’ purchasing decisions by employing spammer groups to write fake reviews and ratings. However， it is difficult to identify the spammer groups， which has special characteristics of spam long time intervals， less spam， and small group size， namely the free spammer group. This paper proposed a temporal neighbor sequence-based method for detecting free spammer groups. This method firstly modeled the temporal network based on the coreview graph and formed the temporal neighbor sequence based on the temporal network. Secondly， based on the temporal neighbor sequence， it used generation， merging and purification rules to obtain the set of candidate groups. Finally， it classified and ranked the candidate groups by spam indicators and obtained free spammer groups. Experimental results based on real-world datasets demonstrate the effectiveness of the proposed method. This paper designed three sets of experiments based on two real datasets. The first set of experiments verified the feasibility of filtering high-suspicious reviewers， the second set of experiments selected appropriate thresholds on different datasets. The proposed method outperforms the baseline method on two real-world datasets.

Key words：free spammer group; temporal network; temporal neighbor sequence; spam indicator

0 引言

隨著電子商務的發展，在線購物已經成為生活購物不可或缺的一部分，然而在線購物平臺的造假問題也隨之而來。目前發現某些商家或組織，雇傭一些真實的消費者對商品信譽造假，這些真實的消費者并不是專業的造假人員，他們會在時間上隨機地造假某些商品。最早的水軍評論/個體檢測工作是Jindal等人［1］在Amazon評論數據集的評論文本上做的虛假評論檢測并提出造假者檢測問題，之后越來越多的工作用于水軍評論/個體檢測。例如，現有的水軍評論/個體檢測研究中，文獻［2，3］集中研究評論文本，文獻［4，5］研究用戶行為特征。然而水軍群組檢測研究起步較晚，根據生成候選群組或最終群組的方法不同可以將現有的研究方法分為三類，即基于頻繁項挖掘（FIM）、基于圖的算法和基于評論爆發的算法。Mukherjee等人［6］提出基于FIM方法檢測水軍群組，是最早的水軍群組檢測思路。基于FIM方法檢測水軍群組， Xu等人［7，8］利用FIM生成候選群組，然后細化分類算法識別水軍群組和非水軍群組。然而基于FIM的方法不能檢測出松耦合的群組，但 FIM方法為后面的研究者提供了研究基礎和思路。

為了克服基于FIM方法檢測水軍群組的局限性，有很多工作是基于構建一個用戶交互圖檢測水軍群組。例如，Wang等人［9］基于評論者的隱式交互檢測水軍群組，提出了GGSpam（GSBC）方法，該方法基于構建的共評論圖提出了一個分治的算法檢測松耦合和不活躍的群組，擴展了水軍群組的類型，提高了檢測的精度；但這種方法固定的時間窗口將打破水軍群組的時間和空間完整性。Li等人［10，11］設計了雙通道馬爾可夫模型來捕捉評論者的行為特征和共爆發信號，在構建的共爆網絡中利用圖聚類算法生成水軍群組，提出水軍短時間內爆發性評論的特征，但普通的圖聚類算法檢測水軍群組破壞了群組空間整體性，很難總結出群組的造假策略。捕捉共爆發信號時會忽視掉波峰小的評論爆發區間，從而忽視掉某些小型水軍群組。受文獻［10，11］啟發，Ji等人［12］提出了一種基于評論者行為特征學習和基于爆發的方法（GSDB），該方法從單一產品的角度研究水軍群組檢測，克服了以前以評論者為中心檢測水軍群組的局限性；但基于單一目標產品評論爆發檢測水軍群組會破壞跨產品水軍群組的空間完整性。

根據產生候選群組或水軍群體的方法不同，現有研究分為了三類：a）基于FIM的方法，該方法考慮評論者頻繁的造假行為來檢測水軍群組；b）基于圖的方法，該方法使用評論者的共評論關系來建模共謀關系，利用圖的結構特征和評論者的行為特征檢測水軍群組；c）基于評論爆發的方法，該方法通過捕獲評論者評論爆發或產品評論爆發區間，以生成爆發評論的候選群組。如圖1（a）所示，通過觀察有標簽的YelpZip數據集所有造假者共評論流（x和y軸是造假者，z軸是距離開始時間的天數差，造假者在同一天評論同一個商品算做一次共評論）發現，隨著時間越近造假的密度越來越大，所有的共評論都是通過流的方式圍繞著某些節點而生成。本文將只有一次造假行為的造假者定義為游離造假者，游離造假者主要參與的造假群組本文定義為游離水軍群組。而圖1（b）（c）中造假者共謀密度大幅減少，造假頻繁的造假者與游離造假者共謀密度相對于造假頻繁的造假者之間的共謀密度降低，說明正常的造假者與游離的造假者存在共謀關系。通過對比圖1（b）（c），共謀密度相差不明顯，游離的造假者的共謀行為是離散分布，相對較少的數據流能呈現密度大的趨勢。所以對于檢測游離水軍群組的困難遠超檢測普通的水軍群組，但因為游離的造假者與普通造假者的共謀關系的存在，這種造假行為不能忽視。

現有的水軍群組檢測研究中都忽略了游離水軍的單獨存在，即有些水軍只造假一次的行為，通過圖的結構特征，評論者的行為特征和評論爆發特征難以識別。針對游離水軍群組，本文提出基于時序鄰居序列的離散水軍群組檢測方法，該方法提出了基于時序鄰居序列的候選群組生成、合并和凈化規則，更為細致地劃分爆發評論時間區間，而且是跨產品評論的爆發評論時間區間。首先提出評論爆發時間區間的劃分規則（候選群組的生成規則），生成待合并和凈化的候選群組；然后，本文定義了候選群組的合并規則，合并造假行為相同的群組，利用個體造假行為指標凈化候選群組中無辜的評論者，生成待分類的候選群組；最后，利用群組造假指標對候選群組分類。

本文基于兩個真實數據集（Yelp和Amazon）分別設計了三組實驗來驗證篩選高可疑度評論者的有效性，參數分析和方法性能對比實驗得到了以下結論：第一組實驗結果表明，高可疑度評論者的時序鄰居序列越長，產生的可疑群組的數量越多，高可疑度評論者的排名靠前的數量越多對最終結果的影響越大，證明高可疑評論者的過濾方法是可行的；第二組的結果表明，本文方法可以相當準確地分割評論的爆發區間，因此可以在YelpZip和Amazon數據集上找到合適的評論爆發區間參數值；第三組實驗結果表明，在Yelp數據集上本文方法對標簽參數不敏感，并且本文方法在精度上總體優于ColluEagle［13］方法，在Amazon數據集上本文方法對標簽參數的敏感性介于GSDB［12］和GSBC［9］方法之間，當標簽參數的賦值相對較小時，本文方法在精度上完全或大致優于這兩種方法。

1 相關工作

1.1 基于FIM的方法

2012年，Mukherjee等人［6］著手水軍群組檢測的研究，首先使用FIM挖掘評論頻繁的可疑人物來生成候選群組，然后設計了GSRank算法（一個類似于PageRank的算法）將候選群組按照其可疑度排序。此算法的缺點在于其對水軍群組的劃分粒度不夠細，但是為后續的研究提供了一種思路，之后出現的很多識別算法都是在此算法的基礎上進行細化。為了得到更準確的識別結果，Xu等人［7］在文獻［6］的基礎上提出了兩種全新算法，即基于KNN和基于圖的水軍群組識別算法。兩種算法的共同之處是首先使用FIM算法得到候選群組，然后對候選群組進行進一步檢測；其區別在于基于KNN的識別算法計算候選群組內兩個評論者相似度，然后選擇最相似的評論者進行最終投票，基于圖的識別算法首先捕獲評論者之間的事務關聯（即兩個評論者在預定義的時間間隔內評論同一個商品），然后利用基于成對馬爾可夫網絡的共謀圖模型挖掘共評論圖的共謀關聯，最后利用一種基于迭代分類算法（ICA）的近似推理算法進行分類。

為了得到更細的檢測粒度，Xu等人［8］提出了一個獨特的統計模型隱共謀模型（LCM）對共謀群組進行建模，并使用h-CBMs計算共謀者的相似性。此算法首先使用FIM算法生成候選共謀群組，此類群組因其中共謀者的合作關系從而表現出獨特的集體行為模式；其次為了建模此模式，LCM利用基于特定的特征空間中區分共謀和非共謀特征，同時采用混合生成和判別的概率方法為共謀推理和預測人物建立一個統一的模型；最后，基于同質圖共謀行為的度量（h-CBMs）方法被用來計算候選群組內成員的相似性，挖掘共謀者之間的聯系，檢測數據集中潛在的水軍群組。但FIM方法存在遺漏生命周期短的群組、忽略造假次數少和作案時間間隔短的造假者、識別松散耦合的群組表現差、群組的空間整體性差等問題，因此具有局限性。

1.2 基于圖的方法

與基于FIM的方法不同，現有基于圖的方法的共同點是利用圖的結構特性或圖中節點的關系特性來檢測水軍群組，不同點是構圖方式有差異以及使用不同的圖處理方法（如圖聚類、圖劃分、圖卷積神經網絡等）檢測水軍群組。根據構圖方式不同，此類方法可分為構建誘導子圖的方法、構建共評論圖的方法、構建用戶關系圖的算法以及構建異質圖的方法。

1.2.1 構建誘導子圖的方法

一般構建誘導子圖是通過商品和用戶投影方式。基于構建誘導子圖檢測水軍群組的算法中，Xie等人［14］提出FRAUD-EAGLE框架檢測水軍群組，該框架首先應用循環信念傳播（LBP）算法對用戶、產品和評論的可疑度進行排名，然后將可疑分數排名前k的用戶投影到誘導子圖，在誘導子圖的鄰接矩陣上使用cross-associations（CA）聚類算法獲得水軍群組和共謀商品。CA 算法通過查找矩陣的行（用戶）和列（產品）的排列來執行聚類分析，使得生成的矩陣包含同構塊（由聚類定義），其中密集塊對應于接近二分的核心（如一組用戶攻擊目標產品集）。該框架中提出了一種新穎的排名方式，排名后的用戶和商品構造誘導子圖建模用戶與商品的交互關系，減少了檢測水軍群組的時間成本。但FRAUDEAGLE只依賴圖中的關系結構，而且普通的圖聚類方法難以劃清群組的邊界。

張琪等人［15］提出了一個綜合考慮網絡結構與時間特征的算法來檢測評論網絡中的水軍群組，該算法由四步組成：a）基于評論網絡結構特征的分析挖掘出易受水軍攻擊的目標產品；b）受“共爆發現象”的啟發，提出了一個目標產品被水軍群組攻擊的可疑時期挖掘算法；c）基于目標產品可疑時期內的數據構造目標產品—評論者的誘導子圖，并在該子圖上應用層次凝聚聚類算法生成候選水軍群組；d）為了過濾掉在可疑時期內購物并評論的正常用戶，提出了一個水軍群組凈化方法，然后基于評論者的行為特征對凈化后的群組進行分類。這種基于時間特征的單個產品檢測水軍群組檢測出的水軍群組是緊耦合的，且容易破壞水軍群組的時間和空間特征。

1.2.2 構建共評論圖的方法

與構建誘導子圖不同的是，共評論圖是依據兩評論者的共評論關系構建的，如果兩評論者短時間評論過同一商品，則兩評論者之間存在共評論關系。Wang等人［16］經過研究發現，基于FIM的識別算法在識別緊密耦合的水軍群組上表現良好，但是在識別松散耦合的群組上表現不令人滿意。因此，文獻［16］使用二部圖解決此問題，首先提出了松散耦合的水軍群組的概念（即每個群組的成員無須評論每個目標產品）；其次，將評論數據建模為一個二部圖，并且在二部圖的基礎上設計了一種分治的松散耦合的水軍群組生成算法。該方法根據二部圖挖掘出松散耦合的水軍群組，可以檢測到活動不頻繁的水軍群組，同時拓展了水軍群組的類型并提升了水軍群組檢測的準確性；不足的是，算法中固定的評論時間窗會破壞水軍群組的時間和空間完整性。

針對文獻［16］的不足，Wang等人［9］提出了一種通過建立評論交互圖使用圖劃分的方法檢測水軍群組，通過商品與用戶的評論交互（兩個用戶在短時間內評論同一商品為交互關系）提出了GGSpam框架，又稱為GSBC算法。首先，該框架將整個評論網絡視為圖結構，通過遞歸的方式（最小割算法）劃分為多個子圖（雙連通子圖），在子圖內通過兩個評論者對每個共同評論產品的評論時間間隔和評分偏差建模兩評論者的共謀行為；在劃分后的雙連通子圖中計算群組造假指標，分治地挖掘出根據群組造假分數排名后的水軍群組。該方法利用評論者在短時間內評論具有相似評分的常見產品特性檢測水軍群組，符合現實電商平臺的水軍群組造假規律；但因評論時間窗固定，存在圖劃分算法會破壞水軍群組的時間和空間整體的局限性。

Wang等人［9］設置評論時間窗固定，未考慮水軍群組爆發式作案的情況，而Li等人［10］注意到，評論者的評論率是雙峰分布的，多個造假者傾向于在短時間同時積極地對同一組產品發表評論，這就是所謂的共同爆發。因此，Li等人［11］利用群組評論共同爆發的特征來檢測水軍群組，首先提出了一個雙模標記隱馬爾可夫模型，僅使用單個評論者的評論發布時間來建模造假者；然后將其擴展到耦合隱馬爾可夫模型，以捕捉評論者的發布行為和共同爆發信號；最后基于模型隱藏狀態構建了一個共同爆發的評論者網絡，在共爆發網絡中利用經典的圖聚類算法來檢測水軍群組。該方法利用群組評論的同時爆發性建模共爆網絡，符合水軍群組的作案規律。共爆網絡聚類水軍群組會忽略小規模群組評論爆發，并且傳統的圖聚類方法對檢測水軍群組有一定的局限性，難以劃清群組的邊界。

Cheng等人［17］建立了一個評論回復網絡，設計了關注水軍群組非語言特征的框架。該框架首先提取threads、傳播和流行度三個新的非語言特征用來衡量造假者行為的不同方面；然后以評論者的行為為基礎構建一個評論回復網絡，同時使用常用的機器學習的分類算法提高檢測造假者的性能；最后在評論回復網絡中使用隨機游走的方法模擬造假者之間的交互，將隨機游走的算法應用于聚類行為相似的造假者，得到水軍群組與普通用戶之間的關聯。該方法提出了新穎的衡量造假行為的特征，然而該方法只關注了造假者之間的行為相似性，忽略了水軍群組爆發評論特性。

1.2.3 構建用戶關系圖的方法

與建立評論交互圖不同，還有研究者通過建立用戶關系圖檢測水軍群組。與評論交互圖（無向圖）不同，用戶關系圖（有向圖）是一個多重有向圖，它是通過回復者與評論者之間的相互評論關系以及評論的情感關系構建。例如Choo等人［18，19］在Amazon數據集上構建用戶關系圖，通過社區發現算法檢測意見水軍群組。該方法可以分為四個階段：建立一個常規的用戶關系圖；通過情感分析對常規圖進行標注；將一般圖修剪為正關系圖；在正關系圖中識別強正關聯的社區。

在文獻［18］的基礎上，Choo等人［19］關注了造假目標的檢測。同樣地該方法也分為四個階段：構建一般用戶關系圖；通過情感分析標注一般圖；識別異常陽性群落；檢測異常群落的正目標和負目標。他們從用戶評論關系和評論情感兩個角度構建用戶關系圖，通過劃分社區來獲取水軍群組，考慮到水軍之間的社區行為。依照現實考慮，大多數群組內存在水軍之間聯系不密切、交互次數少且水軍的造假行為是有組織者發起的有預謀的造假行為等因素，所以根據社區劃分算法更適合查找緊密聯系的群組，但該算法無法識別有組織有預謀的分散的水軍群組的造假行為。

張文鵬等人［20］為了檢測這種有組織的水軍群組，提出了一個綜合考慮網絡結構和評論者的行為特征的水軍群組檢測算法。首先根據評分和評論時間相關性得到評論者之間的緊密度，構建評論者關系圖；其次，基于構建的評論者關系圖，利用標簽傳播方法檢測社區，得到候選群組集合；最后，復原候選群組對應的二部圖，以對比可疑度為評估指標。構建用戶關系圖利用社交檢測算法檢測到的群組割裂了空間完整性，因為水軍群組中節點的（評論）聯系較為單一。

1.2.4 構建異質圖的方法

在以上基于圖檢測水軍群組的工作中，只使用同質圖的節點信息作為特征，如商品的誘導子圖、用戶的關系圖、共評論圖、共爆發評論圖等。Shehnepoor等人［21］提出了第一種神經網絡方法HIN-RNN，在HIN上提出了四步方法來解決水軍群組檢測問題并提高性能。a）提取評論者表示，使用詞嵌入總和（SoWEs）將評論者所寫的評論處理為特征；b）設置評論的時間間隔確定候選群組（共評論子圖）；c）采用步驟b）獲得的子圖，使用HIN兼容的RNN處理候選群組，通過自回歸模型來編碼評論者之間非局部語義依賴關系，輸出評論者的協作矩陣；d）移除協作矩陣中不正常的評論者，將剩下的評論者表示的平均值輸入到一個簡單的完全連接層，給每個群組打標簽。HIN-RNN方法克服了采用人工特征的局限性，在Amazon數據集中水軍群組檢測的準確率提升到85%；然而固定的時間間隔劃分候選群組會破壞群組的完整性，評論者也會通過評論內容來隱蔽自身。

在文獻［21］的基礎上Shehnepoor等人［22］又提出了一種檢測水軍群組的新思路。首先，與文獻［21］相似，他們利用HIN-RNN對評論者的共評論關系（即在固定的時間窗口中學習評論者的表示）進行預測并輸出子圖，每個窗口中一個組內的評論者之間有精細的關系；其次，利用簡單的遞歸神經網絡（RNN）來建模不同時間窗口評論者之間的關系，該模型在上一步的基礎上又考慮了空間關系，這個步驟的輸出是每個小組在不同時間窗口的協作矩陣，用于編碼評論者的時間關系；然后利用圖卷積網絡（GCN），基于捕獲的評論者時空關系和每個評論者的標簽來細化評論者的表示；最后，基于這些表示，應用K-means聚類算法識別每組中的異常評論者。

以上兩篇文獻對提出算法的一次性性能進行了測量，而性能的方法是通過文獻［8，12，15，16，20］中可疑的水軍群組排名來衡量的。兩種衡量績效的方法沒有進行比較；其次，兩篇文獻中固定的評論時間窗口將打破水軍群組的時空特征。這兩種基于評論者的評論表示和評論關系的水軍群組檢測方法均存在一定的不足，例如水軍會模擬一些真實的評論來評論目標產品。

1.3 基于評論爆發的算法

與基于FIM的算法和基于圖的算法不同的是，Li等人［11］利用群組評論爆發思想，利用群組評論的同時爆發性建模共爆網絡，符合水軍群組的作案規律。Ji等人［12］側重于商品爆發評論模式，從商品的角度檢測基于商品爆發評論的水軍群組，克服以往以評論者為中心檢測水軍群組局限性。首先，檢測可疑的爆發評論的商品，發現在單個商品內爆發評論時段的評論者，利用核密度估計算法生成候選群組；然后，使用群組造假指標和個體造假指標分類凈化候選群組。與基于圖的方法相同的是文獻［12］在共爆發網絡中利用經典的圖聚類算法來檢測水軍群組；不同的是文獻［11］側重于評論的爆發評論模式，該方法基于爆發評論檢測水軍群組，雖然檢測出的水軍群組是單一商品集中爆發的群組，但是符合賣家的動機與特點。

1.4 小結

總的來說，FIM識別松散耦合的群組表現差、群組的空間整體性差；而基于圖的方法忽略了群組的時間特征，破壞群組的時間和空間完整性；基于評論爆發的方法也有缺點，例如忽略了時間和空間特征，只關注爆發時間段。

為了同時挖掘群組的評論爆發時間特性和群組的跨產品作案的特性，挖掘水軍群組隨著時間變化的空間特征，本文提出了一種基于時序鄰居序列檢測游離水軍群組的方法（NSGD）。

2 整體框架

圖2給出了NSGD方法的整體框架，分為四個部分：篩選高可疑度評論者；基于評論者構建的共評論時序網絡獲取時序鄰居序列；基于時序鄰居序列生成，合并和凈化候選群組；候選群組的分類。

2.1 高可疑度評論者的篩選方法

現實生活中水軍是評論網絡中的極少部分，在整個數據集上檢測水軍群組，計算全部評論者的可疑度是不明智的選擇，而檢測游離水軍更不能如此。正如Ji等人［12］預篩選被攻擊的可疑產品，通過群組單一產品集中攻擊特性挖掘水軍群組，不但可以減少時間成本，而且該方案符合電商水軍作案規律。本文使用個體造假指標篩選高可疑度評論者，在其時序鄰居序列內檢測水軍群組。篩選高可疑度評論者使用的個體行為參考指標與計算方法如下所示。

定義1 評分偏差（RD）［23］。RD反映了評論者的評分偏離產品整體評分的程度。評論者的整體評分能夠反映一個產品的基本情況，而水軍群組為了貶低/推廣目標產品，通常發布與產品整體評分相差較大的評分。RD的計算公式如下：

其中：rerp是評論者r對產品p的評分；rep是產品p的平均評分;m是每個評分可能采用的最大值和最小值之間的最大差距，通過除以m進行歸一化，本文中所用的兩個數據集m=4。

定義2 極端評分比例（EXR）［4］。EXR反映了極端評分的數量占評論者評分總數的比率。水軍通常會發布極端的評分（如1或5分，評分五分制下）用來貶低/推廣目標產品。EXR的計算公式如下：

其中：REr是評論者r的評分集合，rer是集合REr的元素。

定義3 一天評論數（MNR）［4］。MNR反映的是評論平均數量與發表評論的最大次數的比率。如果一個評論者經常在一天內發布很多評論則很可疑，因為正常評論者通常一天只發布幾次評論，不會太多。MNR的計算公式如下：

其中：MaxRev（r）是評論者在一天之內的最大評論數；maxr∈R（MaxRev（r））是評論者評論數量所有天數的最大值，通過除以maxr∈R（MaxRev（r））進行歸一化。

定義4 賬戶生存周期（AD）［24］。AD反映的是評論者發布的第一條與最后一條評論之間的時間間隔。Qiu等人指出，水軍通常在一個電商平臺上不會有太長的生命周期，然而正常的評論者會一直使用他們的賬戶來發布評論。AD的計算為

其中：trs和tre分別是評論者r發布的第一條和最后一條評論的時間；tdata表示整個數據集的時間跨度。定義5 活躍時期評論占比（ATR）［12］。真實評論者發布評論的時間與數量是隨機的，而水軍通常在短時間內發布大量的虛假評論，即活躍期。ATR的計算公式如下：

其中：ActiveTimePeriod（r）表示評論者r在活躍時期發布的評論集合；REr是評論者r發布的全部評論集合。

評論者r的個人造假可疑閾值ISS（r）為上述指標得分的平均值，δI為指標的閾值，選取ISS（r）＞δI的評論者，本文認為他是水軍。如果一個群組g的水軍比例大于閾值δg，本文則認為g是水軍群組。ISS（r）的計算公式如式（6）所示。

算法1給出了篩選高可疑度評論者方法基本的步驟。該算法對應于圖2中的第一個矩形。它的結果是圖1第二步的輸入，即得到的高可疑度的評論者將是共評論時序網絡中的節點，它們將被視為給定的需要獲得其時間鄰居序列的高度可疑的評論者。

算法1 Filtration of high-suspicion reviewers（）

輸入：評論者集合RS和個體可疑度閾值δI。

輸出：RS（nlt;lt;|RS|）內前n可疑度評論者。

for r in RS do

if ISS（r）≥δI then

append （HSR， r）； // r 添加進高可疑度評者集合

end if

end for

sort（HSR）；

output top-n reviewers in HSR.

2.2 基于共評論時序網絡的時序鄰居序列獲取方法

本節首先提出了構建評論者的共評論時序網絡方法，以捕獲評論者的共評論關系獲得時間鄰居序列；其次，給出了時間鄰域序列獲取方法，該方法旨在獲取群組內評論者留下的爆發評論特征、跨產品特征以及群組的時間和空間特征。

2.2.1 共評論時序網絡的構造方法

共評論關系可以看做是兩個或者多個評論者評論過一個或者多個產品生成的關系。通過跟蹤評論者的“鄰居集合”可以獲得每個評論者的所有共評論關系，并且利用評論者的共評論關系建模評論者的共謀關系。因此挖掘評論者的“鄰居集合”對檢測水軍群組工作有著重要意義。本文的“高可疑度評論者”是造假行為可疑度高的評論者，而“鄰居集合”是與評論者形成共評論關系的評論者集合（即以評論者為核心的共評論者鄰居集合）。為了獲得評論者的“鄰居集合”，本文將評論者看做節點，將評論者的共評論關系看做邊，將每條邊上的評論看做一個事件。在時間順序的交互事件驅動下，本文引入時序網絡［25，26］，對于給定的時序網絡，可以準確地將評論者的時序共評論關系建模為帶有時間戳的交互事件。

事件集合T是指按節點和其他節點的交互事件的時間順序排序得到的一個集合。注意，其中一個時序網絡中的節點可以重復出現，以代表節點之間的多次交互。

2.2.2 時序鄰居序列的構造方法

以某個節點與其共評論鄰居交互事件的上升時間為基準，將網絡中節點的鄰居組織成一個序列，該序列就是時序鄰居序列［25］。定義7 時序鄰居序列［25］。每個評論者的時序鄰居序列定義為{r：（r1，tr，r1）→（r2，tr，r2）→…→（rN，tr，rN）}，tr，rn-1≤tr，rn。源節點r（r∈R）的時序鄰居序列每個元組（r1，tr，r1）都代表一個帶著時間戳的共評論事件，目標節點ri（ri∈rN）。

算法3詳細介紹了時序鄰居序列的獲取步驟。算法輸入的是共評論時序網絡，輸出的是篩選后的時序鄰居序列。步驟2～11是以源節點或目標節點為鍵生成時序鄰居序列，每個時間鄰居序列（數組）由源節點和目標節點的共評論者和共評論時間戳組成；步驟13～15，時間鄰接序列由升序共評論時間戳排序；根據步驟16～18，過濾出具有符合游離特征的時間和空間特征的時間鄰域序列。

例1 為了更好地理解獲取時序鄰居序列的過程，如圖3所示的一個樣例。

圖3（a）表示用戶—產品—評論圖中評論者R1對商品P1～P7發布過評論，圍繞這些商品的所有評論者R2～R7都作為R1的共評論鄰居，在共評論時序網絡中記錄相同時間評論的商品與其評論的時間戳，其中共評論是一次交互事件；圖3（b）同質圖中R1的鄰居集合為R1N={R2，R3，R4，R5，R6，R7}，交互事件集合為TR1，R1N={tR1，R2，tR1，R2，tR1，R3，tR1，R6，tR1，R2，tR1，R3，…}。由R1、R1N的事件集合TR1，R1N生成共評論時序鄰居序列為{（R2，t1）→（R2，t2）（R3，t2）（R6，t2）→（R2，t3）（R3，t3）→…}。其中，R2及其鄰居集合獲取的共評論時序鄰居序列較短，容易挖掘散戶水軍所在水軍群組，本文選擇這些短序列挖掘游離水軍群組。

2.3 基于時序鄰居序列的候選群組生成、合并與凈化方法

2.3.1 共評論時序網絡的構造方法

依據文獻［11，12］，通過對評論者的評論模式觀察發現，Amazon數據中的評論者傾向于在短時間爆發式地評論某一商品。相同地，筆者發現在時序鄰居序列內多數評論者會在一天內評論同一產品，或是在多天內連續不斷地評論同一產品。同樣為了捕捉時序鄰居序列內評論者評論時間爆發行為，本文定義了評論爆發區間劃分規則。在時序鄰居序列中評論者連續多天評論，記錄爆發評論開始時間tstart、最后一個評論者的評論時間tend作為爆發結束時間，以及tend之后有φt天的評論間隔期，因此時序鄰居序列內爆發區間為（tstart，tend）。兩個劃分好的爆發時間區間（t1，t2）和（t3，t4），評論爆發區間滿足條件t2-t1≤φt amp; t3-t2＞φt amp; t4-t3≤φt…。其中，φt是劃分評論爆發時間區間的閾值。選取合適的劃分評論爆發時間區間的閾值來生成待合并的候選群組。

算法4列出了生成候選組的基本步驟，以時間鄰居序列為輸入，候選組為輸出。算法4中步驟2～8記錄滿足爆發區間劃分條件的評論者索引（即滿足爆發規則中爆發區間劃分條件的評論者和共評論者時間戳）。根據這些評論者的記錄索引，步驟9～11將時態鄰居序列劃分為一些數組（即爆發區間）。對于按順序劃分的數組，在步驟12～23中記錄爆發開始和結束時間戳，作為候選組的鍵，在步驟17～21中記錄鄰居集的節點和節點本身。本文將在第3章通過實驗選擇合適的劃分評論爆發區間的間隔閾值φt。

2.3.2 候選群組的合并

本文通過觀察算法4生成的候選群組發現，相同爆發區間內存在群組成員相似的群組，且群組內的成員不完全相同，將爆發區間不同、群組相似度大于等于0.80的群組看做相同的群組在不同時間的造假行為。本文合并候選群組的條件為：爆發區間相同（即不同時序鄰居序列的候選群組，一個時序鄰居序列之內不可能出現相同時間session的候選群組），且候選群組之間群組相似度大于等于0.80。

定義8 群組相似度（Jaccard）。爆發區間相同且相似度大于等于80%的可疑群組，該可疑群組本文定義為在相同時間發生相同造假行為的同一群組，兩群組相似度定義為

Jaccard（gi，gj）=gi∩gjgi∪gj（7）

其中：gi和 gj是兩個不同序列之間的群組。

算法5列出了合并候選組的基本步驟，將候選組設置為輸入，合并后的候選群組設置為輸出。根據步驟4～13，候選組的合并可分為兩部分，在步驟5～11中，組相似度大于等于0.80且具有相同爆發區間的兩個候選群組合并（合并規則），將合并后的兩個候選組刪除，合并后新生成的候選組保留；在步驟10～12中，如果候選組沒有類似的組，則輸出候選組。

2.3.3 候選群組的凈化

由于可能會有一些真實的評論者在爆發區間中碰巧對產品進行了評分，應該從水軍群組中過濾掉他們［12］。為了將候選群組中無辜的評論者剔除，提高水軍群組檢測的準確性，降低誤判率，本文對候選群組進行凈化操作。

算法6列出了凈化候選群組的基本步驟，以候選群組集合為輸入，凈化后的候選群組集合（最終群組集合）為輸出。在步驟1～9中，獲取并刪除候選群組中無辜的評論者。其中，在步驟3～7中，將ISS（r）＜δI的評論者看做無辜的評論者，并從該群組中凈化出去。

2.4 群組分類方法基于時序鄰居序列的候選群組生成、合并和凈化候選群組后，候選群組包括非水軍群組和水軍群組兩類群組，且水軍群組內可能包括非造假者和造假者兩類評論者。

定義9 群組評論緊密性（GRT）［16］。文獻［16］首先考慮了水軍群組的緊密性，該指標用來衡量群組成員合作撰寫虛假評論的緊密程度。GRT計算如下：

GRT（g）=VgRgPg（8）

其中：Vg是群組g的成員對于目標產品的評論集合；Rg是群組g成員的集合；Pg是群組g評論的目標產品。

定義10 群組評分偏差（GRD）［6］。水軍群組試圖對目標產品做正面或者負面評價，其評分偏差往往過于偏離產品的平均評分。RDp是群組g對目標產品p的評分偏差，GRD反映的是群組內偏離目標產品的平均程度。RDp和GRD可分別根據式（9）（10）來計算。

RDp（g）=avgr∈grerp-repm（9）

GRD（g）=avgp∈PgRDp（g）（10）

其中：rerp是評論者r對產品 p 的評分；rep是產品 p 的平均評分；m是每個評分可能采用的最大值和最小值之間的最大差距，通過除以m進行歸一化，這里m在兩個數據集上都取4。

定義11 群組一天評論數（GOR）［27］。GOR關注一個群組一天發布的評論數量，如果群組成員在一天發布越多評論，群組就越可疑。Mukherjee等人［27］估計稱，水軍通常一天至少發布6次評論，而正常評論者通常只會發布1～2次評論。本文首先計算了每個群組成員發布的評論數量超過5的天數如式（11）所示，然后計算群組成員的平均值。GOR根據式（12）計算。

其中：T r是群組成員r所有評論日期的集合；tr是集合Tr的元素；CountRev（tr）是群組成員r在tr日期發布評論的數量。

定義12 群組極端評分比例（GER）［12］。GER定義為群組成員極端評分比例EXR（r）的平均值。GER計算如下：

其中：REr是評論者r的評分集合；rer是集合REEr的元素；EXR（r）是每個群組成員的評分偏差。

定義13 群組共活躍時期占比（GCAR）［12］。GCAR計算了群組在時間片之內發布的評論占群組總評論的比例。GCAR計算如下：

GCAR（g）=RCAgRg（14）

其中：RCAg表示群組g在群組爆發區間之內時間內發布的評論集合。

本文取上述五個指標的平均值GSS作為衡量群組造假程度的群組造假分數，GSS計算如下：

本文將候選群組指標GSS（g）大于閾值δG時，定義該群組為水軍群組。

算法7列出了分類最終組的基本步驟。若候選群組造假分數超過δG，則該候選群組被看做水軍群組，然后將分類后的群組按群組造假分數GSS排序（式（15））。

3 實驗結果與分析

3.1 數據集

本文在該實驗中使用YelpZip評論數據集（有標簽）和AmazonBooks評論數據集（無標簽）。YelpZip是從2004年10月到2015年1月的餐廳評論數據集，包括608 598條評論，260 277位評論者和5 044個產品；AmazonBooks是從1993年到2014年的評論數據，包括22 507 155條評論、8 026 324位評論者和2 330 066個產品。由于數據量太大，本文與GSDB［12］方法相同，只提取了2013年的評論數據，其中包括6 990 316條評論，2 998 38位評論者以及1 079 741個產品，表1詳細介紹了本文實驗中所用的數據集。本文數據集中每個評論者都有評論內容、評論時間、評分和評論的產品等內容，并以此來計算群組/個體的造假可疑度。

3.2 實驗設置

實驗1是進行高可疑度評論者篩選的可行性分析。Amazon數據集中選擇以高可疑度（且形成時序鄰居序列長度較長）的評論者為中心獲取其時序鄰居序列。通過對比高可疑度評論者與低可疑度評論者形成時序鄰居序列中可疑群組數量，分析了高可疑度評論者篩選的可行性。由于在Yelp數據集中評論者較少評論且時間稀疏，所以全部評論者作為高可疑度評論者。

實驗2中，YelpZip和AmazonBooks數據集中按表2參數實現。其中，φt是劃分評論爆發區間的間隔閾值，因為φt是衡量爆發時間段的閾值，本文設置以天數為單位；δI和δG是個體和群組造假可疑閾值，因為個體造假指標和群組造假指標與GSDB算法類似，所以根據GSDB算法參數設置，將其設置為δI=0.5，δG=0.5；δg是群組中造假者占比，設定當群組中造假者占比超過δg時本文將可疑群組判定為水軍群組，δg越高（即誤判率1-δg越低），誤判是群組內清白的評論者錯判為群組中的一員，相對地，δg趨近于1是算法結果的理想情況。但若因準確率限制追求過高的δg會使準確率下降，從而遺漏水軍群組，所以總會誤判群組中的一些無辜人員，要在水軍群組的top-N準確率和δg之間選擇最合適的閾值，達到top-N準確率高和群組造假者占比高（誤判率低）的要求。

實驗2選擇合適的參數后，實驗3是驗證本文NSGD方法與基線算法的準確率、召回率以及F1值，目的是證明NSGD方法相比其他算法的優劣性。實驗2、3中，YelpZip數據集是根據Yelp.com的虛假評論過濾算法［27］對每個評論文本都標注為假評論或真評論。YelpZip數據集沒有給評論者打標簽，本文與文獻［7，28］相同約定：當一個評論者寫的評論至少有一個被標注為假評論，就將該評論者標記為造假者，否則將其標記為非造假者，得到的水軍群組內造假者占比大于閾值δg時將其標記為水軍群組。由于AmazonBooks是無標簽數據集，本文的NSGD也是完全的無監督算法，無須構造模型中的任何標簽，然而標簽作為評估算法的性能具有重要意義。Mukherjee等人［6］提出，水軍群組的群體造假行為比較容易通過人工觀察到，所以人工標注水軍群組比標注水軍個體更優。與文獻［6］類似，本文在標注群組中應用到2.1節中定義的五個個體造假指標來標記。根據算法6，當群組內評論者的可疑得分ISS≥0.8時，記為1分；當群組內評論者的可疑評分ISS在0.6～0.8時，記為0.5分；當評論者在組內的可疑評分ISS在0.5～0.6時，評分為0分。當群組成員中造假者占比大于等于閾值δg時，標記為水軍群組。

3.3 比較算法與評估標準

對比算法是通過不同的數據集來選擇的，YelpZip是評論文本上帶有標簽的數據集，ColluEagle算法是目前最新提出的水軍檢測算法，它是基于Yelp數據集進行的造假者的分類。本文通過與ColluEagle比較top-N的準確率、recall和F1值來驗證本文算法的準確率以證明篩選節點和群組凈化的準確性。在AmazonBooks數據集的實驗和分析中，GSDB和GSBC算法是目前較少的基于AmazonBooks 數據集中群組準確率分析的研究；且與GSDB算法比較的另外一個原因是本文的群組造假指標和個體造假指標與文獻［12］的相同，與其比較能進一步分析兩種算法的群組劃分方法的優劣。

本文首先將評論者/群組按照可疑程度排序，然后根據式（16）～（18）作為評估標準。

其中：TP（true positive）表示被分類器正確標記為陽性的正元組的個數；FP（1 positive）表示被錯誤標記為陽性的負元組的個數；FN（1 negative）表示被錯誤標記為陰性的正元組的個數；precision、recall和F1的值使用宏觀平均值來計算。

3.4 篩選高可疑度評論者可行性分析

因為YelpZip的評論者遠少于AmazonBooks的評論者，所以選擇YelpZip的全部評論者；AmazonBooks中的評論者過多，構造共評論時序網絡的時間開銷過大，整個框架處理數據集的消耗過大。本文篩選高可疑度的評論者，構造高可疑度評論者的共評論時序網絡獲取其時序鄰居序列，在這些評論者中尋找高度可疑的評論者，并且獲得的時間鄰域序列具有更連續的時間。由于獲得的時態鄰域序列的連續性和時間越長，生成的候選組就越多、越大，為了分析高疑評論者過濾方法的可行性，本文從長度為前300位的時間鄰域序列的評論者中選取高度可疑的評論者，如表3所示。

在這些評論者的鄰居集合中選擇生成長度小于10的時序鄰居序列。基于時序鄰居序列的候選群組生成，候選群組的可疑度在δG取值0.5、φt取值10時，群組的數量決定了篩選高可疑度評論者的可行性。從表4可知，last-15和last-30高可疑度評論者中獲取到了12個和18個可疑群組，說明其中可能混雜了可疑評論者，而根據這些可疑評論者生成的候選群組，有理由懷疑其是水軍群組，但是數目遠小于top-30取得的可疑群組的個數。所以將top-30amp;last-0作為樣本數據。

3.5 參數分析

3.5.1 基于Yelp數據集的參數影響分析

在Yelp數據集上，因為δg=0.5時的群組包含δg=0.6和δg=0.7時的群組，所以只需比較φt={3，5，7，10，15}與δg=0.5時top可疑度的群組性能即可。通過圖4（a）可知， φt={3，5}，δg=0.5時可疑群組數量少，準確率表現明顯低于φt={7，10，15}，δg=0.5。通過圖4（b）（c）可知，φt=10，δg=0.5時的綠色折線綜合表現最佳，所以選擇閾值φt=10。相對于φt=10，δg={0.6，0.7}時，由圖4（d）～（f）可知，φt=10，δg=0.5評估指標的綜合表現最優。由圖1可知，游離造假者的共評論數據流相對于全部造假者的共評論數據流密度相差較大，且本文著重于通過游離造假者之間的共謀行為檢測水軍群組，所以性能較差；但游離造假者的共評論流密度較大時，算法性能會更好。

3.5.2 基于Amazon數據集的參數影響分析

在Amazon數據集上，通過圖5（a）可以看出， φt={3，5}，δg=0.6時生成可疑群組數量少，準確率表現總體低于φt={7，10，15}，δg=0.6的準確率表現。通過圖5（b）（c）可以看出，φt=10，δg=0.6時的藍色折線綜合表現最佳。由圖5（d）～（f）可以看出，top-300群組內造假者占比都大于0.5，即δg=0.5時top-300準確度為1，但φt=10，δg=0.5時準確率高群組可疑度占比較低。當φt=10，δg=0.6時，群組內的可疑度占比相對于準確率較為平衡；φt=10，δg=0.7時準確率較差，但群組內可疑度占比較高。為了使檢測水軍群組的準確率與水軍群組中造假者占比都較高，本文在Amazon數據集上選擇閾值φt=10，δg=0.6。

3.6 對比實驗

在整個YelpZip數據集上，取算法的參數設置 φt=10，δg=0.5時生成的群組根據群組可疑度（式（15））排序，取群組中沒有重復出現的評論者，根據個人行為造假分數式（6）計算每個評論者對所有評論者的可疑度，并根據可疑度得分進行排序。選取得分可疑的前2 000位評論者，得到精度、召回率和F1值曲線如圖6所示。比較算法ColluEagle的參數根據參考文獻［13］設置，使用先驗NT δ=0.6，δ′=0.5。評價是否為造假者的標準與文獻［13，14，28，29］一樣，當一個評論者被認為至少寫了一條虛假評論時，本文將其標記為造假者。根據圖6可知本文算法整體表現優于ColluEagle算法。

在AmazonBooks數據集上，本文在表5給出了NSGD方法的參數設置和生成的群組數，并在表6和7中列出了GSBC［9］和GSDB［12］算法的參數設置及生成的群組數目。

如圖7（a）所示，在top-300可疑度群組的NSGD方法相對于GSDB算法精度提高了10%左右。圖7（b）中，可疑度top-300群組的recall值，NSGD方法在top-200前與GSDB算法基本相同，top-200后低于GSDB算法；圖7（c）中，NSGD的F1值top-20后明顯優于GSBC算法，top-120后優于GSDB算法。說明本文算法對群組內造假者的占比要求低時，檢測出游離造假的水軍群組性能優于現有的檢測普通水軍群組的方法，但相對于GSDB算法，NSGD方法檢測出的群組的尺寸較小。因為NSGD方法專注于檢測造假次數較少的造假者之間的共謀關系，群組的尺寸相對較小。這種群組對于目標產品的影響較小，但很容易被忽略。

4 結束語

在線購物一度成為人們購物的主流，因為商品的評論和評分影響消費者的購物決策，近年來水軍群組的造假行為越來越多。本文提出了一種新的水軍群組檢測算法NSGD，考慮到水軍群組傾向于短時間內爆發地評論某些商品，在時序鄰居序列內檢測游離的水軍群組。在真實數據集上，通過設計實驗驗證游離水軍群組的存在，但檢測游離水軍群組的有效性較差。未來的工作主要集中在活躍造假的水軍群組，進一步提出更加新穎的算法提升檢測算法的性能。

參考文獻：

［1］Jindal N， Liu Bing. Opinion spam and analysis［C］//Proc of International Conference on Web Search and Data Mining. New York： ACM Press， 2008： 219-230.

［2］Ott M， Choi Y， Cardie C， et al. Finding deceptive opinion spam by any stretch of the imagination［C］//Proc of the 49th Annual Meeting of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： Association for Computational Linguistics， 2011： 309-319.

［3］Li Jiwei， Cardie C， Li Sujian. TopicSpam： a topic-model-based approach for spam detection［C］//Proc of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2013： 217-221.

［4］Mukherjee A， Kumar A， Liu Bing， et al. Spotting opinion spammers using behavioral footprints［C］//Proc of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM Press， 2013： 632-640.

［5］Lim E P， Nguyen V A， Jindal N， et al. Detecting product review spammers using rating behaviors［C］//Proc of the 19th ACM Confe-rence on Information and Knowledge Management. New York： ACM Press， 2010： 939-948.

［6］Mukherjee A， Liu Bing， Glance N. Spotting fake reviewer groups in consumer reviews［C］//Proc of the 21st International Conference on World Wide Web. New York： ACM Press， 2012： 191-200.

［7］Xu Chang， Zhang Jie， Chang Kuiyu， et al. Uncovering collusive spammers in Chinese review websites［C］//Proc of the 22nd ACM International Conference on Information amp; Knowledge Management. New York： ACM Press， 2013： 979-988.

［8］Xu Chang， Zhang Jie. Towards collusive fraud detection in online reviews［C］//Proc of IEEE International Conference on Data Mining. Washington DC：IEEE Computer Society， 2015： 1051-1056.

［9］Wang Zhuo， Gu Songmin， Zhao Xiangnan， et al. Graph-based review spammer group detection［J］. Knowledge amp; Information Systems， 2018， 55（3）： 571-597.

［10］Li Huayi， Fei Geli， Shuai Wang， et al. Modeling review spam using temporal patterns and co-bursting behaviors［EB/OL］. （2016-11-21）. http：//doi.org/10.48550/arxiv.1611.06625.

［11］Li Huayi， Fei Geli， Wang Shuai， et al. Bimodal distribution and co-bursting in review spam detection［C］//Proc of the 26th International Conference on World Wide Web. New York： ACM Press， 2017： 1063-1072.

［12］Ji Shujuan， Zhang Qi， Li Jinpeng， et al. A burst-based unsupervised method for detecting review spammer groups［J］. Information Sciences， 2020，536（10）： 454-469.

［13］Wang Zhuo， Hu Runlong， Chen Qian， et al. ColluEagle： collusive review spammer detection using Markov random fields［J］. Data Mi-ning and Knowledge Discovery， 2020，34（6）： 1621-1641.

［14］Xie Sihong， Wang Guan， Lin Shuyang， et al. Review spam detection via time series pattern discovery［C］//Proc of the 21st International Conference on World Wide Web. New York： ACM Press， 2012： 635-636.

［15］張琪，紀淑娟，張文鵬，等. 考慮結構與行為特征的水軍群組檢測算法［J］. 計算機應用研究， 2022，39（5）： 1374-1379. （Zhang Qi， Ji Shujuan， Zhang Wenpeng， et al. Group spam detection algorithm considering structure and behavior characteristics［J］. Application Research of Computers， 2022，39（5）： 1374-1379.）

［16］Wang Zhuo， Hou Tingting， Song Dawei， et al. Detecting review spammer groups via bipartite graph projection［J］. The Computer Journal， 2016，59（6）： 861-874.

［17］Cheng Lichen， Hu H W， Wu C C. Spammer group detection using machine learning technology for observation of new spammer behavio-ral features［J］. Journal of Global Information Management， 2021， 29（2）： 61-76.

［18］Choo E， Yu Ting， Chi Min. Detecting opinion spammer groups through community discovery and sentiment analysis［C］//Proc of the 29th IFIP Annual Conference on Data and Applications Security and Privacy. Cham： Springer， 2015： 170-187.

［19］Choo E， Ting， Chi Min. Detecting opinion spammer groups and spam targets through community discovery and sentiment analysis［J］. Journal of Computer Security， 2017， 25（3）： 283-318.

［20］張文鵬，紀淑娟，李金鵬，等. 考慮時間特征的電子商務水軍群組發現算法［J］. 計算機應用研究， 2021， 38（8）： 2321-2327. （Zhang Wenpeng， Ji Shujuan， Li Jinpeng， et al. E-commerce spammer groups discovery algorithm considering time characteristics［J］. Application Research of Computers， 2021，38（8）： 2321-2327.）

［21］Shehnepoor S， Togneri R， Liu Wei， et al. HIN-RNN： a graph representation learning neural network for fraudster group detection with no handcrafted features［EB/OL］. （2021-05-25）. http：//doi.org/10.1109/tnnls.2021.3123876.

［22］Shehnepoor S， Togneri R， Liu Wei， et al. Spatio-temporal graph representation learning for fraudster group detection［EB/OL］. （2022-01-07）. http：//doi.org/10.1109/tnnls.2022.3212001.

［23］Fei Geli， Mukherjee A， Liu Bing， et al. Exploiting burstiness in reviews for review spammer detection［C］//Proc of the 7th International AAAI Conference on Weblogs and Social Media. Palo Alto， CA： AAAI Press， 2013： 175-184.

［24］Qiu Liqing， Jia Wei， Yu Jinfeng， et al. PHG： a three-phase algorithm for influence maximization based on community structure［J］. IEEE Access， 2019，7： 62511-62522.

［25］Zuo Yuan， Liu Guannan， Lin Hao， et al. Embedding temporal network via neighborhood formation［C］//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York： ACM Press， 2018： 2857-2866.

［26］Holme P， Saramki J. Temporal networks［J］. Physics Reports， 2012， 519（3）： 97-125.

［27］Mukherjee A， Venkataraman V， Liu Bing， et al. What Yelp fake review filter might be doing［C］//Proc of the 7th International AAAI Conference on Weblogs and Social Media. Palo Alto， CA： AAAI Press， 2013.

［28］Ye Junting， Akoglu L. Discovering opinion spammer groups by network footprints［C］//Proc of ACM on Conference on Online Social Networks. New York： ACM Press， 2015： 267-282.

［29］Akoglu L， Chandy R， Faloutsos C. Opinion fraud detection in online reviews by network effects［C］//Proc of the 7th International AAAI Conference on Weblogs and Social Media. Palo Alto， CA： AAAI Press， 2013： 2-11.

［30］Rayana S， Akoglu L. Collective opinion spam detection： bridging review networks and metadata［C］//Proc of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM Press， 2015： 985-994.

［31］Wang Guan， Xie Sihong， Liu Bing， et al. Review graph based online store review spammer detection［C］//Proc of the 11th IEEE International Conference on Data Mining. Washington DC：IEEE Computer Society， 2011： 1242-1247.

收稿日期：2022-07-31；修回日期：2022-09-28 基金項目：國家重點研發計劃資助項目（2017YFC0804406）；國家自然科學基金資助項目（91746100）

作者簡介：李寧（1997-），男，山東濟寧人，碩士研究生，主要研究方向為人工智能；梁永全（1967-），男（通信作者），山東青島人，教授，博導，主要研究方向為人工智能、數據挖掘（lyq@sdust.edu.cn）；張琪（1998-），女，山東聊城人，碩士研究生，主要研究方向為人工智能．

計算機應用研究2023年3期

計算機應用研究的其它文章: 雙態形狀重構及其在前列腺超聲圖像分割中的應用; 基于區域中心簽名的點云局部特征描述算法; 基于U-Net多尺度自校準注意力視網膜分割算法; 面向目標6DoF姿態與尺寸估計的全卷積神經網絡模型; 多時相遙感影像的深度卷積匹配算法研究; 基于稀疏特征改進的單視圖表面重建