999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡結構特征的大規模虛假評論群組識別

2023-03-02 03:26:00魏瑾瑞王若彤
運籌與管理 2023年1期
關鍵詞:特征產品

魏瑾瑞, 王若彤, 王 晗

(1.東北財經大學 統計學院,遼寧 大連 116025; 2.北京師范大學 統計學院,北京 100000)

0 引言

近年來,隨著電子商務的迅速發展,虛假評論的規模越發壯大,甚至形成虛假評論群組協同作案,因此,如何恰當識別虛假評論具有重要的現實意義[1]。李璐旸等系統綜述了國內外虛假評論識別的現狀,對比總結了特征設計、模型方法、數據集合評價指標等方面,探討與展望了未來的識別研究方向[2]。虛假評論群組是指以共同目的協同發布虛假評論的個體組成的群體,相比虛假評論者個體影響力更大、隱蔽性更強,對檢測方法的要求更高[3]。目前識別虛假評論的方法主要是參照評論內容的文本特征[4,5]和評論者的行為特征[6,7],但是文本特征的模仿成本較低,單純依靠文本特征的識別已被證明效果有限;而依靠評論者行為特征的識別則需要有大量的歷史行為數據支撐,對于只發表一條評價的用戶,傳統模型不能有效解決冷啟動問題。事實上,大量虛假評論并非個體行為,而是有潛在組織的集體行為,評論者、目標商品和關聯商品構成一個巨大的網絡,因此,有不少研究開始轉向對虛假評論群組的識別[8~15]。按識別方法的不同,可以區分為監督識別方法和非監督識別方法,其中,監督識別方法主要采用基于評論內容特征的識別方法[5],而非監督識別方法則根據識別特征不同可以分為單個虛假評論者特征、虛假評論群組特征[9,16]、時間序列特征[17]、評論模式特征[6]、行為分布特征[18]等。傳統識別虛假評論群組主要利用評論內容的相似性和文本特征[8,9,12,14],也有學者開始轉向結合群組結構分析的虛假評論群組檢測[11,13,15]。例如,利用虛假評論者的網絡足跡選擇目標產品,進而通過挖掘目標產品背后所有評論者的評論信息來達到檢測虛假評論群組的目的[11]。事實上,虛假評論群組與目標產品之間已然形成了一定的特殊關系,對于目標產品的選擇并不是隨機的,而是虛假評論群組背后的組織者經過深思熟慮后的決策。因此,盡管現實中很多評論內容和行為都可以偽造與模仿,但是用戶之間的關系以及用戶與產品之間的關系都存在某種確定的聯系,本文嘗試通過分析評論者的網絡行為發現目標產品背后的虛假評論群組。

本文的改進之處在于:(1)基于評論者與產品之間的網絡結構特征挖掘評論者的行為軌跡,通過構造2-hop子圖生成模型識別虛假評論群組。(2)利用多次迭代的方式將相似性滿足閾值的評論者放入對應的候選群組,從而在有效固定網絡結構的動態變化的同時更加準確地識別潛藏較深的虛假評論群組。(3)采用兩步探測方法,先篩選可疑目標產品所對應的高度相似的虛假評論者,再對剩余評論者聚類合并識別潛藏較深的虛假評論群組,這種做法在提高虛假評論識別精度的同時可以有效減少識別時長與復雜度。

1 網絡結構特征

完美的虛假評論與真實評論無限接近,令反虛假系統無法識別。最新研究發現真假評論最大的區別在于網絡層面的關系模式。虛假評論由于其有組織性會呈現出一定的統計規律。本文重點研究評論者-產品組成的評論網絡中虛假評論者的網絡結構特征,通過構造網絡行為得分(Network Behavior Score)識別虛假評論群組,基于評論者與產品的關系計算PageRank值,根據得分高低識別無向圖中節點之間的異常行為。本文提到的節點中心性是基于度中心性(Degree Centrality)和PageRank中心性(PageRankCentrality)的度量方式得出的結果,目的是利用這兩項指標分別使用局部和全局信息量化無向圖中各個節點的重要程度,進一步通過信息熵與散度量化評論者及評論產品的可疑性。

1.1 相鄰節點的多樣性

評論者-產品評論網絡G包含了m個評論者節點U,n個產品節點p及連接它們的評論關系E,即G=(U,P,E)。評論者包括真實評論者和虛假評論者,產品包括目標產品和非目標產品,二者通過評論文本進行邊的建立。假定一個評論者以文本方式對多個產品進行評論,不論是否真實均為有效評論。即在真實評論網絡中,一個評論者可以對多種產品進行同一評論,也可以對一個產品進行多種評論,評論者與產品之間行為和對應關系是交錯的,真實評論網絡的相鄰節點不應過分彼此依賴,基于相鄰節點多樣性可以分析評論者的相似性。當一組評論者的中心性值驟降至一個極小的區間時是非??梢傻?。

對于一組給定的產品,為了量化它們相鄰節點多樣性的中心性,先將產品對應的評論者所有中心性的值分解,然后通過直方圖來創建其密度的非參數估計,最后采用信息熵計算直方圖的偏度,信息熵的計算公式為:

(1)

1.2 網絡結構的自相似性

真實評論網絡本身的自相似性決定了評論網絡的部分內容往往擁有整個評論網絡的相似屬性。因此,可以利用這一結構特征測量虛假評論造成的分布失真。評論者中心性的直方圖密度之間的KL散度可以表示為:

(2)

其中,P(i)表示產品的評論者的中心直方圖分布,Q表示所有評論者的中心直方圖分布。使用計算P(i)的方式來計算Q,通過自相似性結構特征指標中得到評論者的兩個得分指標來分別表示中心性,分別為KLdeg(i)和KLpr(i)。分數越高,對應產品越可能是虛假評論的目標產品。

1.3 構造網絡行為得分

為了量化產品受到虛假評論攻擊的影響,利用累積分布函數整合Hdeg(i)、Hpr(i)、KLdeg(i)和KLpr(i)等四個得分指標。假設一組產品中心性的信息熵得分為Hc,則一個特定的Hc(i)經驗累積分布函數可以表示成:

f(Hc(i))=P(H≤Hc(i))

(3)

同理有,

f(KLc(i))=1-P(KL≤KLc(i))

(4)

進而有,

f(H(i))=f(Hdeg(i))2+f(Hpr(i))2

(5)

f(KL(i))=f(KLdeg(i))2+f(KLpr(i))2

(6)

(7)

2 虛假評論群組識別

前一節通過計算一組產品i的網絡行為得分來測量可疑目標產品的異常性。為了進一步反向識別虛假評論群組,我們建立一個包括最高網絡行為得分的頂級產品P1、對應的評論者R及其評論的產品P2的子網,通過誘導以上k個可疑目標產品的所有評論者及其評論的產品得到一個2-hop子圖。該2-hop子圖可以用一個p×u的鄰接矩陣A來表示,其中|P2|=p,|R|=u。

在判斷虛假評論群組的存在性后,采用GroupStrainer算法[11]識別虛假評論群組。該算法通過重新組織所有成員識別虛假評論群組,能夠有效降低識別失誤率。值得注意的是,為了在提高識別精度的同時減少聚類算法負荷,我們先篩選出高度相似的虛假評論群組再進行聚類。由于整個識別過程中虛假評論群組數目未知,我們借助層次聚類方法將評論者反復迭代后合并成更大的群組并得到其嵌套層次結構。樸素層次聚類方法在每次迭代只能合并兩個評論者,分析大規模評論數據效率低,因此采用局部敏感哈希算法(Locality Sensitive Hashing Algorithm)提高迭代過程的效率。本文通過選擇多種哈希函數進行映射變換將數據點散列成簽名矩陣,接著再散列簽名矩陣,得到每個數據點被最終散列到相應的存儲桶中,這樣既能夠確保原始數據點之間的相似性與他們簽名相等的可能性成正比,也能夠完全控制這種狀況發生的概率。因此,兩個數據點之間相似性越高,生成的簽名匹配的可能性越大,被分散到相同存儲桶中的概率也就越大。對于不同的相似性函數,局部敏感哈希算法會使用不同且適當的哈希函數。為減少哈希表的空間儲存,運用Jaccard相似度的最小散列法和Cosine相似度的隨機投影法。

3 實驗與評價

3.1 實驗設置

為了客觀評估上述虛假評論群組識別算法的效果,采用亞馬遜數據集進行實驗分析。該數據集來源于大型電子商務平臺亞馬遜(https://www.amazon.cn/)在中國市場的實際評論,采集窗口是2010年1月1日至2013年12月31日,包括15個一級產品類別的525619個產品的產品信息、1424596個評評論者信息以及7202921條評論的評論信息。該數據集的每條評論樣本都包含以下13個字段:評論者ID、產品ID、評論等級、一級類別ID、一級類別名稱、二級類別ID、二級類別名稱、評論日期、產品名稱、評論標題、評論內容、評論標題長度和評論內容長度。

實驗分析數據采集窗口期內前四類最暢銷的產品,包括圖書音像類、手機數碼類、美妝個護類和家居生活類等四類。數據清洗時,如果原始數據中的評論者ID、評論等級、產品名稱、評論標題和評論內容等這些關鍵字段有缺失、含異常值或為重復樣本,則將其剔除。

將上述兩類算法分別應用于四個數據集,計算對應所有產品的網絡行為得分,根據網絡行為得分的大小可以判斷該產品是否為虛假評論群組所攻擊的目標產品。以目標產品為種子誘導出評論網絡的2-hop子圖,再通過GroupStrainer算法識別評論網絡中的虛假評論群組。

3.2 對比實驗

為量化虛假評論群組的評論行為,引入虛假評論者共謀得分(Spammer Collusion Score)和虛假評論者共謀平均得分(Spammer Collusion Average Score):

(8)

(9)

其中,g表示數據集中的一個虛假評論群組,ri,rj分別為群組g中的兩個虛假評論者,p(ri),p(rj)分別表示虛假評論者ri和rj攻擊的目標產品,n為群組中虛假評論者的總數。虛假評論群組的共謀平均得分SCAS越高時,該群組的成員之間共謀性越強。

為了使實驗更具說服力,本文使用HDBSCAN算法[19,20]、DBSCAN算法[20,21]、KMeans算法[21]以及GroupStrainer算法進行對比實驗,結果表明四種聚類算法識別出的虛假評論群組個數以及共謀均分變化趨同,說明識別結果具有較好的穩健性。圖1展示了四類產品數據集在四種不同方法下識別出的虛假評論群組個數以及各個產品數據集的共謀平均得分。以HDBSCAN算法的實驗結果為例,四個數據集中隱藏的虛假評論群組的數量分別為7個、15個、40個和14個。

從各個產品類別的群組個數上來看,圖書音像類產品是亞馬遜平臺的主導產品,評論者以及評論數量是最多的,但是虛假評論群組的數量卻是最少的;相比較而言,美妝個護類產品的虛假評論群組反而是數量最多的,該類產品作為日耗品,主要面向女性消費群體,具有種類多、更換頻率快、使用周期短等特征,因而其潛在市場價值高于圖書音像類產品。同時,真實評論數量明顯多于虛假評論,這符合我們對網絡評論中虛假評論行為的基本預期:大多數評論還是真實可靠的。

圖1 四種聚類算法的比較

圖2為四個數據集中產品信息熵與散度的關系,方框內為正常點,圓圈內為異常點,點與產品一一對應。以圖書音像類產品為例,圖2(a)和(b)分別表示其度中心性和PageRank中心性的信息熵與散度的關系,當KL散度越大且信息熵越小時,對應產品月的可疑性越高。同理,圖(c)和(d)、(e)和(f)、(g)和(h)分別為手機數碼類、美妝個護類和家居生活類產品的信息熵與KL散度的關系。綜合來看,圖書音像類與手機數碼類產品中異常點明顯多于其他兩類產品,出于隱藏虛假評論行為的考慮,產品數量更多的類別可能存在更多可疑目標產品。進一步,以頂級產品P1為種子從前文建立的子網中誘導出2-hop子圖。圖書音像類和美妝個護類產品的共謀均分在0.57左右,說明這兩類產品更受消費者青睞,虛假評論群組通過攻擊部分非目標產品進行偽裝以獲得經濟利益。手機數碼類和家居生活類產品的共謀均分更高,偽裝度更低,分別為0.83和1.00。

為進一步驗證模型的準確性和穩健性,在前文的模型對比實驗基礎上,回溯并比較真假評論的統計特征差異。下圖3為虛假評論與真實評論統計特征。評論等級為好評比例,評論日期是同時發布評論的比例,產品名稱是目標產品占總產品數量的比例,重復評論是重復評論占所有評論的比例。此外,定義評論集中度為評論者與產品數量的比值,表示同一評論者評論同類產品的頻率。可以發現,虛假評論的評論集中度是真實評論的3.3~5.7倍,其中手機數碼類產品差異最大。該類產品變遷快,消費者盲區多,說明虛假評論群組偏好攻擊消費者陌生的領域。從評論日期和重復評論來看,虛假評論的同質性非常明顯,其中,圖書音像類產品差異性最小。值得注意的是,虛假評論的評論等級與真實評論趨同,即虛假評論群組并非直接刷高評論等級,而是通過文本好評吸引消費者。事實上,價格相近的同種產品,如果店鋪的好評率過高反而容易引起消費者懷疑。相比產品評論等級,消費者更青睞參考評論文本。此外,通過對比真假評論的網絡結構可以發現,虛假評論的群組特征比真實評論更明顯,呈現出有組織的網絡結構。二者的區別在于評論者之間是否存在以目標產品為媒介的緊密關聯。

圖2 四個數據集的信息熵與KL散度關系圖

圖3 虛假評論與真實評論統計特征對比

4 結論

隨著購物評論生產的日益專業化和商業化,評論作為個人行為非常容易被模仿,因此基于個體層面的文本或行為特征識別往往容易引起誤判。事實上,現實中識別虛假評論的目標并非止于單條評論的是非判斷,而是追蹤到虛假評論背后的組織者(被雇傭者)以及目標產品(雇傭者),從源頭上予以警告和打擊。不同于普通的社交網絡,專業化的虛假評論是并發的集體行為,其目標產品選擇不是隨機決策,因此基于評論者與產品的網絡結構特征可以很好地識別虛假評論群組,而且虛假評論群組的識別過程也可以一并篩查出其攻擊的目標產品,可操作性更強。

根據樣本的評論行為計算其所對應產品的相鄰節點多樣性與自相似性,通過累積分布函數估算二者概率將其綜合為網絡行為得分,基于此對虛假評論群組攻擊的目標產品進行篩選,進而以可疑產品為種子建立2-hop子圖作為后續識別虛假評論群組的子樣本數據,結合局部敏感哈希算法的層次聚類識別評論樣本中的虛假評論群組?;趤嗰R遜評論數據集檢驗了該方法的識別能力,發現該方法能夠有效識別隱藏較深的大規模虛假評論群組,且虛假評論群組對目標產品的攻擊模式存在產品類別差異;最后將算法得出的虛假評論與真實評論進行對比,虛假評論的同質性非常明顯,評論日期更加緊湊,評論者集中度較高,虛假評論群組的目的也并非簡單直接刷高評論等級,而是傾向于通過文本好評來吸引消費者。不足之處在于,識別過程中未能充分利用評論樣本的文本及行為特征,未來可以考慮將其作為輔助信息提升識別精度。

猜你喜歡
特征產品
抓住特征巧觀察
好產品,可持續
現代裝飾(2022年4期)2022-08-31 01:39:32
從靈感出發,邂逅好產品
現代裝飾(2022年3期)2022-07-05 05:55:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
2015產品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
新產品
玩具(2009年10期)2009-11-04 02:33:14
主站蜘蛛池模板: 人人看人人鲁狠狠高清| 久久香蕉国产线看观看精品蕉| 欧美国产在线一区| 免费A∨中文乱码专区| 欧美日韩国产精品va| 国产无码精品在线播放| 亚洲精品成人片在线播放| 97se亚洲综合在线天天| 欧美成人免费一区在线播放| 国产波多野结衣中文在线播放| 国产91小视频| 国产丝袜无码一区二区视频| 农村乱人伦一区二区| 日本在线欧美在线| 中文字幕日韩丝袜一区| 在线无码私拍| 自慰高潮喷白浆在线观看| 欧美怡红院视频一区二区三区| 久久综合色天堂av| 国产乱子伦手机在线| 日本高清免费一本在线观看| 久久亚洲中文字幕精品一区| 国产丰满大乳无码免费播放 | 日本高清免费不卡视频| 国产精品久久久久久影院| 色婷婷视频在线| 亚洲浓毛av| 国产精品 欧美激情 在线播放| 一级看片免费视频| 99久久精品国产自免费| 欧美一道本| 亚洲国产av无码综合原创国产| 97亚洲色综久久精品| 色国产视频| 欧美日韩一区二区在线免费观看| 国产精品成人第一区| 国产免费网址| 日本免费福利视频| 国语少妇高潮| 亚洲中字无码AV电影在线观看| 亚洲欧美在线精品一区二区| 一级毛片在线播放| 欧美日韩高清| 不卡无码h在线观看| 亚洲欧美日韩视频一区| 国产精品女熟高潮视频| 国产精品无码一二三视频| 日本在线免费网站| 在线免费亚洲无码视频| 久久久久亚洲AV成人人电影软件| 亚洲一级毛片免费看| 日韩最新中文字幕| 伊人激情综合| 亚洲日韩高清在线亚洲专区| 亚洲色图在线观看| 欧美另类精品一区二区三区| 色屁屁一区二区三区视频国产| 欧美日韩午夜视频在线观看| 久久黄色一级片| 国产在线高清一级毛片| 国产在线自乱拍播放| 在线播放国产99re| 性欧美在线| 亚洲国产日韩一区| 久久久成年黄色视频| 欧美国产另类| 视频在线观看一区二区| 5388国产亚洲欧美在线观看| 人妖无码第一页| 欧美日韩va| 免费国产高清精品一区在线| 99久久性生片| 91精品国产自产91精品资源| 亚州AV秘 一区二区三区| www.91在线播放| 在线国产91| 国产毛片不卡| 国产大片黄在线观看| 波多野结衣一区二区三区AV| 欧美一区福利| 亚洲美女一区| 国产福利免费视频|