999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

考慮多交互關系與情感傾向的微博用戶可信度評估算法

2024-10-14 00:00:00王梓寧張國防
計算機應用研究 2024年10期

摘 要:探究綜合考慮多交互關系與情感傾向因素的微博用戶可信度評估方法。首先基于用戶間交互關系的類型和頻率,得到用戶交互度與參與度;然后根據情感詞典計算用戶間評論、回復等文本內容的情感得分,并據此判斷用戶情感傾向;其次以PageRank算法為基礎,從用戶資料、博文中提取特征,計算每個用戶的個體可信度作為初始PR值,并將用戶交互度和情感傾向融合調整PR值分配權重、使用參與度修正阻尼系數,實現對PageRank算法的改進;最終,改進的PageRank算法迭代穩定后得到待評估用戶的可信度。實驗結果顯示,與未考慮用戶間多交互關系以及情感傾向的方法相比,所提方法在AUC值、查準率、查全率和F1值上均取得了更好的效果,最高提升了13.86%。綜合考慮用戶間多交互關系和情感傾向可以提高微博用戶可信度評估效果。

關鍵詞:微博用戶;多交互關系;情感傾向;交互度;參與度

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)10-017-3000-08

doi:10.19734/j.issn.1001-3695.2024.03.0049

Microblog users’ credibility evaluation algorithm considering multi-interaction relationships and emotional tendencies

Wang Zining,Zhang Guofang

(School of Cyberspace Security & Computer,Hebei University,Baoding Hebei 071000,China)

Abstract:This paper proposed a new algorithm of the credibility evaluation concerning microblog users,based on their multiple interactive relationships and emotional tendencies.Firstly,the algorithm calculated the interaction degree and participation degree of users by analyzing the types and frequency of interactions among users.Secondly,this algorithm made the emotional scores of the textual contents including comments and replied among users by using a sentiment dictionary,and assessed users’ emotional tendencies.Thirdly,based on the PageRank algorits5UOywq2fA5yPx9b+/IBew==hm,the new algorithm extracted the features from user profiles and blog posts in order to compute the initial PageRank value for representing individual user credibility,adjusted the distribution of PageRank weights by integrating the user interaction degree and emotional tendencies,and modified the damping factor in accordance with the participation degree.Finally,the proposed algorithm made the credibility of the evaluated users after the iterative stabilization.The experimental results show that,compared to methods that overlook multi-interaction relationships and emotional tendencies,the new algorithm achieves better results with an improvement of up to 13.86% in terms of AUC value,precision,recall,and F1-measure.The method that considers multiple interaction relationships and emotional tendencies can enhance the effectiveness of microblog user credibility evaluation with respect to microblog users.

Key words:Microblog users;multi-interaction relationship;emotional tendency;interaction degree;participation degree

0 引言

微博平臺是國內重要的信息服務提供者之一,截至2023年第二季度末,其月活躍用戶已達5.99億[1]。然而微博用戶的信用狀況良莠不齊,一些用戶造謠誹謗、煽動仇恨,損害網絡生態[2]。為維護網絡生態環境,我國2022年8月頒布了《互聯網用戶賬號信息管理規定》,要求互聯網信息服務提供者建立完善的用戶賬號信用管理體系,根據用戶賬號信用狀況提供相應服務[3]。有效的微博用戶可信度評估方法有助于平臺管理者更好地了解用戶賬號信用狀況,及時發現微博網絡中的不可信用戶,凈化網絡環境,相關研究已經受到廣泛的關注[4]。

早期的可信度評估方法集中于用戶個體層面,從用戶資料或博文中提取特征評估用戶可信度。Castillo等人[5]從用戶資料中提取平均博文數量、平均粉絲數量等特征作為用戶可信度的評估指標;文獻[6]進一步選取用戶認證情況、教育經歷等特征識別不可信用戶。除用戶資料外,Abu-Salih等人[7]認為在過多領域發布博文的用戶不可信,根據用戶博文得到用戶感興趣的主題數量、每個主題下發布內容的單詞數等特征度量用戶可信度;Wanda等人[8]從用戶歷史博文中提取博文發布規律、語言風格等特征判斷用戶是否可信。但是這類方法忽略了用戶的社會屬性,僅依賴于用戶提供信息的真實性和完整性,其準確率較低[9]。隨著用戶之間的交互增多,一些學者注意到了用戶通過交互形成的拓撲圖,并根據用戶的社交關系圖結構來判斷他們是否可信。李志宏等人[10]提出節點的結構重要性越高,該節點的影響力也越高,并據此利用中介中心性、緊密中心性和點度中心性等指標來發現水軍用戶;楊艷萍[11]利用局部最小路徑搜索算法,計算以指定用戶為根節點的“朋友圈”中該用戶與其他用戶之間的可信度關系圖生成規則。通過社交網絡圖的拓撲結構判斷用戶是否可信相對較為客觀。然而,僅僅依靠網絡拓撲結構可能無法完全了解節點的內部特征,同時這些方法也未考慮其他節點對評估的影響。近年來,一些研究人員發現用戶更傾向于與可信度相似或更高的用戶建立關聯[12],因此從用戶交互層面出發,提出基于信任傳播的可信度評估方法。這類方法是一種通過分析社交網絡圖中的信任傳遞過程來評估節點可信度的方法,利用了節點可信度不僅受節點自身特征影響,還受到其周圍節點可信度和信任關系影響的思想[13],其中常見的方法是以PageRank算法為基礎的改進算法[14]。李付民等人[15]基于PageRank算法提出用戶可信度評價模型user-rank,首先從用戶資料中提取特征,得到用戶自評價可信度,然后利用用戶關注網絡中其他用戶節點的自評價可信度對待分析用戶節點的可信度進行綜合評價;Zare等人[13]進一步利用了用戶屬性,首先對相似用戶進行聚類,然后依托用戶關注關系構造網絡,最后根據用戶資料計算得分來改進PageRank算法中節點PR值的分配方式,以找出網絡中的異常用戶;蘭瑋等人[16]注意到不同用戶之間可信度影響程度不同,因此將用戶關注關系視為無向邊構造網絡,通過用戶信息提取得到用戶脆弱度和相似度作為權重改進PageRank算法計算用戶可信度。這些方法雖注意到了社交網絡圖中用戶鄰居節點信息對評估的影響,但是在度量用戶可信度受其鄰居節點影響的程度時存在明顯的不足:a)這些方法或將鄰居節點視為同等重要,或根據相似程度進行區分,并沒有考慮相鄰節點間的連接強度,也沒有考慮目標節點在整體網絡中所處位置,因此評估的準確性不足[17];b)這些方法未考慮用戶間的信任情況,若目標節點不被其鄰居節點信任,則其可信度可能降低[18]。

在微博中,用戶間可以通過轉發、評論和回復等交互行為分別建立轉發、評論和回復等關系[10]。這些交互關系可以體現用戶間密切程度以及用戶參與交互的積極程度的不同[19,20],是衡量用戶之間影響與被影響程度的一個重要因素[21]。因此,在度量用戶可信度受其他用戶影響的程度時有必要考慮用戶間錯綜復雜的多交互關系。此外,Qazvinian等人[22]認為分析社交網絡中的用戶信任關系時需要考慮情感傾向的影響。用戶之間的交互在情感方面并非都表現出認同的傾向,也有反對的情況,不同的傾向體現了用戶間信任情況的不同,進而對評估的影響不同[23]。基于此,本文提出一種考慮多交互關系與情感傾向的微博用戶可信度評估方法,以基于改進PageRank算法的評估策略為切入點,在度量用戶可信度受關聯用戶影響程度時考慮了用戶間多種交互關系與情感傾向,提高了評估的準確性。

1 研究框架

本文研究框架如圖1所示。整體上分為三個部分:a)交互關系的量化。依據用戶間的關注、轉發、評論和回復等交互行為,分析相應的交互關系,量化用戶對用戶的交互度和用戶對交互的參與度。b)情感傾向的判斷。根據用戶間評論、轉發等文本內容計算用戶間情感得分,進而判斷用戶的情感傾向是正向或負向。c)用戶可信度評估。首先根據用戶資料、博文計算每個用戶的個體可信度,其次根據用戶的個體可信度、交互度、參與度與情感傾向對PageRank算法進行改進,最終多次迭代后得到待評估用戶的可信度。

2 考慮多交互關系與情感傾向評估用戶可信度

2.1 交互關系的量化

在微博中,人們更傾向于與自己可信度接近或更可信的用戶形成關系,信任程度與關系強度呈正相關[24],因而與用戶關系越緊密的用戶,對其可信度評估的影響越大[25]。基于此,本文綜合考慮微博用戶間關注、轉發、評論、回復和提及五種交互關系,并定義交互度來計算用戶間關系強度。

定義1 交互用戶、目標用戶。若用戶ui對uj有關注、轉發、評論、回復或提及等交互行為,則稱用戶ui是uj的交互用戶,稱用戶uj是ui交互的目標用戶。

定義2 交互用戶對目標用戶的交互度。交互用戶ui對其目標用戶uj的交互度可定義為uj收到的所有交互中來自ui的比例,其計算公式如式(1)所示。

w(ui,uj)=αfwNfw(ui,uj)+αryNry(ui,uj)+αrtNrt(ui,uj)+αmnNmn(ui,uj)+αctNct(ui,uj)∑ue∈Uj[αfwNfw(ue,uj)+αryNry(ue,uj)+αrtNrt(ue,uj)+αmnNmn(ue,uj)+αctNct(ue,uj)](1)

其中:Uj是用戶uj的交互用戶集合;Nfw(ui,uj)、Nry(ui,uj)、Nrt(ui,uj)、Nmn(ui,uj)和Nct(ui,uj)分別表示用戶ui關注、回復、轉發、提及和評論用戶uj的次數,值得注意的是關注次數Nfw(ui,uj)的取值只有取0或1;αfw、αry、αrt、αmn和αct分別是關注、回復、轉發、提及和評論五種關系的權重,且αfw+αry+αrt+αmn+αct=1。

用戶參與交互有主動參與和被動參與兩種形式[26]。用戶越積極與其他用戶交互,其主動參與程度越高,該用戶更有可能發起、參與熱點話題傳播,其自身因素在評估中更重要[20]。用戶接受其他用戶所發出關系的數量、類型越多,其被動參與程度越高,則該用戶在網絡中的地位更高,那么由該用戶傳遞的其他用戶的可信度更可能被接受[18]。基于此,本文首先給出用戶主動參與度與被動參與度的定義與計算方法,然后在其基礎上給出用戶參與度的定義與計算方法。

定義3 用戶主動參與度。用戶ui的主動參與度可描述為其主動對其他用戶交互的程度,記為a(ui)。

用戶ui的主動參與度由ui對其他用戶交互的次數與權重度量,計算公式如式(2)所示。

a(ui)=Nout(ui)max(Nout)+[αfwactfw(ui)+αryactry(ui)+αrtactrt(ui)+αmnactmn(ui)+αctactct(ui)](2)

其中:Nout(ui)是用戶ui對其他用戶交互的次數;max(Nout)表示所有用戶中,對其他用戶交互次數的最大值;actfw(ui)、actry(ui)、actrt(ui)、actmn(ui)、actct(ui)分別表示用戶ui是否對其他用戶有關注、回復、轉發、提及和評論行為,以actfw(ui)為例,計算公式如式(3)所示。

actfw(ui)=1ui對其他用戶有關注行為0其他(3)

定義4 用戶被動參與度。用戶ui的被動參與度描述了其被動接受其他用戶交互的程度,記為p(ui)。

用戶ui的被動參與度通過其他用戶對用戶ui交互的次數與權重度量,計算公式如式(4)所示。

p(ui)=Nin(ui)max(Nin)+[αfwpasfw(ui)+αrypasry(ui)+αrtpasrt(ui)+αmnpasmn(ui)+αctpasct(ui)](4)

其中:Nin(ui)是用戶ui接受其他用戶交互的次數;max(Nin)表示所有用戶中,接受其他用戶交互次數的最大值;pasfw(ui)、pasry(ui)、pasrt(ui)、pasmn(ui)、pasct(ui)分別表示是否有其他用戶對用戶ui有關注、回復、轉發、提及和評論行為,以pasfw(ui)為例,計算公式如式(5)所示。

pasfw(ui)=1其他用戶對ui有關注行為0其他(5)

定義5 用戶參與度。用戶ui的參與度定義為其主動參與度與其主動、被動參與度之和的比值,計算公式如式(6)所示。

d(ui)=a(ui)a(ui)+p(ui)(6)

2.2 情感傾向的判斷

用戶情感傾向是交互用戶對其目標用戶所持有的贊同、中立或反對立場。微博用戶評論、回復、提及和轉發追加的文本內容中隱含著能夠反映該用戶對其目標用戶的情感傾向:正向的情感傾向通常表明交互用戶對目標用戶的認可與信任,可能會增加目標用戶的可信度[23];負向的情感傾向表明交互用戶與目標用戶之間存在分歧或不信任,可能降低目標用戶的可信度[27]。因此,對用戶可信度進行評估需要考慮其他用戶對該用戶的情感傾向[28]。

本文采用情感詞典的方法判斷交互用戶ui對其目標用戶uj的情感傾向,使用包含情感詞匯相對較多的大連理工大學中文情感詞典本體庫[29]作為情感詞典,基本格式如表1所示。

首先,將用戶ui對uj評論、回復、提及和轉發追加的文本內容進行預處理,以標點符號為分割標志將文本分為若干個分句。再對分句進行分詞和去停用詞處理,通過對比情感詞典找出每個分句中的正向詞匯和負向詞匯,并以詞匯為基準尋找其所在分句中的否定詞。依據詞匯的強度得分、極性與分句中否定詞數量計算每個情感詞匯的得分,計算公式如式(7)所示。

sen(wordk)=str(wordk)×pol(wordk)×(-1)n(7)

其中:sen(wordk)表示情感詞wordk的情感分;str(wordk)表示wordk在詞典中的強度得分;pol(wordk)表示wordk在詞典中的極性,正向極性取值為1,負向極性取值為-1;n是wordm所在分句中的否定詞數量。

然后,分別將所有分句中情感分為正的情感詞與情感分為負的情感詞的得分求和,計算用戶ui對uj的正向情感值和負向情感值,計算公式分別如式(8)(9)所示。

scorepos(ui,uj)=∑sen(wordk)>0sen(wordk)(8)

scoreneg(ui,uj)=∑sen(wordk)<0sen(wordk)(9)

其中:scorepos(ui,uj)是用戶ui對uj的正向情感值;scoreneg(ui,uj)是用戶ui對uj的負向情感值。

最后,將用戶ui對uj的正向情感值和負向情感值進行比較,當正向情感值大于或等于負向情感值時認為用戶ui對uj情感傾向s(ui,uj)為正,取值為1,否則s(ui,uj)取值為-1,計算公式如式(10)所示。

s(ui,uj)=1scorepos(ui,uj)≥scoreneg(ui,uj)-1scorepos(ui,uj)<scoreneg(ui,uj)(10)

2.3 微博用戶可信度評估

用戶可信度評估既涉及用戶自身因素,也和與其交互的用戶相關[18],基于這一思想,本文以PageRank算法為基礎,提出一種考慮多交互關系和情感傾向的微博用戶可信度評估方法,通過鄰居節點的可信度迭代計算目標節點的可信度。

2.3.1 PageRank算法

經典的PageRank算法同時考慮了節點隨機跳轉其他網頁的固定概率以及其鄰居節點的質量計算頁面排名順序,計算公式如式(11)所示。

PRt+1(vi)=d×1N+(1-d)×∑vj→viPRt(vi)out(vj)(11)

其中:PRt+1(vi)代表節點vi在t+1次迭代時的PR值;N是網頁總數;1/N表示當前網頁隨機跳轉其他網頁的概率,同時也是每個節點的初始PR值;out(vj)是節點vj的出鏈數量;d是阻尼系數,用于平衡節點自身隨機跳轉概率和鄰居節點質量對計算的影響,一般取0.15[15]。

2.3.2 考慮多交互關系和用戶情感傾向的可信度評估方法

PageRank算法同時考慮了節點自身隨機跳轉概率和鄰居節點質量,本文以式(14)得到的用戶個體可信度替代節點自身隨機跳轉概率,并作為節點初始PR值。同時,將交互度與情感傾向的乘積作為邊權重,修正用戶的交互用戶對其可信度的貢獻。交互度體現了用戶的交互用戶對其可信度影響程度的大小[24],情感傾向決定了交互用戶對其可信度的影響是正向或是負向[23]。此外,積極與其他用戶交互的用戶其個體因素在評估中的影響更大[19],被動接受其他用戶交互的用戶傳遞其他用戶的影響更大[20]。所以選擇式(2)計算得到的用戶參與度作為阻尼系數平衡用戶個體可信度與鄰居節點可信度對評估的影響。最終,本文用戶可信度評估方法的迭代公式如式(12)所示。

rt+1(ui)=d(ui)×ru(ui)+[1-d(ui)]×∑uj∈Uirt(uj)×w(uj,ui)×s(uj,ui)(12)

其中:t是迭代次數;rt+1(ui)是t+1次迭代時用戶ui的可信度;Ui是用戶ui的交互用戶集合;d(ui)是用戶ui的參與度;w(uj,ui)是用戶uj對ui的交互度;s(uj,ui)是用戶uj對ui的情感傾向;ru(ui)是用戶ui的個體可信度,根據用戶資料、歷史博文提取特征計算得到,所選取的特征如表2所示。

用戶ui的個體可信度計算如式(13)所示。

ru(ui)=γ×[21+e-∑11j=1Xj(ui)-1]+(1-γ)×∑4k=1[βk×Yk(ui)](13)

其中:∑11j=1Xj(ui)是用戶ui資料提取特征得分的和;Yk(ui)是用戶ui歷史博文提取特征得分;參數β、γ為權值系數,滿足β,γ∈(0,1),其值將通C5H9WI0nxtNTT8rdTotWKg==過實驗獲取。

本文微博用戶可信度評估算法(UCEM-IGIS)的具體過程如算法1所示。

算法1 考慮多交互關系和情感傾向的可信度評估算法

輸入:待評估用戶user;與user交互的用戶集U;交互關系集I;博文集C。

輸出:user的可信度。

a)在交互關系集I中,根據式(1)計算用戶間交互度;

b)在交互關系集I中,根據式(2)~(6)計算各用戶的參與度;

c)提取交互關系集I包含的文本內容,根據式(7)~(10)判斷用戶情感傾向;

d)提取user與交互用戶集U中用戶資料、博文特征,根據式(12)(13)計算用戶個體可信度;

e)根據步驟b)c)得到的交互度和參與度確定節點間邊的權重;

f)根據式(12)迭代計算每個節點的可信度;

g)重復步驟f)直到每個用戶節點的可信度不再變化;

h)得到user的可信度。

3 用戶可信度評估實驗和分析

3.1 實驗數據

目前尚無用于微博用戶可信度評估的權威數據集,因此本文參考文獻[30]給出的數據集構建方式,通過新浪微博平臺提供的API接口和爬蟲工具爬取真實數據用于研究。實驗數據包括:可信用戶集、不可信用戶集、交互用戶集、交互關系集和博文集。為了使用戶分類更符合真實情況,不可信用戶集中的用戶為隨機爬取的2021年2月到2023年2月微博社區管理中心中被多次舉報的用戶,可信用戶集中的用戶為同一時間段內微博熱門隨機爬取的用戶。交互用戶集由與這些用戶有直接或間接交互關系的用戶構成,交互關系集收集了上述所有用戶間的交互數據,博文集由上述所有用戶在同時間段內發布的原創博文構成。表3列出了本文所構建數據集的詳細統計數據。

其中,可信用戶集、不可信用戶集以及交互用戶集中數據包括用戶名、粉絲數等表2涉及到的用戶資料信息,博文集中數據包括博文內容、發布者id、發布時間以及轉贊評數量信息,交互關系集包括交互用戶id、目標用戶id、交互關系類型以及文本內容信息。

3.2 評價指標

本文評價指標選擇查準率(Pre)、查全率(Rec)、F1值(F1-scroe)和AUC值,對應計算公式分別如式(14)~(17)所示。

Pre=TPTP+FP(14)

Rec=TPTP+FN(15)

F1=2×Pre×RecPre+Rec(16)

AUC=∑樣本i∈正樣本ranki-P×(P+1)2P×N(17)

其中:P表示不可信用戶數;N表示可信用戶數;TP表示正確識別為不可信用戶數;TN表示正確識別為可信用戶數;FP表示將可信用戶識別為不可信用戶數;FN表示將不可信用戶識別為可信用戶數;ranki表示樣本i的排序位置;F1值是查準率和查全率的綜合值。

3.3 參數設置

本文用到的相關參數有交互行為權重α、博文特征權重β和用戶個體可信度權重γ三個。

1)交互行為權重α

交互行為權重α通過層次分析法計算,五種交互行為權重大小依次為關注、回復、轉發、提及和評論[31,32],其判斷矩陣如表4所示。

通過計算,得到矩陣的最大特征值為5.111 1,一致性比率CR=0.025,遠小于0.1,符合一致性檢驗要求,說明矩陣是合理的。最終計算得到,在本文實驗中它們的值為

(αfw,αry,αct,αmn,αrt)=(0.398 19,0.242 25,0.071 97,0.118 30,0.169 29)

2)博文特征權重β

博文特征權重β采用熵權法確定,其中,粉絲活躍度為正向指標,博文發布頻率、博文重復度和情感豐富度為負向指標。經計算得到博文重復度、博文發布頻率、博文互動率和情感豐富度的權重分別為0.224 9,0.129 8,0.275 1,0.370 2。

3)用戶個體可信度權重γ

圖2給出了在交互行為權重α和博文特征權重β確定的情況下,不同γ值對AUC值的影響。

從圖2可以看出:在γ取0時,即在計算個體可信度時僅考慮用戶歷史博文特征,此時效果最差;在γ取1時,即在計算個體可信度時僅考慮用戶資料特征,此時效果比γ取0好,說明相比用戶博文特征,用戶資料特征對可信度評估準確性的影響更大;在γ取0.5時,評估效果達到了最優,表明此時評估方法相比其他參數取值效果更好,因此將參數γ設為0.5。

3.4 實驗結果及分析

從數據集中隨機抽取300名用戶,將計算得到的可信度繪制成散點圖,結果如圖3所示。

圖3中,每個點表示一個用戶,空心圓代表該用戶是可信用戶,實心三角代表該用戶是不可信用戶。縱坐標對應的值是本文方法計算出該用戶的可信度。通過分析圖3可以發現,將可信度閾值設為0.5時,可信用戶和不可信用戶的區分效果最好,因此本文將分類閾值設置為0.5。

為驗證評估方法性能,實驗分為五部分:a)本文方法與官方排名的比較;b)本文評估方法與其他方法在AUC值、查準率、查全率和F1值上的比較;c)本文評估方法的消融實驗;d)選取代表性用戶進行案例分析;e)本文方法的泛化性分析。

3.4.1 本文方法與官方排名的比較

新浪微博的人氣榜根據用戶粉絲數排名,媒體勢力榜根據內容質量、傳播影響力和粉絲影響力三個指標計算綜合得分。表3所示數據為2023年3月24日新浪微博媒體勢力榜中十名上榜官方認證報紙媒體,這些媒體經過新浪認證,其勢力值一定程度上可以反映其可信度[15]。表5列出了十名媒體報紙用戶的勢力值、人氣值和按本文方法計算得到的可信度值,按照可信度由高到低排序。

從表5可以看出,對于受信賴的報紙媒體,本文方法得到的可信度符合實際情況。用戶可信度與勢力值變化趨勢大致相同,勢力值一定程度上能體現媒體的可信度,而媒體的人氣值(粉絲數)與可信度值之間并非線性關系。

3.4.2 本文方法與其他方法的比較

為了進一步評估本文用戶可信度評估方法,選擇了其他三種考慮關聯用戶信息的方法進行對比,如表6所示。

表6中:UPWPR[33]在PageRank的基礎上將鏈入用戶屬性得分作為PR值分配的權重;HITSCE[34]在HITS算法的基礎上考慮用戶相似度,越相似的用戶分配權重越高;UCEM是在PageRank基礎上僅利用個體可信度初始化PR值,不考慮交互度、參與度以及用戶間的情感傾向;UCEM-IGIS是本文方法。實驗結果如表7所示。

從表7可以看出,與未考慮多交互關系和用戶情感傾向的UPWPR、HITSCE和UCEM相比,UCEM-IGIS在各項指標的比較中均取得了更好的實驗效果。在AUC值上,本文方法分別提升了0.228 7、0.130 4和0.11,在F1值上分別提升0.222 2、0.168 2和0.138 6,表明本文方法對可信用戶和不可信用戶的區分能力最好,對用戶可信度的評估最合理。UPWPR在查全率、AUC值和F1值上的表現最差,表明UPWPR在評估用戶可信度時,可能會錯誤地提高一些不可信用戶的可信度,這是因為數據集中的不可信用戶為微博中被多次舉報成功的用戶,這些用戶中存在擁有水軍、僵尸粉的營銷號,而UPWPR受節點入鏈數量的影響較大,因此對這些用戶的評估效果較差。HITSCE在各項指標上優于UPWPR,這是因為HITSCE還考慮了鏈入節點的出度,相對而言受虛假關系的影響小于UPWPR。UCEM只關注用戶及其交互用戶的個體可信度,受節點入鏈、出鏈數量影響較小,擁有水軍、僵尸粉的營銷號其交互用戶群體的可信度較低,UCEM面對這些用戶表現較好。但UCEM在查準率方面表現較差,表明該方法可能會錯誤地將一些可信用戶判定為不可信用戶,這是因為UCEM只關注用戶及其交互用戶的個體可信度,可能會將一些擁有不活躍粉絲的正常用戶誤判為不可信用戶。

3.4.3 消融實驗

為驗證多交互關系與用戶情感傾向對評估結果的影響,對本文方法進行消融實驗,消融后的方法如表8所示。

表8中,UCEM-IG是在UCEM基礎上,考慮了基于多交互關系得到的交互度、參與度的方法,UCEM-IS是在UCEM基礎上,考慮了用戶情感傾向的方法,實驗結果如表9所示。

從表9可以看出,考慮多交互關系與用戶情感傾向的UCEM-IGIS總體上取得了更好的實驗效果。與UCEM、UCEM-IG和UCEM-IS相比,UCEM-IGIS在AUC值上分別提升了0.11、0.057 5和0.012 1,在F1值上分別提升了0.138 6、0.159 8和0.021 1,表明考慮多交互關系與情感傾向因素會提高用戶可信度評估的效果。在查準率的表現上,UCEM-IG表現最好,與未考慮多交互關系的UCEM相比提高了0.136 8,這是因為UCEM-IG比UCEM考慮了更多因素,對權重的分配更合理,一些擁有不活躍粉絲的可信用戶不會被誤報。在查全率的表現上,UCEM-IGIS表現較好,這是因為UCEM-IS融入了用戶情感傾向,可以發現受公眾反對的不可信用戶,而UCEM-IGIS在其基礎上還考慮了多交互關系的影響,關系密切的交互用戶反對的影響將更大,因此能更準確地對不可信用戶的可信度進行評估。綜上所述,多交互關系與情感傾向均可提高用戶可信度評估效果,考慮多交互關系因素能夠提高評估方法的查準率,考慮用戶情感傾向因素可以提高評估方法的查全率,將二者同時考慮的方法通過少量犧牲多交互關系提升的查準率,換得了查全率更高的提升,并獲得了最優的效果與最穩定的性能。

3.4.4 泛化性分析

為了更加全面評價改進算法的性能,對本文方法進行泛化性分析。將本文數據集按照不同規模劃分為五個測試集,測試本文方法在不同規模數據集上的表現,實驗結果如表10所示。

表10中,測試集5的待評估用戶數最少,平均交互關系數遠高于其他測試集,而其在AUC值上的表現最好,這是因為交互數據的豐富性有助于算法更好地評估用戶的可信度。交互關系數的增多使得AUC值也得到了提高,這一結果符合預期,因為更多的交互數據可以提供更多的信息,從而提高算法識別用戶的能力。測試集1和2的表現低于其他測試集,這是因為雖然用戶數較多,但交互數據較少,算法結果更偏向于由其自身因素得出的個體可信度。此外,盡管測試集的規模和交互關系數存在顯著差異,但AUC值始終保持在0.8以上,這表明算法具有較好的穩定性,在不同規模的數據集上都能取得良好的效果。

結合本文方法在表10中交互信息較少的測試集1上的表現,以及4.3節參數設置中不同γ值對AUC值的影響可以發現,本文從用戶資料、博文中提取常用于可信度評估的特征計算用戶的個體可信度,而個體可信度的準確性會對結果產生影響。因此,選取更多、更有效的特征或采用更準確的融合方法可以進一步提高本文方法的準確性。

此外,本文選擇新浪微博平臺作為研究對象,而提出算法在設計時考慮的因素使其具有良好的擴展性,包括用戶特征的選擇、交互關系的選擇等,因此可以將算法用于其他領域,例如在電子商務領域,用戶的評分和評論可以被用來計算交互強度和情感傾向,幫助識別可信的買家和賣家;對于新聞網站、博客等內容平臺,用戶的評論和參與度可以用于評估內容的可信度,以及用戶對特定內容的信任度;通過考慮不同文化背景下的交互習慣和情感表達方式的差異,可以使算法在不同國家和地區的用戶可信度評估中都能發揮作用。

3.4.5 案例分析

為了進一步說明本文方法的有效性,從數據集中選取4名代表性用戶進行案例分析,選取用戶信息如表11所示。

表11中,用戶1曾因對山東某高校發布多條造謠微博而被舉報,對其評論、回復等內容中存在多條反駁文本。用戶2曾因對唐山某事件發布多條造謠微博而被舉報,對其評論、回復等內容中存在多條辟謠、質疑等文本。用戶3是某市級消防機構官方賬號,用戶4是某運營商官方賬號。案例分析結果如表12所示。

表12中,UCEM和UCEM-IG將用戶1與2誤判為HoYcBS2L1TFbgCjcz/+xbg==可信用戶,這是因為存在高可信度的用戶對其微博發布辟謠、反駁評論或回復,不考慮情感傾向的UCEM和UCEM-IG將這些用戶視為增加可信度的因素,從而提高了他們的可信度評分。而UCEM-IS和UCEM-IGIS考慮了情感因素,因此能夠較好地反映兩個用戶的真實可信度。用戶3和4為機構認證賬號,二者評論中下屬單位賬號可信度較高且高度活躍,但其粉絲活躍度較低,且評論、轉發用戶中存在廣告、抽獎賬號,不考慮用戶交互強度的UCEM和UCEM-IS將所有用戶的貢獻視為平等,因此產生了誤報。而考慮交互關系的UCEM-IG和UCEM-IGIS增加了與二者關系緊密的高可信度用戶的貢獻,因此能夠相對準確的對用戶3和4進行評估。

4 結束語

研究微博用戶可信度評估有助于幫助平臺管理者更好地了解用戶賬戶信用情況,進而維護微博網絡生態環境,具有重要的現實意義。本文利用用戶間多種交互關系量化出用戶間的交互程度和用戶對交互的參與程度,再結合用戶情感傾向改進PageRank算法,用于評估微博用戶可信度。經過實驗證明,用本文方法評估微博用戶可信度是行之有效的。相比于一般的用戶可信度評估方法,本文方法在AUC值、查準率、查全率和F1值上具有更加良好的表現,既能更準確地找出高可信度的用戶,又能減少對低可信度用戶的誤判。在消融實驗中發現,用戶間多交互關系與用戶情感傾向都對評估準確率有著重要影響,將二者結合能夠獲得最優的評估效果。本文方法可以選取其他特征進行結合,具有良好的擴展性,進行相應擴展后可以應用于一些其他研究工作:

a)本文未考慮主題對用戶可信度評估的影響,但用戶在不同主題下的可信度可能是不同的,可以考慮劃分主題后分別計算用戶在各主題下的可信度;

b)本文方法在選取特征對用戶個體可信度計算時,可以考慮加入更多特征或結合機器學習方法,提高評估的準確性;

c)本文方法可以應用于其他領域,結合不同的特征可以用來識別社交網絡中的意見領袖、發現專利引文網絡中的核心專利以及找出貿易網絡中的關鍵企業等。

參考文獻:

[1]新浪財經.微博月活躍用戶近6億[EB/OL].(2023-11-22).https://finance.sina.com.cn/jjxw/2023-08-25/doc-imziknyi9001689.shtml.(Sina Finance.Weibo has nearly 6 million monthly active users[EB/OL].(2023-11-22).https://finance.sina.com.cn/jjxw/2023-08-25/doc-imziknyi9001689.shtml.)

[2]Verma P K,Agrawal P,Madaan V,et al.UCred:fusion of machine learning and deep learning methods for user credibility on social media[J].Social Network Analysis and Mining,2022,12(1):54-64.

[3]國家互聯網信息辦公室.互聯網用戶賬號信息管理規定[EB/OL].(2023-11-22).https://www.gov.cn/zhengce/zhengceku/2022-06/28/content_5698179.htm.(Cyberspace Administration of China.Internet user account information management regulations[EB/OL].(2023-11-22).https://www.gov.cn/zhengce/zhengceku/2022-06/28/content_5698179.htm.)

[4]Li Junhao,Paananen V,Suryanarayana S A,et al.It is an online platform and not the real world,I don’t care much:investigating Twitter profile credibility with an online machine learning-based tool[C]//Proc of Conference on Human Information Interaction and Retrieval.New York:ACM Press,2023:117-127.

[5]Castillo C,Mendoza M,Poblete B.Information credibility on Twitter[C]//Proc of the 20th International Conference on World Wide Web.New York:ACM Press,2011:675-684.

[6]Al-Khalifa H S,Al-Eidan R M.An experimental system for measuring the credibility of news content in Twitter[J].International Journal of Web Information Systems,2011,7(2):130-151.

[7]Abu-Salih B,Qudah D A,Al-Hassan M,et al.An intelligent system for mfef447ceb29740da5c7e82412bb44b561267fa4afbc9f109e4ac361acdf86ae1ulti-topic social spam detection in microblogging[J/OL].Journal of Information Science.(2022-09-15).https://doi.org/10.1177/01655515221124062.

[8]Wanda P,Jin Jiehuang.DeepProfile:finding fake profile in online social network using dynamic CNN[J].Journal of Information Secu-rity and Applications,2020,52:102465.

[9]沈旺,代旺,高雪倩,等.基于多重圖的社交網絡用戶可信度評價方法研究——網絡欺凌與隱私泄露視角[J].現代情報,2020,40(8):27-37.(Shen Wang,Dai Wang,Gao Xueqian,et al.Research on credibility evaluation method of social network users based on multigraph[J].Journal of Modern Information,2020,40(8):27-37.)

[10]李志宏,莊云蓓.基于水軍信任懲罰的多維用戶影響力度量模型[J].系統工程理論與實踐,2017,37(7):1820-1832.(Li Zhihong,Zhuang Yunbei.Multidimensional user influence measurement model based on spammer trust punishment[J].Systems Engineering-Theory & Practice,2017,37(7):1820-1832.)

[11]楊艷萍.基于雙向加權圖的社交網絡用戶可信度算法研究[J].信息網絡安全,2017(7):40-44.(Yang Yanping.The algorithm of social network users reliability based on bidirectional weighted graph[J].Netinfo Security,2017(7):40-44.)

[12]陽雨,胡亞洲,郭勇,等.基于在線社交網絡的用戶信任傳遞建模與分析[J].計算機工程,2018,44(11):265-270.(Yang Yu,Hu Yazhou,Guo Yong,et al.Modeling and analysis of user trust transfer based on online social network[J].Computer Engineering,2018,44(11):265-270.)

[13]Zare M,Khasten S H,Ghafouri S.Automatic ICA detection in online social networks with PageRank[J].Peer-to-Peer Networking and Applications,2020,13:1297-1311.

[14]尚麗維,張向先,盧恒,等.在線社區信息交互關系網絡關鍵節點研究綜述[J].情報科學,2020,38(8):170-177.(Shang Liwei,Zhang Xiangxian,Lu Heng,et al.A review of research on key nodes in online community information interaction network[J].Information Science,2020,38(8):170-177.)

[15]李付民,佟玲玲,杜翠蘭,等.基于關聯關系的微博用戶可信度分析方法[J].計算機應用,2017,37(3):654-659.(Li Fumin,Tong Lingling,Du Cuilan,et al.Weibo users credibility evaluation based on user relationships[J].Journal of Computer Applications,2017,37(3):654-659.)

[16]蘭瑋.面向在線社交網絡的虛假用戶攻擊及檢測研究[D].西安:西安電子科技大學,2022.(Lan Wei.Research on fake user attack and detection for online social networks[D].Xi’an:Xidian Univer-sity,2022.)

[17]琚春華,趙凱迪,鮑福光.融入緊密度中心性與信用的社交網絡用戶影響力強度計算模型[J].情報學報,2019,38(2):170-177.(Ju Chunhua,Zhao Kaidi,Bao Fuguang.A user influence strength model in e-commerce social networks based on closeness and users’credit[J].Journal of the China Society for Scientific and Technical Information,2019,38(2):170-177.)

[18]景東,張大勇.社交媒體環境下用戶信任度評估與傳播影響力研究[J].數據分析與知識發現,2018,2(7):26-33.(Jing Dong,Zhang Dayong.Assessing trust-based users’ influence in social media[J].Data Analysis and Knowledge Discovery,2018,2(7):26-33.)

[19]Zheng Qiong,Qu Song.Credibility assessment of mobile social networking users based on relationship and information interactions:evidence from China[J].IEEE Access,2020,8:99519-99527.

[20]韓忠明,苑麗玲,楊偉杰,等.加權社會網絡中重要節點發現算法[J].計算機應用,2013,33(6):1553-1557,1562.(Han Zhongming,Yuan Liling,Yang Weijie,et al.Algorithm for discovering influential nodes in weighted social networks[J].Journal of Computer Applications,2013,33(6):1553-1557,1562.)

[21]段震,倪云鵬,陳潔,等.基于多關系網絡的話題意見領袖挖掘[J].數據采集與處理,2022,37(3):576-585.(Duan Zhen,Ni Yunpeng,Chen Jie,et al.Topic opinion leader mining based on multi-relational networks[J].Journal of Data Acquisition and Proces-sing,2022,37(3):576-585.)

[22]Qazvinian V,Rosengren E,Radev D,et al.Rumor has it:identifying misinformation in microblogs[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2011:1589-1599.

[23]肖宇,許煒,夏霖.一種基于情感傾向分析的網絡團體意見領袖識別算法[J].計算機科學,2012,39(2):34-37,46.(Xiao Yu,Xu Wei,Xia Lin.Network groups opinion leader identification algorithms based on sentiment analysis[J].Computer Science,2012,39(2):34-37,46.)

[24]徐建民,申永平,吳樹芳.基于分層社交關系的微博推薦算法[J].計算機應用研究,2021,38(12):3597-3603,3610.(Xu Jianmin,Shen Yongping,Wu Shufang.Algorithm of micro-blog recommendation based on hierarchical social relationships[J].Application Research of Computers,2021,38(12):3597-3603,3610.)

[25]琚春華,陶婉瓊,馬希驁.基于關系圈與個體交互習慣的用戶關系強度計算方法[J].情報學報,2019,38(9):974-987.(Ju Chunhua,Tao Wanqiong,Ma Xi’ao.User relationship strength estimation model in online social networks based on fusion of activity field classification and indirect relationship[J].Journal of the China Society for Scientific and Technical Information,2019,38(9):974-987.)

[26]樂洪舟,何水龍,王敬.基于抖音共同聯系人的群體用戶關系分析[J].計算機研究與發展,2022,59(4):796-812.(Yue Hongzhou,He Shuilong,Wang Jing.Analysis of group users’relationship based on TikTok mutual contacts[J].Journal of Computer Research and Development,2022,59(4):796-812.)

[27]張亞楠,何建佳.基于網民心理的微博輿論傳播模型及仿真研究[J].計算機應用研究,2018,35(5):1298-1303,1319.(Zhang Yanan,He Jianjia.Spreading model and simulation analysis of microblog public opinion based on psychology of netizen[J].Application Research of Computers,2018,35(5):1298-1303,1319.)

[28]Cho J H,Chan K,Adali S.A survey on trust modeling[J].ACM Computing Surveys,2015,48(2):1-40.

[29]徐琳宏,林鴻飛,趙晶.情感語料庫的構建和分析[J].中文信息學報,2008,22(1):116-122.(Xu Linhong,Lin Hongfei,Zhao Jing.Construction and analysis of emotional corpus[J].Journal of Chinese Information Processing,2008,22(1):116-122.)

[30]馮蘭萍,董陳超,徐緒堪.基于混合神經網絡的突發公共衛生事件微博謠言識別研究[J].情報雜志,2022,41(12):81-88.(Feng Lanping,Dong Chenchao,Xu Xukan.Research on Weibo rumor identification in public health emergencies based on hybrid neural network[J].Journal of Intelligence,2022,41(12):81-88.)

[31]張繼東,段小萌.基于移動社交平臺的用戶信任度分析研究[J].現代情報,2017,37(9):93-96,102.(Zhang Jidong,Duan Xiaomeng.Research on analysis of user trust degree based on mobile social platform[J].Journal of Modern Information,2017,37(9):93-96,102.)

[32]朱侯,方清燕.社會化媒體用戶隱私計算量化模型構建及隱私悖論均衡解驗證[J].數據分析與知識發現,2021,5(7):111-125.(Zhu Hou,Fang Qingyan.Quantifying and examining privacy paradox of social media users[J].Data Analysis and Knowledge Discovery,2021,5(7):111-125.)

[33]Alhaidari F,Alwarthan S,Alamoudi A.User preference based weighted page ranking algorithm[C]//Proc of International Conference on Computer Applications & Information Security.Piscataway,NJ:IEEE Press,2020:1-6.

[34]Tibermacine O,Tibermacine C,Kerdoudi M L.Reputation evaluation with malicious feedback prevention using a HITS-based model[C]//Proc of IEEE International Conference on Web Services.Piscataway,NJ:IEEE Press,2019:180-187.

主站蜘蛛池模板: 一区二区三区四区日韩| 国产人碰人摸人爱免费视频| 最新亚洲人成网站在线观看| 熟妇丰满人妻| 精品视频第一页| 天堂av高清一区二区三区| 国产日产欧美精品| 欧美区一区| 无码中文字幕精品推荐| 国产黄色免费看| 婷婷丁香色| 国产成人免费高清AⅤ| 国产swag在线观看| 欧美三级视频网站| 亚洲一区二区精品无码久久久| 亚洲色图欧美一区| 国内精品视频| 好紧好深好大乳无码中文字幕| 久久精品嫩草研究院| 中文字幕永久在线观看| 高清视频一区| 四虎影视8848永久精品| 国产成人精品2021欧美日韩| 中文字幕人成人乱码亚洲电影| 美女高潮全身流白浆福利区| 国产精品国产三级国产专业不| 午夜无码一区二区三区在线app| 亚洲欧美人成电影在线观看| 午夜少妇精品视频小电影| 色综合天天综合| 亚洲清纯自偷自拍另类专区| 亚洲精品男人天堂| 激情综合网址| 久热中文字幕在线| 国产女人18水真多毛片18精品 | 看你懂的巨臀中文字幕一区二区| 国产无码制服丝袜| 久草视频一区| 无码一区18禁| 国产女同自拍视频| 亚洲熟妇AV日韩熟妇在线| 亚洲人成影视在线观看| 日韩亚洲高清一区二区| 免费av一区二区三区在线| 国产中文在线亚洲精品官网| 国产一区二区三区在线精品专区| 啪啪免费视频一区二区| 亚洲av色吊丝无码| 午夜福利视频一区| 亚洲色图综合在线| 亚洲精品福利视频| 日韩欧美国产三级| 欧美国产综合色视频| 波多野结衣无码AV在线| 久久96热在精品国产高清| 国产成人精品高清不卡在线| 国产色爱av资源综合区| 国产成人夜色91| 国产va欧美va在线观看| 四虎影视无码永久免费观看| 91一级片| 国产精品视频白浆免费视频| 在线观看亚洲成人| 久久99久久无码毛片一区二区| 国产精品久久久久久搜索| 久久精品丝袜| 国产亚洲一区二区三区在线| 国产精品美人久久久久久AV| 91免费在线看| Jizz国产色系免费| 天天操精品| 黄片一区二区三区| 欧美国产日韩在线| 午夜久久影院| 国产在线一二三区| 国产乱视频网站| 免费国产高清视频| 国产拍揄自揄精品视频网站| 亚洲精品视频免费| 99久久99视频| 国产亚洲精品资源在线26u| 二级特黄绝大片免费视频大片|