摘 要:針對傳統的信息預測缺乏對用戶全局性依賴挖掘進行研究,提出了一種融合超圖注意力機制與圖卷積網絡的信息擴散預測模型(HGACN)。首先構建用戶社交關系子圖,采樣獲得子級聯序列,輸入圖卷積神經網絡學習用戶社交關系結構特征;其次,綜合考慮用戶間和級聯間的全局依賴,采用超圖注意機制(HGAT)學習用戶不同時間間隔的交互特征;最后,將學習到的用戶表示捕獲到嵌入模塊,利用門控機制將其融合獲得更具表現力的用戶表示,利用帶掩碼的多頭注意力機制進行信息預測。在Twitter等五個數據集上的實驗結果表明,提出的HGACN模型在hits@N提高了4.4%,map@N提高了2.2%,都顯著優于已有的MS-HGAT等擴散預測模型,證明HGACN模型是合理、有效的。這對謠言監測以及惡意賬戶的檢測有非常重大的意義。
關鍵詞:超圖;圖卷積網絡;門控機制;多頭注意力機制;擴散預測
中圖分類號:TP399 文獻標志碼:A 文章編號:1001-3695(2023)06-018-1715-06
doi: 10.19734/j.issn.1001-3695.2022.10.0510
Information diffusion prediction based on hypergraph attention
mechanism and graph convolution network
Miao Chenxiang, Liu Xiaoyang
(School of Computer Science amp; Engineering, Chongqing University of Technology, Chongqing 400054, China)
Abstract:Aiming at the lack of global dependency mining of users in traditional information prediction models research, this paper proposed an information diffusion prediction model based on hypergraph attention mechanism and graph convolution network (HGACN). Firstly, it constructed the subgraph of user social relationship, and obtained the subcascade sequence by sampling, and learnt the structural features of user social relationship by graph convolutional neural network. Secondly, considering the global dependence between users and cascades, it used the hypergraph attention mechanism (HGAT) to learn the interaction characteristics of users at different time intervals. Finally, it captured the learned user representation into the embedded module, and used the gating mechanism to fuse it to obtain a more expressive user representation, and used the multi-head attention mechanism with mask for information prediction. The experimental results on Twitter and other five datasets show that the proposed HGACN model is improved by 4.4% in hits@N and 2.2% in map@N, which are significantly better than the existing diffusion prediction models such as MS-HGAT, proving that the proposed HGACN model is reasonable and effective. It is of great significance for HGACN to monitor rumors and detect malicious accounts.
Key words:hypergraph; graph convolutional network; gating mechanism; multi-head attention mechanism; diffusion prediction
0 引言
在線社交媒體的發展允許人們更加快捷地發布和分享信息,使人們之間的溝通更加方便,從而引發了巨大的信息擴散。大量級聯被標記和跟蹤,使研究員對用戶行為進行建模和預測更加準確,方便更好地解決社交媒體在社會中的應用問題,如虛假新聞控制、熱點監測、推薦等各個領域。
以往的大多數研究人員關注傳統的關系模型,這些模型是以信息擴散過程中存在一個先驗的擴散模型這一假設前提下成立的,例如獨立級聯模型或線性閾值模型[1]。雖然這些模型能夠很好地擬合用戶之間的關系,但是仍然不可避免地引入了噪聲、部分關系特征?,F實生活中用戶的社交網絡都涉及實例之間復雜的依賴關系,這些模型通常不能夠學習復雜的、深度的關系特征,而且其有效性依賴于先驗信息擴散模型的假設。這些假設在實踐中是很難去驗證的,因此信息預測的準確性不高。
目前信息擴散預測方法一般分為基于特征工程的方法、基于概率生成建模的方法和基于表示學習的方法[2]三種?;谔卣鞴こ痰姆椒ㄍǔ3槿∫徊糠志哂写硇缘奶卣鬟M而對信息進行預測,很難對用戶之間的交互特征進行準確的學習,因此具有一定的局限性?;诟怕噬山5姆椒▽⑿畔⒌臄U散看做按照一個先驗事件進行擴散,故其預測的性能極易受先驗事件的影響,不能很好地學習到用戶的特征。為進一步提高信息預測的準確率,基于表示學習的方法應運而生。例如DeepCas[3]第一次提出以端到端的形式學習級聯圖表示進行信息預測。DeepHawkes[4]將用戶的轉發擴散路徑作為輸入,忽略了級聯中圖的結構信息。DeepDiffuse[5]利用嵌入技術和注意力機制,根據已有的級聯序列判斷接下來哪個用戶何時被感染。Topo-LSTM[6]擴展了原有的LSTM模型,考慮擴散時間和其復雜結構的擴散過程,以動態有向無環圖DAG作為輸入,并為DAG中每個節點生成拓撲感知嵌入作為輸出來學習信息擴散序列的鏈式結構。CYAN-RNN[7]和DeepDiffuse[5]將時間戳考慮在內,進行信息的傳播預測,CYAN-RNN將鏈式結構對應一個擴散樹,并提出一種基于注意力的RNN模型在級聯中捕獲交叉依賴進行信息預測。還有一些基于注意機制的模型,如DAN[8]、Hi-DAN[9]、NDM[10]。CoupledGNN[11]使用兩個耦合圖神經網絡捕捉節點之間的相互作用,利用信息發起者和社交網絡關系來預測信息傳播。HDGNN[12]通過擴展異構GNNs,同時結合時間演化的特性和節點復雜關系對信息進行動態預測。DyHGCN[13]提出一種異構圖卷積網絡將用戶社交關系和擴散路徑均考慮在內,利用GCN和注意力機制對信息進行動態預測。MS-HGAT[14]為了考慮全局性用戶依賴,采用GCN學習用戶的友誼網絡,利用注意力機制學習用戶級聯間的動態交互特征,從而達到對用戶全局性依賴的動態信息預測。
為了提高信息預測性能,研究人員采用圖表示方法將級聯圖嵌入到低維空間進行端到端的學習,從而進行信息預測。常用的圖表示方法是基于標準的神經網絡,但是它不能使用圖形輸入,如遞歸神經網絡,因此它們必須通過隨機游走等策略將圖轉換為歐幾里德數據,故增加了計算冗余,而且得到的圖嵌入與節點時間特征不兼容,捕捉不到更加準確的特征,所以其信息預測性能有一定局限性。例如DeepHawkes[4]忽略級聯圖中的結構信息,將級聯圖轉換成描述用戶之間信息傳播過程的擴散路徑,利用端到端的深度學習對信息級聯進行預測。由于圖技術發展,圖卷積網絡(GCN)[15]通過計算拉普拉斯圖的特征分解來學習傅里葉域中的卷積運算,將卷積操作應用到圖數據學習中。為了減少圖結構的學習依賴,引入了一種注意力機制。FastGCN[16]為了解決訓練大規模網絡時間長的問題,將圖卷積解釋為函數的積分變換。圖卷積(GCN)[17]通過節點傳遞來捕獲圖的依賴關系。GCN既可以保留任意深度的節點狀態,又可以構建更加準確的節點表示。盡管大部分算法依賴圖卷積機制進行預測信息傳播,但是可以采用半監督學習方法進行端到端的捕獲信息傳播過程中的特征,利用子圖序列訓練模型,這使得模型可以充分學習用戶社交關系全局性特征,提高預測性能。
雖然上述模型可以很好地模擬信息預測過程中用戶的級聯特征以及社交關系的特征,但是信息傳播預測的性能仍待提高。為了增強用戶結構特征的學習,本文提出一種融合超圖注意力機制與圖卷積網絡的信息擴散預測模型。首先為了學習用戶社交關系的特征,將子圖序列輸入LGCN層獲得用戶同質性特征;其次利用超圖注意機制(HGAT)研究用戶級聯間的特征,獲得更加準確的用戶表示;最后加強用戶之間特征的學習,將更具表現力的用戶表示輸入帶掩碼的多頭注意力機制進行信息傳播預測,以提高信息預測性能。
本文的主要貢獻:
a)提出了一種新穎的卷積網絡(LGCN)學習用戶社交關系。引入級聯Δc拉普拉斯算子,利用圖卷積代替LSTM中的矩陣操作更準確地捕獲子圖中的結構和方向特征,獲取更準確的用戶社交關系表示。
b)學習到具有全局性依賴的用戶表示。為了提高信息預測準確率,本文利用超圖注意機制(HGAT)學習不同時間間隔用戶之間和用戶擴散級聯之間交互的特征并通過嵌入查找模塊加強用戶特征學習,獲得了更具表現力的用戶表示。
c)構建了融合超圖注意力機制與圖卷積網絡的信息擴散預測模型。提出的HGACN模型不僅考慮到不同時間間隔用戶級聯內的轉發關系,而且考慮了用戶級聯間的交互依賴,捕獲到用戶連續預測的動態偏好,大大提高了信息預測性能。在Twitter、Douban、Memetracker等五個真實數據集的實驗結果表明,提出的HGACN模型在hits@100提升了4.4%,在map@100提升了2.2%,因此HGACN模型是合理、有效的。
1 初步介紹
2 HGACN模型
2.1 模型架構
融合超圖注意力機制與圖卷積網絡的信息擴散預測模型框架如圖1所示。首先通過對社交關系圖進行采樣,獲取一系列子級聯序列,本文引入級聯Δc拉普拉斯算子,輸入LGCN學習級聯序列中用戶的社交關系特征;其次將用戶級聯圖構建為超圖,學習用戶間和級聯間的交互特征和用戶轉發關系特征,獲得具有全局性依賴的用戶表示;最后利用門控機制將學習到的用戶表示融合起來,獲得更具表現力的用戶表示,將其輸入多頭注意力機制中進行信息傳播預測,計算每個用戶被感染的概率,輸出被感染概率最大的用戶作為下一個被感染的用戶。
2.2 用戶社交關系的學習
2.3 用戶全局偏好學習
為了獲得更具表現力的用戶表示,本文將從社交網絡關系中學到的用戶表示作為第一個時間間隔HGAT的輸入,而不是采用正態分布初始化的用戶表示。
2.4 信息傳播預測
3 實驗與結果分析
3.1 實驗準備
本文采用了Douban、Twitter、Memetracker等五個公共數據集。五個數據集的統計數據如表1所示,表中user表示用戶數量,link表示用戶關注關系的數量,cascades表示用戶轉發序列的數量,avg.length表示信息轉發序列的平均長度。
Twitter(http://snap.stanford.edu/data/)是一個提供微博客服務的社交媒體網絡,從Twitter數據集中提取出2010年10月的12 627個用戶和帶有關注關系及擴散序列的推文,其中包含消息正文的URL,每個URL都是信息的唯一標記,用戶的影響力關系是推特上的關注關系。
Memetracker(http://snap.stanford.edu/data/)包含很多個在線主流社交媒體活動,本文采用的數據集是從在線網絡上收集的數百萬的新聞故事和博客文章,將每個網站或博客的URL都視為一個用戶,跟蹤每一個常見的引用和短語在用戶之間的運用。但是這個數據集中沒有社交圖。
Douban(https://www.douban.com/)是一個可以分享書籍或電影內容的社交服務網絡平臺,將每本書或電影看做一個信息,當用戶讀到這本書時,那么這個用戶就會被激活,當兩個或多個用戶多次激活相同的書或電影超過20次,將認為他們兩個是同質性的人。
Android[19]是從社區問答網站上搜集到的問答。用戶之間的提問、討論、投票等其他形式的交互形成了用戶的社交網絡關系。
Christianity[19]收集的是一些關于基督教主題相關的級聯交互信息。
3.2 基準方法
列舉了幾個最先進的基準方法與本文HGACN模型進行比較:
DeepDiffuse[5]是一個利用節點序列和注意機制,考慮用戶激活時間戳的LSTM模型,該模型可根據先前的級聯序列預測某個用戶何時被激活。
Topo-LSTM[6]是一個使用有向無環圖(DAG)結構基于LSTM探索信息擴散的模型,該模型將動態DAG作為LSTM模型的輸入,以嵌入函數計算的概率作為每個時間的感染概率來生成具有拓撲感知的嵌入作為輸出。
SNIDSA[20]是一種具有結構注意力的新型順序神經網絡,它不僅利用遞歸神經網絡對序列信息進行建模,而且利用了門控機制捕獲用戶間的結構性依賴。
FOREST[21]是一種在強化學習的指導下預測信息流行度的多尺度擴散預測模型。該模型提取潛在的社交圖信息,利用強化學習整合宏觀預測。
DyHGCN[13]是一種采用GCN學習用戶社交圖和擴散圖結構特征進行動態信息預測的模型。
MS-HGAT[14]是一種采用GCN學習用戶友誼網絡并使用注意力機制學習用戶級聯間的交互依賴的模型。該模型利用門控機制捕獲用戶的全局性依賴關系。
3.3 評價指標和實驗設置
3.4 實驗結果與參數設置實驗
本文設置比較實驗,與DeepDiffuse等模型進行比較,并進行對參數設置的分析對比實驗。
3.4.1 實驗結果
HGACN模型和基準模型在Douban等五個數據集上的實驗結果分別如表3~5所示。表中顯示了所有模型的評估指標,從實驗結果可以看出,在hits@N、map@N指標中HGACN模型均具有一定優越性,結果表明HGACN模型可以提高信息傳播預測的性能,其性能始終優于最先進的方法,得到如下結論:
a)在基于擴散路徑研究的模型中,DeepDiffuse模型采用嵌入技術和注意模型來利用感染時間戳信息。TopoLSTM模型通過擴展LSTM模型學習信息擴散路徑。通過實驗結果分析可知,引入LSTM進行信息傳播預測的TopoLSTM模型在五個數據集上的實驗結果均高于前兩者。然而與這些基于用戶擴散行為研究的模型比較,HGACN模型在map@N的評價指標上最高有15%的提升,在hits@N指標上最高有38%的提升。DeepDiffuse、TopoLSTM模型根據用戶擴散行為對信息進行預測時,沒有考慮用戶的社交關系等因素,由實驗結果證明,用戶影響力因素對研究信息預測至關重要。
b)由實驗結果可以看出,基于用戶影響力研究的模型性能均高于基于擴散路徑研究的模型,充分證實了信息傳播預測性能受用戶影響力的影響更大。由于FOREST模型引入了強化學習對信息進行多尺度預測,在實驗結果中FOREST模型在五個數據集中每個指標的實驗結果均高于SNIDSA。相比只基于用戶影響力研究的模型,HGACN模型在map@100指標上最高約有4.5%的提升,在hits@100指標上最高有將近13.5%的提升。SNIDSA、FOREST只考慮用戶的社交影響力,忽略了用戶擴散行為的影響,在考慮信息擴散路徑時,將歷史擴散路徑建模為一個序列表示,由實驗結果證明HGACN模塊中,對用戶社交影響力和用戶擴散行為的研究至關重要。
c)DyHGAN、MS-HGAT模型充分考慮了用戶的影響力關系和用戶的擴散路徑,由實驗數據可知,同時考慮兩者的模型性能遠遠高于單一因素。然而提出的HGACN模型在map@100指標上最高有2.2%的提升,在hits@100指標上最高約有4.5%的提升。MS-HGAT和HGACN模型都考慮了用戶的社交關系和用戶動態交互的特性,因此性能均高于DyHGCN模型。然而HGACN利用LGCN學習用戶之間的社交關系,利用超圖注意力機制學習用戶級聯間的交互,將其融合獲得更具表現力的用戶表示,因此信息預測的性能更高。實驗證明HGACN模型將這些因素考慮進去,加大信息傳播中更細粒度的研究,可進一步提高信息預測的準確率。
3.4.2 消融實驗
為了研究HGACN模型中每個因素的有效性,本文進行一些額外的消融實驗來驗證每個因素的性能。本文從以下各個方面進行消融實驗:
a)行為關系,去除擴散圖,只考慮用戶的社交關系;
b)社交關系,去除社交關系圖,去除用戶社交關系表示學習;
c)用戶融合機制,去除用戶融合的門控機制,可以采用連接代替;
d)儲存器,去除用戶和級聯表示學習的存儲器;
e)多頭注意力,去除多頭注意力模塊進行信息預測。
在Twitter和Andriod這兩個數據集上的消融實驗結果如圖3所示。從圖3中可知,HGACN模型比其他模型的實驗結果具有顯著的提升,說明各個模塊的應用都是十分必要的。首先去除社交關系和行為關系時性能明顯降低,表明社交關系和行為關系對信息預測具有促進作用。其次,在分別缺少融合機制、存儲器以及多頭注意力的實驗中,實驗結果相比HGACN模型均有一定下降,說明這三者均可以在行為關系和社交關系基礎上進一步提高信息預測性能。然而HGACN模型使信息預測的性能得到進一步的提升,這表明只有考慮到社交關系、行為關系等因素,才能使實驗結果更加準確。
3.4.3 參數調優實驗
為了使實驗結果更具說服力,本節利用Twitter數據集對一些參數的設置進行實驗,驗證最優的參數設置。
a)多頭注意力頭數。HGACN模型利用帶有掩碼的多頭注意力將學習到的用戶表示進行信息預測,由于注意力機制在實驗過程中根據不同頭數投影的特征情況表現出不同的性能,所以將注意力頭數設置為{2,4,6,8,10,12,14,16,18,20},得到的實驗結果如圖4所示。HGACN模型的性能隨注意力頭數的增加不斷提升,綜合四個指標看,當注意力頭數為14時,模型的性能達到最優。當注意力頭數繼續增多時,模型過擬合導致性能并沒有得到改善,甚至出現極大的下降,很不穩定,因此本文將注意力機制的頭數設置為14。
b)模型維度的影響。研究節點表示嵌入維度對模型性能影響的實驗結果如圖5所示。當D∈{16,32,64,128}時,驗證HGACN模型方法的性能。由圖可知,模型性能隨著模型維度的增加而得到提高。當D=64時,用戶的性能達到最優。當維度繼續增加時,性能得不到明顯提高,甚至有所下降,可能是數據過大使其過擬合導致。綜合三個數據集上的性能指標,本文將維度設置為64。
4 結束語
本文提出的HGACN模型利用深度學習框架,不僅研究了用戶間有向的社交關系,而且考慮到用戶間和級聯間的交互,使得信息傳播預測的性能得到極大改善。首先對級聯圖采樣,獲得子級聯序列,引入級聯Δc拉普拉斯算子利用LGCN學習用戶的社交關系特征,學習用戶之間的同質性,獲得全局用戶社交關系表示;其次構建擴散超圖,通過HGAT學習不同時間間隔的用戶間和級聯間的交互特征,將學習到的用戶表示融合起來獲得更具表現力的用戶表示;最后將更具表現力的用戶表示輸入帶有掩碼的多頭注意力機制進行信息預測。經過在五個數據集上的實驗,結果表明,提出的HGACN模型預測精度高于先前的模型,使得信息預測性能得到進一步提升。
由于本文研究的是用戶社交關系和級聯間特征對信息傳播預測的影響,在今后的研究中,會考慮使用對抗網絡對模型進行改進,其次也會考慮信息內容對信息傳播的影響,提高模型的預測能力。
參考文獻:
[1]楊彩飄,鮑鵬,李軒涯. 基于圖注意力網絡的信息級聯外源因素建模研究[J]. 中文信息學報,2022,36(5): 163-172. (Yang Caipiao,Bao Peng,Li Xuanya. Research on information cascade exogenous factor modeling based on graph attention network[J]. Chinese Journal of Information Science,2022,36(5): 163-172.)
[2]王劍,王玉翠,黃夢杰. 社交網絡中的虛假信息: 定義、檢測及控制[J]. 計算機科學,2021,48(8): 263-277. (Wang Jian,Wang Yucui,Huang Mengjie. False information in social networks: definition,detection and control[J]. Computer Science,2021,48(8): 263-277.)
[3]Li Cheng,Ma Jiaqi,Guo Xiaoxiao,et al. DeepCas: an end-to-end predictor of information cascades[C]// Proc of the 26th International Conference on World Wide Web. 2017: 577-586.
[4]Cao Qi,Shen Huawei,Cen Keting,et al. DeepHawkes: bridging the gap between prediction and understanding of information cascades[C]// Proc of ACM on Conference on Information and Knowledge Management. New York: ACM Press,2017: 1149-1158.
[5]Islam M R,Muthiah S,Adhikari B,et al. DeepDiffuse: predicting the “who” and “when” in cascades[C]// Proc of IEEE International Conference on Data Mining. Piscataway,NJ: IEEE Press,2018: 1055-1060.
[6]Wang Jia,Zheng V W,Liu Zemin,et al. Topological recurrent neural network for diffusion prediction[C]// Proc of IEEE International Conference on Data Mining. Piscataway,NJ: IEEE Press,2017: 475-484.
[7]Wang Yongqing,Shen Huawei,Liu Shenghua,et al. Cascade dyna-mics modeling with attention-based recurrent neural network[C]// Proc of the 26th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2017: 2985-2991.
[8]Wang Zhitao,Chen Chengyao,Li Wenjie,et al. Attention network for information diffusion prediction[C]// Proc of the Web Conference. 2018: 65-66.
[9]Wang Zhitao,Li Wenjie. Hierarchical diffusion attention network[C]// Proc of the 28th International Joint Conference on Artificial Intelligence. 2019: 3828-3834.
[10]Yang Cheng,Sun Maosong,Liu Haoran,et al. Neural diffusion model for microscopic cascade study[J]. IEEE Trans on Knowledge and Data Engineering,2021,33(3): 1128-1139.
[11]Cao Qi,Shen Huawei,Gao Jinhua,et al. Popularity prediction on social platforms with coupled graph neural networks[C]// Proc of the 13th International Conference on Web Search and Data Mining. New York: ACM Press,2020: 70-78.
[12]Zhou Fan,Xu X,Li Ce,et al. A heterogeneous dynamical graph neural networks approach to quantify scientific impact[EB/OL]. (2020-03-26). https://arxiv.org/abs/2003.12042.
[13]Yuan Chunyuan,Li Jiacheng,Zhou Wei,et al. DyHGCN: a dynamic heterogeneous graph convolutional network to learn users’dynamic preferences for information diffusion prediction[C]// Proc of Machine Learning and Knowledge Discovery in Databases: European Confe-rence. Berlin: Springer-Verlag,2020: 347-363.
[14]Sun Ling,Rao Yuan,Zhang Xiangbo,et al. MS-HGAT: memory-enhanced sequential hypergraph attention network for information diffusion prediction[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2022: 4156-4164.
[15]Bruna J,Zaremba W,Szlam A,et al. Spectral networks and locally connected networks on graphs[EB/OL]. (2013-12-21) [2022-10-01]. http://arxiv.org/abs/1312.6203.
[16]Velikovic' P,Cucurull G,Casanova A,et al. Graph attention networks[EB/OL]. (2017-10-30) [2022-10-01]. https://arxiv.org/abs/1710.10903.
[17]Chen Jie,Ma Tengfei,Xiao Cao. FastGCN: fast learning with graph convolutional networks via importance sampling [EB/OL]. (2018-01-30). [2022-10-01]. https://arxiv.org/abs/1801.10247.
[18]Li Yanhua,Zhang Zhili. Digraph Laplacian and the degree of asymmetry[J]. Internet Mathematics,2012,8(4): 381-401.
[19]Aravind S,Zhang Xinyang,Adit K,et al. InF-VAE: a variational autoencoder framework to integrate homophily and influence in diffusion prediction[C]// Proc of the 13th International Conference on Web Search and Data Mining. New York: ACM Press,2020: 510-518.
[20]Wang Zhitao,Chen Chengyao,Li Wenjie. A sequential neural information diffusion model with structure attention[C]// Proc of the 27th ACM International Conference on Information and Knowledge Management. New York: ACM Press,2018:1795-1798.
[21]Yang Cheng,Tang Jian,Sun Maosong,et al. Multi-scale information diffusion prediction with reinforced recurrent networks[C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 4033-4039.