摘要:針對符號二值網絡的節(jié)點異質性及三角形形式平衡理論不適用性的問題,提出一種基于潛在類分配及對比學習增強的符號二值圖神經網絡模型,其通過同質和異質雙空間的互相補充來充分提取網絡的隱式和顯式信息。在同質空間,采用可學習的潛在組對節(jié)點進行分配并將節(jié)點看做多個潛在組的組合,然后通過訓練來自動挖掘節(jié)點間的信息。在異質空間,對節(jié)點鄰居進行有方向區(qū)分的注意力聚合,然后采用網絡重建的互信息對比學習來引導聚合過程以獲得表達能力更強的表示向量。在符號鏈接預測任務上與多種相關模型進行對比實驗,實驗結果顯示所提出的模型在四個真實數(shù)據集上采用四種評價指標獲取的16個評價結果中,12個評價結果可以取得最優(yōu)值,驗證了所提出模型的有效性。
關鍵詞:符號二值網絡;圖神經網絡;互信息;對比學習
中圖分類號:TP391文獻標志碼:A文章編號:1001-3695(2023)05-016-1389-07doi:10.19734/j.issn.1001-3695.2022.09.0497
0引言
網絡表示學習將網絡中的節(jié)點及其聯(lián)系映射到低維向量空間并用于后續(xù)網絡分析任務,受到數(shù)據挖掘和機器學習界的廣泛關注。早期的網絡表示學習方法主要應用于同質無符號網絡,可分為基于隨機游走的方法、基于矩陣分解的方法和基于神經網絡的方法。在比較經典的方法中,DeepWalk[1]和node2vec[2]采用隨機游走方式對節(jié)點進行采樣,然后根據形成的序列利用Skip-Gram[3]模型進行訓練。LINE[4]對節(jié)點間的一階和二階相似進行建模來保存相似信息。GraRep[5]考慮t階內的歸一化鄰接矩陣,并通過奇異值分解來保存多階的結構信息。SDNE[6]借助自編碼器深度學習方法,將鄰接矩陣作為輸入并提取中間層作為節(jié)點表示向量。隨著電子商務和多媒體的快速發(fā)展,符號網絡的應用也越來越普遍,其可以通過建立正負鏈接來表達觀點態(tài)度。例如,正鏈接可用來表達朋友、同意、支持等態(tài)度;負鏈接可用來表達敵人、反對、抵制等態(tài)度。相比于無符號網絡,符號網絡可以表示更復雜的社會關系[7]。
由于無符號網絡的分析方法無法獲取正負鏈接的不同屬性,近年來一些針對符號網絡建模的表示學習方法相繼被提出。Kunegis等人[8]提出符號圖拉普拉斯矩陣并結合譜聚類的方法來學習節(jié)點表示向量。潘雨等人[9]提出基于約束非負矩陣分解的網絡表示學習方法,其設計了兩個優(yōu)化目標并分別引入兩個符號圖正則化約束。社會理論(平衡理論和狀態(tài)理論)[10]是符號圖的重要屬性。為了融入社會理論信息,SNE[11]和SIDE[12]首先采用隨機游走方式對符號網絡節(jié)點進行采樣,其中SNE在采樣的基礎上提出log-bilinear模型,通過設計不同符號類型的向量來對正負連邊進行建模;SIDE在隨機游走采樣時利用社會理論進行引導,并提出一種線性可拓展的方法來建模正負符號連接的概率。SiNE[13]通過增加虛擬節(jié)點來擴展網絡結構,并在此基礎上提出一種神經網絡框架來建模平衡理論。SigNet[14]首先結合平衡理論對目標節(jié)點進行采樣,然后借助上下文節(jié)點來對節(jié)點對的相似度進行建模。BESIDE[15]在考慮三角形邊的基礎上額外考慮了橋邊信息,并結合平衡理論和狀態(tài)理論對兩種連邊進行關聯(lián)。
不同于以上傳統(tǒng)網絡表示學習方法,圖卷積網絡方法通過鄰居信息傳播和聚合展現(xiàn)出了強大的信息提取和建模能力。圖卷積網絡方法的提出為符號圖建模提供了新的思路并取得了優(yōu)異的效果。SGCN[16]遵循平衡理論設計了兩條聚合路徑來分別對正鏈接和負鏈接進行信息的傳播和聚合,然后采用mean-pooling策略獲得最終節(jié)點表示向量。SiGAT[17]同時考慮了符號網絡中的平衡理論和狀態(tài)理論,其設計不同模體來對鄰居進行有區(qū)分聚合并自動將理論信息融入到節(jié)點表示中。SDGNN[18]在損失函數(shù)中額外考慮了邊的方向信息,其可以看做是一種編碼器結構,在編碼階段根據邊的符號和方向分別進行聚合,在解碼階段設計了同時考慮符號、方向和三角形的損失函數(shù)。文獻[19]采用了雙曲空間并將互信息最大化應用到調整平衡理論和狀態(tài)理論中。GS-GNN[20]提出k組理論并通過潛在組來更加靈活地描述平衡理論。然而,這些方法設計以節(jié)點同質性為前提,節(jié)點只有一種類型且邊可以連接網絡中任何兩個節(jié)點[21],忽略了符號網絡中另一種普遍形式,即符號二值網絡。相對于非符號二值網絡,符號二值網絡具有兩種節(jié)點類型且連邊僅可以連接不同類型節(jié)點。
上述符號網絡建模方法缺乏區(qū)分節(jié)點類型的能力且符號二值網絡中的節(jié)點無法構成閉環(huán)三角形以利用平衡理論,因此這些方法無法簡單地直接應用到符號二值網絡中。對于符號二值網絡建模,Derr等人[22]將平衡理論拓展到符號二值網絡并進行了綜合分析,提出了符號蝴蝶的概念。在此基礎上又提出了基于特征提取的模型SCsc、基于矩陣分解的模型MFwBT和基于隨機游走的模型SBRW。SBiNE[23]提出一個深度學習框架,其從建模節(jié)點的一階和二階相似的角度出發(fā),將直接的連邊看做一階相似,將有相似符號上下文的未真實連接的連邊看做二階相似。以上方法為基于傳統(tǒng)網絡表示學習的方法,為了將圖神經網絡應用到符號二值網絡中,文獻[24]從兩個角度來建模符號二值網絡,首先從網絡結構出發(fā),對異質節(jié)點通過現(xiàn)有連邊直接進行信息傳播和聚合來提取結構信息;然后利用三角形平衡理論借助異質連邊來對同質節(jié)點構建可能的連邊,并進而根據這些連邊進行信息傳播和聚合以獲取同質節(jié)點間的信息。然而,由于網絡中滿足平衡理論的三角形只占一定比例[18],所以該方法獲取的同質節(jié)點連邊無法真實全面地對同質節(jié)點間信息進行描述。同時對異質節(jié)點連邊進行簡單的鄰居聚合也忽略了符號二值網絡中內在的一些復雜特性。
基于以上分析可以發(fā)現(xiàn),在利用圖神經網絡建模符號二值網絡時,需要解決以下問題:一方面如何充分地對沒有直接連邊的同質節(jié)點間的信息進行建模和提取;另一方面如何根據符號二值網絡的復雜結構特征設計合適的信息聚合和傳播方式。據此本文提出一種基于潛在組分配及對比學習增強的符號二值圖神經網絡(signedbipartitegraphneuralnetworkenhancedbypotentialgroupassignmentandcontrastlearning,SEPC)模型。本文的主要貢獻如下:
a)提出一種端到端訓練的符號二值圖神經網絡模型,從同質空間和異質空間的角度來充分提取網絡顯式和隱式信息,同時打破社會理論的嚴格限制。
b)針對同質空間和異質空間的不同特性提出不同的建模策略。對于沒有實際連邊的同質空間,設定多個可學習潛在組并通過潛在組組合來靈活學習節(jié)點表示;對于有實際連邊的異質空間,采用注意力和互信息對比學習結合的方式來自動引導信息傳播和聚合過程。
c)在四個真實的符號二值網絡數(shù)據集上進行了符號鏈接預測任務實驗,實驗結果驗證了SEPC模型的有效性和優(yōu)越性。
1概念定義
1.1符號二值網絡
一個符號二值網絡定義為G=(U,V,E+,E-),其中U={uj|j=1,…,|U|}和V={vj|i=1,…,|V|}為兩個節(jié)點類型不同的同質節(jié)點集,|U|和|V|分別為節(jié)點集U和節(jié)點集V的節(jié)點個數(shù)。E=E+∪E-{eij=(ui,vj)|ui∈U,vj∈V}為正邊和負邊的集合且滿足E+∩E-=。
1.2平衡理論
平衡理論考慮符號網絡中三角形正負符號的分布情況[10],其通過建模敵人和朋友來定義平衡性,認為“朋友的朋友是朋友”“朋友的敵人是敵人”“敵人的朋友是敵人”及“敵人的敵人是朋友”。例如,圖1(a)中(+,+,+)三角形是平衡的,其表示三個個體互為朋友。(-,-,+)三角形也是平衡的,其表示兩個個體互為朋友且具有相同的敵人。在圖1(b)中(+,+,-)三角形是不平衡的,其表示兩個個體互為敵人且具有相同的朋友。(-,-,-)三角形也是不平衡的,其表示三個個體互為敵人。
1.3符號蝴蝶
符號蝴蝶是符號二值網絡中長度為4的完整(2×2)二元結構[22],是衡量網絡結構聚合度的基本模體。通過符號蝴蝶可以將平衡理論拓展到符號二值網絡。例如圖2中符號蝴蝶(+,+,+,+)、(+,-,-,+)、(+,+,-,-)、(+,-,+,-)、(-,-,-,-)中有偶數(shù)條負邊是平衡的,符號蝴蝶(+,+,+,-)和(+,-,-,-)中有奇數(shù)條負邊是不平衡的。
2模型描述
本章提出基于潛在組分配及對比學習增強的符號二值圖神經網絡SEPC模型。圖3描繪了模型的整體架構,可以看出其主要設計包含同質空間建模和異質空間建模。由于符號二值網絡中的連邊僅可以連接不同類型節(jié)點,同質空間建模通過構建節(jié)點間潛在關系來挖掘隱式信息,異質空間建模通過對已有連邊的分析來挖掘顯式信息。通過同質空間建模和異質空間建模的相互補充,可以充分提取整個網絡的信息。
圖
3實驗結果與分析
所提的SEPC模型可應用于多種現(xiàn)實場景。例如在電商領域,消費者和商家在商品交易后,消費者可以對商品進行評分來表達是否滿意的態(tài)度,這樣在消費者和商家之間就可以構建一個符號二值網絡。在政治學領域,針對某些提出的議案,代表們可以對其表達是否贊成的態(tài)度,這樣在代表和議案之間也可以構建符號二值網絡。類似地,還可以應用到很多其他領域,如論文的同行評審、學生對老師的評教打分等。以電商領域為例,本文的模型通過對已有的消費者與商品之間、消費者與消費者之間、商品與商品之間的信息進行建模并通過損失反向傳播對模型進行訓練,利用訓練好的模型可以對未知的消費者對商品的態(tài)度進行預測。
3.1數(shù)據集
本文從電商領域、政治學領域和同行評審領域選取四個真實的符號二值網絡數(shù)據集對提出的模型進行評估,分別為Bonanza、U.S.Senate、U.S.House和Review。表1描述了具體的數(shù)據統(tǒng)計。
表1數(shù)據集數(shù)據統(tǒng)計
Tab.1Statisticsofthedatasets
數(shù)據集#U#V#edges%pos%neg
Bonanza79191973365430.9800.020
U.S.House51512811143780.5400.460
U.S.Senate1451056270830.5530.447
Review18230411700.3970.603
Bonanza數(shù)據集來自電子商務網站Bonanza(https://www.bonanza.com),用戶通過創(chuàng)建賬戶來交易商品,賬戶分為買家(U)和賣家(V)兩種。在買家和賣家交易一件商品后,互相之間可以發(fā)表簡短評論并給出評價,根據評價的積極和消極情況,可以將兩者連邊分為正邊和負邊。
U.S.Senate和U.S.House數(shù)據集來自Govtrack.us(https://www.govtrack.us),描述了美國國會第一至第十屆會議的投票情況。U.S.Senate數(shù)據集和U.S.House數(shù)據集分別出自美國參議院和眾議院。議員(V)可以對議案進行(U)表態(tài),如果議員對某一議案投了“贊成”或“反對”票,則表示它們之間具有正邊或負邊;如果沒有投票,則表示兩者之間沒有連邊。
Review數(shù)據集來自一個頂級計算機科學會議的同行評審數(shù)據。根據評審員(U)對投稿文章(V)給出的評價并經過反駁階段后建立連邊。其中SA(強接受)、A(接受)、WA(弱接受)建立正連邊;WR(弱拒絕)、R(拒絕)和SR(強拒絕)建立負連邊。
3.2對比模型
選取的對比模型包括兩個無符號網絡嵌入模型、兩個符號/二值網絡嵌入模型、三個基于符號蝴蝶的模型及一個最新提出的符號二值圖神經網絡模型。
a)DeepWalk。其為無符號網絡嵌入模型,和文獻[24]一致,僅選取符號二值網絡的正邊。然后通過截斷隨機游走來生成節(jié)點序列,并根據雙向上下文預測來學習節(jié)點表示。
b)LINE。其為無符號網絡嵌入模型,和上述方法一樣,僅采用正邊并對網絡節(jié)點與其一階和二階鄰居的相似度進行建模。
c)SiNE。其為符號/二值網絡嵌入模型,設計神經網絡架構在原網絡結構基礎上通過增加虛擬節(jié)點的方式來建模平衡理論。
d)SBiNE。其為符號/二值網絡嵌入模型,通過在損失函數(shù)中融入符號二值網絡的一階和二階近似來學習節(jié)點表示。
e)SCsc[22]。其為基于符號蝴蝶的模型,通過抽取個體特征(正負節(jié)點度)和局部特征(符號蝴蝶個數(shù))來將符號預測問題轉換為分類問題。
f)MFwBT[22]。其為基于符號蝴蝶的模型,在基本的矩陣分解模型基礎上又額外融入平衡理論,使得節(jié)點對之間更多地滿足符號蝴蝶的平衡性。
g)SBRW[22]。其為基于符號蝴蝶的模型,首先在同質節(jié)點之間建立鏈接并構建鄰接矩陣,然后在符號蝴蝶的引導下來進行隨機游走。
h)SBGNN[24]。其為符號二值圖神經網絡模型,在考慮對異質節(jié)點連邊信息傳播和聚合外,也對同質節(jié)點構建連邊并進行信息傳播和聚合。
3.3實驗設置
對于提出的模型,采用PyTorch[31]深度學習框架進行訓練。設定學習率為00005,批大小為500,訓練周期為6000,組維度dUG和dVG設定為16,組個數(shù)KU和KV設定為4,異質空間信息傳播層數(shù)為3,同質空間組傳播層數(shù)為2。對于對比模型,采用原文推薦的參數(shù)設置和文獻[24]的處理方式。對于不采用端到端訓練的網絡表示學習方法,首先獲得節(jié)點表示,然后采用邏輯回歸對邊進行分類。具體地,對于一條邊,將其連接的兩個節(jié)點的嵌入表示向量合并作為該邊的表示向量,然后在訓練集上依據邊的表示向量來訓練一個邏輯回歸分類器并在測試集上預測邊的符號。和文獻[22,24]一致,對于所有的方法設定嵌入維度為32。特別地,對于當前表現(xiàn)最優(yōu)的對比模型SBGNN,為了公平對比并充分驗證所提模型的優(yōu)越性,在本文實驗環(huán)境下重新對其實驗,在原參數(shù)設置的基礎上額外嘗試所提模型采用的參數(shù)組合并選取其中的最優(yōu)值作為實驗結果。采用AUC、Binary-F1、Macro-F1和Micro-F1評價指標來評估不同方法在符號鏈接預測任務上的效果,評價指標值越大表示效果越好。訓練過程中選擇在驗證集上AUC指標達到最優(yōu)的模型進行評估。選用的實驗環(huán)境為Windows10專業(yè)版操作系統(tǒng),PyTorch1.4.0深度學習框架,IntelXeonCPU@2.30GHz2.29GHz(2處理器),128GBRAM,2NVIDIAGeForceRTX2080Ti服務器。
3.4實驗結果
和文獻[24]一致,隨機選取10%的邊作為測試集,5%的邊作為驗證集,并采用余下的85%的邊作為訓練集。在數(shù)據集上進行五次隨機分割并選取平均效果。由于所提出的模型和對比模型采用了相同的訓練集、驗證集和測試集,對比模型采用文獻[24]中的結果和重新運行結果中較優(yōu)的結果。表2展示了模型的實驗結果,每一行的最優(yōu)值進行了加黑,次優(yōu)值標注了下畫線。
可以發(fā)現(xiàn):
a)提出的SPEC模型效果總體上超過了所有的對比模型。和最有競爭力的對比模型SBGNN相比,AUC、Binary-F1、Macro-F1和Micro-F1評價指標平均分別提高了0.588%、025%、074%和1173%,說明了SPEC模型的整體設計及潛在組分配和對比學習策略的合理性。
b)相較于無符號網絡表示學習方法DeepWalk和LINE,符號網絡表示學習方法SiNE額外地考慮了符號信息來學習具有更強表達能力的節(jié)點表示向量。可以發(fā)現(xiàn),其效果并沒有明顯的提升,在數(shù)據集Review、U.S.House和U.S.Senate上甚至還有下降。這可能是由于SiNE是基于三角形平衡理論的而不適用于符號二值網絡的情形。相比之下,本文模型可取得更優(yōu)效果,這說明SPEC模型的整體設計更貼合符號二值網絡的結構特征且可以更充分地提取符號二值網絡的內在信息。
c)基于符號蝴蝶的SCsc、MFwBT和SBRW方法考慮了適用于符號二值網絡的符號蝴蝶平衡理論,相比于考慮三角形平衡理論的SiNE,可以發(fā)現(xiàn)在U.S.House和U.S.Senate兩個數(shù)據集上效果有明顯提升。其中在U.S.House數(shù)據集,AUC分別提升37.76%,34.81%和36.93%。在U.S.Senate數(shù)據集,AUC分別提升38.94%,33.74%和38.59%。然而,在數(shù)據集Bonanza和Review上沒有明顯的提升。這可能是由于這兩個數(shù)據集上符號蝴蝶結構具有稀疏性而減弱了符號蝴蝶理論的作用。本文的模型在四個數(shù)據集上均優(yōu)于以上方法,說明所提出模型在不同場景數(shù)據集上的普適性及打破蝴蝶平衡理論嚴格限制的必要性。
d)相比于無符號網絡表示學習方法、符號網絡表示學習方法和符號二值網絡表示學習方法,SBGNN采用圖神經網絡方式,通過信息傳遞和聚合來建模符號二值網絡并在所有對比方法中取得最優(yōu)效果,這得益于圖神經網絡強大的結構建模和信息提取能力。相比于SBGNN,所提出的模型SEPC整體上可以取得更優(yōu)的效果,除了Review數(shù)據集的Binary-F1指標,在其他指標上均取得更好的結果,這說明SEPC模型在同質空間和異質空間對信息的聚合和傳播設計上更加優(yōu)越。
3.5參數(shù)分析
本節(jié)對不同參數(shù)進行分析,包括節(jié)點表示維度、組表示維度、組個數(shù)、同質空間組傳播層數(shù)mo和異質空間信息傳播層數(shù)me。在此假設U和V節(jié)點集具有相同的節(jié)點表示維度、組維度和分組個數(shù),分別表示為dN、dG和KG。選取U.S.Senate作為實驗數(shù)據集并采用和之前章節(jié)相同的訓練集、測試集和驗證集。
3.5.1節(jié)點表示維度
在分析節(jié)點表示維度dN時,固定組表示維度dG=16,分組個數(shù)KG=4,同質空間組傳播層數(shù)mo=2,異質空間信息傳播層數(shù)me=3。設定dN變化為{4,8,16,32,64,128},圖4展示了在不同節(jié)點表示維度下的模型效果,可以發(fā)現(xiàn):
a)當節(jié)點表示維度dN較小時,模型效果隨著維度增加而上升。具體地,當dN從4逐漸增加到64時,效果提升明顯。這可能是由于dN的值越小,其能保存的信息越少。隨著dN變大,其能保存的信息也逐漸增多,從而模型效果也逐漸增強。
b)當節(jié)點表示維度dN增加到一定數(shù)值之后,模型效果隨著維度的繼續(xù)增加而出現(xiàn)下降的趨勢。這可以解釋為當維度過大時會不可避免地引入冗余信息,同時也會增加模型訓練的難度。
3.5.2組表示維度
在分析組表示維度dG時,固定節(jié)點表示維度dN=32,分組個數(shù)KG=4,同質空間組傳播層數(shù)mo=2,異質空間信息傳播層數(shù)me=3。設定組表示維度dG變化范圍為{2,4,8,16,32,64,128},圖5展示了在不同組表示維度下的模型效果,可以發(fā)現(xiàn):
其總體效果與dN類似,也呈現(xiàn)出剛開始上升,到達一定數(shù)值后開始下降的規(guī)律。特別地,當組表示維度dG為4時,效果達到最優(yōu),這表明4維的組表示向量足以描述和區(qū)分數(shù)據中的節(jié)點。
3.5.3分組個數(shù)
分組個數(shù)直接影響著同質空間的信息建模能力。在分析分組個數(shù)時,固定節(jié)點表示維度dN=32,組表示維度dG=16,同質空間組傳播層數(shù)mo=2,異質空間信息傳播層數(shù)me=3。設定分組個數(shù)KG變化為{2,3,4,5,6,7},圖6展示了在不同分組個數(shù)下的模型效果,可以發(fā)現(xiàn):
Binary-F1指標呈現(xiàn)出先上升后下降的趨勢,AUC、Macro-F1和Micro-F1指標在變化上有波動,但整體上仍是先上升后下降的趨勢。當KG到達6時,效果達到最優(yōu),之后下降明顯。這說明潛在組個數(shù)較小時,模型提取信息能力不夠,當增加到6個時可以實現(xiàn)對同質空間節(jié)點間的信息的充分挖掘。當潛在組個數(shù)較大時,可能會導致過擬合的問題。
3.5.4同質空間和異質空間傳播層數(shù)
同質空間組傳播層數(shù)mo和異質空間信息傳播層數(shù)me是控制圖神經網絡信息傳播過程的兩個重要參數(shù)。傳播層數(shù)直接影響著圖神經網絡的感受野,當傳播層數(shù)越多時,所獲得的感受野也就越大。在分析mo和me時,固定節(jié)點表示維度dN=32,組表示維度dG=16,分組個數(shù)KG=4。設定mo和me的變化為{1,2,3,4,5},圖7和8分別展示了在不同的同質空間組傳播層數(shù)mo與異質空間信息傳播層數(shù)me組合情況下的模型AUC和Binary-F1效果,可以發(fā)現(xiàn):
a)當mo為4,me為2時效果達到最好。說明此時可以充分抽取網絡信息,當傳播層過多或過少都會影響效果。
b)隨著me從1變化到5,對于mo,分別在(1,2)(2,4)(3,3)(4,2)(5,3)時取得最優(yōu)值。其中在(2,4)時取得總體上的最優(yōu)值。這說明當層數(shù)過多時也會影響效果。這可能是因為隨著層數(shù)的增加降低了節(jié)點特征的區(qū)分度,從而引起過平滑。
3.6消歧分析
在模型SEPC中,通過不同策略精心設計了同質空間和異質空間的模型結構并通過互相補充來充分提取網絡顯式和隱式信息。為了驗證模型中每個組成部分的有效性,對其進行消歧分析。選取U.S.Senate作為實驗數(shù)據集并采用和之前章節(jié)相同的訓練集、測試集和驗證集,考慮以下的變體:
a)SEPC-ho:該變體移除了同質空間建模,而僅使用異質空間。
b)SEPC-he:該變體移除了異質空間建模,而僅使用同質空間。
c)SEPC-att:該變體去掉異質空間注意力聚合,采用平均聚合方式。
d)SEPC-mut:該變體去掉互信息對比學習部分,損失函數(shù)變?yōu)?/p>
L=Lc(24)
e)SEPC-att-mut:該變體同時去掉異質空間注意力和互信息對比學習部分。采用平均聚合方式且同時將損失函數(shù)更改為式(24)。
f)SEPC-tran:該變體去掉組傳播部分,而僅僅根據初始組分配矩陣來學習節(jié)點表示。
表3展示了SEPC及其各種變體之間的效果對比,可以發(fā)現(xiàn):
a)模型SEPC使用所有的組成成分可以取得最優(yōu)值。當任何一個成分去掉時,效果都有不同程度的下降。這表明SEPC具有整體性且每個成分都是不可或缺的。
b)在異質空間,SEPC通過注意力機制和互信息對比學習的相互配合來進行建模。相比于單獨去掉注意力機制和單獨去掉互信息對比學習,當同時移除兩者時效果下降明顯。這說明了兩者組合設計的優(yōu)越性及不可分割性。
c)當移除異質空間時,效果達到最差。這是由于異質空間直接描述了網絡結構中的連邊情況,是模型中最基礎和最重要的信息。
4結束語
本文提出一種適用于符號二值網絡的圖神經網絡模型SEPC,其針對網絡結構特征分為同質空間和異質空間并提出不同建模策略。在同質空間,設定多個潛在組并通過組合來學習節(jié)點表示向量,同時采用平衡理論建立隱式鏈接來有效引導信息傳播。在異質空間,采用注意力方式進行節(jié)點特征聚合和傳播,并利用對比學習融入結構互信息最大化來引導聚合過程。同質空間和異質空間相互補充可以準確描述網絡結構。在符號鏈接預測任務上與多種網絡表示學習模型進行了對比實驗,實驗結果顯示SEPC模型在AUC、Binary-F1、Macro-F1和Micro-F1等多個評價指標上整體可以取得最優(yōu)效果。特別地,相比于當前最優(yōu)的圖神經網絡模型SBGNN,SEPC在U.S.Senate數(shù)據集上AUC的提高達到161%,Binary-F1提高達到183%,Macro-F1提高達到189%且Micro-F1提高達到188%。考慮到不同數(shù)據類型的有不同的節(jié)點特征,在未來的研究中,將進一步嘗試將節(jié)點真實特征融入模型中。同時,也將探索在其他網絡分析任務中的應用,如節(jié)點分類、子圖分類等。
參考文獻:
[1]PerozziB,Al-RfouR,SkienaS.DeepWalk:onlinelearningofsocialrepresentations[C]//Procofthe20thACMInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACMPress,2014:701-710.
[2]GroverA,LeskovecJ.node2vec:scalablefeaturelearningfornetworks[C]//Procofthe22ndACMInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACMPress,2016:855-864.
[3]MikolovT,SutskeverI,ChenK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//Procofthe26thInternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress,2013:3111-3119.
[4]TangJian,QuMeng,WangMingzhe,etal.LINE:large-scaleinformationnetworkembedding[C]//Procofthe24thInternationalConferenceonWorldWideWeb.RepublicandCantonofGeneva,Swit-zerland:InternationalWorldWideWebConferencesSteeringCommittee,2015:1067-1077.
[5]CaoShaosheng,LuWei,XuQiongkai.GraRep:learninggraphrepresentationswithglobalstructuralinformation[C]//Procofthe24thACMInternationalonConferenceonInformationandKnowledgeMana-gement.NewYork:ACMPress,2015:891-900.
[6]WangDaixin,CuiPeng,ZhuWenwu.Structuraldeepnetworkembedding[C]//Procofthe22ndACMInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACMPress,2016:1225-1234.
[7]LeskovecJ,HuttenlocherD,KleinbergJ.Signednetworksinsocialmedia[C]//Procofthe28thSIGCHIConferenceonHumanFactorsinComputingSystems.NewYork:ACMPress,2010:1361-1370.
[8]KunegisJ,SchmidtS,LommatzschA,etal.Spectralanalysisofsignedgraphsforclustering,predictionandvisualization[C]//Procofthe10thInternationalConferenceonDataMining.Piscataway,NJ:IEEEComputerSociety,2010:559-570.
[9]潘雨,胡谷雨,王帥輝,等.基于約束非負矩陣分解的符號網絡社團發(fā)現(xiàn)方法[J].計算機應用研究,2020,37(S2):82-86.(PanYu,HuGuyu,WangShuaihui,etal.Multi-objectiveassociationdiscoveryalgorithmbasedonconstrainedSemi-NMTF[J].ApplicationResearchofComputers,2020,37(S2):82-86.)
[10]HeiderF.Attitudesandcognitiveorganization[J].TheJournalofPsychology,1946,21(1):107-112.
[11]YuanShuhan,WuXintao,XiangYang.SNE:signednetworkembedding[C]//Procofthe23rdPacific-AsiaConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACMPress,2017:183-195.
[12]KimJ,ParkH,LeeJE,etal.SIDE:representationlearninginsigneddirectednetworks[C]//Procofthe27thWorldWideWebConfe-rence.RepublicandCantonofGeneva,Switzerland:InternationalWorldWideWebConferencesSteeringCommittee,2018:509-518.
[13]WangSuhang,TangJiliang,AggarwalC,etal.Signednetworkembeddinginsocialmedia[C]//Procofthe17thSIAMInternationalConferenceonDataMining.WashingtonDC:IEEEComputerSociety,2017:327-335.
[14]IslamMR,PrakashBA,RamakrishnanN.SigNet:scalableembeddingsforsignednetworks[C]//Procofthe24thPacific-AsiaConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACMPress,2018:157-169.
[15]ChenYiqi,QianTieyun,LiuHuan,etal.“Bridge”enhancedsigneddirectednetworkembedding[C]//Procofthe27thACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACMPress,2018:773-782.
[16]DerrT,MaYao,TangJiliang.Signedgraphconvolutionalnetworks[C]//Procofthe18thInternationalConferenceonDataMining.WashingtonDC:IEEEComputerSociety,2018:929-934.
[17]HuangJunjie,ShenHuawei,HouLiang,etal.Signedgraphattentionnetworks[C]//Procofthe28thInternationalConferenceonArtificialNeuralNetworks.Berlin:Springer,2019:566-577.
[18]HuangJunjie,ShenHuawei,HouLiang,etal.SDGNN:learningnoderepresentationforsigneddirectednetworks[C]//Procofthe35thAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2021:196-203.
[19]LuoYadan,HuangZi,ChenHongxu,etal.Interpretablesignedlinkpredictionwithsignedinfomaxhyperbolicgraph[J].IEEETransonKnowledgeandDataEngineering,2020,14(8):1-14.
[20]LiuHaoxin,ZhangZiwei,CuiPeng,etal.Signedgraphneuralnetworkwithlatentgroups[C]//Procofthe27thACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACMPress,2021:1066-1075.
[21]劉苗苗,扈慶翠,郭景峰,等.符號網絡鏈接預測算法研究綜述[J].計算機科學,2020,47(2):21-30.(LiuMiaomiao,HuQingcui,GuoJingfeng,etal.Surveyoflinkpredictionalgorithmsinsignednetworks[J].ComputerScience,2020,47(2):21-30.)
[22]DerrT,JohnsonC,ChangYi,etal.Balanceinsignedbipartitenetworks[C]//Procofthe28thACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACMPress,2020:1221-1230.
[23]ZhangYouwen,LiWei,YanDengcheng,etal.SBiNE:signedbipartitenetworkembedding[C]//Procofthe16thInternationalConfe-renceonCollaborativeComputing:Networking,ApplicationsandWorksharing.Berlin:Springer,2020:479-492.
[24]HuangJunjie,ShenHuawei,QiCao,etal.Signedbipartitegraphneuralnetworks[C]//Procofthe30thACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACMPress,2021:740-749.
[25]AlemiAA,F(xiàn)ischerI,DillonJV,etal.Deepvariationalinformationbottleneck[C]//Procofthe5thInternationalConferenceonLear-ningRepresentations.2017:24-26.
[26]GedeonT,ParkerAE,DimitrovAG.Themathematicalstructureofinformationbottleneckmethods[J].Entropy,2012,14(3):456-479.
[27]DillonJV,AlemiAA,F(xiàn)ischerI.Uncertaintyinthevariationalinformationbottleneck[EB/OL].(2018-07-02).http://doi.org/10.48550/arxiv.1807.00906.
[28]LinskerR.Self-organizationinaperceptualnetwork[J].Computer,1988,21(3):105-117.
[29]BelghaziMID,BaratinA,RajeswarS,etal.Mutualinformationneuralestimation[C]//Procofthe35thInternationalConferenceonMachineLearning.NewYork:ACMPress,2018:530-539.
[30]DonskerMD,VaradhanSRS.AsymptoticevaluationofcertainMarkovprocessexpectationsforlargetime—Ⅲ[J].CommunicationsonPureamp;AppliedMathematics,1983,36(2):183-212.
[31]PaszkeA,GrossS,MassaF,etal.PyTorch:animperativestyle,high-performancedeeplearninglibrary[C]//Procofthe32ndInternationalConferenceonAdvancesinNeuralInformationProcessingSystems.Cambridge,MA:MITPress,2019:8026-8037.