陳 琪,郭 濤,鄒俊穎
(四川師范大學 計算機科學學院,四川 成都 610101)


圖表示學習通過學習節點特征和圖的拓撲結構中蘊含的豐富信息,迭代聚合為新的低維稠密的實值向量化表示,使原始圖中相似的節點在圖表示向量空間中也相似。
定義圖G為:G=(V,E,X), 其中V=(v1,v2,…,vN) 為節點集合,N為節點數量,E為邊集合,X∈N×F為節點的特征矩陣,F為節點特征維度。
GCN為圖表示學習提供了一個有效的非線性網絡學習模型。將節點特征矩陣X和圖的鄰接矩陣A輸入GCN,最終得到低維稠密的實值向量化表示X(l+1), 如式(1)所示
(1)

孿生神經網絡[19]是由兩個權重參數共享的子網絡建立的耦合結構,如圖1所示。自監督對比學習將X1和X2作為樣本對輸入到子網絡中,映射為特征向量GW(X1) 和GW(X2), 拉近正樣本對的距離作為共性監督信號,拉大負樣本對的距離作為差異監督信號,如式(2)所示。其中,D為歐式距離,W為權重共享參數
(2)

圖1 孿生神經網絡結構


(3)
現有的圖表示學習采用自監督對比學習方法,構造正負樣本對,以此來實現節點分類任務。但存在以下問題:①在局部視圖和全局視圖上采用不同的圖數據增廣,使局部視圖和全局視圖存在一定差異,導致節點特征表示的判別能力弱。②需要額外生成負樣本,因此必須對負樣本特征進行重新排列,加大了模型的空間復雜度。
本文在孿生神經網絡基礎上,提出了基于雙重視圖耦合的自監督圖表示學習模型DVCGRL,如圖2所示,該模型由4部分組成:圖數據增廣、圖編碼器、映射、耦合網絡。首先,采用特征空間增廣和結構空間擴充相結合生成雙重視圖,組成正樣本對,使雙重視圖在孿生網絡結構中的特征相似;其次將雙重視圖固定維度,作為正樣本對輸入到圖編碼器中,對雙重視圖的節點屬性特征以及圖結構信息進行融合,提取雙重視圖中節點的低層次特征;然后通過映射,聚集與下游任務相關的高層次抽象語義特征,獲得映射后的特征向量;最后在耦合網絡中通過縮小雙重視圖間節點特征表示的距離,增強雙重視圖的特征耦合性;通過方差正則化均勻分布節點獨有特征,并利用協方差進行維度縮放,將不同維度的特征去相關,防止模型坍塌,最終達到減小空間復雜度,同時達到增強節點特征表示判別能力的效果。

(4)

圖3 圖數據增廣

(5)
(2)圖編碼器(graph encoder):圖編碼器通過節點的鄰居節點提取局部低層次細粒度特征。其中圖編碼器由兩個圖卷積神經網絡GCN和一個線性激活層ReLU線性組成。將雙重視圖G1和G2傳入圖編碼器中,對雙重視圖中節點的低層次細粒度特征進行特征提取,完成節點特征表示與鄰居節點特征表示的融合,更新視圖中節點特征的表示,獲得雙重視圖的低層次特征表示Y1和Y2, 如式(6)所示。其中W1和W2分別為兩個圖卷積神經網絡層的權重參數
(6)
(3)映射(projection):該映射通過多層感知器網絡得到雙重視圖的向量化表示Z。其中多層感知器網絡由兩個全連接層和一個線性激活層ReLU線性組成。由于經過圖編碼器后的特征表示更具有通用性,與下游任務的節點分類無關,因此需要將這些細粒度特征Y1和Y2經過映射,使雙重視圖的特征向量化表示傾向于任務相關的高層次抽象語義特征向量化表示Z1和Z2, 如式(7)所示。其中ζ1和ζ2分別為兩個全連接層的權重參數,b1和b2分別為兩個全連接層的偏執
Z=ReLU(ζ1Y+b1)ζ2+b2
(7)
(4)耦合網絡(coupling networks):用于衡量雙重視圖間的耦合性能,由距離損失、防止模型坍塌損失、去相關性損失組成。
Ls(Z1,Z2)為距離損失,衡量雙重視圖的特征耦合距離,其距離越小,表明模型預測效果越佳,如式(8)所示。其中i為視圖中一個節點
(8)
LV(Z)為防止模型坍塌損失,衡量標準偏差與目標值間的偏離程度,與目標值的距離越近,表明節點的獨有特征得到了更加均勻的分布,可以更好防止模型坍塌,如式(9)所示
LV(Z)=(max(0,1-Std(Z)))2
(9)

(10)
再由均值計算得到視圖的標準偏差Std(Z), 如式(11)所示
(11)
最后設置標準偏差的目標值為1,使用ReLU對其進行正則化,防止結果陷入零解,使視圖中節點的獨有特征能夠均勻分布,因此對其標準偏差正則化的結果進行平方,得到方差正則化的結果。
Lc(Z)為去相關性損失,衡量視圖中不同維度的特征去相關性所產生的損失,減小不同維度的特征相關性,防止模型中的維度坍塌。本文定義協方差矩陣為C(Z), 如式(12)所示。通過對非對角線系數進行平方,使用超參數ν迫使協方差的非對角線系數接近于0,使雙重視圖間不同維度的特征表示向量中的每個元素之間增強獨立性,并且對其進行一個維度縮放,將不同維度的特征之間去相關,避免維度間的特征類似,以此防止模型的維度崩潰,最終得到去相關性損失Lc(Z), 如式(13)所示,其中C(Z)i,j為協方差矩陣C(Z) 中第i行第j列的值
(12)
(13)
DVCGRL模型的總損失函數為Ltotal, 如式(14)所示。其中λ、μ、ν分別為距離損失、防止模型坍塌損失、去相關性損失的超參數
Ltotal=λLs(Z1,Z2)+μ{LV(Z1)+LV(Z2)}+ν{Lc(Z1)+Lc(Z2)}
(14)
DVCGRL模型的整體算法流程如算法1所示。
算法1:DVCGRL模型訓練
Input:有N個節點的原始圖G=(V,E,X),X為節點特征矩陣,A為鄰接矩陣,圖數據增廣的超參數pf、pe, 損失函數超參數λ、μ、ν, 最大訓練步驟T。
Output:DVCGRL模型Ψ
(1)隨機初始化模型Ψ中所有網絡層的參數;
(2) fortinTdo:


2.4 將雙重視圖傳入圖編碼器提取低層次特征,根據式(6)獲得節點的低層次特征表示,分別為:Y1和Y2;
2.5 將Y1和Y2傳入多層感知器網絡中,聚集與任務相關的高層次抽象語義特征,根據式(7)獲得雙重視圖的特征向量化表示,分別為:Z1和Z2。
2.6 根據式(8)計算雙重視圖的距離損失Ls(Z1,Z2);
2.7 根據式(9)計算雙重視圖的防止模型坍塌損失,分別為:LV(Z1)和LV(Z2);
2.8 根據式(12)、式(13)計算雙重視圖的去相關性損失,分別為:Lc(Z1)和Lc(Z2);
2.9 根據式(14)計算模型的總損失Ltotal;
(3)end for
(4)輸出DVCGRL模型Ψ,算法停止。
為了說明DVCGRL模型的有效性,本文進行了5種不同的實驗:①雙重視圖耦合有效性實驗;②節點分類對比實驗;③空間復雜度實驗;④圖數據增廣的超參數實驗;⑤模型收斂性實驗。
3.1.1 數據集
實驗在Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS這5個公開數據集上進行。其中Cora、CiteSeer、PubMed為引文網絡,節點為論文,邊為引文關系,標簽為論文的類別。Amazon photo為亞馬遜共同購買圖表的一部分,其中節點為商品,邊為兩種商品經常一起購買,節點特征是單詞包編碼的產品評論,而類標簽是由產品類別給出的。Coauthor CS來自KDD杯2016挑戰賽中基于微軟學術圖的合著圖。有關數據集的詳細信息見表1。
3.1.2 參數設置
通過驗證集設置學習速率為0.001,學習率衰減參數為0.01,線性求值權重衰減為0.0001,節點特征輸入和輸出的維度設置為512,使用Adam優化器對模型進行訓練。其中屬性掩蔽的參數pf和邊擾亂的參數pe為0.2。距離損失的參數λ設置為10,防止模型坍塌損失的參數μ設置為10,去相關性損失的參數ν設置為0.01。Cora、CiteSeer、PubMed的訓練為30個epochs,Amazon photo和Coauthor CS的訓練為50個epochs,測試為400個epochs。

表1 節點分類數據集描述
本實驗完成了DVCGRL模型在Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS上對雙重視圖特征耦合有效性驗證。本實驗分別采用特征空間增廣中的屬性掩蔽(FM)、結構空間擴充中的邊擾亂(ED)作為對比,以此驗證特征空間增廣和結構空間擴充相結合(FM+ED)對雙重視圖特征耦合的有效性。本實驗對3種方式的節點分類性能進行了直方圖繪制,實驗結果如圖4所示。
從圖4可以觀察到,相比對視圖采用單一的屬性掩蔽或者邊擾亂的增廣,屬性掩蔽和邊擾亂的結合增廣在節點分類性能上始終保持最佳。僅對特征空間或結構空間擴充的增廣,圖編碼器中難以提取部分缺失信息的低層次特征,分類精度較低。雙重視圖對節點特征空間和結構空間進行相同增廣后,雙重視圖在圖表示向量空間更具有相似性。因此,雙重視圖的特征耦合效果較好,分類精度更高。這表明在雙重視圖中采用特征空間增廣和結構空間擴充,可以增強雙重視圖的特征耦合性,提高節點特征表示在分類時的判別能力。由此,雙重視圖耦合有效性得到驗證。

圖4 雙重視圖耦合有效性實驗結果
本實驗完成了DVCGRL模型在數據集Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS上的節點分類準確率實驗,并且與當前主流的有監督和自監督的圖表示學習模型進行對比,實驗結果見表2。其中,分類精度的最大值進行了加粗標記。

表2 節點分類正確率(A為鄰接矩陣,Y為標簽,X為節點特征矩陣)
從表2可以觀察到,DVCGRL模型在5個數據集上都展現了良好的性能,平均精度值均超過其它模型。其中與有監督的主流模型相比,在5個數據集上,DVCGRL均超過了有監督的圖表示學習模型;與自監督模型相比,在Cora、PubMed、Amazon photo、Coauthor CS數據集上節點分類性能保持最佳,在最佳自監督模型上,分別提高了1.3%、1.9%、4.9%、0.9%。在CiteSeer數據集上,雖然DVCGRL模型比MERIT模型低了0.4%,但均超過了當前其它主流的圖表示學習模型的分類精度。在Amazon photo數據集上,與當前有監督的最佳模型GLNN[21]相比,DVCGRL的分類精度只提高了0.2%,但是緩解了人工標記數據集的負擔,且在數據集上更具有客觀性;與當前自監督的最佳模型MERIT相比,DVCGRL的分類精度超出了4.9%。在Amazon photo數據集上可以看出,該數據集的邊數是Cora數據集的21~22倍,是PubMed數據集的2~3倍,是Coauthor CS數據集的1~2倍,這意味著Ama-zon photo數據集的節點擁有更加豐富的拓撲結構信息,因此DVCGRL模型相比其它數據集精度提高較大。由此,這表明DVCGRL模型能夠通過雙重視圖特征耦合增強節點特征表示的判別能力。
空間復雜度定性地描述了一個算法運行時所需要的存儲空間大小。本實驗在32 GB的GPU上對當前有監督的GLNN模型、自監督的MVGRL、GRACE、MERIT模型進行了空間復雜度對比,實驗結果見表3,其中占用存儲空間最小值使用了加粗標記。

表3 空間存儲大小
從表3可以觀察到,DVCGRL模型在存儲空間上所占內存最少。DVCGRL模型在存儲空間只有GLNN、MVGRL模型的1/2,GRACE、MERIT模型的1/4。由此,DVCGRL模型的空間復雜度降低得到驗證。
本實驗選取了 [0,0.2,0.4,0.6,0.8] 5個數作為屬性掩蔽pf和邊擾亂pe的值[22],并在Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS數據集進行超參數驗證。實驗中設置pf和pe(屬性掩蔽+邊擾亂)的參數值相同,圖5展示了圖數據增廣的不同超參數對節點分類任務準確率的影響。從圖5可以觀察到,當超參數的值為0.2時,節點分類準確率最高,當超參數的值為0時,節點分類準確率最低,當超參數超過0.2,逐漸變大時,節點分類準確率也在逐步降低。由此,當超參數為0.2時,DVCGRL模型分類性能達到最佳。

圖5 圖數據增廣下的超參數實驗結果
本實驗完成了DVCGRL模型與自監督的模型GRACE、MERIT在5個數據集上的測試步長與精度折線圖的繪制,實驗結果如圖6所示。圖6(a)~圖6(e)分別代表在數據集Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS上的收斂實驗效果對比。
從圖6可以觀察到,GRACE、MERIT、DVCGRL模型在100次前,精度提升速度很快,100次以后,測試精度趨于平緩狀態,且DVCGRL模型在5個數據集上均具有良好的收斂性。從圖6(b)中可以觀察到,DVCGRL模型在150次以前,處于優勢狀態,在150次以后,MERIT模型略優于DVCGRL模型,原因是DVCGRL模型與MERIT模型的精度在CiteSeer數據集上相差0.4%,而DVCGRL模型與GRACE模型相比,收斂性保持較好。從圖6(c)中可以觀察到,GRACE模型在第0次時,精度比MERIT、DVCGRL模型高,但在100次以后,DVCGRL模型的精度超過GRACE、MERIT模型,且DVCGRL的曲線波動比GRACE模型更加平緩。從圖6(d)可以觀察到,DVCGRL模型在Amazon photo數據集精度提升最大,在第0次精度達到了90.6%,且超過了GRACE、MERIT模型的最終精度。由此,DVCGRL模型的收斂性得到驗證。

圖6 模型收斂性實驗結果
本文在沒有使用負樣本對的情況下,提出了基于雙重視圖耦合的自監督圖表示學習模型DVCGRL,解決了現有圖表示學習在自監督對比學習中視圖差異大以及依賴于負樣本,造成節點表示能力弱以及空間復雜度加大的問題。DVCGRL模型采用特征空間增廣和結構空間擴充相結合生成雙重視圖,并作為正樣本對傳入兩層參數共享的圖卷積神經網絡層,提取視圖中的節點低層次特征;在多層感知器網絡中,提取高層次的抽象語義特征,獲得映射后的特征向量;在耦合網絡中通過拉近雙重視圖的特征向量距離以增強特征耦合性,采用方差正則化和協方差以此防止模型坍塌;在減小模型空間復雜度的情況下,同時提高了DVCGRL模型的分類精度。此外,如何使模型保證一致性的情況下,在下游任務中實現跨任務學習是本文需要進一步研究的問題。