999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征和圖結構信息增強的多教師學習圖神經網絡

2023-12-31 00:00:00張嘉杰過弋王家輝
計算機應用研究 2023年7期

摘 要:近年來,圖神經網絡對圖數據強大的表征能力和建模能力使其在諸多領域廣泛應用并取得了重大突破。然而,現有模型往往傾向于對圖卷積聚合策略和網絡結構進行優化,缺乏了對圖數據自身先驗知識的探索。針對上述問題,通過知識蒸餾的方法,設計了一種基于特征信息和結構信息增強的多教師學習圖神經網絡,打破了現有模型對于數據先驗知識提取的局限性。針對圖數據背后所蘊涵的豐富特征與結構信息,分別設計了節點特征和邊的數據增強方式。在此基礎上,將原始數據和增強后的數據通過多教師學習模塊進行知識嵌入,使得學生模型學習到更多關于數據的先驗知識。在Cora、Citeseer和PubMed數據集上,節點分類準確率分別提升了1%、1.3%、1.1%。實驗結果表明,提出的信息增強的多教師學習模型能夠有效地捕獲先驗知識。

關鍵詞:圖神經網絡; 知識蒸餾; 數據增強; 節點分類

中圖分類號:TP181

文獻標志碼:A

文章編號:1001-3695(2023)07-014-2013-06

doi:10.19734/j.issn.1001-3695.2022.11.0765

Multi-teacher learning graph neural network based onfeature and graph structure information augmentation

Zhang Jiajie1, Guo Yi1,2,3?, Wang Jiahui4

(1.School of Information Science amp; Engineering, East China University of Science amp; Technology, Shanghai 200237, China; 2.National Engineering Laboratory for Big Data Distribution amp; Exchange Technologies, Business Intelligence amp; Visualization Research Center, Shanghai 200436, China; 3.Shanghai Engineering Research Center of Big Data amp; Internet Audience, Shanghai 200072, China; 4.School of Computer amp; Information Engineering, Shanghai Polytechnic University, Shanghai 201209, China)

Abstract:In recent years, the powerful representation and modeling capabilities of graph neural networks for graph data have made them widely used in many fields and made breakthroughs. However, the existing models tend to optimize the graph convolution aggregation strategy and network structure and lack the exploration of the prior knowledge of the graph data itself. In response to the above problems, this paper designed a multi-teacher learning graph neural network based on feature information and structural information enhancement through the method of knowledge distillation, which broke the limitations of existing models for data prior knowledge extraction. Given the rich features and structural information behind the graph data, this paper designed the data enhancement methods of node feature and edge respectively. On this basis, knowledge embedding was performed on the original data and the enhanced data through the multi-teacher learning module, so that the student model could learn more prior knowledge about the data. On the Cora, Citeseer, and PubMed datasets, the node classification accuracy increased by 1%, 1.3% and 1.1%, respectively. Experimental results demonstrate that the information-augmented multi-teacher learning model proposed in this paper can effectively capture prior knowledge.

Key words:graph neural network; knowledge distillation; data augmentation; node classification

0 引言

近年來,深度學習模型在諸如圖像、文本、語音等領域取得優異的成績,進行工業化落地,為各行各業提供著便利。在模型訓練過程中,通常將其抽象為一維向量、二維矩陣歐幾里德形式作為輸入,借助反向誤差傳遞讓模型捕獲輸入特征與預測標簽之間的潛在關聯性。除了排列整齊的歐氏數據外,現實世界中社交網絡中的人物關系、交通網絡中的流量數據、生化網絡中物質結構信息和引文網絡中論文關系等圖數據呈現出空間網狀拓撲結構,樣本個體除了自身的屬性特征外,還存在著大量的拓撲結構關聯,呈現出一種錯綜復雜的非歐形式,導致諸多方法不能直接遷移到圖數據上。因此如何從這些圖數據中挖掘出有用的信息,賦能產業發展成為當下的深度學習領域研究熱點和難點1,2

Scarselli等人3首次提出了圖神經網絡的概念對圖進行建模獲取節點的編碼信息,但由于計算復雜且并不能很好地對邊的特征進行建模,所以沒能流行起來。Kipf等人4在前人研究的基礎上,將深度學習巧妙地遷移到了圖數據中,提出了graph convolutional network,打破了卷積神經網絡輸入必須是歐氏數據的局限性。GCN巧妙地結合了圖上節點的特征信息以及節點之間的結構信息,獲得了更優的節點嵌入表示,在圖上各項任務中取得了SOTA的成績。大量的研究人員在其基礎上提出各種各樣的GNN模型,不斷刷新模型性能上限。這些模型的改進大多集中在對模型的網絡框架進行修改,以及卷積策略的重定義。鮮有工作從原始數據本身出發對數據進行增強,以知識蒸餾為載體,采用預訓練模式,讓模型能從多個教師模型中學習到更多的先驗知識,進而提高現有模型的性能。

眾所周知,深度學習模型是以數據為驅動的,數據的質量決定了深度學習模型的上限,而算法和模型只是在逼近這個上限。數據增強作為一種方法常被用于擴增原始數據集,避免模型過擬合,提高模型泛化能力。例如,在圖像領域,對一張圖片進行旋轉、裁剪、縮放、平移和增加障礙物等操作來獲取更多的增強數據;在文本領域,對單詞進行同義詞替換、隨機插入或者刪除單詞、回譯等操作豐富原始文本的表示。對于圖數據來說,其樣本不僅包含了特征信息,還蘊涵著豐富的結構信息。文獻[5]提出參數化的隨機游走方法提取圖上豐富的結構信息,通過多層感知機豐富特征信息,最后將兩者進行融合提高了模型的準確率。因此,本文認為對圖數據的特征或者結構信息進行數據增強可以改善模型的性能。

數據增強擴增了樣本進而可以豐富模型的表達能力,而知識蒸餾方法可以在蒸餾的過程中融合額外的知識提升模型的性能。知識蒸餾作為一種新興的方法,主要是為了獲取輕量級的模型版本,對復雜模型進行壓縮的同時保留原始模型的絕大部分推理能力,使其可以將模型移植到其他小型設備上進行工業化落地。文獻[6]認為知識蒸餾不僅僅可以對模型進行壓縮,在壓縮的過程中通過互學習、自學習等優化策略或者補充額外數據資源對于提高壓縮后的模型性能也有較明顯的效果。

在圖上相鄰的節點往往具有相似的屬性和標簽,而圖神經網絡的本質就是鄰域節點信息的聚合,在信息聚合的過程中,相鄰節點的嵌入表示變得相似,相離節點的嵌入表示差異變大,使得節點分類任務可以區分出不同類型的節點。節點蘊涵了特征的同時,還包含了豐富的結構信息,這些信息卻沒有得到進一步的挖掘。節點特征有好有壞,鏈接有強有弱。直覺上,替換差的特征、刪除弱鏈接會優化節點的表征,從而提高節點分類任務的準確率。

綜上所述,針對現有模型對于數據先驗知識提取的局限性,旨在探索圖數據的增強方法,采用特征與結構信息增強,并在知識蒸餾范式下對圖神經網絡模型進行融合改進,打破了現有模型對圖數據自身先驗知識的感知能力,使模型可以學習到更多數據潛在知識,進而提高模型的性能。具體而言,通過引入重要程度的概念,并對節點的特征和邊計算重要度,根據重要程度對特征和邊進行對應的調整得到增強后的數據。同時,考慮到圖神經網絡的本質是鄰域節點的信息聚合并且相鄰的節點往往具有相似的特征和標簽。因此本文考慮用節點二階可達節點的特征替換弱強度的特征,完成圖上數據特征層面的增強,刪除一階鄰域節點之間不重要的邊完成結構層面的增強。之后,在知識蒸餾方法范式下,利用多教師學習完成知識嵌入。實驗結果表明,在圖節點分類任務領域,本文方法相比多個基準模型均有所提升。

1 基礎知識

1.1 圖神經網絡

隨著人工智能的迅速發展,傳統以卷積神經網絡為主的深度學習模型在計算機視覺、音頻分析以及自然語言等領域取得了不錯的成績。但是隨著研究的深入,專家發現卷積神經網絡只能接受上述規整的歐氏數據,而不能處理同樣廣泛存在的非歐圖數據。這些圖數據在形式上不能用統一的維度進行表示,節點之間的分布不盡相同,為了探索卷積神經網絡在不規則圖數據上的應用,研究人員提出了圖神經網絡。圖神經網絡從整體上可以劃分為譜域和空域圖神經網絡。譜域圖神經網絡以圖譜論為基礎,根據圖的拉普拉斯矩陣分解得到的特征值和特征向量在譜空間定義了圖上的卷積操作。由于該類方法的卷積核依賴圖的特征分解,時間和計算復雜度相對較高且不具備泛化能力。為了解決上述問題,文獻[7]提出的ChebyNet,將卷積核定義為多項式展開形式,并利用切比雪夫展開近似計算,大大降低了計算復雜度。文獻[2]在ChebyNet的基礎上進行修改,使用一階近似卷積核替代多項式展開,提出了圖卷積神經網絡(GCN)。空域圖神經網絡將卷積定義為相鄰節點之間的聚合運算,由于更加符合直覺,之后的更多模型大多屬于該類型。文獻[8]將注意力機制引入圖神經網絡提出GAT,通過注意力機制計算節點間的權重,構造一個更好的聚合函數。文獻[9]借鑒殘差網絡的思想,提出JK-Net,通過將不同的卷積層連接起來緩解過平滑現象。文獻[10]提出圖上的歸納式學習GraphSAGE,通過對鄰居節點進行采樣并結合多種聚合方式使得圖神經網絡可以在大型圖上學習。

以上模型大多從卷積層出發,通過更改卷積層或者改變聚合方式對模型進行改進,以提高模型的準確率。此外,還有一些模型從原始數據的特征和結構角度出發,在圖卷積過程中融合先驗知識從而提高模型的準確率。從數據特征角度看,文獻[11]將節點的特征隨機地與其k階鄰居的特征進行結合得到節點新的特征。文獻[12]將節點特征和其鄰居節點特征按照重要程度進行相互替換。從圖原始結構角度出發,文獻[13]將原始圖進行擾動,通過比較擾動前后圖的差異來提取額外的結構信息。文獻[14]引入節點之間的相對位置和絕對位置編碼信息。綜上,上述模型在原始圖數據的基礎上,通過添加先驗知識大大提高模型的準確率,因此本文按照相同的思路探究在圖卷積過程中融合額外的先驗知識。具體而言,分別考慮節點特征和圖拓撲結構,設計了對應的增強方法,從而使模型學習到更多知識。

1.2 知識蒸餾

2015年,Hinton等人15提出知識蒸餾方法,主要用于模型壓縮,它是一種基于教師—學生網絡的訓練方法,由于該方法簡單,壓縮后的模型體積小,且推理性能不會有很大的損耗,被廣泛應用到物聯網或者移動互聯網等缺乏算力資源的設備上。從那之后,掀起了對知識蒸餾研究的熱潮。例如在計算機視覺領域,文獻[16]利用軟標簽和特征圖進行自蒸餾,并在蒸餾的過程中保留了局部信息,在圖像分類和語義分割任務中取得了更好的性能。文獻[17]將ImageNet上預訓練好的模型蒸餾到簡單模型中,通過比較兩者激活值的差異,實現異常的檢測與定位,加速檢測和定位的同時提高了模型的精度。文獻[18]利用知識蒸餾將使用高分辨率圖像訓練的模型知識遷移到低分辨率的學生模型中實現高性能模型的壓縮。在自然語言處理領域,BERT等眾多預訓練模型自推出就刷新自然語言處理各項任務的sota結果,目前成為上游任務的首選項。但是由于這些預訓練模型的參數量動輒上億,很難進行落地,所以預訓練模型的壓縮成為近年來的研究熱點。文獻[19]提出了一種跨文本領域的蒸餾方法,其在文本資源豐富的源領域幫助下,通過知識蒸餾增強目標領域稀缺標記數據的BERT知識。文獻[20]提出一種基于對比學習BERT模型,從角距離層面擬合隱層輸出,并提出一種梯度擾動的訓練方式,增強了模型的魯棒性,在多個數據集上取得了更好的性能。在圖挖掘領域,文獻[21]首次將圖卷積神經網絡和知識蒸餾結合在一起,通過局部結構保持模塊實現教師拓撲感知知識轉移,提高了節點分類任務和3D對象識別任務的性能。文獻[22]對圖數據進行下采樣得到多個子圖進行訓練并充當教師模型,通過自注意力機制選擇最優的教師對學生模型進行教導。文獻[5]在知識蒸餾過程中通過帶參數的標簽傳播算法和多層感知機分別補充額外結構和特征信息,結果表明在蒸餾中補充額外的信息有利于提升模型的準確率。綜上,本文擬采用知識蒸餾中多教師學習方法,利用增強后的數據訓練得到多教師模型,在蒸餾過程中將知識顯示融入到學生模型中,使學生模型捕獲更多先驗知識,提高學生模型的泛化能力。

2 模型設計

面向非歐氏數據,圖卷積神經網絡巧妙地將節點的特征和圖空間結構結合在一起,大大提高了各項任務的精準度。但是隨著越來越復雜的模型被提出來,模型缺少對數據本身所包含先驗知識(特征和結構)的充分利用。基于上述所提出的問題,本文面向圖數據,提出一種顯式融合特征和結構先驗知識的圖神經網絡知識蒸餾模型,集成不同方面的先驗知識,進而打破現有模型的局限性,提高模型的準確率。整體框架如圖1所示。具體而言,利用節點特征增強和圖結構增強的方法分別對原始數據的特征和結構信息進行擴充,以便獲取更多關于數據的先驗知識,隨后將擴充后的數據輸入到任意一個GNN模型中得到不同的教師模型,原始數據輸入到同一GNN模型中充當學生模型。最后,通過最小化教師模型和學生模型輸出之間的軟目標以及學生模型輸出和標簽之間的硬目標來實現教師模型的知識注入,進而提高學生模型的準確率。

2.1 節點特征增強策略

數據和特征決定了深度學習的上限,而深度學習模型只能逼近這個上限。特征工程作為深度學習中數據處理的一步對模型的性能有著重要的影響。因此本文考慮從特征增強的角度出發對數據蘊涵的特征先驗知識進行探索。圖神經網絡中一個節點的嵌入表示受其鄰域節點的影響,直覺上,弱化節點原始特征中不重要的成分或者替換為鄰域節點特征重要的成分可以優化節點的嵌入表示,進而提高模型整體的性能。具體而言,節點特征的重要度表示為

其中:xi(1≤i≤N)表示節點i的特征;fimax和fimin分別代表節點i特征的最大和最小值。最終p表示為(1,d)的張量形式,d維中的每一位數代表著節點i相應特征維度的重要程度。通常情況下圖卷積網絡的深度大多都在兩層,也就是說每個節點聚合了二階鄰域節點的信息,所以當特征某個維度的重要值小于閾值h時,本文考慮用節點i的二階可達節點 Ni2的重要特征對節點i的特征隨機替換以便增強模型的泛化能力,其偽代碼如算法1所示。

算法1 特征數據增強策略

輸入:特征矩陣X;節點的二階可達節點字典N2;閾值h。

輸出:增強后的特征矩陣XA

1 N,K=X.shape[0],X.shape[1]

2 XA=X.clone()

3 for k in range(N):

4

f_max=max(X[k])

5

f_min=min(X[k])

6

p=1-(f_max-X[k])/(f_max-f_min)

7

if k in N2

8

tmp = X[N2.get(k)]

9

s=sum(tmp, dim=0) / tmp.shape[0]

10

s= list(s[s≥h])

11

for j in np.where(p≤h):

12

XA[k][j]=random.choice(s)

13 return XA

首先根據特征矩陣得到相應的維度,然后遍歷每一個節點,計算出節點特征的最大值和最小值,求出節點特征的重要度。接著用tmp保存節點的二階鄰域節點特征,算法的第9、10行表示用s先后保存鄰域節點的特征均值以及根據閾值挑選出認為重要的特征。最后將節點i中不重要的特征用s中的特征進行隨機替換。

2.2 圖結構信息增強策略

上述特征增強策略從節點特征的重要程度出發,將節點一些不重要的特征用其二階鄰域節點重要特征進行替換。圖數據除了節點的特征之外,還蘊涵著節點之間的拓撲結構關系。而對于結構信息的增強,本文在原始圖結構的基礎上延續上述提出的方法,通過定義邊的重要度,將不重要的邊刪除,進而實現圖的結構信息增強。

節點度是刻畫節點中心性重要度量指標,一個節點的度越大表明節點的中心性越高,該節點越重要。在圖上,一條邊連接著兩個節點,在這里本文用這兩個節點中節點度較小的對數來衡量一條邊的權重,如式(2)所示。其中:vi、vj表示一條邊的兩個節點;deg表示節點度函數。在有了邊的權重之后,定義所有邊中最大的權重和邊權重的最小值。如式(3)(4)所示,其中N表示節點個數。通過上述兩個有關圖結構全局信息,可以得到每條邊的重要程度,如式(5)所示。當Eij越小即邊的權重越小時,p就越小。與特征替換不同的是,當其邊的重要度小于閾值時,考慮直接將該邊移除。結構信息增強策略偽代碼如算法2所示。

算法2 圖結構信息增強策略

輸入:邊列表edge_index;閾值h。

輸出:修正后的edge_index。

1 a,b=edge_index

2 dgArr= degree(a)

3 for i, j in zip(a,b):

4

if i<j:

5

tmp[(i,j)]=log(min(dgArr[i],dgArr[j]))

6 E_max= max(tmp.values())

7 E_min=min(tmp.values())

8 for k,v in tmp.items():

9

p=1-(E_max-v) / (E_max-E_min)

10if p<h:

11

edge_index.remove(k)

12 return edge_index

2.3 多教師學習與訓練

知識蒸餾是一種以教師模型為主、學生模型為輔的訓練結構,其將訓練好的復雜教師模型的知識嵌入到簡單的學生模型中,進而實現模型壓縮。知識蒸餾除了用于模型壓縮之外,文獻[21]還總結了適用不同應用場景的知識蒸餾方法。其中,多教師學習作為知識蒸餾模型的變種,皆在提高學生模型在同一種任務上的性能。多教師模型不僅可以是不同的模型,也可以由具有互補性特征數據輸入到單一模型得到。因此本文提出基于多教師學習的圖神經網絡模型。具體而言,將上述特征和結構信息增強后得到的數據,輸入到任意一個GNN模型中得到教師模型,將同一GNN模型作為學生模型,通過多教師學習的方式將教師模型的知識嵌入到學生模型中,使學生模型學習到更多先驗知識,進而提高模型的性能。在訓練過程中,為了將教師的知識嵌入到學生模型中,對于同一個樣本,學生模型的嵌入表示應該盡可能地和教師模型得到的嵌入表示相似,即它們之間的歐氏距離盡可能相近。其損失函數如式(6)所示。其中:f(xis)、f(xit1)和f(xit2)分別表示同一個節點由學生模型和教師模型得到的嵌入表示。除了這部分軟目標損失外,還應該有學生模型和標簽之間的硬目標,如式(7)所示。其中:yi表示節點i真實標簽;pi表示預測值。通過交叉熵損失函數最小化預測值與真實值之間的誤差使得節點的嵌入表示更加接近真實值。最終,多教師學習的總損失函數可以表示為式(8)。

3 實驗分析

3.1 數據集描述

本文選取圖節點分類任務常用的三種公開引文網絡數據集和一個真實業務數據集來驗證所提模型,其詳細的參數如表1所示。在引文網絡中,節點表示論文,節點之間的邊表示引文之間的引用關系,節點的特征表示某個英文單詞在引文中是否出現過,其中Cora和Citeseer數據集的特征是離散的詞袋模型,而PubMed數據則使用了連續的TF-IDF表征方式。Fraud數據集是真實的電商交易數據,其中用戶被劃分為正常和欺詐兩類。數據集用手機號標識唯一節點,用19個風控特征(設備數量、夜間消費頻次等)構成節點的特征,通過手機號之間的關聯關系構造邊形成圖數據。在三個引文數據集中,本文遵循傳統的劃分方式,從每一類中分別選擇20個節點用于訓練,選擇1 000個節點用于測試。對于Fraud數據集,隨機選擇1%的節點進行訓練。由此可以看到其訓練數據量小,如何從少量可用數據中挖掘出有用信息成為圖數據挖掘領域的重要挑戰。

3.2 模型效果

本文選取了近年來具有代表性的模型進行對比,實驗結果如表2所示,其中帶*號的模型表示使用PyG框架重新復現過的結果,其他結果摘自原論文。為了盡可能消除訓練過程中的隨機因素,所有模型的實驗結果均獨立重復10次取均值得到。

由于本文所提出的多教師學習圖神經網絡模型是一種通用的學習框架,所以著重選取了GCN、GAT、PPNP三個GNN模型作為基準,并在其基礎上通過多教師學習得到對應的增強版本GCN-MT、GAT-MT、PPNP-MT。基準模型以數據的原始特征和結構作為輸入。對于增強模型,本文通過特征和結構增強策略得到擴充后的數據,并在多教師聯合學習下,將教師模型的知識嵌入到學生模型中,讓學生模型可以從多方面學習到數據的潛在信息。實驗結果表明,在引文網絡三個數據集上,多教師學習模型相較于基準模型的性能均有所提升。其中,GCN-MT相較于GAT-MT和PPNP-MT的提升幅度較為明顯,在Cora、Citeseer、PubMed三個數據集上達到了82.6%、72.2%、80.1%的準確率,較之基準模型分別提升了1%、1.3和1.1%,這是由于GCN模型直接使用原始數據進行訓練,而GAT在特征層面引入了注意力機制,PPNP在消息傳遞之前首先進行了特征變換。從某種程度上看,特征注意力機制和特征變換可以理解為特殊的特征增強策略,因此提升幅度沒有GCN-MT大。

在欺詐檢測Fraud數據集中,本文方法在GCN和PPNP模型性能基礎上,分別提高了1.8%和1.2%。由于GAT模型在該數據集上性能表現十分不穩定,所以這里沒有討論GAT及其MT版本。從實驗結果可以看出,本文方法可以有效地提高節點分類的準確率。

綜上,傳統GNN模型僅將原始數據作為輸入,利用消息傳遞機制進行更新節點的嵌入表示,無法充分利用數據潛在的先驗知識。本文模型分別在特征和結構兩個方面進行數據增強,并通過多教師學習的方式進行知識嵌入,使得學生模型學習到更多關于數據的先驗知識,進而提高模型的性能,實驗結果表明該模型的有效性。

3.3 消融實驗

為了說明本文提出多教師蒸餾學習的有效性,進一步在上述提到的三種基準模型的基礎上進行消融實驗。圖2列舉了三個數據集下,不同模型在不同增強策略下的結果。圖3展示了同一模型單一教師蒸餾和多教師蒸餾結果。圖例中,vanilla表示基準模型;FA表示利用特征增強后的數據訓練模型得到的結果;FT則表示以FA作為教師模型、基準模型作為學生模型進行知識蒸餾后得到的結果。SA和ST分別對應利用結構增強后數據模型訓練得到的結果和以SA為教師模型蒸餾后的結果。

從整體上看,圖2中柱狀圖基本呈現出先下降后上升的趨勢。從數據增強的角度來看,無論是FA還是SA,由于部分改變了原始數據,所以導致其結果大多都不如原始模型,只有PPNP這個模型在特征增強策略下,FA的效果持平或者稍有提升,這是因為PPNP模型首先對特征進行線性變換,接著利用PageRank矩陣進行消息傳遞,其泛化能力比GCN和GAT更好一點。但是當本文以FA或者SA為教師模型,原始模型作為學生模型后,利用知識蒸餾方法實現知識嵌入,保證學生模型學習到教師模型的知識,進而提高模型的性能。從圖2(a)~(c)可以看出,相較于GAT和PPNP,GCN模型在特征信息增強的方法下,其FT對應的嵌入模型性能提升較高,這也和上一節提出的觀點保持一致。

從圖3整體來看,三個模型在三個數據集上的MT版本幾乎都取得了最優的結果,只有GAT模型在PubMed的效果和ST版本保持一致,低于其FT版本,但仍高于基準模型。證明了本文提出的多教師模型蒸餾策略的有效性,但是通過對比發現,三個模型在PubMed數據上的提升并沒有那么明顯。這是因為PubMed數據集包含的節點種類太少,只有三類,節點特征的區分度不明顯,導致模型性能提升不高。綜上,雖然利用增強后的數據訓練并不會直接提高模型性能,但是通過教師模型知識蒸餾實現知識嵌入,可以讓學生模型捕獲到關于數據的先驗知識,增強學生模型的泛化能力。且將特征和結構增強的模型對學生模型同時進行融合,可以進一步地提高模型性能。

3.4 多教師蒸餾學習模型與基準模型損失函數對比

為進一步說明本文提出的基于特征結構信息增強的多教師學習模型能夠提高分類任務的性能,本節從模型損失函數的收斂情況出發,分析兩者損失函數的收斂情況,結果如圖4所示。

圖4每一行的三個子圖表示同一基準模型在三個不同數據集上的損失函數曲線。其中,MT表示本文提出的多教師學習模型,Vanilla則表示基準模型。為了方便畫圖比較收斂趨勢,本文將模型的loss值進行了min-max歸一化處理。

從圖上可以看到,所有模型的MT版本loss曲線均比Vanilla版本更加平滑,說明模型的MT版本較之原始模型更加穩定,學生模型可以從教師模型中學習到有用知識。除此之外,絕大多數模型的MT版本的loss曲線收斂速度更快,這表明GNN-MT可以從數據集中更快地學習到先驗知識。而Cora數據集上面的GCN-MT和PPNP-MT收斂稍微慢一點,這可能與Cora數據集本身有關系。綜上,GNN-MT通過特征和結構信息增強,并借助知識蒸餾框架實現知識嵌入,使得模型損失收斂更加穩定和迅速,提高模型的泛化能力。

4 結束語

本文提出了一種基于數據增強的通用圖神經網絡模型。從節點特征和邊兩個方面出發對原始數據進行增強,利用增強后的數據訓練模型得到教師模型,在知識蒸餾作用下實現教師模型知識的遷移,使得學生模型感知到更多數據先驗知識,進而提高學生模型的性能。通過多個數據集的對比實驗可以看到,多教師模型相較于基準模型性能均有所提升,證明了本文方法的有效性。此外,雖然更改了部分數據的特征和結構信息,增加了擾動信息,導致教師模型的準確率略低于基準模型,但是通過教師知識蒸餾,實現了學生模型性能的反超。

在接下來的工作中,將優化改進本文提出的增強策略,提出更適合節點特征和圖結構信息增強的策略,使得單獨的教師模型性能都可以超越基準模型。此外,研究在數據不變的情況下,學生模型是否可以從側重不同的GNN教師模型中學習到有效知識,進一步探索知識蒸餾在圖神經網絡方面的應用。

參考文獻:

[1]徐冰冰, 岑科延, 黃俊杰, 等. 圖卷積神經網絡綜述[J]. 計算機學報, 2020,43(5):755-780. (Xu Bingbing, Cen Keyan, Huang Junjie, et al. A survey on graph convolutional neural network[J]. Chinese Journal of Computers, 2020,43(5): 755-780.)

[2]吳博, 梁循, 張樹森, 等. 圖神經網絡前沿進展與應用[J]. 計算機學報, 2022,45(1): 35-68. (Wu Bo, Liang Xun, Zhang Shusen, et al. Advances and applications in graph neural network[J]. Chinese Journal of Computers, 2022,45(1): 35-68.)

[3]Scarselli F, Gori M, Tsoi A C, et al. The graph neural network model[J]. IEEE Trans on Neural Networks, 2009,20(1): 61-80.

[4]Kipf T N,Welling M. Semi-supervised classification with graph convolutional networks[C]//Proc of the 5th International Conference on Learning Representations. 2017.

[5]Cheng Yang, Liu Jiawei, Chuan Shi. Extract the knowledge of graph neural networks and go beyond it: an effective knowledge distillation framework[C]//Proc of the 30th International World Wide Web Conference. New York: ACM Press, 2021: 1227-1237.

[6]黃震華, 楊順志, 林威, 等. 知識蒸餾研究綜述[J]. 計算機學報, 2022,45(3):624-653. (Huang Zhenhua, Yang Shunzhi, Lin Wei, et al. Knowledge distillation: a survey[J]. Chinese Journal of Computers, 2022, 45(3): 624-653.)

[7]Defferrard M, Bresson X, Vandergheynst P. Convolutional neural networks on graphs with fast localized spectral filtering[C]//Proc of the 30th Conference on Neural Information Processing Systems. 2016: 3837-3845.

[8]Veli?kovi? P, Cucurull G, Casanova A, et al. Graph attention networks[C]//Proc of the 5th International Conference on Learning Representations. 2017.

[9]Xu K, Li Chengtao, Tian Yonglong, et al. Representation learning on graphs with jumping knowledge networks[C]//Proc of the 35th International Conference on Machine Learning. 2018: 5449-5458.

[10]Hamilton W,Ying R,Leskovec J.Inductive representation learning on large graphs[C]//Proc of the 31st Advances in Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:1024-1034.

[11]Feng Wenzheng, Zhang Jie, Dong Yuxiao, et al. Graph random neural networks for semi-supervised learning on graphs[C]//Proc of the 34th Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 22092-22103.

[12]Wang Yiwei, Wang Wei, Liang Yuxuan, et al. NodeAug: semi-supervised node classification with data augmentation[C]//Proc of the 26th Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2020: 207-217.

[13]Wei Jin, Yao Ma, Liu Xiaorui, et al. Graph structure learning for robust graph neural network[C]//Proc of the 26th Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2020: 66-74.

[14]Liu Zemin, Fang Yuan, Liu Chenghao, et al. Relative and absolute location embedding for few shot node classification on graph[C]//Proc of the 35th AAAI Conference on Artificial Intelligence. 2021: 4267-4275.

[15]Hinton G E, Vinyals O, Dean J. Distilling the knowledge in a neural network[EB/OL]. (2015-03-09). https://arxiv. org/abs/1503.02531.

[16]Ming Ji, Shin S, Hwang S, et al. Refine myself by teaching myself: feature refinement via self-knowledge distillation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10664-10673.

[17]Salehi M, Sadjadi N, Baselizadeh S, et al. Multiresolution knowledge distillation for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14897-14907.

[18]Fu Kui, Shi Peipei, Song Yafei, et al. Ultrafast video attention prediction with coupled knowledge distillation[C]//Proc of the 34th AAAI Conference on Artificial Intelligence. 2020: 10802-10809.

[19]Feng Lingyun, Qiu Minghui, Li Yaliang, et al. Learning to augment for data-scarce domain BERT knowledge distillation[C]//Proc of the 35th AAAI Conference on Artificial Intelligence. 2021: 7422-7430.

[20]Fu Hao, Zhou Shaojun, Yang Qihong, et al. LRC-BERT: latent-representation contrastive knowledge distillation for natural language understanding[C]//Proc of the 35th AAAI Conference on Artificial Intelligence. 2021: 12830-12838.

[21]Yang Yiding, Qiu Jiayan, Song Mingli, et al. Distilling knowledge from graph convolutional networks[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 7072-7081.

[22]Tang Hui, Liang Xun, Wu Bo, et al. Graph ensemble networks for semi-supervised embedding learning[C]//Proc of International Conference on Knowledge Science, Engineering and Management. Berlin: Springer, 2021: 408-420.

[23]Zhan Kun, Niu Chaoxi. Mutual teaching for graph convolutional networks[J]. Future Generation Computer Systems, 2021,115: 837-843.

[24]Johannes K, Aleksandar B, Stephan G. Predict then propagate: graph neural networks meet personalized PageRank[C]//Proc of the 7th International Conference on Learning Representations. 2019.

主站蜘蛛池模板: 丁香婷婷综合激情| 亚洲人成网线在线播放va| 超碰91免费人妻| 日韩免费视频播播| 国产成人毛片| AV不卡国产在线观看| 久久久国产精品无码专区| 亚洲精品大秀视频| 亚洲人成日本在线观看| 成人字幕网视频在线观看| 丰满人妻久久中文字幕| 国产精品漂亮美女在线观看| 欧美三级自拍| 国产不卡网| 成人一级黄色毛片| 青青青视频91在线 | 亚洲伊人久久精品影院| 亚洲AV电影不卡在线观看| 亚洲无码视频喷水| 蜜臀av性久久久久蜜臀aⅴ麻豆| 中文字幕66页| 国产成人综合网| 91久久夜色精品国产网站| 71pao成人国产永久免费视频 | 国产久操视频| 国产91小视频在线观看| 亚洲国产精品久久久久秋霞影院| 亚洲欧洲天堂色AV| 浮力影院国产第一页| 激情乱人伦| 免费va国产在线观看| 亚洲成人动漫在线观看| 国产18页| 国产av无码日韩av无码网站| 香蕉99国内自产自拍视频| 91久久偷偷做嫩草影院| 欧美精品影院| 男人天堂伊人网| 欧美精品一区在线看| 国产成人亚洲精品色欲AV | 国产精品伦视频观看免费| 内射人妻无套中出无码| 黄网站欧美内射| 亚洲国产av无码综合原创国产| 91在线高清视频| 欧美日韩北条麻妃一区二区| 欧美日韩亚洲国产主播第一区| 五月婷婷伊人网| 欧美精品色视频| 久久精品丝袜高跟鞋| 精品欧美视频| 97国产在线播放| 一区二区影院| 亚洲AV成人一区二区三区AV| 国产丝袜无码一区二区视频| 国产门事件在线| 国产午夜福利片在线观看| 无码国产伊人| 亚洲免费三区| 欧美亚洲综合免费精品高清在线观看| 免费高清a毛片| 国产精品亚洲日韩AⅤ在线观看| 亚洲日韩国产精品综合在线观看| 欧美成人区| 亚洲欧美日韩成人在线| 天天躁狠狠躁| 国产第一页亚洲| 国产午夜人做人免费视频中文| 国产无码精品在线播放| 夜夜高潮夜夜爽国产伦精品| 67194在线午夜亚洲 | 人妖无码第一页| 国产精品吹潮在线观看中文| 亚洲综合一区国产精品| 国产亚洲精品va在线| 日本不卡在线| 国产在线第二页| 在线免费亚洲无码视频| 在线欧美国产| 妇女自拍偷自拍亚洲精品| 久草视频精品| 亚洲精品欧美重口|