











摘 要:近年來,圖神經網絡由于其豐富的表征和推理能力受到廣泛的關注,然而,目前的研究聚焦于卷積策略和網絡結構的調整以獲得更高的性能,不可避免地面臨單一模型局限性的約束。受到集成學習思想的啟發,面向圖神經網絡創新性地提出一套集成學習框架(EL-GNN)。不同于常規的文本和圖像數據,圖數據除了特征信息外還包括了豐富的拓撲結構信息。因此,EL-GNN不僅將不同基分類器的預測結果進行融合,還在集成階段額外補充了結構信息。此外,基于特征相似或結構鄰居節點通常具有相似標簽的先驗假設,借助特征圖重構,進一步優化集成策略,充分平衡了節點的特征和結構信息。大量實驗表明,提出的集成策略取得了良好的成效,并EL-GNN在節點分類任務上顯著優于現有模型。
關鍵詞:圖神經網絡;集成學習;特征相似圖;節點分類
中圖分類號:TP181 文獻標志碼:A
文章編號:1001-3695(2022)03-004-0668-07
doi:10.19734/j.issn.1001-3695.2021.09.0352
基金項目:國家重點研發計劃資助項目(2018YFC0807105);國家自然科學基金資助項目(61462073);上海市科學技術委員會科研計劃項目(17DZ1101003,18511106602,18DZ2252300)
作者簡介:張嘉杰(1999-),男,河南焦作人,碩士研究生,主要研究方向為圖神經網絡、數據挖掘;過弋(1975-),男(通信作者),江蘇無錫人,教授,博導,博士,主要研究方向為文本挖掘、圖神經網絡(guoyi@ecust.edu.cn);王家輝(1995-),男,上海寶山人,博士研究生,主要研究方向為異常檢測、圖深度學習;王雨(1998-),女,山東泰安人,碩士研究生,主要研究方向為文本挖掘、對話情感分析.
Ensemble learning framework for graph neural network with feature and structure enhancement
Zhang Jiajie1,Guo Yi1,2,3?,Wang Jiahui1,Wang Yu1
(1.Dept.of Computer Science amp; Engineering,East China University of Science amp; Technology,Shanghai 200237,China;2.Business Intelligence amp; Visualization Research Center,National Engineering Laboratory for Big Data Distribution amp; Exchange Technologies,Shanghai 200436,China;3.Shanghai Engineering Research Center of Big Data amp; Internet Audience,Shanghai 200072,China)
Abstract:Recently,graph neural networks receive widespread attention due to their rich representation and reasoning capabilities.To best knowledge,current research mainly focuses on amending the convolutional strategy and network structure for higher performance,so the performance will be inevitably constrained by the limitations of the single model.Inspired by the idea of ensemble learning,this paper innovatively proposed an ensemble learning framework for graph neural network(EL-GNN).Unlike regular" text and images,graph data not only had features but also had rich topology information.Therefore,EL-GNN additionally supplemented the structure information during the ensemble stage rather than merely integrating the prediction results of independent classifiers.Besides,this paper further revised the ensemble strategy through reconstructing a feature-level similarity graph for subsequent assembling,which balanced the feature and structure information on the basis of the assumptions of those nodes with the similar feature or easy reachability of high probability to share the same labels.The comprehensive experiments indicate that the proposed ensemble strategy achieves an impressive performance and EL-GNN is superior to other off-the-shelf models on the node classification task.
Key words:graph neural network;ensemble learning;feature similarity graph;node classification
0 引言
互聯網時代的來臨催生了諸多新的復雜業務應用場景,例如社交媒體中的用戶興趣挖掘、引文網絡中的異常引用檢測、電商網絡中的欺詐檢測、生化網絡中的藥物性質預測等。在這些場景中的各數據對象除了自身信息外,還存在著大量的關聯關系,傳統的關系型數據庫因其結構化的特點,每條數據都被視做獨立的個體進行存儲,難以刻畫數據對象之間的關系[1]。圖數據庫應用圖形理論存儲實體之間的關系信息可以更好地描述各數據對象間的拓撲結構信息,近年來受到了廣泛的應用。與此同時,從海量圖數據中挖掘出有效信息,進而賦能產業發展成為了當下的研究焦點。
深度學習在圖像和文本領域已經取得了顯著的成效,但是在圖數據領域仍處于起步階段。2017年,Kipf等人[2]首次將深度學習遷移到了圖領域,并擁有了強大的表征能力,打破了諸多圖計算任務的瓶頸,同時也為后續的圖深度學習領域奠定了相應的理論基礎。在那之后,圖卷積神經網絡的研究方興未艾,大量學者從不同的視角出發對原始的第一代圖卷積神經網絡進行改進優化。但是現有圖神經網絡的研究主要集中于卷積聚合層的重定義和網絡結構的優化,鮮有模型從集成的角度融合單一分類器的學習能力來提升最終模型的泛化能力。
集成學習可以捕捉到不同模型的優劣。傳統面向結構化數據的模型集成方法通常是依據不同的集成策略,將不同基礎模型的輸出結果進行融合,但是對于圖數據來講,還有豐富的拓撲結構信息,僅僅對節點的預測結果進行簡單集成,而忽略了節點間的關聯關系,可能會存在一定的局限性,進而影響模型的表征能力。
圖神經網絡補充了節點之間的拓撲關系,豐富了模型的表征能力,在各類任務中取得了顯著的成效。其本質可以看做鄰域節點的聚合過程,依托于圖上相鄰的節點通常具有相同標簽的先驗假設,當在圖上呈現出孤立節點或者群體的狀態時,圖神經網絡難以有效地對其進行表征和預測。在這種場景下,其結構信息很少,弱化結構信息并增強節點特征信息可以更好地提升模型的整體效果。
基于上述問題,本文旨在探索融合集成思想提高現有模型在圖上節點分類的性能,并結合圖數據結構的特點,在模型預測結果集成的基礎上,補充節點間的拓撲結構信息。此外,將節點的結構和特征信息進行統一融合,提出一套融合結構和特征信息的圖神經網絡集成模型(ensemble learning framework for graph neural networks,EL-GNN)。EL-GNN的集成策略中涉及了節點自身、結構信息和特征信息的融合。考慮到不同模型在聚合策略和網絡結構上的差異,EL-GNN根據其特點選取了一系列不同的基分類器進行節點自身和結構信息集成。進一步,通過特征相似度計算和特征圖重構來捕捉特征相似節點之間的關系,進而在集成策略中增強特征和結構信息。實驗證明,本文提出的集成策略可以有效地提高節點分類的準確率。
本文面向圖數據設計了一套通用的集成學習框架來優化現有的圖神經網絡模型,其融合不同模型卷積聚合策略的優劣,進而打破單一模型的瓶頸。針對圖數據的特點,設計了一套新的集成策略,在傳統模型預測結果集成的基礎上疊加了節點拓撲結構信息,弱化孤立節點的結構信息,通過構造特征相似圖增強其特征信息,并在集成過程中促進圖上特征相似節點的信息聚合。
1 基礎知識
1.1 圖神經網絡
隨著深度學習的快速發展,卷積神經網絡在圖像和自然語言處理領域取得空前的成功。為了應對不規則圖數據結構中的各類場景并將卷積神經網絡擴展到圖結構數據中去,研究人員提出了兩種廣泛的策略,分別是譜卷積和空間卷積神經網絡。
譜卷積神經網絡主要依托于譜圖理論[3~5]將卷積核直接作用在譜空間的輸入信號上。例如文獻[6]從譜空間進行突破,將圖的拉普拉斯矩陣進行譜分解,并利用得到的特征值和特征向量在譜空間定義卷積操作。Kipf等人[2]借助一階切比雪夫多項式展開建立了圖卷積神經網絡(graph convolutional network,GCN)。譜方法中會涉及Laplacian矩陣的特征值和特征向量計算,而特征分解會極大程度地提升模型的復雜度。
在GCN的基礎上,Wu等人[7]提出SGC模型,移除了網絡層中的非線性變換。Klicpera等人[8]將個性化的PageRank算法和圖神經網絡融合提出PPNP模型,將特征變換和特征傳播進行解耦。PPNP和SGC雖然從一階圖卷積神經網絡出發,但可以看成通過聚合函數分析節點特征的傳播,可以看做是譜方法和空間方法的橋梁。
空間卷積神經網絡拋棄了Laplacian矩陣的譜分解操作,直接在圖上定義卷積運算,即針對在空間上相近的鄰域進行運算,極大地降低了模型的計算復雜度。Velicˇkovic'等人[9]提出圖注意力網絡(GAT)利用注意力機制來定義圖卷積;文獻[10]將圖神經網絡從直推式學習擴展到歸納式學習;Xu等人[11]提出了JK-Net,將k個卷積層輸出結果拼接在一起緩解過平滑現象,增加了圖神經網絡模型的深度。
現有的研究從不同的視角對聚合策略和網絡層面進行改進優化,例如GCN、GAT側重結構層面鄰居聚合,PPNP側重于特征的變換,JK-Net側重于遠距離節點間的聚合。單一模型的表達能力受限于其網絡層設計,且不同模型具有天然的偏好和側重點。單一模型難以全面考慮到所有的因素,因此本文擬探索融合集成學習的方式來提升現有模型的表達能力,消除這種天然偏好給模型帶來的誤差以提高性能。
1.2 集成學習
集成學習是指使用多種兼容的學習算法或模型來執行單個任務的技術,目的是得到更佳的預測表現,目前在文本、圖像領域取得了顯著的成功。例如,文獻[12]結合多種機器學習算法在航空圖像上的結果進而提高了土地利用識別率。文獻[13]集成多個深度卷積神經網絡在人臉識別領域取得了更好的性能。除了圖像領域外,在自然語言處理領域中,文獻[14]系統地比較了Transformer架構的多個變體模型在自然問答數據集上的性能,將現有變體模型組合為問答系統構建更準確的堆疊集成模型,顯著地提高了問答任務的性能。文獻[15]通過集成對抗訓練避免自然語言推理中的假設偏差。
雖然集成學習在其他領域應用廣泛,但是在圖領域還沒有用集成學習的思想去提高圖上計算任務。同時,考慮到不同的圖神經網絡具有不同的側重,單一模型的分類準確率受限于模型自身的設計和圖數據豐富的拓撲結構信息。此外,考慮到圖數據上的節點分類任務,通常采用半監督的訓練方式,本文擬采用Stacking集成的思想,將多模型的預測結果進行堆疊,并針對圖數據的特點在傳統模型預測結果集成的基礎上疊加了節點拓撲結構信息。同時考慮到圖上孤立節點或者群體的結構信息不足,通過構造特征圖來增強其特征信息,在集成學習過程中促進圖上特征相似節點的信息聚合。
2 模型設計
圖神經網絡誕生之后備受關注,吸引了大量的學者對其進行優化改進。然而,現有的研究大多關注于對網絡結構和鄰域聚合策略的調整,以獲取更精準有效的節點嵌入表示,進而提升節點級分類任務的有效性。不同模型從不同的視角進行了優化改進,但是單一的模型難以全面地考慮到各個方面的影響因素,存在一定的局限性。因此,本文致力于面向圖數據設計一套通用的集成學習框架,融合不同模型在節點表示上的優勢,進而打破現有模型的瓶頸。圖數據在特征的維度上補充了結構信息,因而本文所提出的EL-GNN集成框架中,除了對不同基分類器預測結果的集成外,還融合了結構信息的聚合。進一步,針對卷積過程導致的過平滑現象,EL-GNN通過特征圖重構和集成,進一步對模型進行了優化。EL-GNN整體流程如圖1所示,主要包括了基分類器設計、特征圖重構和集成策略等步驟。首先根據各類圖節點分類模型的差異選取合適的基分類器;通過節點相似度計算和特征圖重構來增強特征信息的融合;最后結合圖數據的特點,在傳統預測結果集成的基礎上融合了原始圖結構和特征圖信息,提出了一套高效的集成策略。
2.1 基分類器設計
在模型集成的過程前,首先需要構造一系列的基分類器,以獲取初步的分類標簽,然后再根據一定的集成策略,將不同基分類器的預測結果進行融合,進而獲得最終的預測結果。在集成學習的模式下,將一系列的弱分類器融合后就可以獲得一個強分類器。現有面向節點級分類任務的圖模型其本質為鄰域節點的特征聚合,在相似的聚合策略下模型傾向于給出相似的預測結果。因此,綜合考慮到不同模型在聚合策略和網絡結構上的差異,本文選定了GCN、GAT、PPNP和SGC模型作為四種基礎分類器,其具體定義如下。
2.2 結構和特征信息集成
不同于傳統面向結構化數據的模型集成,圖數據除了特征維度外,還疊加了結構信息,如圖2所示。因此本文擬根據圖數據的特點在集成過程中融合結構信息的集成。此外,各類圖神經網絡均面臨著過平滑的問題,即隨著卷積的進行,節點表示會逐漸收斂到全圖表示。為解決上述問題,EL-GNN通過特征相度計算、特征圖重構、特征信息集成等步驟對模型作進一步優化。結構和特征信息集成如圖2所示。
2.2.2 特征信息集成
基于假設1這條先驗信息,圖卷積神經網絡的鄰域節點特征聚合過程補充節點之間的拓撲結構信息,提高了各圖任務的準確度。但是,在真實的業務場景中,有些節點沒有鄰居,或者鄰居很少,對于這些孤立節點使用圖卷積網絡則會產生局部過平滑現象,從而導致節點分類性能下降,因此這些孤立節點的圖結構是沒有太大的價值。
如圖2(左上)中的原始圖結構,圖上節點x10和x11隸屬于不同的類別,在一個具有兩層圖卷積神經網絡層的作用下,10和11號節點的最終表征可以用式(8)(9)表示。
從上面兩個公式可以看出來,這兩個節點經過圖卷積變換后,節點的特征趨于一致,產生局部過平滑現象,從而無法區分其真實標簽。直覺上,在這種場景下,弱化結構信息并增強節點特征信息可以更好地提升模型的整體效果。因此針對這類有效結構信息很少的孤立節點,本文依托于另一個先驗假設2,即具有高特征相似度的節點通常具有相同的標簽。
假設2:if sim(xi,xj)gt;threshold→Label(i)=Label(j)
利用節點的特征,重新構造了一張特征圖,如圖2(左下)所示,在重構后的圖結構中,10和11號節點的局部結構發生改變,其鄰域節點的標簽大多屬于同一類別。在先驗假設2的前提下,10和11號節點被分類正確的置信度變大,從而提高了模型的性能。
特征圖的構建皆在捕捉特征相似的節點之間的關系,增強孤立節點的特征信息,從而改善其分類效果。特征圖的構建首先計算出兩兩節點之間的特征相似度,對于離散型數據采用Jaccard相似度,即兩個節點具有相同集合的數量,對于連續型數據使用閔氏距離計算相似度,計算方式如式(10)所示。
sim(xi,xj)=|xi ∩xj||xi ∪xj|xi,xj∈{0,1}
(∑|xi-xj|p)1/p其他(10)
計算完節點間的相似度之后,設定閾值d,遍歷圖上所有節點,對于每一個節點選取那些節點相似度大于閾值的節點對進行連邊操作,進而完成特征圖的重構工作,如式(11)所示。其中Af表示重構后特征圖Gf(V,Ef)的鄰接矩陣。
Af(i,j)=1sim(xi,xj)gt;d
0其他(11)
基于上述定義,將節點vi在特征圖Gf(V,Ef)中的鄰居Rf(vi)={vk|(vi,vk)∈Ef}作為節點的特征信息進行融合。
2.3 集成策略
針對圖數據的特點,EL-GNN在節點自身的基礎上疊加了結構和特征信息,提出一套新的集成策略,如圖3所示。借助已標注的訓練數據{(xi,yi)|yi=known},訓練獲得M個基分類器,分類器k對數據對象xi的預測結果即為Pki。根據2.2節中結構和特征信息的定義,節點vi在原始圖結構和特征圖結構中的鄰居分別記為Rs(vi)和Rf(vi)。
Rs(vi)={vk|(vi,vk)∈Es}={Si1,Si2,…,Sij}
Rf(vi)={vk|(vi,vk)∈Ef}={Fi1,Fi2,…,Fij}(12)
傳統的集成模型通常是根據一定的集成策略,針對每條數據對象xi在M個不同基分類器的分類結果Pk(xi)=Pki(k≤M)進行加權平均,可以表示為
z(i)=Ensemble(P1(vi),P2(vi),…,PM(vi))(13)
上述集成方式中,每個節點被當做獨立存在的個體進行研究,而圖數據中除了節點的特征外還包括了節點與節點之間的拓撲結構信息,基于2.2節中假設1、2:在圖上緊密相連或者具有高特征相似度的節點均有很大的概率具有相同的標簽。因此,在設計集成策略時不僅僅對節點自身的分類結果進行融合,還充分考慮了其在原始圖中的鄰居Rs(x)和特征圖中鄰居Rf(x)的概率分布,最終的預測結果可以表示為
其中:K(vi)是節點集合,包含了節點本身和其原始圖結構及特征圖的一階鄰居節點。節點vi最終的預測結果是基分類器在K(vi)集合上的集成結果,充分考慮了結構和特征信息,進而提升現有模型的分類準確率。
集成的整個過程可以用圖2右下角的圖表示,節點1為中心節點,虛線左邊是重構后特征圖中節點1的局部結構,其鄰居可以表示為Rf(1)={3,11},右邊是節點1的原始圖局部結構,其鄰居可以表示為Rs(1)={2,3,4,5,7}。下方是上述節點在基分類器下的結果展示。原始圖結構下方的矩形分別代表著特征和結構角度的集成結果。如果簡單地使用傳統的集成策略,四個基分類器在節點1上分類結果均勻分布,從而影響性能,在這種情況下,通過融合結構和特征信息顯著改善了分布情況。在本例中,雖然從結構角度出發,各類別C0~C5的頻次分布為[2,4,4,3,3,4],則節點1可能被分為C1,C2或C5,但是通過特征圖節點信息的聚合,并合并兩者的結果得到最終的類別概率分布為[2,8,5,4,5,4],使得節點1被分為C1的概率顯著高于其他類別,因此最終選擇節點1的分類結果為C1。
其偽代碼如算法1所示。首先用simf存儲了節點之間的特征相似度,接下來遍歷每一個節點,選取節點相似度大于閾值的節點對并令Afij=1。完成特征圖構建后,temp是一個臨時變量,保存著多模型從結構和特征角度在當前節點的得分統計,內層的第一個for循環從結構信息角度聚合節點的預測結果,第二個for循環從特征信息角度聚合節點的預測結果,內層循環結束后得到該節點的預測結果。最終返回多模型融合的預測結果predFinal。
算法1 集成模型算法
輸入:圖特征矩陣X,圖鄰接矩陣As,閾值d,節點數N。
輸出:節點預測結果。
simf=XXT //特征相似度計算
Af(i,j)=zeros(N,N) //特征圖重構
for i in N
for j in N
if simf(i,j)gt;d
Af(i,j)=1
else
Af(i,j)=0
predFinal=[]
for i in N
temp=[]
for index,j in enumerate(Asi)
if j==1
for each in pred*
temp[each[index]]+=1
for index,j in enumerate(Afi)
if j==1
for each in pred*
temp[each[index]]+=1
predFinal[i]=argmax(temp)
return predFinal
3 實驗分析
3.1 數據集描述
本文選取了三種常見的引文網絡數據集進行實驗來驗證所提出模型的有效性,其具體信息如表1所示。在引文網絡中,節點表示一篇論文,節點之間的邊表示論文之間的引用關系。參照文獻[16]中的劃分方式,從每個類別的數據中選取20條數據進行訓練,并對1 000條數據進行測試,數據集的標注比例為0.3%~5%,因此模型面臨著缺乏有效標注的挑戰。數據集的劃分方式包括了public和random兩種,在public劃分方式中,數據集的劃分方式為固定的,即每輪實驗中所采用的訓練節點和測試節點均為固定的,而random模式下則全部為隨機。
3.2 模型效果對比
首先,將本文將所提出的EL-GNN與各類主流的模型進行了對比。實驗結果如表2所示,標注*部分表示采用PyG框架對四種基分類復現后的結果,其余實驗結果摘自其他論文。為了消除深度學習訓練過程中引入的隨機性,所有實驗均重復了10次,進而更客觀地對模型結果進行描述。
從表2結果中可以看到,在Cora和Citeseer數據集中的固定劃分模式下,EL-GNN比目前最優的模型準確率分別提高了0.65%和0.16%。與單一的分類器相比,EL-GNN集成模型通過融合不同模型的優勢,比單一分類器的效果要更優。此外,在隨機劃分模式下,EL-GNN在Citeseer數據集上提升了1.34%,幅度顯著高于固定模式。相比于固定劃分模式,隨機劃分的模式可以更加客觀準確地描述模型的性能,因此,EL-GNN采用集成學習的思想,有效打破了單一模型的瓶頸。
EL-GNN模型在集成策略中除了節點自身信息的集成外,額外疊加了結構和特征信息。根據統計Citeseer、Core孤立節點部分所占比例分別為33.7%,8.5%。由于EL-GNN可以增強孤立節點的特征信息,所以其在Citeseer上提升更顯著,而因為PubMed數據集中沒有孤立部分,且SGC基分類器在 PubMed數據集上的效果顯著低于其他分類器,因而模型效果不佳。除此之外PubMed數據集只有三個類別,分別為糖尿病實驗和Ⅰ/Ⅱ型糖尿病理論論文,這三類引文之間本身存在著非常緊密的聯系,因此在模型融合過程中,節點每個類別的概率分布較平均,以至于分錯概率增大,導致效果并不明顯。此外,EL-GNN實驗結果的方差略低于其他模型,從側面說明模型的穩定性更好。
3.3 集成組合效果分析
3.2節中EL-GNN模型將四種基分類器全部進行了集成,進一步,本文探索了其他集成組合的效果。表3列舉了六種2階組合EL-GNN-2和四種3階組合EL-GNN-3的實驗結果。根據表3的結果可以看出,多模型的集成后,削弱了各模型的劣勢,并極大程度地發揮了各模型的優勢,進而集成后的效果均高于所使用的單一基分類器,并且模型的方差更小,實驗結果更穩定。縱使單一的SGC模型性能并不那么出色,采用EL-GNN框架與其他模型進行集成后,依舊可以得到顯著的提升。
此外,隨著基分類器組合數量的提升,模型的效果呈現遞增的趨勢。在Cora數據中,六種EL-GNN-2模型的極差為1.54,而四種EL-GNN-3的極差降低為0.66,因而隨著分類器的增加,各類基分類器通過互補,EL-GNN集成模型的效果也逐漸趨于穩定。
在考慮模型泛化能力時,通常情況下隨機劃分方式更能表示模型的泛化能力,而從實驗效果中看,本文提出的集成策略在隨機劃分方式的數據集上效果提升更加明顯,說明了其集成策略的有效性。
綜合來看,在所有EL-GNN-2和EL-GNN-3組合中,GCN+PPNP和GCN+GAT+PPNP的效果更優,且分類效果基本一致。因此,在EL-GNN框架下,僅需要選取很少合適的基分類器,就可以取得較高的準確率,這進一步降低了模型的計算需求。
3.4 案例學習
為了進一步論證本文提出的EL-GNN模型所設計的結構和特征信息集成的有效性,從Cora數據集中選取了部分案例節點進行深入探索,如表4所示。其中第1 844號節點,四種基分類器分類結果都是C0,但其真實標簽卻為C3。通過本文提出的特征圖重構策略,該節點在多個集成模型下的結果如表4所示。通過選擇該節點的類別分布的最大值作為預測的結果,可以發現該節點預測結果在集成學習的策略下得到修正。第1918號節點,四個基分類器的分類結果分別是C0、C6、C0和C1,而真實的標簽為C6。通過本文提出的集成學習策略,可以得到該節點各模型下的類別分布,進而得到預測結果,從分布中可以看出,雖然只有一個基分類器的結果是正確的,但在本文提出的集成學習策略下,集成模型可以學習到模型的優點,得到正確的預測結果,從而提高模型的準確率。
3.5 集成與單一模型對比
進一步,為了更直觀地說明本文提出的集成策略的有效性,本節選取了EL-GNN-2和EL-GNN-3中兩組最優的組合策略模型,皆在分析集成模型和其對應基分類器的性能,并用折線圖的方式進行可視化展示,如圖4所示。其中,第一行和第二行分別展示的是GCN+APPNP和GCN+GAT+APPNP模型在Cora和Citeseer數據集上的結果,紅色折線代表著EL-GNN模型的效果(見電子版)。從圖中可以看出,在10次實驗過程中,EL-GNN的效果始終要比任何一個基分類器效果高,且其折線的波動范圍比基分類器的波動范圍小,表明了EL-GNN模型更加穩定。
3.6 不同集成策略對比
為了進一步驗證本文提出的集成策略的有效性,在3.3節實驗的基礎上,本節從EL-GNN-2和EL-GNN-3各選取了兩個組合模型在集成的過程中僅考慮結構或者特征信息。實驗結果如圖5、6所示。圖中每組柱狀圖從左到右分別表示考慮結構+特征,僅結構和僅特征信息的結果。從圖中可以看出,結構和特征融合的集成策略比單獨考慮結構或者特征的效果要好,這也說明了本文提出的集成策略可以有效地融合特征和結構信息,從而提高模型的性能。同時,從圖中可以看出,僅用特征的集成策略的效果比僅用結構的效果要好,這是因為通過本文提出的特征圖重構策略可以有效緩解孤立節點的過平滑問題。
3.7 特征相似度閾值對模型集成的影響
在本文提出的集成策略中,特征圖的重構起著重要作用。為了得到一個良好的特征圖用于后續的任務中。本節在Cora和Citeseer數據集上探究了特征相似度閾值對模型集成的影響。圖7和8是不同的集成模型在Cora和Citeseer數據集上根據不同的特征相似度閾值得到的曲線圖。關于特征相似度閾值的范圍設定,由于這兩個數據集是離散的詞袋模型表示的節點特征,所以采用Jaccard相似度計算,并認為相似度大于3兩個節點特征才相似。從圖中可以看出,對于Cora數據集來說,模型的性能隨著閾值的變化有著相似的變化趨勢,曲線呈現出先增后減,再趨于平穩,當閾值設定為5時構建的特征圖是最優的。對于Citeseer數據集來說,由于特征維度比Cora多,所以當閾值為8時,所有模型均達到最佳的性能。
4 結束語
本文提出了一種基于圖模型的集成學習策略。與傳統的模型集成策略不同,本文提出的集成策略充分考慮到了圖數據既包含特征信息又有豐富的結構信息,以及在相鄰節點和特征相似節點具有相同標簽的先驗假設基礎上,充分融合了圖的結構和特征信息。有針對地對過平滑現象導致容易分錯的孤立節點或者群體采取特征增強的策略,從而緩解了過平滑現象,提高了模型的性能。在引文網絡上的實驗證明了本文策略的有效性。通過本文選取的四種基分類器的組合實驗可以看出,所有的組合模型性能相較于其組合中的任何一個基分類器得到提升。但是,當基分類器預測準確率差距較大時,模型提升并不顯著。此外,當數據集中孤立節點比例較低時,特征相似度的集成提升幅度非常有限。
在接下來的工作中,本文計劃針對不同的模型對結構和特征的側重,研究在集成過程中的模型結構和特征信息的權重分配問題和如何充分挖掘數據集的結構和特征信息,為具體的數據集選擇合適的基分類器提出選擇標準,有的放矢地選擇基分類器,提高集成模型的準確率,以及通過特征相似圖改善孤立節點預測結果,深入探索節點位置信息對預測結果的影響,并針對不同的節點位置信息設計不同的集成策略,進一步探索集成學習在圖卷積神經網絡方面的作用。
參考文獻:
[1]徐冰冰,岑科延,黃俊杰,等.圖卷積神經網絡綜述[J].計算機學報,2020,43(5):755-780.(Xu Bingbing,Cen Keting,Huang Junjie,et al.A survey on graph convolutional neural network[J].Chinese Journal of Computers,2020,43(5):755-780.)
[2]Kipf T N,Welling M.Semi-supervised classification with graph convolutional networks[C]//Proc of the 5th International Conference on Learning Representations.2017.
[3]Ng A Y,Jordan M I,Weiss Y.On spectral clustering:analysis and an algorithm[C]//Proc of the 14th International Conference on Neural Information Processing Systems:Natural and Synthetic.Cambridge,MA:MIT Press,2001:849-856.
[4]Mercado P,Tudisco F,Hein M,et al.Spectral clustering of signed graphs via matrix power means[C]//Proc of the 36th International Conference on Machine Learning.2019:4526-4536.
[5]Habashi S,Ghanem N M,Ismail M A,et al.Enhanced community detection in social networks using active spectral clustering[C]//Proc of the 31st ACM Symposium on Applied Computing.New York:ACM Press,2016:1178-1181.
[6]Bruna J,Zaremba W,Szlam A,et al.Spectral networks and locally connected networks on graphs[C]//Proc of the 2nd International Conference on Learning Representations.2014.
[7]Wu F,Zhang Tianyi,Souza A H,et al.Simplifying graph convolutional networks[C]//Proc of the 36th International Conference on Machine Learning.2019:6861-6871.
[8]Klicpera J,Bojchevski A,Günnemann S.Predict then propagate:graph neural networks meet personalized PageRank[C]//Proc of the 7th International Conference on Learning Representations.2019.
[9]Velicˇkovic' P,Cucurull G,Casanova A,et al.Graph attention networks[C]//Proc of the 5th International Conference on Learning Representations.2017.
[10]Hamilton W,Ying Z,Leskovec J.Inductive representation learning on large graphs[C]//Advances in Neural Information Processing Systems.2017:1024-1034.
[11]Xu Keyulu,Li Chengtao,Tian Yonglong,et al.Representation learning on graphs with jumping knowledge networks[C]//Proc of the 35th International Conference on Machine Learning.2018:5449-5458.
[12]Thepade S D,Chaudhari P R.Land usage identification with fusion of Thepade SBTC and Sauvola thresholding features of aerial images using ensemble of machine learning algorithms[J].Applied Artificial Intelligence,2021,35(2):154-170.
[13]Choi J Y,Lee B.Ensemble of deep convolutional neural networks with Gabor face representations for face recognition[J].IEEE Trans on Image Processing,2020,29:3270-3281.
[14]Pranesh R R,Shekhar A,Pallavi S.QuesBELM:a BERT based ensemble language model for natural questions[C]//Proc of the 5th International Conference on Computing,Communication and Security.Piscataway,NJ:IEEE Press,2020:1-5.
[15]Stacey J,Minervini P,Dubossarsky H,et al.Avoiding the hypothesis-only bias in natural language inference via ensemble adversarial trai-ning[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2020:8281-8291.
[16]Yang Zhilin,Cohen W,Salakhudinov R.Revisiting semi-supervised learning with graph embeddings[C]//Proc of the 33rd International Conference on Machine Learning.2016:40-48.
[17]Zhu Xiaojin,Ghahramani Z,Lafferty J.Semi-supervised learning using Gaussian fields and harmonic functions[C]//Proc of the 20th International Conference on Machine Learning.2003:912-919.
[18]Yu Shaowei,Yang Xuebing,Zhang Wensheng.PKGCN:prior know-ledge enhanced graph convolutional network for graph-based semi-supervised learning[J].International Journal of Machine Learning and Cybernetics,2019,10(11):3115-3127.
[19]Zhan Kun,Niu Chaoxi.Mutual teaching for graph convolutional networks[J].Future Generation Computer Systems,2021,115(2):837-843.
[20]Lei Fangyuan,Liu Xun,Dai Qingyun,et al.Hybrid low-order and higher-order graph convolutional networks[EB/OL].(2019-08-02).https://arxiv.org/abs/1908.00673.