999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于One-Shot聚合自編碼器的圖表示學習

2023-02-03 03:01:14袁立寧
計算機應用 2023年1期
關鍵詞:實驗模型

袁立寧,劉 釗

(1.中國人民公安大學 信息網絡安全學院,北京 100038;2.中國人民公安大學 研究生院,北京 100038)

0 引言

圖表示學習將原始圖的結構和特征信息嵌入到低維向量空間,從而能夠直接應用常見機器學習算法來挖掘網絡的潛在特征。圖表示學習旨在生成保留拓撲和屬性信息的低維表示,用于節點分類[1]、鏈接預測[2]、聚類[3]等機器學習任務。為了保證圖數據挖掘任務的質量,節點向量在盡可能保留編碼屬性和邊緣信息的同時,還要兼顧較小的嵌入維數。由于圖數據的復雜性,基于人工設計特征[4]的傳統圖嵌入方法成本極高,而直接在圖上學習節點表示深度學習的方法[5]因其強大的表示能力,受到了越來越多的關注。在最近的文獻中,已經有許多研究嘗試將深度學習方法用于圖表示學習。其中,基于深度學習的無監督模型能夠在缺乏先驗知識或標記信息有限的情況下,從數據中選出具有代表性的特征,因此常用于生成原始數據低維節點向量表示。

基于深度學習的無監督圖嵌入模型主要分為基于隨機游 走[6]和基于自編碼器(AutoEncoder,AE)[7]的算法。DeepWalk[8]和node2vec[9]模型使用隨機游走獲取節點序列,然后訓練Skip-Gram[10]生成節點向量表示。這類方法通常以整個網絡結構為輸入,能夠有效捕捉鄰域相似性,但是未能充分利用提供重要信息的節點特征。基于AE 的圖嵌入模型將圖的拓撲結構和節點特征信息作為編碼器輸入生成低維向量表示,再利用解碼器重構圖結構;但是大部分AE 模型的編碼器部分使用圖神經網絡(Graph Neural Network,GNN)[11]將節點編碼到低維向量空間中,導致模型性能會隨著編碼器深度的增加而降低[12]。

針對上述問題,本文使用One-Shot 聚合(One-Shot Aggregation,OSA)和指數線性單元(Exponential Linear Unit,ELU)函數改進基于圖自編碼器(Graph AutoEncoder,GAE)和圖變分自編碼器(Variational Graph AutoEncoder,VGAE)的深層模型,并在3個基準引文數據集上的鏈路預測實驗中驗證模型性能。本文主要工作如下:1)提出新的GAE 模型OSA-GAE和新的VGAE模型OSA-VGAE,使用OSA[13]和ELU函數[14]編碼圖的拓撲結構和節點特征,改善深層模型的表示能力;2)在損失函數中引入正則化項,防止模型在訓練過程中參數過擬合;3)在鏈路預測實驗中,OSA-GAE 和OSA-VGAE 的性能始終優于相同深度的基線方法,而且它們的性能不會隨著隱藏層數量的增加而降低,并且在部分數據集上呈現出上升趨勢。

1 相關工作

1.1 圖表示學習

根據不同的策略,常見的無監督圖表示學習模型可以分為兩類:基于隨機游走和基于AE 的模型。

基于隨機游走的模型通過隨機游走獲得訓練語料庫,然后將語料庫集成到Skip-Gram 獲得節點的低維嵌入表示。DeepWalk 使用隨機游走采樣節點序列,再通過Skip-Gram 最大化窗口范圍內節點之間的共現概率將節點映射為嵌入向量,由于優化過程中未使用明確的目標函數,使模型保持網絡結構的能力有限。node2vec 在DeepWalk 的基礎上引入有偏的隨機游走,增加鄰域搜索的靈活性,但是仍然缺乏一個明確的目標函數來保持全局網絡結構。Walklets[15]修改DeepWalk 的采樣過程,捕獲節點與社區之間不同尺度信息,顯式建模多尺度關系,使生成的嵌入能夠保留更豐富的節點從屬關系信息。

基于AE 的模型使用AE 對圖的非線性結構建模,生成圖的低維嵌入表示。SDNE(Structural Deep Network Embedding)[16]利用深度自編碼器以及一階和二階相似度,明確優化目標,使生成的嵌入有效保留全局和局部結構信息,增強了模型在稀疏圖上的魯棒性。DNGR(Deep Neural networks for Graph Representations)[17]使用正點互信息矩陣構建圖的高階相似度,捕獲鏈路預測和節點分類等任務所需的底層結構,同時引入堆疊去噪自編碼器增強模型在含噪聲圖上的魯棒性。VGAE[18]使用變分自編碼器(Variational AutoEncoder,VAE)[19]學習可解釋的無向圖嵌入表示,與非概率自編碼器相比,使用VAE 提升了模型性能。Res-VGAE(Variational Graph AutoEncoders with Residual connections)[20]在VGAE 的基礎上引入殘差連接[21],改善深層VAE 性能,但是模型性能隨著深度的增加仍表現出顯著性降低。ANE[22]使用對抗性自編碼器[23]生成捕獲高度非線性結構信息的低維嵌入,在生成過程中施加對抗性正則化避免流形斷裂問題,同時利用一階和二階相似度捕捉局部和全局結構。

1.2 深層模型策略

理論上,隨著深度增加,神經網絡模型能夠提取更復雜的特征,獲得更好的結果。實際上,模型性能會因深度增加而退化,導致準確度達到飽和甚至下降,并且在訓練中出現梯度消失。

為解決上述問題,ResNet[21]引入殘差單元,將各層的輸入和輸出相加,實現跨層連接,改善深層模型的梯度更新。DenseNet[24]使用稠密連接,即每一層的輸入來自前面所有層的輸出,改善梯度消失問題。與ResNet 相比,DenseNet 能夠保留多個感受野的特征圖,更加充分地利用特征信息,但是稠密連接使輸入通道增加,導致模型計算效率嚴重降低。VoVnet[13]使用OSA 將全部特征圖聚合到最后一層,使模型在繼承DenseNet 優點的情況下,解決了稠密連接效率低的問題。OSA 方式如圖1 所示。以上方法改善了卷積神經網絡(Convolutional Neural Network,CNN)[25]隨深度增加加深出現梯度消失的問題,本文借鑒上述建模思路改進深層GNN 編碼器模型架構。

圖1 One-Shot聚合Fig.1 One-Shot aggregation

此外,選擇合適的激活函數,同樣能夠解決深層神經網絡的梯度消失問題。例如,線性整流函數(Rectified Linear Unit,ReLU)[26]:

ReLU 解決了梯度消失問題,能大幅提升模型的計算速度,但是在x<0 時負的梯度被置零,導致神經元壞死,不再對任何數據產生響應。ELU 在ReLU 基礎上引入指數函數,使其在負輸入值的情況下也能返回信息:

相較于ReLU,在輸入為負值的情況下,ELU 有一定的輸出,從而消除ReLU 神經元壞死的問題。此外,ELU 的輸出均值接近0,減少了偏移效應,使正常梯度接近于自然梯度;在輸入較小時負值能夠快速飽和,對噪聲有一定的魯棒性。

2 模型與算法

本章提出基于One-Shot 聚合自編碼器的圖表示學習模型OSA-GAE 和OSA-VGAE 并討論算法原理,介紹了模型框架及編碼器和解碼器結構,并討論了模型的損失函數。

2.1 模型框架

基于One-Shot 聚合自編碼器的圖表示學習模型框架如圖2 所示。OSA-GAE 和OSA-VGAE 以節點特征矩陣和鄰接矩陣為輸入,重構鄰接矩陣為輸出,它們的結構分為編碼器(Encoder)和解碼器(Decoder)兩部分。編碼器使用基于OSA的多層圖卷積網絡(Graph Convolutional Network,GCN)[27]進行構建,用于特征提取和數據降維,生成每個節點的低維向量表示。解碼器利用編碼器生成向量的內積重構鄰接矩陣。

圖2 OSA-GAE和OSA-VGAE模型結構Fig.2 Model structures of OSA-GAE and OSA-VGAE

2.2 編碼器網絡結構

GCN 利用卷積運算從圖中提取特征,生成包含拓撲結構和節點屬性信息的特征向量。具體而言,GCN 使用節點特征矩陣X與鄰接矩陣A作為原始輸入,其層間傳播公式為:

OSA-GAE 編碼器使用引入One-Shot 聚合的多層GCN 提取特征,其表達式為:

其中:L為GCN 層數;W(Final)為權重矩陣。

OSA-VGAE 編碼器使用引入One-Shot 聚合的多層GCN生成均值向量μ和方差向量σ:

采樣層使用μ和σ從高斯先驗分布生成樣本,構建低維嵌入。最終,將嵌入重新參數化為潛在空間上概率的分布[18]:

其中:X為節點特征矩陣;A為引入自環的鄰接矩陣;yi是節點i的低維嵌入,N為節點數。

2.3 解碼器網絡結構

對于OSA-GAE 模型,解碼器是利用兩個節點表示內積重構鄰接矩陣的非概率模型:

其中:A′表示重構矩陣;φ表示sigmoid 函數。

對于OSA-VGAE 模型,解碼器是利用兩個節點表示內積重構鄰接矩陣的概率模型:

其中:Aij為鄰接矩陣A的元素。

2.4 損失函數

OSA-GAE 通過最小化A和A′的重構損失進行訓練,表達式為:

OSA-VGAE 通過最大化變分下界以及最小化重構損失進行訓練,表達式為:

為了避免參數過擬合,在OSA-GAE 和OSA-VGAE 損失函數中引入L2-norm 正則化項Lreg,使用超參數α控制比重:

在訓練過程中,GCN 層的輸入和輸出維度必須相同,才能使用OSA。此外,OSA-GAE 和OSA-VGAE 均執行全批次梯度下降,并利用重參數化技巧[19]進行訓練。

3 實驗與結果分析

3.1 數據集

本文使用Cora、CiteSeer、PubMed 這3 個基準引文網絡數據集[30]評估OSA-VGAE 和OSA-GAE 生成的低維嵌入表示在鏈接預測任務中的性能。在數據集中:節點表示論文,邊表示一篇論文對另一篇論文的引用,節點特征是論文的詞袋表示,節點標簽是人工設定的論文的學術主題。表1 為3 個數據集的統計信息。

表1 數據集統計信息Tab.1 Statistics of datasets

3.2 基線模型

本文使用以下模型作為基線:

VGAE:該模型將VAE 遷移到圖表示學習,其基本思路是利用GCN 獲得節點表示的概率分布,然后在分布中采樣生成節點表示,最后使用內積解碼重構圖的鄰接矩陣。

GAE[18]:該模型直接使用GCN 編碼器生成節點表示,然后使用內積解碼器重構鄰接矩陣。

Linear-VGAE[31]:該模型使用歸一化鄰接矩陣的簡單線性模型替換VGAE 中的GCN 編碼器,解碼器與VGAE 相同。

Linear-GAE[31]:該模型使用歸一化鄰接矩陣的簡單線性模型替換GAE 中的GCN 編碼器,解碼器與GAE 相同。

Res-VGAE:該模型在VGAE 的基礎上引入殘差連接,改善深層VAE 模型的性能。

Res-GAE[20]:該模型在GAE 的基礎上引入殘差連接,改善深層AE 模型的性能。

3.3 實驗設置

為了驗證模型在鏈接預測任務中的性能,需要對基準引文網絡數據集進行預處理[19]:1)保留所有節點的特征信息,將圖中部分邊移除;2)隨機采樣無邊的節點對,其數量與先前移除的邊數相同;3)利用移除的邊和無邊節點對構建驗證集和測試集,其比例分別為總邊的5%和10%。

根據模型正確分類邊和非邊的能力比較模型性能,使用平均精度(Average Precision,AP)和ROC 曲線下的面積(Area Under ROC Curve,AUC)作為評價指標。模型的隱藏層維度均設置為32,生成嵌入的維度設置為16,學習率設置為0.01,迭代次數設置為200。各模型使用相同的驗證集和測試集劃分,運行10 次獲得平均值。

3.4 實驗結果

鏈接預測任務即預測兩個節點之間是否存在邊,用于評估生成嵌入在保持拓撲結構方面的性能。表2~4 為各模型不同深度的AP(%)和AUC(%)結果。

表2 比較了不同模型使用1 層GCN 的實驗結果。在3 個數據集上,OSA-VGAE 和OSA-GAE 的AUC 和AP 最高,其他基線模型的AUC 和AP 十分接近。對于淺層模型,增加OSA和ELU 激活函數能提升模型的準確度。

表2 1層GCN時各模型的AUC和AP 單位:%Tab.2 AUC and AP of each model with 1-layer GCN unit:%

表3 比較了不同模型使用3 層GCN 的實驗結果。在3 個數據集上,引入殘差連接的Res-VGAE 和Res-GAE 表現略優于直接疊加GCN 層的模型,而OSA-VGAE 和OSA-GAE 的表現明顯優于其他模型,特別是在CiteSeer 數據集上,AUC 和AP 相較單層模型有小幅度提升。

表3 3層GCN時各模型的AUC和AP 單位:%Tab.3 AUC and AP of each model with 3-layer GCN unit:%

表4 比較了不同模型使用6 層GCN 的實驗結果。在3 個數據集上,不引入殘差連接、OSA 和ELU 函數的VGAE、GAE、Linear-VGAE 和Linear-GAE 的AUC 和AP 明顯降低,并且采用線性編碼的Linear-VGAE 和Linear-GAE 表現最差。在Cora 數據集上,Res-VGAE 和Res-GAE 與VGAE 和GAE 性能相近;在CiteSeer 和PubMed 數據集上,Res-VGAE 和Res-GAE 表現優于VGAE 和GAE。在3 個數據集上,OSA-VGAE和OSA-GAE 表現最好,深層模型與淺層模型的性能差異不大,尤其是在CiteSeer 上,AUC 和AP 仍有提升。

表4 6層GCN時各模型的AUC和AP 單位:%Tab.4 AUC and AP of each model with 6-layer GCN unit:%

圖3~5 為不同模型在引文數據集上1~6 層的AUC 和AP。與原始的VGAE 和GAE 相比,隨著深度增加,Linear-VGAE 和Linear-GAE 的精度下降最快,表現最差;引入殘差連接的Res-VGAE 和Res-GAE 雖然在一定程度上緩解了深層模型精度下降的問題,但是其表現與原始模型相接近。本文提出的OSA-VGAE 和OSA-GAE 明顯好于其他模型,隨著深度的增加,模型的性能基本保持穩定,在Cora 和CiteSeer 數據集上其性能呈現隨層數的增加而上升的趨勢。上述實驗結果說明添加OSA 和ELU 函數能夠改善深層模型的梯度信息傳遞問題,提升模型性能。

圖3 Cora數據集上的AUC和APFig.3 AUC and AP on Cora dateset

3.5 消融實驗

為了驗證OSA-VGAE 和OSA-GAE 模型中使用OSA 和ELU 對于算法性能的影響,在Cora 數據集上進行消融實驗,對比單獨使用OSA 和ELU 函數的模型性能。為了保證實驗的公平性,保持學習率、隱層維度和嵌入維度等參數一致。實驗結果如表5 所示。相較于單獨使用OSA 或ELU 函數,OSA-VGAE 和OSA-GAE 獲得了最佳表現,說明同時使用上述兩個模塊能夠顯著提升性能。

表5 消融實驗結果 單位:%Tab.5 Results of ablation experiments unit:%

3.6 參數分析

為了評估不同嵌入維度和迭代次數對實驗結果的影響,在Cora 數據集上對使用1 層GCN 的OSA-VGAE 和OSA-GAE模型進行參數敏感性實驗,記錄相關數據。圖6 顯示了不同嵌入維度對模型性能的影響。最初,AUC 隨維度的增加而提高,這是因為更多的維度使嵌入中編碼了更多有益信息,提升了實驗表現。但是,隨著維度不斷的增加,AUC 開始下降,這是因為訓練樣本個數有限,對于每一類節點都存在最大化模型性能的最優嵌入維數,當嵌入維數超過最優維數時,模型性能表現出逐漸下降的趨勢。此外,從圖6 曲線變化可以看出,OSA-VGAE 相比OSA-GAE 對維度更敏感。因此,在生成節點嵌入時選擇合適的維度十分重要。

圖4 CiteSeer數據集上的AUC和APFig.4 AUC and AP on CiteSeer dateset

圖5 PubMed數據集上的AUC和APFig.5 AUC and AP on PubMed dateset

圖6 不同嵌入維度的AUCFig.6 AUCs of different embedding dimensions

圖7 記錄了OSA-VGAE 和OSA-GAE 每次迭代的訓練損失和AUC。隨著迭代次數的增加,模型訓練損失整體呈下降趨勢,并且在200~1 000 的迭代過程中,損失值基本處于穩定狀態。在測試集上,初始階段的AUC 隨著迭代次數的增加快速上升,到達一定迭代次數時,模型開始出現過擬合,泛化能力下降,導致AUC 小幅下降并上下震蕩。因此,在訓練模型時選取200 左右的迭代次數即可獲得較為理想的實驗結果。

圖7 OSA-VGAE和OSA-GAE在不同迭代時的訓練損失和AUCFig.7 Training loss and AUC under different iteration for OSA-VGAE and OSA-GAE

4 結語

本文提出了基于One-Shot 聚合和ELU 激活函數的OSAVGAE 和OSA-GAE 模型,改善了模型的梯度信息傳遞,緩解了基于GCN 編碼的自編碼器模型深度問題。實驗結果表明,將計算機視覺中的深層策略引入到圖表示學習中是有益的,能夠提升圖機器學習任務的表現。此外,消融實驗的結果也說明同時使用One-Shot 聚合和ELU 函數對模型性能提升更加顯著。在未來工作中,除了對現有編碼器模型的結構進行改進,將采用更為高效的鄰域聚合和鄰域交互編碼器建模,如基于注意力機制的方法[32];在解碼器部分,將嘗試使用不同的解碼器和概率分布進行實驗。此外,后續工作還將針對模型復雜度、模型泛化能力以及模型避免過擬合能力進行量化和分析。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 热久久国产| 日韩毛片在线视频| 在线观看欧美国产| 亚洲一区二区黄色| 精品无码一区二区三区电影| 国产亚洲精品自在线| 免费不卡视频| 亚洲手机在线| 精品国产自| 亚洲天堂网2014| 国产一二三区在线| 天天躁夜夜躁狠狠躁躁88| 国产精品私拍在线爆乳| 中文字幕久久波多野结衣| 国产欧美精品一区二区| 国产原创自拍不卡第一页| 色综合网址| 亚洲精品无码AV电影在线播放| 国产欧美视频综合二区| 国产毛片片精品天天看视频| 免费国产一级 片内射老| 国产美女免费| 中文字幕乱码中文乱码51精品| 99久久精品国产麻豆婷婷| 亚洲综合色吧| 免费观看精品视频999| 国产精品专区第1页| 波多野结衣久久精品| 欧美日韩国产综合视频在线观看| 成人免费视频一区| 69av在线| 免费在线观看av| 午夜久久影院| 92精品国产自产在线观看| 国产不卡一级毛片视频| 四虎在线观看视频高清无码| 欧美激情视频一区| 国产性精品| 无码aⅴ精品一区二区三区| 欧美一区中文字幕| 午夜免费小视频| 国产原创演绎剧情有字幕的| 欧美一级高清免费a| 在线视频一区二区三区不卡| 国产女人在线视频| 国产网站免费看| 国产成人精品在线1区| 国产理论一区| 成人另类稀缺在线观看| 天天躁夜夜躁狠狠躁躁88| 亚洲国产日韩欧美在线| 99在线观看精品视频| 久久精品人人做人人爽97| 午夜视频免费试看| 国产乱子伦手机在线| 日本精品影院| 久久精品国产在热久久2019| 91午夜福利在线观看| 国产精品久久久久无码网站| 99在线视频精品| 色婷婷啪啪| 国产丝袜91| 亚洲第一成年人网站| 亚洲精品在线91| 亚洲精品第一页不卡| 欧美黄色a| 亚洲系列无码专区偷窥无码| 青草精品视频| 91精品国产无线乱码在线| 日韩欧美亚洲国产成人综合| 58av国产精品| 日韩免费成人| 热久久国产| 亚洲精品视频网| 伊人久热这里只有精品视频99| 五月激激激综合网色播免费| 色成人综合| 色亚洲激情综合精品无码视频 | 欧美va亚洲va香蕉在线| 免费在线a视频| 激情影院内射美女| 欧美高清国产|