999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于對抗訓練的偽標簽約束自編碼器

2023-11-18 03:32:30孫明磊郝玉涵劉贏華
計算機工程 2023年11期
關鍵詞:信息模型

富 坤,孫明磊,郝玉涵,劉贏華

(河北工業大學 人工智能與數據科學學院,天津 300401)

0 概述

現實世界中存在著大量的圖結構數據,如引文網絡、社交網絡、蛋白質相互作用網絡等,研究和挖掘網絡深層的信息具有重大的意義。網絡表示學習[1]是研究圖結構數據最常用的方法,其目的是學習網絡頂點的潛在、低維表示,同時保留網絡拓撲結構、頂點內容和其他邊信息,之后這些作為節點表示的向量就可以應用到后續的任務場景中,如節點分類、鏈接預測、社區發現、推薦系統等任務。

由于現實中的網絡節點存在著標注缺失、標注錯誤和人工標注成本高的現象,因此監督或半監督的網絡表示學習受到了很大的限制。為了解決這一問題,圖自監督學習從數據本身自動獲取監督信息,而不需要手動標注,這樣模型就能夠從未標記數據中學習更多的信息,從而在各種下游任務中表現出更好的性能[2-4]。圖自編碼器是一種重要的自監督學習模型[5],它利用輸入數據作為監督,通過編碼得到低維的中間表示層,然后表示層再由解碼器重構輸入數據。整個學習過程以輸入數據作為監督信號,無需引入節點標簽,因此,利用自編碼器的自監督優勢進行網絡表示學習受到了廣泛的關注。

圖自編碼器算法在下游的任務中被證明是有效的,但仍然有2 個重要的問題有待改進:

1)由于缺乏有效的約束,導致編碼過程中隱含的類別信息丟失,影響模型的學習能力。對此,一個可行的解決辦法是設計相應的約束模塊,最小化原始數據的生成類別概率分布和網絡表示的生成類別概率分布之間的距離,減少編碼過程中造成的隱含的類別信息損失,從而使得網絡表示在下游分類任務中表現出更好的性能。

2)圖自編碼器算法通過最小化輸入和重構的距離構造目標函數,忽略了中間表示層的潛在數據分布,網絡表示學習受限于原始數據的規模,在數據量相對較少時容易產生過擬合,導致模型泛化能力弱,在處理真實世界的稀疏網絡和有噪聲的網絡數據時容易效果不佳。處理這個問題的方法是引入正則化約束,強制潛在空間服從特定的概率分布。AAE[6]、AFL[7]、ALI[8]、ARGA[9]利用對抗框架去解決這個問題,它們引入對抗網絡去組織潛在空間,通過誤差反向傳播的方式使得潛在空間服從特定的先驗概率分布,從而增強模型的泛化能力。

本文提出一種新的網絡表示學習模型:基于對抗訓練的偽標簽約束自編碼器(Adversarial Training based Pseudo Label Constraint Auto-Encoder,AT-PLCAE)。該模型能夠充分利用網絡中的結構和屬性信息,減少編碼信息損失,增強模型的泛化能力。本文主要工作如下:1)在自編碼器的潛在空間設計一個偽標簽約束模塊,通過減小原始圖的偽標簽和網絡表示的偽標簽之間的距離來約束模型,引導模型有效地學習,減小編碼過程中產生的信息損失;2)設計與偽標簽約束自編碼器相適應的對抗網絡,組織表示的潛在空間結構,使得潛在表示后驗分布與輸入的特定先驗分布相匹配,緩解過擬合問題,增強模型的泛化能力。

1 相關工作

基于生成方法的圖自監督表示學習的思想源于自動編碼器,通過編碼器網絡將數據向量壓縮為低維表示,然后采用解碼器網絡重構數據向量,將輸入數據作為監督信號,以輸入數據和重構數據的距離(相似性)來衡量表示學習的成果。該方法不依賴于數據標簽,而是從無標簽的數據中學習到良好的表示,再應用到下游的多個應用場景中。根據重構的內容不同,基于生成方法的圖自監督表示學習可分為屬性生成和結構生成2 類。

常見的基于屬性生成的圖自監督表示學習方法有Graph Completion[10]、MGAE[11]、GALA[12]等。Graph Completion 掩蓋部分結點的屬性,采用GCN[13]進行編碼,利用上下文信息(輸入的拓撲結構和未掩蓋的屬性信息)恢復掩蓋的節點屬性,幫助模型學習到更好的特征表示;MGAE 將鄰接矩陣和隨機破壞的結點屬性矩陣通過GCN 網絡映射成重構的屬性矩陣,通過多次輸入不同的破壞節點屬性矩陣,最小化結點屬性矩陣和重構節點屬性矩陣的距離偏差,以生成結構和屬性融合良好的特征矩陣;GALA 提出一個完全對稱的圖卷積自動編碼器,編碼器執行拉普拉斯平滑,而解碼器執行拉普拉斯銳化。通過訓練這個拉普拉斯平滑-銳化圖自動編碼器模型,可以將輸入圖重建成原始的屬性特征矩陣。

常見的基于結構生成的圖自監督表示學習方法有SDNE[14]、GAE[15]、VGAE[16]等。SDNE 采用自 編碼器重構拓撲結構,通過一階相似度以及二階相似度約束自編碼器得到網絡節點的表示。GAE 采用GNN[13,16-17]編碼器 將原始 圖映射 到潛在空間,然 后經由內積函數解碼成重構鄰接矩陣,最后應用均方誤差最小化原始鄰接矩陣和重構鄰接矩陣的距離。VGAE 將變分自動編碼器[18]的思想集成到GAE 中,它采用了一個基于推理模型的編碼器,生成2 個并行輸出層的均值和偏差,通過重采樣技術得到潛在空間后驗概率分布,再采用KL 散度來測量先驗分布和后驗分布的距離,從文獻報道來看,GAE 和VGAE 在鏈路預測和圖聚類任務上都取得了很好的結果。

2 本文方法

給定一個圖G={V,A,X},其中,V表示節點集合,n=|V|表示節點數量,A={0,1}n×n表示鄰接矩陣,X?Rn×D′表示輸入節點的屬性矩陣。AT-PLCAE 模型的目標是將G映射到低維空間,生成圖的低維表示Z?Rn×d,其 中,d為網絡 表示矩 陣的維度且d?D'。Z作為嵌入矩陣,能很好地保留拓撲結構信息和屬性信息,并用于下游節點分類任務。

AT-PLCAE 由編碼-解碼階段和對抗階段組成,如圖1 所示(彩色效果見《計算機工程》官網HTML版,下同)。編碼-解碼階段的具體過程如下:首先,為了確保自編碼器的重構信息能充分接近原始輸入圖的結構信息和屬性信息,引入PPMI 矩陣來融合圖結構信息和屬性信息;其次,為了得到良好的網絡表示層,采用編碼器生成潛在空間,再經由解碼器重構PPMI 矩陣,通過重構損失函數來優化潛在空間;最后,為了在編碼過程中減少信息損失,在潛在空間設計一個偽標簽約束模塊,通過減小原始數據的偽標簽和潛在空間數據的偽標簽之間的距離來優化編碼器。對抗階段的具體過程如下:為了解決潛在空間缺乏組織性和產生過擬合的問題,引入對抗網絡去組織潛在空間,使得潛在空間服從特定的先驗概率分布。上述2 個階段交替進行訓練,從而優化整個模型,最終生成最優的潛在空間。

2.1 自編碼器設計

自編碼器設計由2 個部分組成:一部分為結構-屬性融合矩陣,用于將圖結構信息和屬性信息統一到一個融合矩陣中;另一部分為偽標簽約束自編碼器,通過設計偽標簽約束項來減小編碼產生的信息損失。

2.1.1 結構-屬性融合矩陣PPMI

為了充分利用結構信息和屬性信息,將圖的結構信息和屬性信息融合到PPMI 矩陣,該矩陣融合了節點的高階信息和鄰域關聯信息,并將稀疏的表示矩陣轉化成信息率較高的高信息密度表示矩陣。在構建PPMI 矩陣時,先融合結構信息和屬性信息,形成結構-屬性聯合轉移矩陣;再通過隨機沖浪算法形成共現概率矩陣;最后生成PPMI 矩陣。構建PPMI矩陣的具體步驟如下:

1)為了融合和平衡結構信息和屬性信息這2 種信息源,根據DNRL[19]算法融合結構信息和屬性信息的策略,生成結構-屬性聯合轉移矩陣T,計算方法見式(1):

其中:TA表示結構轉移概率,TX表示屬性轉移概率,分別從結構和屬性2 個角度描述從節點vi到節點vj的轉移概率;超參數α用于調整結構轉移矩陣和屬性轉移矩陣所占的比重,α越大,結構轉移矩陣所占的比重越大,α越小,屬性轉移矩陣所占的比重越大。

2)為了有效捕獲節點正確的上下文信息,克服隨機游走過程中存在的步長限制問題,采用隨機沖浪[20]策略生成共現概率矩陣P,計算方法見式(2):

其中:每個實值表示第i個節點在k步轉換后到達第j個節點的概率;P0為初始的單位矩陣;超參數β表示進行隨機沖浪過程的概率,而隨機沖浪過程返回到原始節點并重新啟動的概率為1-β。

3)為了避免轉移到次要節點的概率過大(這種情況會降低整體表示結構的準確性),根據點態互信息(PMI)矩陣[20]的原理對共現概率矩陣P進行歸一化,計算得到PPMI 矩陣,計算方法見式(3):

2.1.2 偽標簽約束自編碼器

編碼器將PPMI 矩陣作為編碼器的輸入并生成潛在空間。生成的潛在空間分為2 個部分:一部分為標簽隱藏層,該層主要反映節點的偽標簽信息;另一部分為表示隱藏層,即嵌入矩陣Z。表示隱藏層經由解碼器得到重構的PPMI 矩陣。通過最小化重構損失函數來訓練編碼器和解碼器,得到優化后的表示隱藏層。

整個自編碼器網絡采用全連接網絡,將PPMI 矩陣(用M表示)作為編碼器的輸入,生成標簽隱藏層C=fc(M,θc)和表示隱藏層Z=fz(M,θz)。為了使2 個隱藏層承載不同的信息,在編碼器的最后一層權重不共享,標簽隱藏層采用Softmax 函數激活,表示隱藏層不激活,而其余層權重共享。然后由生成的表示隱藏層解碼得到重構的PPMI 矩陣=g(Z,θg),最后通過最小化輸入數據和重構數據之間的距離進行優化,損失項計算方法見式(4):

為了減小編碼過程造成的隱含的類別信息損失,本文設計一個偽標簽約束模塊:應用一個生成器來生成表示隱藏層的偽標簽,代表網絡表示的類別概率分布,而標簽隱藏層代表著輸入數據的類別概率分布,這2 個概率分布都代表節點類別的概率分布,應屬于同一分布,所以,當這2 個概率分布越接近,編碼過程造成的隱含的類別信息損失會越少。

原始數據由編碼器分別生成標簽隱藏層C和表示隱藏層Z。原始數據的標簽隱藏層C可以表示原始數據的偽標簽Yc,再設置一個全連接神經網絡生成器來生成表示隱藏層Z的類別Cz=fzc(Z,θz),用來代表表示隱藏層的偽標簽Yc。采用交叉熵損失項Lc來衡量這2 種標簽的距離,見式(5):

為了在模型訓練過程中使2 個層的分類標簽更接近,應該最小化交叉熵損失項Lc。

編碼-解碼階段的最終目標是生成良好的表示隱藏層Z。為了達到這一目標,編碼-解碼階段聯合自編碼器和偽標簽約束模塊同時進行學習,損失函數見式(6):

其中:λ為超參數,用于控制自編碼器損失項和偽標簽約束損失項的比重。

2.2 對抗階段

編碼-解碼階段采用的是基本的自編碼器模型,直接得到的表示隱藏層空間中缺乏可解釋和可利用的結構,即缺乏規則性,易產生過擬合現象。為解決這一問題,模型生成的潛在表示后驗分布應與輸入的特定先驗分布相匹配,從而有規則地組織隱藏空間的結構。變分自編碼器(VAE)[18]通過使編碼器生成隱空間服從一定概率分布,并在損失函數中添加一個正則項來調整隱空間概率分布的規則性。DNRL 算法和VGAE 算法均用VAE 進行降維,以特定概率分布組織潛在空間,取得了優于直接采用自編碼器進行降維的效果。然而,VAE 仍然存在2 個固有的缺陷:1)只支持顯性的概率分布形式,即必須給出精確的概率分布函數,無法從未知的數據中進行采樣和學習隱性的概率分布;2)VAE 理論復雜,在實際的應用過程中存在變分下界,即VAE 最后的訓練結果和預定目標存在偏差。

生成對抗網絡(GAN)[21-22]是最近幾年比較流行的生成網絡,在編碼-解碼階段增加對抗訓練與VAE在目標上是一致的,均能保證模型生成的潛在表示后驗分布與特定先驗分布相匹配。同時在編碼-解碼階段增加對抗訓練與VAE 相比具有以下2 個優點:1)不同于VAE 需要獲得先驗分布的精確函數形式,GAN 可以從顯性概率分布中采樣,如標準正態分布,也可以從未知的數據中采樣,生成隱性的概率分布;2)相比VAE,GAN 沒有變分下界,如果鑒別器訓練良好,那么生成器可以更好地學習到樣本的分布。

GAN 模型可看作是2 個神經網絡在進行一場“最大-最小”博弈。GAN 由2 個網絡組成,一個網絡是生成網絡G,另一個網絡是鑒別網絡D。G的任務是從一個概率分布空間中生成負樣本,同時混淆D,使其認為自己生成的樣本為正樣本。D的任務是區分輸入的樣本是由生成網絡生成的負樣本,還是實際存在的正樣本。在不斷地迭代后訓練網絡最終達到一種平衡,這時,D無法判斷樣本是來自生成網絡還是實際存在的,G便可以生成符合先驗數據分布的數據。GAN 的博弈過程可用式(7)[21]表示:

標簽隱藏層作為原始數據的偽標簽,用于標識節點類別,每個節點的類別可以通過一個K維的one-hot 向量來表示,因此,假定標簽隱藏層C的概率分布應與0-1 分布相匹配。本文設計的第1 個生成對抗網絡從0-1 分布空間中采樣,采用全連接網絡生成數據Gx~(0,1)(x)作為正樣本。與其對抗的負樣本來自自編碼器生成的標簽隱藏層C=fc(M,θc),因此,生成器即為編碼器fc(M,θc),記為GA(M)。正樣本和負樣本經過鑒別器分別得到Dc(Gx~(0,1)(x)) 和Dc(GA(M))。當生成對抗網絡收斂之后,自編碼器生成的標簽隱藏層的概率分布與0-1 分布相匹配。

表示隱藏層用于表示高維空間的結構信息和屬性信息,其概率分布應為連續的實值。中心極限定理認為多個獨立同分布的隨機變量之和近似于正態分布,所以,對于概率分布未知的表示隱藏層,假定其服從正態分布是合理的。本文設計的第2 個生成對抗網絡的生成器從高斯分布中采樣,采用全連接網絡生成數據Gx~Gauss(x)作為正樣本。與其對抗的負樣本為自編碼器生成的表示隱藏層Z=fz(M,θz),因此,生成器即為編碼器fz(M,θz),記為GB(M)。正樣本和負樣本經過鑒別器分別得到Dz(Gx~Gauss(x))和Dz(GB(M))。當生成對抗網絡收斂之后,自編碼器生成的表示隱藏層Z的概率分布與高斯分布相匹配。

在對抗階段,無論是第1 個生成對抗網絡還是第2 個生成對抗網絡,生成器均定義為生成負樣本的網絡,即為編碼-解碼階段中的編碼器。對抗階段的最終目標是通過對抗訓練的方式訓練出性能優良的編碼器,使得編碼器生成的標簽隱藏層和特征隱藏層分別服從特定的概率分布,從而解決自編碼器的潛在空間存在的無組織性和過擬合的問題。通過式(8)對對抗訓練階段的模型進行優化:

2.3 偽代碼

AT-PLCAE 偽代碼描述如下:

算法AT-PLCAE

3 實驗

為了測試AT-PLCAE 模型的性能,將AT-PLCAE模型與基準方法在4 個引文網絡數據集上進行比較,通過學習到的網絡表示在下游任務的節點分類實驗,驗證該模型在網絡表示學習方面的有效性。

3.1~3.3節分別介紹數據集、基準方法和實驗的參數設置。3.4 節和3.5 節實施節點分類任務以及可視化,表明AT-PLCAE 模型進行節點分類任務的有效性。3.6 節進行消融實驗,分析不同模塊對模型產生的影響。3.7 節對低維嵌入表示維度和目標函數中的超參數λ進行敏感性分析。

3.1 數據集

本文應用4 個引文網絡數據集來評估AT-PLCAE模型的表示學習能力,分別為Cora、Citeseer、Wiki 和Pubmed。Cora 數據集包含來自7 個類的2 708 篇機器學習論文以及5 429 篇鏈接,每個文檔由一個1 433 維的二進制向量描述;Citeseer 數據集包含來自6 個類的3 312 個出版物和它們之間的4 732 個鏈接,每篇論文都用一個3 703 維的二進制向量來描述;Wiki 數據集包含來自19 個類的2 405 個文檔和它們之間的12 761 個鏈接,該數據集的屬性矩陣有4 973 列;Pubmed 數據集 包括來 自Pubmed 數據庫 的19 717 篇關于糖尿病的科學出版物和44 338 個鏈接,分為3 類。該數據集中的每個出版物都由一個由500 個唯一單詞組成的字典中的TF/IDF 加權詞向量來描述。

3.2 基準方法

本文將提出的AT-PLCAE 模型與常用的基準方法進行比較,常用的基準方法主要有DeepWalk[23]、node2vec[24]、DNGR[20]、AANE[25]、GAE 和MGAE。

DeepWalk 算法通過隨機游走的方式,充分利用了網絡結構中的隨機游走序列的信息,將未加權的圖結構轉換成反映圖拓撲結構信息的線性序列的集合,然后利用Skip-Gram[23]模型學習頂點的低維表示。node2vec 模型將廣度優先搜索和深度優先搜索引入隨機游走序列的生成過程。DNGR 算法首先運用random surfing 方法獲取網絡的高維節點表示,然后使用去噪自編碼器學習節點的低維表示。AANE則通過矩陣分解將節點的結構信息與屬性信息結合在一起,利用矩陣分解來學習低維表示。GAE 為基于結構生成的自監督學習算法。MGAE 為基于屬性生成的自監督學習算法。

3.3 實驗設置

實驗采用深度學習框架PyTorch0.4.1,編程語言為Python,解釋器版本號為3.6.1。AT-PLCAE 模型中偽標簽約束自編碼器的編碼器設置成3 層全連接網絡,解碼器設置成與編碼器對稱的3 層全連接網絡。在對抗網絡中,生成網絡采用3 層全連接網絡,判別網絡采用3 層全連接網絡。將模型學習率控制在0.001~0.01 之間,可以更好地訓練模型。標簽隱藏層表示的是原始數據的偽標簽,因此,其維度等于節點的類別數,而表示隱藏層維度受網絡層數、圖規模等因素影響,通過實驗分析將表示隱藏層維度設置為256 維。目標函數式(6)中的權重λ通過實驗分析設置為0.1。

3.4 節點分類實驗

節點分類是衡量網絡表示學習算法的一個主要實驗,本文隨機抽取50%帶標記的嵌入層特征作為訓練集,剩下的50%未標記的嵌入層特征作為測試集進行下游的節點分類任務。本文節點分類器采用Logistic 分類器,將F1 分 數(包 括Mi-F1 分數和Ma-F1 分數)作為節點分類的評價指標。

為消除偶然誤差的影響,對于每個數據集下的每種算法均取10 次實驗結果的平均值作為最終的F1 分數,實驗結果如表1、表2 所示,其中加粗數據表示最優值。

表1 各算法節點分類的Mi-F1 分數對比Table 1 Comparison of Mi-F1 scores of node classification of each algorithm

表2 各算法節點分類的Ma-F1 分數對比Table 2 Comparison of Ma-F1 scores of node classification of each algorithm

通過實驗結果可以看出:AT-PLCAE 算法節點分類的Mi-F1 分數相對于基準方法的最高值,在Cora 數據集上超出0.018,在Citeseer 數據集上超出0.011,在Wiki 數據集上低0.003,在Pubmed 數據集上超出0.011;AT-PLCAE 算法節點分類的Ma-F1 分數相對于基準方法的最高值,在Cora 數據集上超出0.015,在Citeseer 數據集上超 出0.012,在Wiki 數據集上超出0.008,在Pubmed 數據集上超出0.013。由此可見,在節點分類任務上,AT-PLCAE 算法性能優于基準方法。

AT-PLCAE 算法在融合結構信息和屬性信息時采用的PPMI 矩陣是基于隨機沖浪策略的,雖然隨機沖浪能克服隨機游走有限步長的問題,但有限次隨機沖浪確定的節點的轉移概率在邊數與結點數比值變大的情況下,不確定性和復雜性會增加。從本質上來,隨機沖浪采樣得到的概率仍是對局部拓撲結構的表示更有效,而不利于全圖信息表示。AANE是一種基于矩陣分解的算法,更關注全局信息。當邊數與結點數的比值變大時,則增加了全局信息,AANE 算法的性能會明顯提升。采用E/N 來表示邊數與結點數的比值,Wiki 數據集的E/N 為5.31,而Cora 數據集、Citeseer 數據集 和Pubmed 數據集 的E/N 分別為2.00、1.43 和2.25。相對于Cora 數據集、Citeseer 數據集 和Pubmed 數據集,Wiki 數據集 的E/N 更大。從實驗結果中可以看出:AANE 算法節點分類的準確率隨著E/N 的增大而增大;而AT-PLCAE算法在節點數相差不大的情況下,E/N 增加會使得算法節點分類的準確率降低。所以,在Wiki 數據集上,AT-PLCAE 算法節點分類的表現不如AANE算法。

3.5 可視化實驗

分別采 用DeepWalk 算 法、AANE 算 法、DNGR算法和AT-PLCAE 算法得到Cora 數據集的網絡表示,表示層的維度為256 維,然后采用非線性降維技術tSNE 算法將表示層維度降至2 維,進行可視化顯示。從圖2 中可以看出:由于AANE 是基于矩陣分解的算法,更關注全局信息,因此節點可視化分布發散,邊界不夠清晰;而DeepWalk 采樣過程基于隨機游走的策略,DNGR、AT-PLCAE 的采樣過程基于隨機沖浪的策略,相對于AANE 更容易提取局部拓撲結構信息,更關注節點的局部信息,所以,節點可視化分布較為聚集,邊界較為清晰。

圖2 Cora 數據集的表示層可視化圖Fig.2 Visualization diagrams of presentation layer of Cora dataset

3.6 消融實驗

AT-PLCAE 算法融合結構和屬性信息,通過偽標簽約束的自編碼器學習到網絡表示,并采用對抗網絡組織潛在空間來增強模型的泛化能力。為了分析自編碼器的偽標簽約束項和對抗訓練的不同組合對AT-PLCAE 模型表示學習能力的影響,應用PPMI+AE、PPMI+AAE、PPMI+VAE 和AT-PLCAE 模型來進行消融實驗。這4 個模型均采用PPMI 模型作為輸入,只是進行降維的方式不同,降維方式分別為自編碼器(AE)、對抗自編碼器(AAE)、變分自編碼器(VAE)和偽標簽約束對抗自編碼器(GAAE)。其中:AE 為最基本的模型參照;AAE 用來說明對抗訓練對模型產生的影響;為了說明對抗自編碼器和變分自編碼器組織隱藏空間的相似效果,采用VAE來進行實驗;而AT-PLCAE 用以說明增加偽標簽約束項對模型產生的影響。本節在4 個數據集上運用4 種模型學習低維嵌入表示之后,再進行訓練集比例為50%的節點分類實驗,采用F1 分數(包括Mi-F1 分數和Ma-F1 分數)作為評價指標。對于每個數據集下的每種模型,仍取10 次實驗結果的平均值作為最終的F1 分數,實驗結果如表3、表4 所示。

表3 AT-PLCAE 變體算法的節點分類的Mi-F1 分數Table 3 Mi-F1 scores of node classification of AT-PLCAE variant algorithms

表4 AT-PLCAE 變體算法的節點分類的Ma-F1 分數Table 4 Ma-F1 scores of node classification of AT-PLCAE variant algorithms

通過實驗結果可以得到以下結論:

1)PPMI+AE 在Cora、Citeseer 和Wiki 數據集 上的節點分類表現略好于PPMI+VAE 和PPMI+AAE,在Pubmed 數據集上的分類表現差于PPMI+VAE 和PPMI+AAE。VAE 算法指出由于在潛在空間增加噪音,使得潛在空間的特征表示由離散的單點變成連續的概率分布,這樣在數據輸入差異較大的情況下,模型也能生成穩定的特征表示。所以,這一現象的產生,很可能與PPMI+AE 出現了過擬合有關,自編碼器生成的潛在空間是以離散的單點存在的,容易產生過擬合現象。

2)在4 個數據集上,采用對 抗PPMI+VAE 和PPMI+AAE 節點分類表現相近,AAE 算法證明了對抗自編碼器與變分自編碼器的強相關性,兩者均能達到潛在空間以概率分布形式存在的目標,所以,這一實驗結果說明這2 種方法具有相似的效果,同時相對于標準自編碼器,采用對抗網絡訓練自編碼器,增強了模型的泛化能力。

3)AT-PLCAE 在4 個數據集上的節點分類表現好于PPMI+AE、PPMI+AAE、PPMI+VAE,表明引入的偽標簽約束項改善了模型性能,提高了節點分類準確率。

3.7 超參數分析

本節通過實驗分析AT-PLCAE 模型中表示隱藏層的維數d和偽標簽約束項權重λ對下游節點分類任務性能的影響。分析超參數時,在4 個數據集上先應用本文模型學習低維嵌入表示,再進行下游節點分類的實驗,訓練集比例為50%,評價指標為Mi-F1 分數,每個數據集仍取10 次實驗結果的平均值作為最終的F1 分數。

分析隱藏層的維數d時,固定其他參數,分別設置d=64、128、256、512。從圖3 中可以看出:4 個數據集d-F1 數值在d=128 時發生巨大轉折,當表示隱藏層維度d低于128 維時,節點分類效果較差,所以,d的最低要求應為128;當d>128 時,d-F1 數值變化平緩,在d=256 時F1 值達到最大,即在表示隱藏層維度d=256 時,AT-PLCAE 模型性能最好。所以,完全考慮算法性能時,表示隱藏層維度取為256,同時考慮性能和內存要求時,表示隱藏層維度可取為128。

圖3 表示隱藏層維度對算法性能的影響Fig.3 Infulence of representation hidden layer dimension on algorithm performance

分析偽標簽約束項權重λ時,固定其他參數,分別設置λ=0.001、0.010、0.100、1.000。從圖4 中可以看 出,Cora、Citeseer、Wiki 和Pubmed 數據集 在偽標簽約束項權重λ=0.100 時結點分類F1 分數達到最大,所以,偽標簽約束項權重λ=0.1,AT-PLCAE 模型在下游節點分類任務中性能達到最優。

圖4 偽標簽約束項權重對算法性能的影響Fig.4 Influence of pseudo label constraint weight on algorithm performance

4 結束語

本文針對圖自編碼器模型存在的信息損失和泛化能力差的問題,提出一個自監督學習的網絡表示學習模型AT-PLCAE。該模型通過偽標簽約束減少編碼過程中的信息損失,同時采用對抗訓練的方式隱性地組織隱藏層特征的概率分布,增強模型的泛化能力。在Cora、Citeseer、Wiki 和Pubmed 這4 個公開數據集上的節點分類實驗表明,AT-PLCAE 的學習效果優于基準方法。在這4 個數據集上設計的消融實驗表明偽標簽約束項減少了自編碼器編碼產生的信息損失,改善了學習效果,提高了下游節點分類實驗的準確率,同時針對偽標簽約束自編碼器的對抗訓練增強了模型的泛化能力。

本文提出的框架仍存在以下問題需要解決:1)本文在PPMI 的基礎上設計采樣器,而采樣的結果對于表示學習至關重要,需要設計能夠保留更多和更準確原始結構信息的采樣器;2)生成對抗網絡存在收斂困難的問題。此外,本文實驗采用最基本的生成對抗網絡對整個網絡進行訓練和學習,無法知道對抗網絡中的鑒別器和生成器是否達到最優,后續將設計相應的監測系統對每一部分的網絡進行監聽,用以評判整個網絡的性能。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美人人干| 最新亚洲av女人的天堂| 精品91视频| 亚洲免费人成影院| 国产福利微拍精品一区二区| 亚洲制服丝袜第一页| 国产精品va| 欧美中文字幕无线码视频| 好吊妞欧美视频免费| 国产精品视频a| 日本不卡在线播放| 日本久久免费| 日本免费福利视频| 久久人搡人人玩人妻精品| 老熟妇喷水一区二区三区| 国产91精品调教在线播放| 日韩毛片基地| 99在线免费播放| 成人福利视频网| 国产一区二区三区免费| 日韩国产另类| 国产真实乱子伦精品视手机观看| 91成人精品视频| 国产丝袜91| 国产精品成人免费视频99| 黄色a一级视频| 白丝美女办公室高潮喷水视频| 性色在线视频精品| 国产 在线视频无码| 亚洲国产亚洲综合在线尤物| 亚洲精品你懂的| 欧美在线视频a| 国产国产人成免费视频77777| 欧美国产视频| 666精品国产精品亚洲| 日韩精品久久无码中文字幕色欲| 国产精品深爱在线| 亚洲性一区| 欧美特级AAAAAA视频免费观看| 在线视频一区二区三区不卡| 亚洲中文无码av永久伊人| 国产91av在线| 97av视频在线观看| 色哟哟色院91精品网站| www.精品视频| 五月激情综合网| 精品国产黑色丝袜高跟鞋 | 无码国产偷倩在线播放老年人| 久久美女精品| 国产性生大片免费观看性欧美| 嫩草国产在线| 欧美色亚洲| 国产视频只有无码精品| 日韩国产黄色网站| 亚洲天堂自拍| 99爱视频精品免视看| 亚洲无码91视频| 天天综合色网| 色九九视频| 亚洲AV一二三区无码AV蜜桃| 92精品国产自产在线观看| 草草影院国产第一页| 天堂成人在线| aⅴ免费在线观看| 制服丝袜 91视频| 毛片视频网| 亚洲欧美日韩中文字幕在线一区| 亚洲欧美日韩天堂| 国产成人久久综合777777麻豆| 毛片免费视频| 亚洲欧美在线综合一区二区三区| 欧美成人日韩| 波多野结衣无码AV在线| 国产精品欧美日本韩免费一区二区三区不卡 | 亚洲性视频网站| 老司国产精品视频91| 成人夜夜嗨| 人妻一本久道久久综合久久鬼色| 亚洲男人在线天堂| 亚洲天堂视频网站| 亚洲精品在线91| 久久黄色视频影|