基于社區優化的深度網絡嵌入方法

2021-07-30 10:33:28李亞芳馮韋瑋祖寶開康玉健

計算機應用 2021年7期

李亞芳，梁燁，馮韋瑋，祖寶開，康玉健

（北京工業大學信息學部，北京 100124）

0 引言

網絡已成為最常見的信息載體和表示形式，在我們日常生活與工作中無處不在，如社交網絡、論文合作者網絡、通信網絡以及生物網絡等。文獻［1］指出在社交網絡已成為人工智能應用焦點的大背景下，對網絡數據進行研究與分析，已經受到社會各界的廣泛關注，在用戶畫像、內容推薦、輿情監測、生物分子功能團識別等眾多領域具有潛在應用價值。

然而，隨著互聯網技術以及大數據的蓬勃發展，以微博、微信、Twitter 和Facebook 為代表的社交網絡進入億級節點時代，不僅網絡規模不斷擴大、鏈接關系更加復雜，還存在缺失數據和噪聲信息，這為大規模網絡的相關研究提出了更新、更大的挑戰。對于這類大規模稀疏復雜網絡，文獻［2］中指出，傳統網絡分析方法將網絡表示為高維、稀疏的鄰接矩陣，存在如下問題：計算復雜度高；節點通過邊關聯，難以并行化；難以直接應用機器學習方法，對于大規模網絡的高維、稀疏向量，已有的統計學習方法會花費更多的運行時間和計算空間，使得許多先進的研究成果無法直接應用到現實的網絡環境中。

網絡嵌入方法是解決傳統方法缺陷的有效方式，在保留結構信息的前提下，為網絡中的每個節點學習一個低維、稠密的連續特征向量表示［3-4］。通過將網絡數據表示成一種高效合理的形式，不僅有助于更好理解節點之間的語義關聯，而且能夠有效解決大規模網絡中的稀疏性，也可作為經典機器學習模型的輸入，采用已經成熟的模型和方法將其運用于后續節點分類、社區發現、鏈接預測以及可視化等網絡分析任務中，對解決現實網絡中的實際應用問題具有重要意義，如：通過節點分類構建用戶推薦系統；通過社區發現進行輿情監測；通過鏈路預測推測蛋白質之間可能存在的相互作用關系以推動疾病的治療。

近年來，針對網絡結構的網絡嵌入方法被相繼提出，大致可分為基于因子分解的方法［5-13］與基于神經網絡的表示方法［14-20］。基于因子分解的方法首先構造關系矩陣，通常為鄰接矩陣、Laplacian 矩陣、節點轉移概率矩陣或其他相似度矩陣，通過對關系矩陣的分解得到節點的低維向量表示。該類方法可進一步分為：1）特征值分解方法（特征向量表示方法），如局部線性表示（Locally Linear Embedding，LLE）［5］、拉普拉斯特征表示（Laplacian Eigenmaps，LE）［6］、結構保持方法（Structure Preserving Embedding，SPE）［7］。2）矩陣分解方法。主要包括圖分解方法（Graph Factorization，GF）［8］、Graph Representation（GraRep）［9］、高階近鄰保持嵌入方法（High-Order Proximity Preserved Embedding，HOPE）［10］、模塊化非負矩陣分解方法（Modularized Nonnegative Matrix Factorization，M-NMF）［11］、考慮網絡社區結構的非負矩陣分解方法（Network Embedding with Community Structural information，NECS）［12］以及網絡嵌入更新方法（Network Embedding Update，NEU）［13］。GraRep 通過構建k階相似度矩陣，往往能得到較好的效果，但算法的計算復雜度更高。NEU 則采用相似性方法提高基于高階相似度矩陣進行節點表示的效率。M-NMF 通過融合模塊度進行非負矩陣分解，將社團結構信息融入網絡表示學習中。類似地，NECS 基于隨機塊模型，將節點高階的特征矩陣和社區結構聯合分解，得到保持網絡社區結構的低維表示。基于因子分解的方法構建的關系矩陣包括高階節點鏈接信息時，能夠顯著提升節點表示的效果；但計算和存儲效率相對較低，難以擴展到大規模網絡。而且基于因子分解方法只關注節點間線性結構關系是不夠的，因為網絡的形成是非常復雜的過程，節點間常具有非線性復雜結構關系，因此，網絡研究者利用神經網絡建模節點表示之間的非線性關系。

DeepWalk 方法［14］是第一個采用神經網絡進行網絡表示學習的方法，通過隨機游走得到網絡結構的線性序列，進一步采用訓練詞向量的神經網絡模型SkipGram 進行網絡中節點的表示學習。在DeepWalk 的基礎上，人們相繼提出了node2vec［15］、層次網絡表示方法（Hierarchical Representation Learning for Networks，HARP）［16］、判別深度隨機游走模型（Discriminative Deep Random Walk，DDRW）［17］以及基于邊采樣的網絡表示學習模型（Network Embedding model based on Edge Sampling，NEES）［18］。DeepWalk 及其擴展方法通過某種隨機游走策略自動地抽樣網絡中節點的路徑，然后通過神經網絡模型得到節點的表示，但這類方法屬于淺層神經網絡方法，難以充分捕捉現實世界復雜網絡中節點間的高度非線性關系。進而，Wang 等［19］提出基于深度自編碼節點表示方法（Structural Deep Network Embedding，SDNE），通過綜合考慮網絡拓撲結構的一階和二階相似度，取得了較好的節點表示性能。深度神經網絡表示方法（Deep Neural Networks for Graph Representation，DNGR）［20］構建節點間PPMI（Positive Pointwise Mutual Information）關聯矩陣，通過深層降噪自編碼模型學習節點的低維向量表示。基于深度學習的網絡表示方法具有更強的節點表示能力，不僅能夠學習節點間復雜的非線性關系，而且可通過高效優化方法求解模型參數。

節點低維特征表示的學習，為大規模網絡的分析和處理提供了一條可行解決思路。但已有方法得到節點低維特征向量后，需要將其作為其他應用（節點分類、社區發現、鏈接預測、可視化等）的輸入來進一步分析，采用的是兩步走策略；缺少針對具體應用來設計模型，因為不同的應用場景對學習特征的選擇通常有不同的要求。網絡社團結構是網絡分析的主要任務之一，也是復雜網絡的重要結構特性。在網絡嵌入過程中，將網絡的社團結構融入節點嵌入表示過程中，也能夠從全局的角度揭示節點之間的隱含關系，有助于提高節點嵌入表示的質量。因此，本文針對網絡節點聚類（社區發現）的應用，基于深度神經網絡的自動編碼器模型SDNE，結合網絡的局部和全局拓撲結構特性以及深度嵌入聚類（Deep Embedding Clustering，DEC）算法［21］，提出節點低維表示和社區結構優化的深度網絡嵌入模型CADNE（Community-Aware Deep Network Embedding）。該模型同時學習節點的低維特征表示和節點所屬社區的指示向量，使節點的低維表示不僅保持原始網絡結構中的近鄰特性，而且保持原始拓撲空間的社區結構。本文主要工作如下：

1）基于深度自編碼模型提出一種網絡聚類結構優化的深度網絡嵌入模型CADNE，該方法能夠同時學習網絡節點拓撲鏈接以及節點社區結構的非線性關系，得到節點在低維特征空間的向量表示；

2）給出了CADNE模型的框架以及參數的求解方法；

3）與已有網絡嵌入方法在經典數據集進行實驗對比，在聚類、分類、鏈接預測以及可視化等不同應用上，驗證了提出CADNE的有效性。

1 深度優化的深度網絡嵌入CADNE

1.1 基本定義

定義1 網絡（network）。網絡可描述為G=(V，E)，V={v1，v2，…，vn}表示網絡中n個節點組成的集合，E表示節點間邊的集合。每條邊e∈E是一對包含權重Aij的有序節點對e=(vi，vj)，如果節點vi和vj間不存在鏈接，則Aij=0；若存在鏈接，對于無權網絡Aij=1，對于有權網絡Aij＞0。

定義2 一階相似性（first-order proximity）。描述任意兩個節點之間的局部結構相似度，如果兩個節點間存在鏈接，其一階相似性Aij＞0，否則為0。

一階近鄰描述網絡中存在直接鏈接的節點對之間的相似度，只關注兩個節點對之間是否存在直接的鏈接。然而，現實網絡的鏈接關系往往非常稀疏，而且存在很多非常相似的節點對之間并沒有直接鏈接關系，因此，引入二階相似性作為補充以描述全局網絡結構的相似性。

定義3 二階相似性（second-order proximity）。描述任意兩個節點近鄰結構的相似性，對于節點vi和vj，Ai={Ai1，Ai2，…，Ain}和Aj={Aj1，Aj2，…，Ajn}中元素值分別表示兩個節點與網絡中其他節點的一階相似性，則節點vi和vj的二階相似性為向量Ai和Aj的相似度。

可見，如果兩個節點共有的鄰居節點越多，其二階相似性越大，這兩個節點越相似；若兩個節點間不存在共同的鄰居鏈接，其二階相似度為0。通過二階相似性可度量網絡中未存在直接鏈接關系的節點對之間的相似度，度量網絡節點的全局結構相似度。本文同時考慮節點間的一階相似性和二階相似性，對網絡中的節點進行映射表示。

定義4 網絡嵌入（network embedding）。對網絡G=(V，E)，學習映射函數f：V→Rd將每個節點映射為d（d＜n）維特征空間的向量。

1.2 CADNE模型框架

給定無向網絡G=(V，E)，節點間的鏈接關系可用鄰接矩陣表示A=[A1，A2，…，An]描述，可見，原始網絡拓撲結構空間中，每個節點通過n維向量進行表示。本文提出基于深度嵌入聚類進行社區優化的深度網絡表示模型，學習節點在d維低維特征空間的表示，同時得到節點的社區劃分，整個模型框架如圖1所示。

圖1 CADNE模型框架Fig.1 Framework of CADNE model

該模型主要由兩部分組成：第一部分是深度自編碼模型通過非線性激活函數進行參數訓練，將節點映射為易于計算的低維、稠密向量表示，以保持原始網絡結構中節點間高度非線性關系，在映射過程中，保持網絡節點一階相似性（局部）及二階相似性（全局）的拓撲特性；第二部分是基于DEC 模型，利用節點聚類結構對節點低維表示進一步優化，使得節點低維表示過程中仍保持節點聚集特性，通過交替迭代更新深度自編碼模型的編碼過程以及節點聚類，得到社區結構優化的節點低維表示。

1.3 保持網絡拓撲結構

為了使低維表示后的節點在新的特征空間中仍保持原網絡拓撲結構中的近鄰特性，綜合考慮節點間的一階相似性以及二階相似性，采用深度自動編碼實現節點稀疏表示的降維。深度自編碼器包括編碼和解碼兩部分，編碼過程通過多層非線性函數將輸入數據映射到低維特征空間；解碼過程也通過多層非線性函數將低維特征空間映射到重建后的輸出表示。

設xi表示根據網絡結構得到的模型輸入，如果輸入為鄰接矩陣，則xi=Ai，每個元素描述節點vi與網絡中其他節點的鏈接關系，即節點的全局鏈接結構特征。通過將鄰居矩陣作為輸入，得到低維表示后，在解碼階段的網絡重建過程中，使節點在原始拓撲結構中具有相似近鄰結構特征節點的低維表示也盡可能相似。假設深度自動編碼網絡有K層，則每層的隱含表示為：

通過編碼器逐層編碼降維，得到最深層的zi為節點的低維向量表示，通過逆向解碼得到自動編碼網絡的輸出：

其中：σ(x)、f(x)為非線性的激活函數；θenc={W，b}，θdec={M，d}是待學習的編碼器和解碼器的模型參數。目標是根據新的節點低維表示zi，最小化輸入xi和輸出的重構誤差，通過最小化編碼器輸入和解碼器輸出，使得節點近鄰結構越相近（二階相似度越高）的節點對，具有相似的低維向量表示，因此保持網絡二階相似性的目標函數為：

然而，現實網絡中鏈接非常稀疏，只有極少量的邊被觀測到，因此鄰接矩陣中零元素個數遠多于非零元素的數目。如果直接使用鄰接矩陣作為模型的輸入，過多的零元素將會影響原始網絡的低維表示以及重建過程，通過最小化重構誤差會使得節點的重建表示傾向于重建很多零元素。因此，在網絡低維表示和重建過程中，重點關注鄰接矩陣中的非零元素，定義二階相似性目標損失函數L2nd為：

其中：⊙是哈達瑪積；Bi=如果鄰接矩陣元素Aij=0，Bij=1，否則Bij=β＞1。通過該二階相似性的目標約束，使得原始網絡拓撲空間中具有相似全局鏈接結構關系的節點的低維表示也盡可能相似。

為保持原始網絡空間節點的局部結構，節點低維表示映射過程中，要使存在直接鏈接的節點對的低維表示盡可能相似，因此對這類節點對進行約束，如果其低維表示的距離較遠則引入較大的懲罰。構建一階相似性損失函數L1st，定義dii=，則優化目標：

為了使網絡節點映射為低維特征空間表示的過程中，同時保持網絡局部及全局拓撲結構，將一階相似性與二階相似性綜合得到目標函數：

1.4 保持網絡潛在聚類結構

在低維表示空間引入聚類損失，使學到的網絡嵌入能夠更好地保持網絡聚類結構，基于深度聚類算法DEC，將節點聚類融合到節點低維表示模型，利用節點聚類結構對低維表示進行進一步優化。將低維表示的節點向量zi(i=1，2，…，n)進行聚類，設節點zi屬于類uj的概率為qij(qij∈Q)，表示節點zi屬于類中心uj的相似度，學生t-分布（Student’s tdistribution）為：

因此，將節點低維表示的類分布Q與目標分布P擬合，采用KL散度衡量，得到目標函數：

1.5 CADNE算法實現

模型的訓練主要分成兩部分：第一部分是網絡拓撲結構保持部分（流程步驟1）～8）），即模型預訓練，通過對深度自編碼模型的編碼器encoder 以及解碼器decoder 進行訓練，采用Adam 優化目標函數Lae，使得節點低維表示過程中同時保持網絡結構的局部以及全局結構特性；第二部分根據節點聚類結構對節點低維表示進行優化（流程步驟9）～13）），對編碼器的編碼過程進一步訓練，使得節點的低維表示過程保持聚類結構。通過兩部分的模型預訓練以及社區結構的優化訓練，得到構建深度網絡模型參數及最終節點低維表示Z。本文提出的CADNE模型流程如下：

輸入網絡G=(V，E)的鄰接矩陣A；

輸出節點低維表示矩陣Z，模型參數θenc、θdec。

2 實驗設計與結果分析

為驗證提出的基于社區優化的深度網絡嵌入方法CADNE 的有效性，與經典的網絡表示學習模型進行對比，在數據集20NewsGroup、Cora、Citeseer、BlogCatalog 上進行測評。各數據集的統計信息如表1所示。

表1 數據集屬性Tab.1 Datasets attributes

為了更好地評價本文所提出的模型方法，在實驗部分與7個代表方法進行對比分析，包括：

1）DeepWalk：該方法通過在圖中進行隨機游走得到的節點序列，將序列輸入使用Skip-Gram模型得到每個節點的嵌入表示。

2）LINE：該方法通過優化保持一階相似度和二階相似度的目標函數來學習每個節點的低維表示向量。

3）SDNE：該方法通過構建深層自編碼器保留網絡一階相似度和二階相似度，學習節點的低維表示。

4）DNGR：構建節點間PPMI 關聯矩陣，通過降噪自編碼得到節點的低維向量表示。

5）M-NMF：基于矩陣分解學習節點低維嵌入表示，模型訓練過程中考慮了節點的社區結構。

6）NECS：保持網絡節點高階近鄰，同時考慮網絡社區結構的矩陣分解模型，學習節點低維嵌入表示。

7）DEC：深度嵌入聚類算法，將網絡鄰接矩陣作為模型輸入進行訓練，沒有考慮網絡的拓撲結構信息。

參數設定：為保證對比公平，各方法的參數設置為默認值，CADNE 參數設置為：γ=10，β=10，batch-size=128，ρ=0.000 1，在編碼階段搭建三層神經網絡結構，各層神經元節點數的設置如表2所示。

表2 神經網絡各層神經元節點數Tab.2 Neuron nodes in each layer of neural network

2.1 聚類實驗分析

使用CADNE模型得到網絡節點的嵌入表示，然后將其運用于節點聚類任務，通過聚類的效果評測網絡表示學習的性能。聚類算法采用K-means，評價標準采用標準互信息（Normalized Mutual Information，NMI）以及準確率（Accuracy，ACC）［22］，這兩個指標值越大，說明模型的聚類效果越好，各算法在數據集上10次實驗的平均聚類結果如表3所示。從表中可以看出，CADNE模型在Citeseer和Cora上兩個評測指標都取得了最好結果，在BlogCatalog 上明顯優于除DEC 外的其他基準方法，在20NewsGroup上ACC也取得最優，ACC提升最高達0.525。M-NMF也考慮了網絡社區特性，但基于矩陣分解的淺層模型，無法捕獲網絡更高階復雜結構特性。NECS方法可以得到類似的結果，通過引入網絡社區結構的約束，得到節點低維表示在BlogCatalog以及Citeseer數據集相對于沒有考慮社區結構的SDNE 以及DNGR 方法，性能得到提升，但由于基于矩陣分解的線性模型，難以捕獲網絡節點間復雜的非線性關系。DEC通過深度嵌入聚類，在BlogCatalog 數據表現較好，但缺乏對網絡特殊拓撲結構特性的保持，在其他數據集的性能有待提高。SDNE通過綜合考慮網絡一階相似度以及二階相似度，聚類效果優于采用深度訓練模型的DNGR，但CADNE 模型在節點低維表示過程中，除了考慮網絡的局部及全局拓撲結構，還考慮節點聚集的社團結構進行優化，表現出更好的聚類結果，驗證了基于網絡節點社區結構進行深度嵌入表示的有效性。

表3 不同網絡嵌入方法在數據集上的NMI和ACC比較Tab.3 NMI and ACC of different network embedding methods on datasets

2.2 分類實驗分析

CADNE 模型得到節點表示之后，將其運用于節點的分類任務，分類結果的好壞可以有效判斷網絡表示學習模型學習到的嵌入表示是否包含了網絡更多的特性。分類算法采用Liblinear 分類包，和其他網絡表示學習方法［19］類似，采用宏平均（Macro-F1）和微平均（Micro-F1）兩個指標作為模型性能的評價標準，這兩個指標值越大表明模型的分類性能越好。隨機抽取10%到90%的節點嵌入表示作為訓練樣本，其余作為測試樣本。在20NewsGroup、Cora、Citeseer、BlogCatalog數據集的多標簽分類結果如表4～7所示。

表4 訓練樣本占比不同時在數據集20NewsGroup上的宏平均與微平均結果對比Tab.4 Comparison of Macro-F1 and Micro-F1 results on 20NewsGroup dataset with different proportions of training samples

由實驗結果可知，CADNE 模型分類效果在BlogCatalog、Citeseer、Cora 數據集上兩個評測指標都取得最好結果，除Cora 在90%訓練比例時微平均略遜于DEC。結果表明，與基線方法相比，該方法學習到的節點低維表示能更好地應用到分類任務。其中，CANDE 模型在BlogCatalog 數據集上優勢最為明顯，在訓練比例20%時比基線方法提升最高達0.512。這在一定程度上表明CADNE 模型結構對網絡表示學習有積極的影響。在表6（BlogCatalog）中，當訓練百分比從60%下降到10%時，本文方法在基線上的改進幅度更加明顯。結果表明，在標記數據有限的情況下，該方法比基線方法有更大的改進。這種優勢對于實際應用尤其重要，因為標記的數據通常是稀缺的。在大多數情況下，DeepWalk 性能是網絡嵌入方法中最差的，DeepWalk 沒有明確的目標函數來捕獲網絡結構，且所采用的隨機游走方式可能引入了噪聲。雖然對于全連接網絡NewsGroup，CADNE 模型的性能略遜于LINE 方法，主要可能是無法有效通過權重捕獲網絡中節點間的相似性關系。但在大多數情況下，CADNE 模型的性能是網絡嵌入方法中最好的，該方法根據節點聚類結構對節點低維表示進行優化，對編碼器的編碼過程進一步訓練，使得節點的低維表示過程保持聚類結構。因此，該模型學習到的網絡表示能更好地推廣到分類任務。

表6 訓練樣本占比不同時在數據集Citeseer上的宏平均與微平均結果對比Tab.6 Comparison of Macro-F1 and Micro-F1 results on Citeseer dataset with different proportions of training samples

表5 訓練樣本占比不同時在數據集BlogCatalog上的宏平均與微平均結果對比Tab.5 Comparison of Macro-F1 and Micro-F1 results on BlogCatalog dataset with different proportions of training samples

2.3 鏈接預測實驗分析

為了驗證CADNE 模型得到的節點低維嵌入在鏈接預測中的有效性，從低維表示后的樣本中隨機選取90%作為訓練集，采用邏輯回歸分類器進行模型訓練，使用受試者工作特性曲線（Receiver Operating Curve，ROC）下面積AUC（Area Under ROC Curve）衡量預測的準確性，較高的AUC 值表示更好的性能。各模型的實驗對比結果如表8所示。

表8 不同網絡嵌入方法在數據集上的AUC值Tab.8 AUC values of different network embedding methods on datasets

從實驗結果可見，相比已有的網絡嵌入方法，本文提出的基于社區優化的深度網絡嵌入方法CADNE 在各數據集上準確性都取得較大提升。具體來說，在20NewsGroup 上，LINE和DNGR 性能優于CADNE 方法，主要原因可能是在全鏈接網絡20NewsGroup 上，LINE 通過隨機塊模型能夠獲取更加可靠的節點拓撲關系，DNGR 通過構建PPMI 矩陣能夠更好捕獲節點間的拓撲相似關系，因此取得更好的性能；但在20NewsGroup 上，CADNE 相較于其他基線方法，AUC 提升最多達0.451。在其他三個數據集Cora、Citeseer 以及BlogCatalog 上，本文方法都取得最優結果，比基線方法提高了約0.111～0.378。以上結果表明本文通過結合節點社團結構的深度網絡嵌入方法，能夠得到更好的節點低維表示。

2.4 可視化實驗分析

為進一步評測本文CADNE模型節點嵌入表示的有效性，在20Newsgroup 數據集上與LINE、DNGR 以及SDNE 的可視化結果進行比較。將網絡嵌入模型輸出得到的節點低維嵌入表示輸入t-SNE 得到數據樣本在2D 空間的可視化圖，其中同顏色的數據點表示同一類別。通過可視化，不同顏色樣本點組成的簇間的邊界越清晰，說明模型得到的節點表示越好。

從圖2（橫軸、縱軸是將數據樣本點降維到2維空間后，分別在兩個坐標的數值）結果可見，LINE 和DNGR 的類邊界不清晰，而且類內混淆度比較大，盡管SDNE 能夠得到比較好的可視化結果，但不同類的邊界也不夠清楚；CADNE 則能夠得到比較清晰的類邊界，三個類間的間距比較大，而且同一個類內相同節點大部分聚集在一起。由此可見，在節點低維表示過程中，引入節點的聚類結構對低維表示進行優化，能夠得到類邊界更加清晰的節點低維表示。

圖2 20NewsGroup數據集可視化圖Fig.2 Visualization Results of 20NewsGroup dataset

表7 訓練樣本占比不同時在數據集Cora上的宏平均與微平均結果對比Tab.7 Comparison of Macro-F1 and Micro-F1 results on Cora dataset with different proportions of training samples

2.5 參數敏感性分析

CADNE 有兩個超參數：樣本重要度參數γ和二階相似度系數β。這里選擇在四個數據集上進行測試，通過實驗分析超參數的選擇對CADNE 模型在鏈接預測上的性能。除了當前被測試的參數，其他參數均保持默認值。

圖3 顯示了γ取值為［0，30］時所有樣本數據集AUC 值的分布情況。從結果可見，當γ為0 時，CADNE 取得的效果最差。此時相當于CADNE 模型僅利用了網絡拓撲結構中的一階近鄰信息，無法完全保留網絡中高階的相似度；隨著γ增大，CADNE 模型的效果先迅速提升，在γ=10 時達到最好之后緩慢下降，在Cora 和Citeseer 數據集上結果比較穩定。因此，本實驗設置中該參數設置為10。

圖3 不同參數γ的AUC值Fig.3 AUC values of different γ

圖4 中可以得到類似的結果，當β從1 增至30 過程中，開始CADNE 性能迅速提升，到10 取得最優結果，之后緩慢下降。具體地，在β=1 時效果最差，此時將鄰接矩陣中零元素與非零元素同等對待進行模型訓練，因此會重建更多的零元素，引入的噪聲信息影響了最終節點嵌入表示的性能。隨著β增加，模型會傾向于重建更多的非零元素，因此效果有顯著提升；但過大的β使得忽略零元素的重建過程，性能會降低，因此在實驗過程中β設置為10。

圖4 不同參數β的AUC值Fig.4 AUC values of different β

3 結語

本文提出了一種基于社區結構優化的網絡嵌入方法，在節點低維表示過程中，不僅保持網絡的局部和全局拓撲結構特性，而且融合節點潛在的社區特性對低維表示進行優化。打破了傳統網絡表示學習方法局限，得到更具有表示能力的低維、稠密特征表示。本文提出的基于社區結構優化進行節點低維特征表示的深度自編碼聚類模型CADNE，能夠同時學習節點的低維表示和節點所屬社區的指示向量，在多個數據集上與已有經典網絡嵌入方法對比實驗表明：CADNE 模型具有較好的節點低維表示能力。