劉正銘,馬 宏,劉樹(shù)新,楊奕卓,李 星
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,鄭州 450002)
近年來(lái),隨著以智能終端和社交媒體為代表的各種信息渠道的出現(xiàn),大數(shù)據(jù)分析技術(shù)越來(lái)越受到人們的重視[1]。社交網(wǎng)絡(luò)、科學(xué)引文網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)的規(guī)模不斷擴(kuò)大,網(wǎng)絡(luò)數(shù)據(jù)類(lèi)型復(fù)雜多樣。現(xiàn)實(shí)網(wǎng)絡(luò)數(shù)據(jù)的高維性、稀疏性和異質(zhì)性等特點(diǎn),對(duì)現(xiàn)有網(wǎng)絡(luò)分析技術(shù)帶來(lái)嚴(yán)重挑戰(zhàn),這使得對(duì)于網(wǎng)絡(luò)數(shù)據(jù)的表示學(xué)習(xí)研究具有重要意義。
網(wǎng)絡(luò)表示學(xué)習(xí)旨在將每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)映射為一個(gè)低維空間的稠密向量,使得相似的網(wǎng)絡(luò)節(jié)點(diǎn)在低維空間距離較近。網(wǎng)絡(luò)表示學(xué)習(xí)通過(guò)對(duì)網(wǎng)絡(luò)數(shù)據(jù)形式進(jìn)行變換,一方面使其包含的數(shù)據(jù)信息能夠更加容易提取和分析,即由人為的特征工程轉(zhuǎn)化為機(jī)器的自動(dòng)特征提取,另一方面有效緩解了網(wǎng)絡(luò)數(shù)據(jù)表示的高維性、稀疏性等問(wèn)題。
傳統(tǒng)的網(wǎng)絡(luò)表示學(xué)習(xí)模型主要是基于特定網(wǎng)絡(luò)關(guān)系矩陣降維得到節(jié)點(diǎn)的向量表示[2-5],其復(fù)雜度通常是網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量的二次方,同時(shí)難以融合網(wǎng)絡(luò)節(jié)點(diǎn)文本屬性等異質(zhì)信息進(jìn)行表示學(xué)習(xí)。近年來(lái),大量研究者開(kāi)始研究基于深度學(xué)習(xí)的網(wǎng)絡(luò)表示學(xué)習(xí)方法[6-7]。文獻(xiàn)[8]提出了DeepWalk算法,通過(guò)隨機(jī)游走產(chǎn)生節(jié)點(diǎn)序列,并將節(jié)點(diǎn)序列看作特殊的“句子”作為Word2Vec算法[9]輸入,學(xué)習(xí)節(jié)點(diǎn)的向量表示。文獻(xiàn)[10]提出了LINE算法,對(duì)所有網(wǎng)絡(luò)節(jié)點(diǎn)間的一階相似性和二階相似性進(jìn)行概率建模,通過(guò)最小化該概率分布和經(jīng)驗(yàn)分布的KL散度得到節(jié)點(diǎn)的向量表示。文獻(xiàn)[11]提出了Node2Vec算法,在DeepWalk算法基礎(chǔ)上,通過(guò)設(shè)定in、out超參數(shù)控制隨機(jī)游走策略,挖掘網(wǎng)絡(luò)結(jié)構(gòu)的局部特性和全局特性。文獻(xiàn)[12]提出了一個(gè)LsNet2Vec模型,針對(duì)大規(guī)模網(wǎng)絡(luò)中的鏈路預(yù)測(cè)問(wèn)題進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)的表示學(xué)習(xí)。然而,上述方法都只利用了網(wǎng)絡(luò)結(jié)構(gòu)信息,忽略了網(wǎng)絡(luò)節(jié)點(diǎn)屬性信息。
現(xiàn)實(shí)的網(wǎng)絡(luò)數(shù)據(jù)還包括豐富的網(wǎng)絡(luò)節(jié)點(diǎn)屬性信息,如科學(xué)引文網(wǎng)絡(luò)中文獻(xiàn)題目和摘要等信息。現(xiàn)有融合節(jié)點(diǎn)文本屬性信息進(jìn)行表示學(xué)習(xí)的算法主要有TADW算法[13],該算法將節(jié)點(diǎn)文本屬性信息表示矩陣嵌入矩陣分解過(guò)程中實(shí)現(xiàn)融合表示學(xué)習(xí)。然而該算法利用TF-IDF[14]方法編碼表示節(jié)點(diǎn)文本屬性信息,忽略了文本中詞的詞序信息,難以有效挖掘深層語(yǔ)義信息。
針對(duì)上述方法的不足,本文提出一種融合節(jié)點(diǎn)文本屬性信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法。首先,基于DeepWalk思想,將網(wǎng)絡(luò)節(jié)點(diǎn)結(jié)構(gòu)信息的表示學(xué)習(xí)問(wèn)題轉(zhuǎn)化為詞的表示學(xué)習(xí)問(wèn)題。其次,針對(duì)節(jié)點(diǎn)文本屬性信息的表示學(xué)習(xí)問(wèn)題,利用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型挖掘節(jié)點(diǎn)文本屬性的深層語(yǔ)義信息。最后,為實(shí)現(xiàn)兩方面信息的融合表示學(xué)習(xí),提出基于參數(shù)共享機(jī)制的共耦神經(jīng)網(wǎng)絡(luò)模型進(jìn)行聯(lián)合訓(xùn)練。
為更好地描述所提模型及其具體算法,首先給出相關(guān)定義及符號(hào)表示。
定義1(文本屬性信息網(wǎng)絡(luò)) 用G=(V,E,C)表示文本屬性信息網(wǎng)絡(luò),V={v1,v2,…,vN}表示節(jié)點(diǎn)集合,N=|V|表示網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,E表示V中任意2個(gè)節(jié)點(diǎn)鏈接構(gòu)成的集合E={eij|i,j=1,2,…,N},eij表示節(jié)點(diǎn)間的鏈接關(guān)系緊密程度,即鏈接權(quán)重,C={c1,c2,…,cN},ci表示與節(jié)點(diǎn)vi相關(guān)聯(lián)的節(jié)點(diǎn)文本屬性信息。

這里考慮網(wǎng)絡(luò)節(jié)點(diǎn)相似性主要通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)信息和網(wǎng)絡(luò)節(jié)點(diǎn)文本屬性信息進(jìn)行刻畫(huà)。也就是說(shuō)在網(wǎng)絡(luò)表示學(xué)習(xí)過(guò)程中,需要同時(shí)注意網(wǎng)絡(luò)節(jié)點(diǎn)結(jié)構(gòu)信息相似性保留和文本屬性信息相似性保留,得到綜合兩方面信息的節(jié)點(diǎn)表示向量。
節(jié)點(diǎn)的表示向量φ(v)可以看作節(jié)點(diǎn)v的特征向量,可直接將其作為機(jī)器學(xué)習(xí)算法的輸入用于后續(xù)網(wǎng)絡(luò)分析任務(wù),如節(jié)點(diǎn)分類(lèi)、鏈路預(yù)測(cè)等。由于表示學(xué)習(xí)過(guò)程并不涉及具體網(wǎng)絡(luò)分析任務(wù),因此算法所得的表示向量具有廣泛適用性。
本節(jié)首先分別介紹刻畫(huà)節(jié)點(diǎn)文本屬性信息相似性和網(wǎng)絡(luò)結(jié)構(gòu)信息相似性的基礎(chǔ)模型,然后基于這2種基礎(chǔ)模型給出融合訓(xùn)練模型及其算法的優(yōu)化求解過(guò)程,最后結(jié)合算法偽代碼進(jìn)行算法復(fù)雜度分析。
2.1.1 節(jié)點(diǎn)文本屬性信息表示學(xué)習(xí)
近年來(lái),基于CBOW[9]神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的詞向量表示學(xué)習(xí)方法,通過(guò)窗口上下文預(yù)測(cè)中間詞,較好地保留了文本語(yǔ)句中的詞序信息。在此基礎(chǔ)上,文獻(xiàn)[15]提出了用于文本向量表示的Doc2Vec算法,在很多應(yīng)用中取得了較好的結(jié)果。因此,將其作為本文融合算法的基礎(chǔ)模型之一。
如圖1所示,對(duì)于任意詞w,給定左右窗口大小為b的上下文詞集合context(w)={w-b:wb},v(w)表示一個(gè)從詞w到對(duì)應(yīng)節(jié)點(diǎn)的映射函數(shù),矩陣W中的每一行表示一個(gè)詞對(duì)應(yīng)的表示向量,矩陣UW中的每一行表示一個(gè)節(jié)點(diǎn)對(duì)應(yīng)的文本屬性信息的表示向量。

圖1 節(jié)點(diǎn)文本屬性信息表示學(xué)習(xí)模型
算法基本思想是在已知上下文context(w)和v(w)的情況下,預(yù)測(cè)到詞w的概率最大。其對(duì)應(yīng)最大化目標(biāo)函數(shù)如下:
(1)
其中,D對(duì)應(yīng)于節(jié)點(diǎn)文本屬性信息中所有詞的集合。p(w|context(w),v(w))定義為如下Softmax函數(shù):
(2)
其中,v(u)和v′(u)表示u的表示向量及其輔助向量,xw采用累加求和的形式計(jì)算如下:
(3)
通過(guò)模型訓(xùn)練后,UW將作為最后所有節(jié)點(diǎn)的文本屬性信息表示向量矩陣輸出。
2.1.2 節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)信息表示學(xué)習(xí)
對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)信息表示學(xué)習(xí)問(wèn)題,主要分為采樣和訓(xùn)練2個(gè)階段。在采樣階段,使用文獻(xiàn)[8]提出的隨機(jī)游走策略捕捉網(wǎng)絡(luò)結(jié)構(gòu)信息。從任意節(jié)點(diǎn)vi出發(fā),隨機(jī)游走固定長(zhǎng)度l得到隨機(jī)游走序列S={vi,vi+1,vi+2,…,vi+l}作為訓(xùn)練集。在訓(xùn)練階段,將隨機(jī)游走序列看作特殊的“句子”,作為CBOW模型[10]的輸入,學(xué)習(xí)節(jié)點(diǎn)向量表示。如圖2所示,對(duì)于任意節(jié)點(diǎn)v,假設(shè)給定左右窗口大小為b的上下文節(jié)點(diǎn)集合為context(v)={v-b:vb},矩陣US中的每一行表示一個(gè)節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)信息的表示向量。

圖2 網(wǎng)絡(luò)結(jié)構(gòu)信息表示學(xué)習(xí)模型
與第2.1.1節(jié)類(lèi)似,在已知上下文context(v)的情況下,預(yù)測(cè)到節(jié)點(diǎn)v的概率最大,其對(duì)應(yīng)最大化目標(biāo)函數(shù)為:
(4)
其中,V是所有節(jié)點(diǎn)的集合。p(v|context(v))定義為如下Softmax函數(shù):
(5)
這里xv采用累加求和的形式計(jì)算如下:
(6)
通過(guò)模型訓(xùn)練后,US將作為最后所有節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)信息表示向量矩陣輸出。
為實(shí)現(xiàn)節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)信息和文本屬性信息的融合表示,最簡(jiǎn)單的方法就是拼接。如圖3(a)所示,記通過(guò)文本屬性信息表示學(xué)習(xí)模型訓(xùn)練得到的表示矩陣為UW,通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)信息表示學(xué)習(xí)模型訓(xùn)練得到的表示矩陣為US,直接拼接得到最終的節(jié)點(diǎn)表示向量矩陣U+,即U+=UW⊕US,然而這種方法由于UW和US在訓(xùn)練過(guò)程中相互獨(dú)立,屬于訓(xùn)練后結(jié)合,缺少了兩方面信息在訓(xùn)練過(guò)程中的相互補(bǔ)充與制約。因此,提出基于參數(shù)共享的交叉訓(xùn)練機(jī)制實(shí)現(xiàn)融合表示學(xué)習(xí),如圖3(b)所示。首先,使用融合表示向量矩陣U替換基礎(chǔ)模型中的UW和US,建立共耦神經(jīng)網(wǎng)絡(luò)模型,如圖4所示。

圖3 2種節(jié)點(diǎn)文本屬性的融合方案

圖4 融合節(jié)點(diǎn)文本屬性信息的表示學(xué)習(xí)模型
左右兩部分的表示學(xué)習(xí)模型交替訓(xùn)練,U由2個(gè)模型共享,即U在訓(xùn)練過(guò)程中相互傳遞。最后,通過(guò)反復(fù)迭代,得到融合兩方面信息的節(jié)點(diǎn)向量表示,其對(duì)應(yīng)的最大化目標(biāo)函數(shù)為:
(7)
其直觀解釋是:一方面融合表示向量和上下文詞向量一起用于預(yù)測(cè)中間詞w,使得融合表示向量包含節(jié)點(diǎn)文本屬性信息;另一方面融合表示向量又參與節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)信息的表示學(xué)習(xí)訓(xùn)練,通過(guò)節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)信息修正融合表示向量。在反復(fù)迭代過(guò)程中,實(shí)現(xiàn)兩方面信息的相互補(bǔ)充與制約。
采用隨機(jī)梯度上升方法進(jìn)行迭代訓(xùn)練,考慮到計(jì)算式(2)和式(5)時(shí)需要分別遍歷整個(gè)詞集合與節(jié)點(diǎn)集合,不適合在大規(guī)模網(wǎng)絡(luò)的實(shí)際應(yīng)用,文獻(xiàn)[16]提出了基于負(fù)采樣(Negative Sampling,NEG)的優(yōu)化策略用于降低計(jì)算復(fù)雜度,給出式(5)的近似表示如下:

(8)
其中,Lv(u)為0-1判決函數(shù),當(dāng)u=v時(shí),Lv(u)=1,否則Lv(u)=0,σ(x)=1/(1+e-x)。NEG(v)表示正樣本(v,context(v))對(duì)應(yīng)的負(fù)樣本集。從式(8)不難看出,負(fù)采樣的基本思想是最大化正樣本出現(xiàn)概率的同時(shí)最小化負(fù)樣本出現(xiàn)概率。
下面進(jìn)一步推導(dǎo)表示向量的更新公式,將式(8)帶入式(4)中可得:
(9)
為求導(dǎo)方便,記式(9)兩次求和項(xiàng)如下:
(10)
首先考慮LS(v,u)關(guān)于v′(u)的梯度,推導(dǎo)如下:
(11)
同理,可求出LS(v,u)關(guān)于xv的梯度如下:
(12)

(13)
u∈{v}∪NEG(v)
(14)
對(duì)于節(jié)點(diǎn)文本屬性信息表示學(xué)習(xí)模型的計(jì)算方法類(lèi)似,在此不再贅述,直接給出最后的更新公式。

(15)
u∈{w}∪NEG(w)
(16)
融合算法偽代碼如下:
算法1融合節(jié)點(diǎn)文本屬性信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法
輸入信息網(wǎng)絡(luò)G=(V,E,C),迭代次數(shù)r,表示向量維度d,采樣窗口左右大小b,隨機(jī)游走長(zhǎng)度l,隨機(jī)游走次數(shù)r′,負(fù)采樣樣本數(shù)k
輸出節(jié)點(diǎn)融合表示向量矩陣U,每一行對(duì)應(yīng)節(jié)點(diǎn)表示向量v(u),u∈V
訓(xùn)練數(shù)據(jù)集采樣步驟
1.對(duì)于節(jié)點(diǎn)文本屬性信息,給定參數(shù)(b),以采樣窗口大小b采樣文本信息,構(gòu)成文本屬性信息訓(xùn)練集{(w,context(w),v(w),NEG(w))}。
2.對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)信息,給定參數(shù)(l,b,r′,k),首先通過(guò)隨機(jī)游走產(chǎn)生節(jié)點(diǎn)序列集合,再以采樣窗口大小b采樣節(jié)點(diǎn)序列,構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu)信息訓(xùn)練集{(v,context(v),NEG(v))}。
迭代訓(xùn)練步驟如下:
3.for iter=1 to r
4.for w in D
5.random sample(w,context(w),v(w),NEG(w))
6.update=0
8.for u in {w}∪NEG(w)
10.update=update+delta·v′(u)
11.v′(u)=v′(u)+delta·xw//輔助向量更新
end
12.for u in {v(w)}∪context(w)
13.v(u)=v(u)+update//表示向量更新(詞向量及節(jié)
//點(diǎn)融合表示向量)
14.end
15.end
16.forvin V
17.random sample (v,context(v),NEG(v))
18.update=0
20.for u in {v}∪NEG(v)
22.update=update+delta·v′(u)
23.v′(u)=v′(u)+delta·xv//輔助向量更新
24.end
25.for u in context(v)
26.v(u)=v(u)+update//表示向量更新(節(jié)點(diǎn)融合表
//示向量)
27.end
28.end
29.end
下面結(jié)合算法偽代碼(算法1)分析算法流程并討論其復(fù)雜度問(wèn)題。

其次,對(duì)于迭代訓(xùn)練部分,一方面使用隨機(jī)梯度上升法(對(duì)應(yīng)求極大值)作為優(yōu)化更新策略,式(13)~式(16)給出了向量更新公式;另一方面基于參數(shù)共享策略進(jìn)行交叉迭代訓(xùn)練:步驟4~步驟15實(shí)現(xiàn)了節(jié)點(diǎn)文本屬性信息的表示學(xué)習(xí),步驟16~步驟29實(shí)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)信息的表示學(xué)習(xí),由于節(jié)點(diǎn)融合表示向量在兩部分模型中相互傳遞,使得在訓(xùn)練過(guò)程中受到兩方面信息的相互補(bǔ)充與制約。迭代過(guò)程中,對(duì)于給定的詞w,在負(fù)采樣策略下,計(jì)算次數(shù)從式(3)的|D|(語(yǔ)料庫(kù)大小)次減少到1+k次。
最后,分析算法的整體復(fù)雜度問(wèn)題。在單次迭代過(guò)程中,對(duì)于給定詞w,在負(fù)采樣策略下,計(jì)算次數(shù)從式(3)的|D|(語(yǔ)料庫(kù)大小)次減少到1+k次。遍歷詞集合,計(jì)算次數(shù)為|D|·(1+k)次。同理,對(duì)于給定節(jié)點(diǎn)v,遍歷節(jié)點(diǎn)集,計(jì)算次數(shù)為|V|·(1+k)次。因此,迭代r次后,整體計(jì)算復(fù)雜度為ο(r·(|D|+|V|)·(1+k))。在實(shí)際應(yīng)用場(chǎng)景中,由于r,k<<|D|,|V|,因此算法計(jì)算時(shí)間復(fù)雜度和網(wǎng)絡(luò)規(guī)模成線性比例關(guān)系,算法可擴(kuò)展到大規(guī)模場(chǎng)景的實(shí)際應(yīng)用。
為驗(yàn)證本文提出算法的有效性,在2個(gè)公開(kāi)數(shù)據(jù)集上與具有代表性的表示學(xué)習(xí)算法進(jìn)行對(duì)比。
DBLP數(shù)據(jù)集來(lái)源于AMiner網(wǎng)站公開(kāi)數(shù)據(jù)集。本文抽取其中4個(gè)知名國(guó)際會(huì)議論文數(shù)據(jù)(CIKM,KDD,IJCAI,CVPR),將論文作為網(wǎng)絡(luò)節(jié)點(diǎn),標(biāo)題信息作為節(jié)點(diǎn)文本屬性信息,利用引用關(guān)系構(gòu)建引文網(wǎng)絡(luò),包含節(jié)點(diǎn)18 223個(gè),連邊15 867條,4類(lèi)節(jié)點(diǎn)標(biāo)簽對(duì)應(yīng)不同的會(huì)議論文集。
CiteSeer-M10數(shù)據(jù)集來(lái)源于CiteSeerX網(wǎng)站中抽取的數(shù)據(jù)集。本文將文獻(xiàn)[17]從該網(wǎng)站中抽取的包含10個(gè)方向論文引用關(guān)系的數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。將論文作為網(wǎng)絡(luò)節(jié)點(diǎn),標(biāo)題信息作為節(jié)點(diǎn)文本屬性信息,利用引用關(guān)系構(gòu)建引文網(wǎng)絡(luò),包含節(jié)點(diǎn)10 310個(gè),連邊77 218條,10類(lèi)節(jié)點(diǎn)標(biāo)簽對(duì)應(yīng)不同方向的論文集。
將對(duì)比算法分為3類(lèi):1)僅利用節(jié)點(diǎn)文本屬性信息;2)僅利用網(wǎng)絡(luò)結(jié)構(gòu)信息;3)同時(shí)利用兩方面信息的融合算法。
下面簡(jiǎn)要介紹對(duì)比算法:
1)Doc2Vec算法:僅利用節(jié)點(diǎn)文本屬性信息進(jìn)行表示學(xué)習(xí)。
2)DeepWalk算法:僅利用網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行表示學(xué)習(xí)。
3)DW+D2V算法:將Doc2Vec算法和DeepWalk算法學(xué)習(xí)的表示向量進(jìn)行拼接,使得到的節(jié)點(diǎn)表示向量既包含文本屬性信息又包含網(wǎng)絡(luò)結(jié)構(gòu)信息。
4)TADW算法:通過(guò)矩陣分解的形式,直接利用節(jié)點(diǎn)文本屬性信息和網(wǎng)絡(luò)結(jié)構(gòu)信息得到節(jié)點(diǎn)表示向量。
本文算法的主要參數(shù)設(shè)定為表示向量維度d=200,迭代次數(shù)r=10,其余參數(shù)設(shè)定為對(duì)應(yīng)子結(jié)構(gòu)的原始文獻(xiàn)給出的建議值:文獻(xiàn)[15]中的Doc2Vec算法設(shè)定文本屬性信息表示學(xué)習(xí)窗口大小為10;文獻(xiàn)[8]根據(jù)DeepWalk算法對(duì)隨機(jī)游走的討論,設(shè)定游走長(zhǎng)度l=40,窗口大小為10,游走次數(shù)r′=80。為保持一致,各對(duì)比算法維度都設(shè)置為d=200。
評(píng)測(cè)方法與文獻(xiàn)[11,13]類(lèi)似,首先進(jìn)行無(wú)監(jiān)督的表示學(xué)習(xí),然后將其用在多標(biāo)簽分類(lèi)任務(wù)中,比較不同算法的性能。基本思想是具有較好標(biāo)簽預(yù)測(cè)能力的表示學(xué)習(xí)算法能夠更加準(zhǔn)確地從原始網(wǎng)絡(luò)數(shù)據(jù)中提取節(jié)點(diǎn)特征向量表示。由于評(píng)測(cè)數(shù)據(jù)集是多分類(lèi)問(wèn)題,因此在評(píng)價(jià)指標(biāo)選擇問(wèn)題上,先在各混淆矩陣上分別計(jì)算準(zhǔn)確率和召回率,記為(P1,R1),(P2,R2),…,(Pn,Rn),再計(jì)算平均值,得到宏準(zhǔn)確率(Macro_P)、宏召回率(Macro_R)及相應(yīng)的宏F值(Macro_F):
(17)
(18)
(19)
為方便進(jìn)行算法比較,與文獻(xiàn)[11,13]一致,統(tǒng)一采用SVM線性分類(lèi)器進(jìn)行節(jié)點(diǎn)分類(lèi)任務(wù),排除不同分類(lèi)器對(duì)節(jié)點(diǎn)分類(lèi)性能造成影響的情況。為考察算法在不同監(jiān)督信息量情況下的標(biāo)簽預(yù)測(cè)性能,隨機(jī)取訓(xùn)練集大小從10%~90%,剩余部分作為測(cè)試集,重復(fù)10次取結(jié)果平均值。實(shí)驗(yàn)流程如圖5所示。

圖5 實(shí)驗(yàn)流程
圖6和圖7分別記錄了在DBLP和CiteSeer-M10數(shù)據(jù)集上的不同訓(xùn)練率下(10%~90%,間隔20%進(jìn)行測(cè)試)的3種節(jié)點(diǎn)分類(lèi)性能指標(biāo)結(jié)果,即宏準(zhǔn)確率、宏召回率和宏F值。實(shí)驗(yàn)結(jié)果顯示,本文所提算法的節(jié)點(diǎn)分類(lèi)性能高于比較算法。

圖6 DBLP數(shù)據(jù)集上的分類(lèi)結(jié)果

圖7 CiteSeer-M10數(shù)據(jù)集上的分類(lèi)結(jié)果
下面從兩方面分析實(shí)驗(yàn)結(jié)果:
1)融合算法優(yōu)勢(shì)明顯。Doc2Vec算法和DeepWalk算法分別挖掘了節(jié)點(diǎn)文本屬性信息和結(jié)構(gòu)信息,但效果都較為普通。基于簡(jiǎn)單拼接的DW+D2V算法性能進(jìn)一步提升,但是相比于融合模型仍然有提升空間。在30%的訓(xùn)練率情況下,在DBLP網(wǎng)絡(luò)中,本文算法的分類(lèi)宏F值比DW+D2V算法提高了4.3%,比融合算法TADW提高了2.2%;在CiteSeer-M10網(wǎng)絡(luò)中,本文算法的分類(lèi)宏F值比DW+D2V算法提高了11%,比融合算法TADW提高了3.8%。
2)神經(jīng)網(wǎng)絡(luò)特征挖掘優(yōu)勢(shì)明顯。和通過(guò)矩陣分解方式進(jìn)行融合表示的TADW算法相比,基于共耦神經(jīng)網(wǎng)絡(luò)的本文算法平均節(jié)點(diǎn)分類(lèi)準(zhǔn)確率在DBLP和CiteSeer-M10網(wǎng)絡(luò)中分別達(dá)到68%和71%,比TADW算法分別提高了3%和3.6%。作為本文算法子結(jié)構(gòu)的Doc2Vec文本表示學(xué)習(xí)算法僅依賴(lài)節(jié)點(diǎn)文本屬性信息的情況下就達(dá)到較好的節(jié)點(diǎn)分類(lèi)效果。如圖6(a)和圖7(a)所示,在30%訓(xùn)練率下,在DBLP和CiteSeer-M10網(wǎng)絡(luò)上的節(jié)點(diǎn)分類(lèi)準(zhǔn)確率分別達(dá)到61.9%和47.9%。這一方面說(shuō)明結(jié)合文本屬性信息的重要性,另一方面也說(shuō)明了神經(jīng)語(yǔ)言模型在挖掘文本語(yǔ)義信息方面的巨大優(yōu)勢(shì),這也是結(jié)合神經(jīng)語(yǔ)言模型改進(jìn)網(wǎng)絡(luò)表示學(xué)習(xí)算法的初衷。
本文算法包含了表示向量維度d和融合算法迭代次數(shù)r這2個(gè)主要超參數(shù),本節(jié)將通過(guò)實(shí)驗(yàn)分析超參數(shù)的選擇對(duì)算法用于多標(biāo)簽節(jié)點(diǎn)分類(lèi)問(wèn)題性能好壞的影響。通過(guò)改變參數(shù)取值,得到不同的節(jié)點(diǎn)表示向量。按照?qǐng)D5的實(shí)驗(yàn)流程,在30%訓(xùn)練率的情況下,測(cè)試不同的節(jié)點(diǎn)表示向量對(duì)多標(biāo)簽節(jié)點(diǎn)分類(lèi)問(wèn)題性能指標(biāo)宏F值的影響,實(shí)驗(yàn)結(jié)果如圖8所示。圖8(a)表示了改變表示向量維度d對(duì)算法分類(lèi)預(yù)測(cè)性能的影響,d取值從50~300,每間隔50進(jìn)行一次實(shí)驗(yàn)。隨著表示向量維度的增加,分類(lèi)預(yù)測(cè)宏F值逐漸增加,說(shuō)明了較高維度能夠捕獲更多的網(wǎng)絡(luò)信息,形成更具區(qū)分性的網(wǎng)絡(luò)表示。然而同時(shí)也注意到,表示維度增加到200維以后,分類(lèi)預(yù)測(cè)宏F值有所下降。這說(shuō)明采用過(guò)多的表示向量維度衡量網(wǎng)絡(luò)節(jié)點(diǎn)相似性,減少了具有重要區(qū)分度特征的權(quán)重影響,反而導(dǎo)致性能損失。因此,200維的表示向量維度較為合適。圖8(b)是改變算法迭代次數(shù)r對(duì)算法分類(lèi)預(yù)測(cè)性能的影響,將迭代次數(shù)變化范圍設(shè)置為2~12,間隔2次進(jìn)行一次實(shí)驗(yàn)。隨著迭代次數(shù)的增加,分類(lèi)預(yù)測(cè)宏F值明顯提升,體現(xiàn)了交叉訓(xùn)練過(guò)程中兩方面信息的相互補(bǔ)充。迭代次數(shù)超過(guò)10次以后,分類(lèi)預(yù)測(cè)性能趨于穩(wěn)定,說(shuō)明融合模型能夠挖掘的網(wǎng)絡(luò)信息趨于穩(wěn)定。因此,迭代次數(shù)超過(guò)10次后停止迭代更新。

圖8 超參數(shù)對(duì)算法分類(lèi)性能指標(biāo)宏F值的影響結(jié)果
本文基于神經(jīng)語(yǔ)言模型提出了一個(gè)結(jié)合節(jié)點(diǎn)文本屬性信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法,實(shí)現(xiàn)了節(jié)點(diǎn)文本屬性信息和網(wǎng)絡(luò)結(jié)構(gòu)信息的融合表示學(xué)習(xí)。針對(duì)文本屬性信息和網(wǎng)絡(luò)結(jié)構(gòu)信息等異質(zhì)信息難以有效融合表示的問(wèn)題,給出基于參數(shù)共享的共耦神經(jīng)網(wǎng)絡(luò)模型用于融合訓(xùn)練。在2個(gè)真實(shí)世界網(wǎng)絡(luò)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法有效實(shí)現(xiàn)了融合表示學(xué)習(xí),在面向節(jié)點(diǎn)分類(lèi)的評(píng)測(cè)任務(wù)中,算法性能有一定提升。算法復(fù)雜度與網(wǎng)絡(luò)規(guī)模大小成線性比例關(guān)系,能夠適用于大數(shù)據(jù)時(shí)代背景下的大規(guī)模復(fù)雜信息網(wǎng)絡(luò)的表示學(xué)習(xí)問(wèn)題。然而,該算法僅考慮了節(jié)點(diǎn)文本屬性信息,下一步將針對(duì)實(shí)際網(wǎng)絡(luò)中存在的圖像信息、語(yǔ)音信息等其他異質(zhì)信息對(duì)算法進(jìn)行優(yōu)化。