999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合節(jié)點(diǎn)文本屬性信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法

2018-11-20 06:09:02劉正銘劉樹(shù)新楊奕卓
計(jì)算機(jī)工程 2018年11期
關(guān)鍵詞:融合信息模型

劉正銘,馬 宏,劉樹(shù)新,楊奕卓,李 星

(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,鄭州 450002)

0 概述

近年來(lái),隨著以智能終端和社交媒體為代表的各種信息渠道的出現(xiàn),大數(shù)據(jù)分析技術(shù)越來(lái)越受到人們的重視[1]。社交網(wǎng)絡(luò)、科學(xué)引文網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)的規(guī)模不斷擴(kuò)大,網(wǎng)絡(luò)數(shù)據(jù)類(lèi)型復(fù)雜多樣。現(xiàn)實(shí)網(wǎng)絡(luò)數(shù)據(jù)的高維性、稀疏性和異質(zhì)性等特點(diǎn),對(duì)現(xiàn)有網(wǎng)絡(luò)分析技術(shù)帶來(lái)嚴(yán)重挑戰(zhàn),這使得對(duì)于網(wǎng)絡(luò)數(shù)據(jù)的表示學(xué)習(xí)研究具有重要意義。

網(wǎng)絡(luò)表示學(xué)習(xí)旨在將每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)映射為一個(gè)低維空間的稠密向量,使得相似的網(wǎng)絡(luò)節(jié)點(diǎn)在低維空間距離較近。網(wǎng)絡(luò)表示學(xué)習(xí)通過(guò)對(duì)網(wǎng)絡(luò)數(shù)據(jù)形式進(jìn)行變換,一方面使其包含的數(shù)據(jù)信息能夠更加容易提取和分析,即由人為的特征工程轉(zhuǎn)化為機(jī)器的自動(dòng)特征提取,另一方面有效緩解了網(wǎng)絡(luò)數(shù)據(jù)表示的高維性、稀疏性等問(wèn)題。

傳統(tǒng)的網(wǎng)絡(luò)表示學(xué)習(xí)模型主要是基于特定網(wǎng)絡(luò)關(guān)系矩陣降維得到節(jié)點(diǎn)的向量表示[2-5],其復(fù)雜度通常是網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量的二次方,同時(shí)難以融合網(wǎng)絡(luò)節(jié)點(diǎn)文本屬性等異質(zhì)信息進(jìn)行表示學(xué)習(xí)。近年來(lái),大量研究者開(kāi)始研究基于深度學(xué)習(xí)的網(wǎng)絡(luò)表示學(xué)習(xí)方法[6-7]。文獻(xiàn)[8]提出了DeepWalk算法,通過(guò)隨機(jī)游走產(chǎn)生節(jié)點(diǎn)序列,并將節(jié)點(diǎn)序列看作特殊的“句子”作為Word2Vec算法[9]輸入,學(xué)習(xí)節(jié)點(diǎn)的向量表示。文獻(xiàn)[10]提出了LINE算法,對(duì)所有網(wǎng)絡(luò)節(jié)點(diǎn)間的一階相似性和二階相似性進(jìn)行概率建模,通過(guò)最小化該概率分布和經(jīng)驗(yàn)分布的KL散度得到節(jié)點(diǎn)的向量表示。文獻(xiàn)[11]提出了Node2Vec算法,在DeepWalk算法基礎(chǔ)上,通過(guò)設(shè)定in、out超參數(shù)控制隨機(jī)游走策略,挖掘網(wǎng)絡(luò)結(jié)構(gòu)的局部特性和全局特性。文獻(xiàn)[12]提出了一個(gè)LsNet2Vec模型,針對(duì)大規(guī)模網(wǎng)絡(luò)中的鏈路預(yù)測(cè)問(wèn)題進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)的表示學(xué)習(xí)。然而,上述方法都只利用了網(wǎng)絡(luò)結(jié)構(gòu)信息,忽略了網(wǎng)絡(luò)節(jié)點(diǎn)屬性信息。

現(xiàn)實(shí)的網(wǎng)絡(luò)數(shù)據(jù)還包括豐富的網(wǎng)絡(luò)節(jié)點(diǎn)屬性信息,如科學(xué)引文網(wǎng)絡(luò)中文獻(xiàn)題目和摘要等信息。現(xiàn)有融合節(jié)點(diǎn)文本屬性信息進(jìn)行表示學(xué)習(xí)的算法主要有TADW算法[13],該算法將節(jié)點(diǎn)文本屬性信息表示矩陣嵌入矩陣分解過(guò)程中實(shí)現(xiàn)融合表示學(xué)習(xí)。然而該算法利用TF-IDF[14]方法編碼表示節(jié)點(diǎn)文本屬性信息,忽略了文本中詞的詞序信息,難以有效挖掘深層語(yǔ)義信息。

針對(duì)上述方法的不足,本文提出一種融合節(jié)點(diǎn)文本屬性信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法。首先,基于DeepWalk思想,將網(wǎng)絡(luò)節(jié)點(diǎn)結(jié)構(gòu)信息的表示學(xué)習(xí)問(wèn)題轉(zhuǎn)化為詞的表示學(xué)習(xí)問(wèn)題。其次,針對(duì)節(jié)點(diǎn)文本屬性信息的表示學(xué)習(xí)問(wèn)題,利用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型挖掘節(jié)點(diǎn)文本屬性的深層語(yǔ)義信息。最后,為實(shí)現(xiàn)兩方面信息的融合表示學(xué)習(xí),提出基于參數(shù)共享機(jī)制的共耦神經(jīng)網(wǎng)絡(luò)模型進(jìn)行聯(lián)合訓(xùn)練。

1 相關(guān)概念

為更好地描述所提模型及其具體算法,首先給出相關(guān)定義及符號(hào)表示。

定義1(文本屬性信息網(wǎng)絡(luò)) 用G=(V,E,C)表示文本屬性信息網(wǎng)絡(luò),V={v1,v2,…,vN}表示節(jié)點(diǎn)集合,N=|V|表示網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,E表示V中任意2個(gè)節(jié)點(diǎn)鏈接構(gòu)成的集合E={eij|i,j=1,2,…,N},eij表示節(jié)點(diǎn)間的鏈接關(guān)系緊密程度,即鏈接權(quán)重,C={c1,c2,…,cN},ci表示與節(jié)點(diǎn)vi相關(guān)聯(lián)的節(jié)點(diǎn)文本屬性信息。

這里考慮網(wǎng)絡(luò)節(jié)點(diǎn)相似性主要通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)信息和網(wǎng)絡(luò)節(jié)點(diǎn)文本屬性信息進(jìn)行刻畫(huà)。也就是說(shuō)在網(wǎng)絡(luò)表示學(xué)習(xí)過(guò)程中,需要同時(shí)注意網(wǎng)絡(luò)節(jié)點(diǎn)結(jié)構(gòu)信息相似性保留和文本屬性信息相似性保留,得到綜合兩方面信息的節(jié)點(diǎn)表示向量。

節(jié)點(diǎn)的表示向量φ(v)可以看作節(jié)點(diǎn)v的特征向量,可直接將其作為機(jī)器學(xué)習(xí)算法的輸入用于后續(xù)網(wǎng)絡(luò)分析任務(wù),如節(jié)點(diǎn)分類(lèi)、鏈路預(yù)測(cè)等。由于表示學(xué)習(xí)過(guò)程并不涉及具體網(wǎng)絡(luò)分析任務(wù),因此算法所得的表示向量具有廣泛適用性。

2 算法實(shí)現(xiàn)

本節(jié)首先分別介紹刻畫(huà)節(jié)點(diǎn)文本屬性信息相似性和網(wǎng)絡(luò)結(jié)構(gòu)信息相似性的基礎(chǔ)模型,然后基于這2種基礎(chǔ)模型給出融合訓(xùn)練模型及其算法的優(yōu)化求解過(guò)程,最后結(jié)合算法偽代碼進(jìn)行算法復(fù)雜度分析。

2.1 基礎(chǔ)模型

2.1.1 節(jié)點(diǎn)文本屬性信息表示學(xué)習(xí)

近年來(lái),基于CBOW[9]神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的詞向量表示學(xué)習(xí)方法,通過(guò)窗口上下文預(yù)測(cè)中間詞,較好地保留了文本語(yǔ)句中的詞序信息。在此基礎(chǔ)上,文獻(xiàn)[15]提出了用于文本向量表示的Doc2Vec算法,在很多應(yīng)用中取得了較好的結(jié)果。因此,將其作為本文融合算法的基礎(chǔ)模型之一。

如圖1所示,對(duì)于任意詞w,給定左右窗口大小為b的上下文詞集合context(w)={w-b:wb},v(w)表示一個(gè)從詞w到對(duì)應(yīng)節(jié)點(diǎn)的映射函數(shù),矩陣W中的每一行表示一個(gè)詞對(duì)應(yīng)的表示向量,矩陣UW中的每一行表示一個(gè)節(jié)點(diǎn)對(duì)應(yīng)的文本屬性信息的表示向量。

圖1 節(jié)點(diǎn)文本屬性信息表示學(xué)習(xí)模型

算法基本思想是在已知上下文context(w)和v(w)的情況下,預(yù)測(cè)到詞w的概率最大。其對(duì)應(yīng)最大化目標(biāo)函數(shù)如下:

(1)

其中,D對(duì)應(yīng)于節(jié)點(diǎn)文本屬性信息中所有詞的集合。p(w|context(w),v(w))定義為如下Softmax函數(shù):

(2)

其中,v(u)和v′(u)表示u的表示向量及其輔助向量,xw采用累加求和的形式計(jì)算如下:

(3)

通過(guò)模型訓(xùn)練后,UW將作為最后所有節(jié)點(diǎn)的文本屬性信息表示向量矩陣輸出。

2.1.2 節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)信息表示學(xué)習(xí)

對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)信息表示學(xué)習(xí)問(wèn)題,主要分為采樣和訓(xùn)練2個(gè)階段。在采樣階段,使用文獻(xiàn)[8]提出的隨機(jī)游走策略捕捉網(wǎng)絡(luò)結(jié)構(gòu)信息。從任意節(jié)點(diǎn)vi出發(fā),隨機(jī)游走固定長(zhǎng)度l得到隨機(jī)游走序列S={vi,vi+1,vi+2,…,vi+l}作為訓(xùn)練集。在訓(xùn)練階段,將隨機(jī)游走序列看作特殊的“句子”,作為CBOW模型[10]的輸入,學(xué)習(xí)節(jié)點(diǎn)向量表示。如圖2所示,對(duì)于任意節(jié)點(diǎn)v,假設(shè)給定左右窗口大小為b的上下文節(jié)點(diǎn)集合為context(v)={v-b:vb},矩陣US中的每一行表示一個(gè)節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)信息的表示向量。

圖2 網(wǎng)絡(luò)結(jié)構(gòu)信息表示學(xué)習(xí)模型

與第2.1.1節(jié)類(lèi)似,在已知上下文context(v)的情況下,預(yù)測(cè)到節(jié)點(diǎn)v的概率最大,其對(duì)應(yīng)最大化目標(biāo)函數(shù)為:

(4)

其中,V是所有節(jié)點(diǎn)的集合。p(v|context(v))定義為如下Softmax函數(shù):

(5)

這里xv采用累加求和的形式計(jì)算如下:

(6)

通過(guò)模型訓(xùn)練后,US將作為最后所有節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)信息表示向量矩陣輸出。

2.2 融合表示學(xué)習(xí)模型及其算法優(yōu)化

為實(shí)現(xiàn)節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)信息和文本屬性信息的融合表示,最簡(jiǎn)單的方法就是拼接。如圖3(a)所示,記通過(guò)文本屬性信息表示學(xué)習(xí)模型訓(xùn)練得到的表示矩陣為UW,通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)信息表示學(xué)習(xí)模型訓(xùn)練得到的表示矩陣為US,直接拼接得到最終的節(jié)點(diǎn)表示向量矩陣U+,即U+=UW⊕US,然而這種方法由于UW和US在訓(xùn)練過(guò)程中相互獨(dú)立,屬于訓(xùn)練后結(jié)合,缺少了兩方面信息在訓(xùn)練過(guò)程中的相互補(bǔ)充與制約。因此,提出基于參數(shù)共享的交叉訓(xùn)練機(jī)制實(shí)現(xiàn)融合表示學(xué)習(xí),如圖3(b)所示。首先,使用融合表示向量矩陣U替換基礎(chǔ)模型中的UW和US,建立共耦神經(jīng)網(wǎng)絡(luò)模型,如圖4所示。

圖3 2種節(jié)點(diǎn)文本屬性的融合方案

圖4 融合節(jié)點(diǎn)文本屬性信息的表示學(xué)習(xí)模型

左右兩部分的表示學(xué)習(xí)模型交替訓(xùn)練,U由2個(gè)模型共享,即U在訓(xùn)練過(guò)程中相互傳遞。最后,通過(guò)反復(fù)迭代,得到融合兩方面信息的節(jié)點(diǎn)向量表示,其對(duì)應(yīng)的最大化目標(biāo)函數(shù)為:

(7)

其直觀解釋是:一方面融合表示向量和上下文詞向量一起用于預(yù)測(cè)中間詞w,使得融合表示向量包含節(jié)點(diǎn)文本屬性信息;另一方面融合表示向量又參與節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)信息的表示學(xué)習(xí)訓(xùn)練,通過(guò)節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)信息修正融合表示向量。在反復(fù)迭代過(guò)程中,實(shí)現(xiàn)兩方面信息的相互補(bǔ)充與制約。

采用隨機(jī)梯度上升方法進(jìn)行迭代訓(xùn)練,考慮到計(jì)算式(2)和式(5)時(shí)需要分別遍歷整個(gè)詞集合與節(jié)點(diǎn)集合,不適合在大規(guī)模網(wǎng)絡(luò)的實(shí)際應(yīng)用,文獻(xiàn)[16]提出了基于負(fù)采樣(Negative Sampling,NEG)的優(yōu)化策略用于降低計(jì)算復(fù)雜度,給出式(5)的近似表示如下:

(8)

其中,Lv(u)為0-1判決函數(shù),當(dāng)u=v時(shí),Lv(u)=1,否則Lv(u)=0,σ(x)=1/(1+e-x)。NEG(v)表示正樣本(v,context(v))對(duì)應(yīng)的負(fù)樣本集。從式(8)不難看出,負(fù)采樣的基本思想是最大化正樣本出現(xiàn)概率的同時(shí)最小化負(fù)樣本出現(xiàn)概率。

下面進(jìn)一步推導(dǎo)表示向量的更新公式,將式(8)帶入式(4)中可得:

(9)

為求導(dǎo)方便,記式(9)兩次求和項(xiàng)如下:

(10)

首先考慮LS(v,u)關(guān)于v′(u)的梯度,推導(dǎo)如下:

(11)

同理,可求出LS(v,u)關(guān)于xv的梯度如下:

(12)

(13)

u∈{v}∪NEG(v)

(14)

對(duì)于節(jié)點(diǎn)文本屬性信息表示學(xué)習(xí)模型的計(jì)算方法類(lèi)似,在此不再贅述,直接給出最后的更新公式。

(15)

u∈{w}∪NEG(w)

(16)

2.3 融合算法流程及其復(fù)雜度分析

融合算法偽代碼如下:

算法1融合節(jié)點(diǎn)文本屬性信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法

輸入信息網(wǎng)絡(luò)G=(V,E,C),迭代次數(shù)r,表示向量維度d,采樣窗口左右大小b,隨機(jī)游走長(zhǎng)度l,隨機(jī)游走次數(shù)r′,負(fù)采樣樣本數(shù)k

輸出節(jié)點(diǎn)融合表示向量矩陣U,每一行對(duì)應(yīng)節(jié)點(diǎn)表示向量v(u),u∈V

訓(xùn)練數(shù)據(jù)集采樣步驟

1.對(duì)于節(jié)點(diǎn)文本屬性信息,給定參數(shù)(b),以采樣窗口大小b采樣文本信息,構(gòu)成文本屬性信息訓(xùn)練集{(w,context(w),v(w),NEG(w))}。

2.對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)信息,給定參數(shù)(l,b,r′,k),首先通過(guò)隨機(jī)游走產(chǎn)生節(jié)點(diǎn)序列集合,再以采樣窗口大小b采樣節(jié)點(diǎn)序列,構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu)信息訓(xùn)練集{(v,context(v),NEG(v))}。

迭代訓(xùn)練步驟如下:

3.for iter=1 to r

4.for w in D

5.random sample(w,context(w),v(w),NEG(w))

6.update=0

8.for u in {w}∪NEG(w)

10.update=update+delta·v′(u)

11.v′(u)=v′(u)+delta·xw//輔助向量更新

end

12.for u in {v(w)}∪context(w)

13.v(u)=v(u)+update//表示向量更新(詞向量及節(jié)

//點(diǎn)融合表示向量)

14.end

15.end

16.forvin V

17.random sample (v,context(v),NEG(v))

18.update=0

20.for u in {v}∪NEG(v)

22.update=update+delta·v′(u)

23.v′(u)=v′(u)+delta·xv//輔助向量更新

24.end

25.for u in context(v)

26.v(u)=v(u)+update//表示向量更新(節(jié)點(diǎn)融合表

//示向量)

27.end

28.end

29.end

下面結(jié)合算法偽代碼(算法1)分析算法流程并討論其復(fù)雜度問(wèn)題。

其次,對(duì)于迭代訓(xùn)練部分,一方面使用隨機(jī)梯度上升法(對(duì)應(yīng)求極大值)作為優(yōu)化更新策略,式(13)~式(16)給出了向量更新公式;另一方面基于參數(shù)共享策略進(jìn)行交叉迭代訓(xùn)練:步驟4~步驟15實(shí)現(xiàn)了節(jié)點(diǎn)文本屬性信息的表示學(xué)習(xí),步驟16~步驟29實(shí)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)信息的表示學(xué)習(xí),由于節(jié)點(diǎn)融合表示向量在兩部分模型中相互傳遞,使得在訓(xùn)練過(guò)程中受到兩方面信息的相互補(bǔ)充與制約。迭代過(guò)程中,對(duì)于給定的詞w,在負(fù)采樣策略下,計(jì)算次數(shù)從式(3)的|D|(語(yǔ)料庫(kù)大小)次減少到1+k次。

最后,分析算法的整體復(fù)雜度問(wèn)題。在單次迭代過(guò)程中,對(duì)于給定詞w,在負(fù)采樣策略下,計(jì)算次數(shù)從式(3)的|D|(語(yǔ)料庫(kù)大小)次減少到1+k次。遍歷詞集合,計(jì)算次數(shù)為|D|·(1+k)次。同理,對(duì)于給定節(jié)點(diǎn)v,遍歷節(jié)點(diǎn)集,計(jì)算次數(shù)為|V|·(1+k)次。因此,迭代r次后,整體計(jì)算復(fù)雜度為ο(r·(|D|+|V|)·(1+k))。在實(shí)際應(yīng)用場(chǎng)景中,由于r,k<<|D|,|V|,因此算法計(jì)算時(shí)間復(fù)雜度和網(wǎng)絡(luò)規(guī)模成線性比例關(guān)系,算法可擴(kuò)展到大規(guī)模場(chǎng)景的實(shí)際應(yīng)用。

3 實(shí)驗(yàn)驗(yàn)證與分析

為驗(yàn)證本文提出算法的有效性,在2個(gè)公開(kāi)數(shù)據(jù)集上與具有代表性的表示學(xué)習(xí)算法進(jìn)行對(duì)比。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

DBLP數(shù)據(jù)集來(lái)源于AMiner網(wǎng)站公開(kāi)數(shù)據(jù)集。本文抽取其中4個(gè)知名國(guó)際會(huì)議論文數(shù)據(jù)(CIKM,KDD,IJCAI,CVPR),將論文作為網(wǎng)絡(luò)節(jié)點(diǎn),標(biāo)題信息作為節(jié)點(diǎn)文本屬性信息,利用引用關(guān)系構(gòu)建引文網(wǎng)絡(luò),包含節(jié)點(diǎn)18 223個(gè),連邊15 867條,4類(lèi)節(jié)點(diǎn)標(biāo)簽對(duì)應(yīng)不同的會(huì)議論文集。

CiteSeer-M10數(shù)據(jù)集來(lái)源于CiteSeerX網(wǎng)站中抽取的數(shù)據(jù)集。本文將文獻(xiàn)[17]從該網(wǎng)站中抽取的包含10個(gè)方向論文引用關(guān)系的數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。將論文作為網(wǎng)絡(luò)節(jié)點(diǎn),標(biāo)題信息作為節(jié)點(diǎn)文本屬性信息,利用引用關(guān)系構(gòu)建引文網(wǎng)絡(luò),包含節(jié)點(diǎn)10 310個(gè),連邊77 218條,10類(lèi)節(jié)點(diǎn)標(biāo)簽對(duì)應(yīng)不同方向的論文集。

3.2 對(duì)比算法

將對(duì)比算法分為3類(lèi):1)僅利用節(jié)點(diǎn)文本屬性信息;2)僅利用網(wǎng)絡(luò)結(jié)構(gòu)信息;3)同時(shí)利用兩方面信息的融合算法。

下面簡(jiǎn)要介紹對(duì)比算法:

1)Doc2Vec算法:僅利用節(jié)點(diǎn)文本屬性信息進(jìn)行表示學(xué)習(xí)。

2)DeepWalk算法:僅利用網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行表示學(xué)習(xí)。

3)DW+D2V算法:將Doc2Vec算法和DeepWalk算法學(xué)習(xí)的表示向量進(jìn)行拼接,使得到的節(jié)點(diǎn)表示向量既包含文本屬性信息又包含網(wǎng)絡(luò)結(jié)構(gòu)信息。

4)TADW算法:通過(guò)矩陣分解的形式,直接利用節(jié)點(diǎn)文本屬性信息和網(wǎng)絡(luò)結(jié)構(gòu)信息得到節(jié)點(diǎn)表示向量。

本文算法的主要參數(shù)設(shè)定為表示向量維度d=200,迭代次數(shù)r=10,其余參數(shù)設(shè)定為對(duì)應(yīng)子結(jié)構(gòu)的原始文獻(xiàn)給出的建議值:文獻(xiàn)[15]中的Doc2Vec算法設(shè)定文本屬性信息表示學(xué)習(xí)窗口大小為10;文獻(xiàn)[8]根據(jù)DeepWalk算法對(duì)隨機(jī)游走的討論,設(shè)定游走長(zhǎng)度l=40,窗口大小為10,游走次數(shù)r′=80。為保持一致,各對(duì)比算法維度都設(shè)置為d=200。

3.3 評(píng)測(cè)任務(wù)及其指標(biāo)

評(píng)測(cè)方法與文獻(xiàn)[11,13]類(lèi)似,首先進(jìn)行無(wú)監(jiān)督的表示學(xué)習(xí),然后將其用在多標(biāo)簽分類(lèi)任務(wù)中,比較不同算法的性能。基本思想是具有較好標(biāo)簽預(yù)測(cè)能力的表示學(xué)習(xí)算法能夠更加準(zhǔn)確地從原始網(wǎng)絡(luò)數(shù)據(jù)中提取節(jié)點(diǎn)特征向量表示。由于評(píng)測(cè)數(shù)據(jù)集是多分類(lèi)問(wèn)題,因此在評(píng)價(jià)指標(biāo)選擇問(wèn)題上,先在各混淆矩陣上分別計(jì)算準(zhǔn)確率和召回率,記為(P1,R1),(P2,R2),…,(Pn,Rn),再計(jì)算平均值,得到宏準(zhǔn)確率(Macro_P)、宏召回率(Macro_R)及相應(yīng)的宏F值(Macro_F):

(17)

(18)

(19)

為方便進(jìn)行算法比較,與文獻(xiàn)[11,13]一致,統(tǒng)一采用SVM線性分類(lèi)器進(jìn)行節(jié)點(diǎn)分類(lèi)任務(wù),排除不同分類(lèi)器對(duì)節(jié)點(diǎn)分類(lèi)性能造成影響的情況。為考察算法在不同監(jiān)督信息量情況下的標(biāo)簽預(yù)測(cè)性能,隨機(jī)取訓(xùn)練集大小從10%~90%,剩余部分作為測(cè)試集,重復(fù)10次取結(jié)果平均值。實(shí)驗(yàn)流程如圖5所示。

圖5 實(shí)驗(yàn)流程

3.4 實(shí)驗(yàn)結(jié)果分析

圖6和圖7分別記錄了在DBLP和CiteSeer-M10數(shù)據(jù)集上的不同訓(xùn)練率下(10%~90%,間隔20%進(jìn)行測(cè)試)的3種節(jié)點(diǎn)分類(lèi)性能指標(biāo)結(jié)果,即宏準(zhǔn)確率、宏召回率和宏F值。實(shí)驗(yàn)結(jié)果顯示,本文所提算法的節(jié)點(diǎn)分類(lèi)性能高于比較算法。

圖6 DBLP數(shù)據(jù)集上的分類(lèi)結(jié)果

圖7 CiteSeer-M10數(shù)據(jù)集上的分類(lèi)結(jié)果

下面從兩方面分析實(shí)驗(yàn)結(jié)果:

1)融合算法優(yōu)勢(shì)明顯。Doc2Vec算法和DeepWalk算法分別挖掘了節(jié)點(diǎn)文本屬性信息和結(jié)構(gòu)信息,但效果都較為普通。基于簡(jiǎn)單拼接的DW+D2V算法性能進(jìn)一步提升,但是相比于融合模型仍然有提升空間。在30%的訓(xùn)練率情況下,在DBLP網(wǎng)絡(luò)中,本文算法的分類(lèi)宏F值比DW+D2V算法提高了4.3%,比融合算法TADW提高了2.2%;在CiteSeer-M10網(wǎng)絡(luò)中,本文算法的分類(lèi)宏F值比DW+D2V算法提高了11%,比融合算法TADW提高了3.8%。

2)神經(jīng)網(wǎng)絡(luò)特征挖掘優(yōu)勢(shì)明顯。和通過(guò)矩陣分解方式進(jìn)行融合表示的TADW算法相比,基于共耦神經(jīng)網(wǎng)絡(luò)的本文算法平均節(jié)點(diǎn)分類(lèi)準(zhǔn)確率在DBLP和CiteSeer-M10網(wǎng)絡(luò)中分別達(dá)到68%和71%,比TADW算法分別提高了3%和3.6%。作為本文算法子結(jié)構(gòu)的Doc2Vec文本表示學(xué)習(xí)算法僅依賴(lài)節(jié)點(diǎn)文本屬性信息的情況下就達(dá)到較好的節(jié)點(diǎn)分類(lèi)效果。如圖6(a)和圖7(a)所示,在30%訓(xùn)練率下,在DBLP和CiteSeer-M10網(wǎng)絡(luò)上的節(jié)點(diǎn)分類(lèi)準(zhǔn)確率分別達(dá)到61.9%和47.9%。這一方面說(shuō)明結(jié)合文本屬性信息的重要性,另一方面也說(shuō)明了神經(jīng)語(yǔ)言模型在挖掘文本語(yǔ)義信息方面的巨大優(yōu)勢(shì),這也是結(jié)合神經(jīng)語(yǔ)言模型改進(jìn)網(wǎng)絡(luò)表示學(xué)習(xí)算法的初衷。

3.5 算法參數(shù)敏感性分析

本文算法包含了表示向量維度d和融合算法迭代次數(shù)r這2個(gè)主要超參數(shù),本節(jié)將通過(guò)實(shí)驗(yàn)分析超參數(shù)的選擇對(duì)算法用于多標(biāo)簽節(jié)點(diǎn)分類(lèi)問(wèn)題性能好壞的影響。通過(guò)改變參數(shù)取值,得到不同的節(jié)點(diǎn)表示向量。按照?qǐng)D5的實(shí)驗(yàn)流程,在30%訓(xùn)練率的情況下,測(cè)試不同的節(jié)點(diǎn)表示向量對(duì)多標(biāo)簽節(jié)點(diǎn)分類(lèi)問(wèn)題性能指標(biāo)宏F值的影響,實(shí)驗(yàn)結(jié)果如圖8所示。圖8(a)表示了改變表示向量維度d對(duì)算法分類(lèi)預(yù)測(cè)性能的影響,d取值從50~300,每間隔50進(jìn)行一次實(shí)驗(yàn)。隨著表示向量維度的增加,分類(lèi)預(yù)測(cè)宏F值逐漸增加,說(shuō)明了較高維度能夠捕獲更多的網(wǎng)絡(luò)信息,形成更具區(qū)分性的網(wǎng)絡(luò)表示。然而同時(shí)也注意到,表示維度增加到200維以后,分類(lèi)預(yù)測(cè)宏F值有所下降。這說(shuō)明采用過(guò)多的表示向量維度衡量網(wǎng)絡(luò)節(jié)點(diǎn)相似性,減少了具有重要區(qū)分度特征的權(quán)重影響,反而導(dǎo)致性能損失。因此,200維的表示向量維度較為合適。圖8(b)是改變算法迭代次數(shù)r對(duì)算法分類(lèi)預(yù)測(cè)性能的影響,將迭代次數(shù)變化范圍設(shè)置為2~12,間隔2次進(jìn)行一次實(shí)驗(yàn)。隨著迭代次數(shù)的增加,分類(lèi)預(yù)測(cè)宏F值明顯提升,體現(xiàn)了交叉訓(xùn)練過(guò)程中兩方面信息的相互補(bǔ)充。迭代次數(shù)超過(guò)10次以后,分類(lèi)預(yù)測(cè)性能趨于穩(wěn)定,說(shuō)明融合模型能夠挖掘的網(wǎng)絡(luò)信息趨于穩(wěn)定。因此,迭代次數(shù)超過(guò)10次后停止迭代更新。

圖8 超參數(shù)對(duì)算法分類(lèi)性能指標(biāo)宏F值的影響結(jié)果

4 結(jié)束語(yǔ)

本文基于神經(jīng)語(yǔ)言模型提出了一個(gè)結(jié)合節(jié)點(diǎn)文本屬性信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法,實(shí)現(xiàn)了節(jié)點(diǎn)文本屬性信息和網(wǎng)絡(luò)結(jié)構(gòu)信息的融合表示學(xué)習(xí)。針對(duì)文本屬性信息和網(wǎng)絡(luò)結(jié)構(gòu)信息等異質(zhì)信息難以有效融合表示的問(wèn)題,給出基于參數(shù)共享的共耦神經(jīng)網(wǎng)絡(luò)模型用于融合訓(xùn)練。在2個(gè)真實(shí)世界網(wǎng)絡(luò)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法有效實(shí)現(xiàn)了融合表示學(xué)習(xí),在面向節(jié)點(diǎn)分類(lèi)的評(píng)測(cè)任務(wù)中,算法性能有一定提升。算法復(fù)雜度與網(wǎng)絡(luò)規(guī)模大小成線性比例關(guān)系,能夠適用于大數(shù)據(jù)時(shí)代背景下的大規(guī)模復(fù)雜信息網(wǎng)絡(luò)的表示學(xué)習(xí)問(wèn)題。然而,該算法僅考慮了節(jié)點(diǎn)文本屬性信息,下一步將針對(duì)實(shí)際網(wǎng)絡(luò)中存在的圖像信息、語(yǔ)音信息等其他異質(zhì)信息對(duì)算法進(jìn)行優(yōu)化。

猜你喜歡
融合信息模型
一半模型
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
重要模型『一線三等角』
《融合》
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會(huì)信息
主站蜘蛛池模板: 亚洲久悠悠色悠在线播放| 婷婷色在线视频| 国产一二视频| 免费无码在线观看| 天天综合亚洲| 亚洲天堂久久| 好吊妞欧美视频免费| 久久人妻xunleige无码| 伊人无码视屏| 午夜少妇精品视频小电影| 久操中文在线| 综合久久五月天| 青青草原国产av福利网站| 精品免费在线视频| 国产一区二区三区免费| 亚洲成人精品| 国产黄在线观看| 久久婷婷综合色一区二区| 欧美日韩亚洲国产| 强乱中文字幕在线播放不卡| 无码人中文字幕| 日本91在线| 丁香五月婷婷激情基地| 无码日韩视频| 午夜精品区| 久草视频精品| 国产一区免费在线观看| 欧美日韩国产成人高清视频| 美女无遮挡被啪啪到高潮免费| 亚洲一区网站| 国产尹人香蕉综合在线电影| 亚洲国产成人精品青青草原| 九九热这里只有国产精品| 色悠久久久久久久综合网伊人| 日本午夜精品一本在线观看 | 久操中文在线| 日韩精品一区二区三区swag| 欧美日韩91| 99免费视频观看| 日韩第九页| 欧美成人A视频| 国产在线专区| 国产欧美在线观看精品一区污| 99国产精品国产高清一区二区| 人禽伦免费交视频网页播放| 九色在线观看视频| av在线无码浏览| 思思99热精品在线| 国产在线视频自拍| 精品小视频在线观看| 欧洲熟妇精品视频| 国产精品亚洲а∨天堂免下载| 国产精品免费露脸视频| 香蕉精品在线| 国产亚洲现在一区二区中文| 久久亚洲国产视频| 日韩AV无码免费一二三区| 深爱婷婷激情网| 又爽又黄又无遮挡网站| 日韩精品无码免费一区二区三区| 亚洲精品在线观看91| 特级毛片免费视频| 99成人在线观看| 日日噜噜夜夜狠狠视频| 伊人成人在线| 亚洲人成网线在线播放va| 亚洲精品卡2卡3卡4卡5卡区| 天天综合天天综合| 国产免费福利网站| 精品久久久久久成人AV| 国产黑丝一区| 久久婷婷色综合老司机| 欧美福利在线| 狠狠干欧美| 欧美日韩高清在线| 五月天久久婷婷| 国产欧美日韩在线在线不卡视频| 伊人网址在线| 强奷白丝美女在线观看| 丁香婷婷在线视频| 青青久在线视频免费观看| 97久久超碰极品视觉盛宴|