999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合屬性信息的異質(zhì)網(wǎng)絡嵌入方法

2022-01-01 00:00:00張賢坤袁菁羅學雄段雙玉
計算機應用研究 2022年6期

收稿日期:2021-11-06;修回日期:2022-01-03

基金項目:天津市自然科學基金資助項目(19JCYBJC15300);天津市高等學校本科教學質(zhì)量與教學改革研究計劃項目(B201005706);教育部第二批新工科研究與實踐項目(E-HJFZQG20202405)

作者簡介:張賢坤(1970-),男,安徽蕪湖人,教授,碩導,博士,主要研究方向為智能信息處理;袁菁(1997-),女(通信作者),山西高平人,碩士研究生,主要研究方向為智能信息處理(j18635667631@163.com);羅學雄(1995-),男,江西吉安人,博士研究生,主要研究方向為智能信息處理;段雙玉(1996-),女,河南商丘人,碩士研究生,主要研究方向為遺傳算法.

摘 要:現(xiàn)有的異質(zhì)網(wǎng)絡嵌入方法不僅忽略了網(wǎng)絡中的異質(zhì)邊及其對節(jié)點嵌入的不同影響,還未考慮到網(wǎng)絡結(jié)構(gòu)與節(jié)點屬性的融合。為此提出了一種融合屬性信息的異質(zhì)網(wǎng)絡嵌入方法(SHANE)。將序列到序列(seq2seq)模型應用到依據(jù)邊類型劃分的子圖中,無縫融合節(jié)點的結(jié)構(gòu)信息和屬性信息,同時捕捉節(jié)點的高階語義信息。實驗表明,SHANE在兩個不同類型的數(shù)據(jù)集中進行鏈接預測任務,可以取得相對顯著的效果。

關(guān)鍵詞:網(wǎng)絡嵌入; 異質(zhì)網(wǎng)絡; seq2seq

中圖分類號:TP393"" 文獻標志碼:A

文章編號:1001-3695(2022)06-028-1767-05

doi:10.19734/j.issn.1001-3695.2021.11.0621

Heterogeneous network embedding with attributes information fusion

Zhang Xiankun1, Yuan Jing1, Luo Xuexiong2, Duan Shuangyu3

(1.College of Artificial Intelligence, Tianjin University of Science amp; Technology, Tianjin 300457, China; 2.Dept. of Computing, Macquarie University, Sydney 2122, Australia; 3.College of Information Technology Engineering, Tianjin University of Technology amp; Education, Tianjin 300350, China)

Abstract:The existing heterogeneous network embedding methods not only ignore heterogeneous edges in networks and their different effects on node embedding, but also do not consider the integration of network structure and node attributes. This paper proposed a novel heterogeneous network embedding method with attributes information fusion, which named SHANE. It applied the sequence to sequence (seq2seq) model to the sub-graphs divided according to edge types, seamlessly integrated the structure information and attributes information of nodes, and captured the high-order semantic information of nodes simultaneously. Experiments show that SHANE can achieve relatively significant results in link prediction tasks in two different types of datasets.

Key words:network embedding; heterogeneous network; seq2seq

0 引言

作為一種可以有效對網(wǎng)絡數(shù)據(jù)進行預處理的方法,網(wǎng)絡嵌入已經(jīng)引起了研究者的廣泛關(guān)注,其旨在將高維稀疏的數(shù)據(jù)映射到低維稠密的向量空間,同時盡可能地保留網(wǎng)絡的結(jié)構(gòu)和屬性信息,現(xiàn)已被應用于大量復雜的網(wǎng)絡分析任務中,例如節(jié)點分類[1]、節(jié)點聚類[2]、鏈接預測[3]、可視化[4]等。

典型的網(wǎng)絡嵌入方法包括node2vec[5]、DeepWalk[6]、LINE[7]等,但這些方法無法表征網(wǎng)絡的異質(zhì)性。目前也存在許多異質(zhì)網(wǎng)絡的嵌入方法,例如語義感知方法[8,9]可以建模網(wǎng)絡中節(jié)點和邊的異質(zhì)性;內(nèi)容感知方法[10]利用節(jié)點的潛在特征和屬性信息學習節(jié)點嵌入;基于神經(jīng)網(wǎng)絡的方法[11,12]應用神經(jīng)網(wǎng)絡聚合鄰居節(jié)點的特征信息,以得到節(jié)點的向量表示。

然而,現(xiàn)實存在的網(wǎng)絡不但有多種類型的節(jié)點和邊,每個節(jié)點還擁有豐富的屬性信息。如在圖1所示的電商網(wǎng)絡中,節(jié)點類型分為用戶和商品,用戶和商品之間存在點擊、加入購物車和購買三種不同類型的交互,每個用戶和商品都有各自的屬性。其中,不同的用戶—商品交互暗含用戶對商品不同程度的興趣,用戶對加入購物車的商品一定比對點擊一次的商品更感興趣。因而對異質(zhì)網(wǎng)絡嵌入時除了考慮節(jié)點的異質(zhì)性,還不能忽略邊的異質(zhì)性及其對節(jié)點嵌入的不同影響。另外,兩個購買相同籃球的用戶可能都喜歡打籃球;兩個購買相同服裝的用戶可能都喜歡該服裝品牌,這表明節(jié)點的結(jié)構(gòu)信息和屬性信息在本質(zhì)上存在著一定的關(guān)系。因此,在進行網(wǎng)絡嵌入時,將拓撲結(jié)構(gòu)與屬性信息充分融合是有必要的。但是現(xiàn)有的異質(zhì)網(wǎng)絡嵌入方法都是將結(jié)構(gòu)信息和屬性信息分別建模,再將兩者進行簡單相加,忽略了網(wǎng)絡結(jié)構(gòu)與節(jié)點屬性的融合,使得嵌入結(jié)果不佳。

針對以上問題,本文提出了一種融合屬性信息的異質(zhì)網(wǎng)絡嵌入方法(SHANE),以更好地捕獲和融合網(wǎng)絡的結(jié)構(gòu)信息與屬性信息。具體而言,該模型將一個異質(zhì)屬性網(wǎng)絡作為輸入,根據(jù)邊類型將其劃分為若干個子圖,在每個子圖中使用基于元路徑的隨機游走生成節(jié)點內(nèi)容序列,利用seq2seq模型先將其編碼為壓縮向量,再將其解碼后生成相應的節(jié)點序列,最后使用注意力機制連接每個子圖中得到的節(jié)點向量,以表征每種邊類型對節(jié)點嵌入的不同影響。該模型無縫融合了網(wǎng)絡的結(jié)構(gòu)和屬性信息,得到了較優(yōu)的節(jié)點表示。

1 相關(guān)工作

網(wǎng)絡嵌入受到越來越多的關(guān)注,同時也產(chǎn)生了許多相關(guān)方法,例如:基于隨機游走的方法[5,6]、基于深度神經(jīng)網(wǎng)絡的方法[13,14]、基于矩陣分解的方法[15]等,然而,這些方法只適用于同質(zhì)網(wǎng)絡。關(guān)于異質(zhì)網(wǎng)絡嵌入模型,可以分為以下三類:

a)基于隨機游走的異質(zhì)網(wǎng)絡嵌入依據(jù)元路徑提取網(wǎng)絡的異質(zhì)節(jié)點形成節(jié)點序列,通過保留序列中節(jié)點之間的關(guān)系學習節(jié)點表示。metapath2vec使用基于元路徑的隨機游走構(gòu)建節(jié)點的異質(zhì)鄰居,并利用skip-gram[16]模型生成節(jié)點嵌入。HIN2Vec[9]根據(jù)節(jié)點之間是否存在關(guān)系來生成隨機游走,同時學習節(jié)點和元路徑的潛在向量。HERec[17]應用基于元路徑的隨機游走策略生成有意義的節(jié)點序列,表示網(wǎng)絡的語義和結(jié)構(gòu)信息。mSHINE[18]提出了一組規(guī)則來選擇元路徑,然后使用循環(huán)神經(jīng)網(wǎng)絡(RNN)框架為所選元路徑同時生成相關(guān)的節(jié)點表示。這些方法能反映網(wǎng)絡中的許多信息,但是忽略了邊的異質(zhì)性,只能捕獲網(wǎng)絡的單個視圖,無法衡量節(jié)點之間更加復雜的關(guān)系。

b)基于多視圖的異質(zhì)網(wǎng)絡嵌入考慮網(wǎng)絡中多種類型的關(guān)系,從不同的視圖獲得節(jié)點的向量表示。PMNE[19]將網(wǎng)絡和結(jié)果聚合為多層網(wǎng)絡生成嵌入空間,然后引入層協(xié)同分析模塊考慮各層網(wǎng)絡間的交互。MVE[20]利用注意力機制將多視圖網(wǎng)絡嵌入聚合到單個網(wǎng)絡中。MNE[21]使用一個統(tǒng)一的網(wǎng)絡嵌入模型聯(lián)合學習公共嵌入和不同關(guān)系的邊嵌入。AMEHNE[22]通過子網(wǎng)抽取、子網(wǎng)嵌入、嵌入融合等方法對具有多重關(guān)系的網(wǎng)絡節(jié)點進行嵌入表示。IMHE[23]聚合其他視圖的鄰居來重建不完整視圖,從而提取多個視圖的隱藏語義關(guān)系。以上方法或者忽略了邊類型對節(jié)點的不同影響,或者忽略了節(jié)點的屬性信息,得到的節(jié)點向量表示性欠佳。

c)融合節(jié)點屬性的異質(zhì)網(wǎng)絡嵌入方法將網(wǎng)絡的拓撲結(jié)構(gòu)和節(jié)點的屬性信息都保留到節(jié)點的低維向量中。PTE[24]從標簽信息中構(gòu)建大規(guī)模的異質(zhì)文本網(wǎng)絡,并將其嵌入到低維向量空間。HNE[25]聯(lián)合考慮網(wǎng)絡的內(nèi)容和拓撲結(jié)構(gòu),使用多層嵌入函數(shù)捕獲其復雜交互,以得到節(jié)點的統(tǒng)一嵌入表示。HetGNN[10]使用神經(jīng)網(wǎng)絡架構(gòu)捕獲結(jié)構(gòu)和內(nèi)容的異質(zhì)性,以獲得節(jié)點的向量表示。GraphSAGE[11]提出了一種歸納框架,使用節(jié)點特征信息和結(jié)構(gòu)信息將其擴展到不可見的節(jié)點。SHNE[26]將同質(zhì)語言模型擴展到了異質(zhì)網(wǎng)絡嵌入,并提出了一個保持結(jié)構(gòu)緊密性并包含節(jié)點非結(jié)構(gòu)化內(nèi)容的歸納框架。GATNE-I[27]包括網(wǎng)絡的基本嵌入、邊嵌入和屬性信息,獲得了充分反映網(wǎng)絡信息的節(jié)點嵌入。然而,這些方法多是對拓撲結(jié)構(gòu)和屬性信息分別建模并進行簡單融合,未考慮結(jié)構(gòu)與屬性之間的關(guān)系。

為解決以上問題,本文提出了一種同時考慮異質(zhì)節(jié)點、異質(zhì)邊、節(jié)點屬性以及結(jié)構(gòu)與屬性融合的模型,以得到表示性更強的節(jié)點向量。

2 問題定義

定義1 異質(zhì)屬性網(wǎng)絡。異質(zhì)屬性網(wǎng)絡由節(jié)點集V、邊集E和屬性集A組成,表示為G=(V,E,A),還包含一個節(jié)點類型映射函數(shù):V→O和邊類型映射函數(shù)ψ:E→R,其中O和R分別表示節(jié)點類型和邊類型的集合,且|O|+|R|gt;2。A={xi|vi∈V}為網(wǎng)絡中所有節(jié)點的屬性表示,即特征向量,其中xi表示節(jié)點vi的屬性。

定義2 子圖。給定一個異質(zhì)屬性網(wǎng)絡G=(V,E,A),將每種邊類型從該網(wǎng)絡中分離出來,即為子圖,表示為Gr=(V,Er,A),其中Er包含所有邊類型為r∈R的邊。

定義3 元路徑。元路徑ρ定義為V1R1V2R2…Rl-1Vl(縮寫為V1V2…Vl),它表示節(jié)點V1 和Vl之間的復合關(guān)系R1R2…Rl-1。其中:l表示元路徑的長度;表示關(guān)系的復合運算符。

定義4 內(nèi)容到節(jié)點的自翻譯。S={v1,v2,…,vT}是在網(wǎng)絡中隨機游走獲得的節(jié)點序列,以每個節(jié)點為起始節(jié)點,進行多次隨機游走可以得到一個節(jié)點序列集S^=(SN1)。從S^中選擇一個Sn={v1,v2,…,vT}作為節(jié)點身份序列,通過索引節(jié)點身份序列中每個節(jié)點的特征向量生成節(jié)點內(nèi)容序列Scn={vc1,vc2,…,vcT}。內(nèi)容到節(jié)點的自翻譯就是從Scn到Sn的映射過程。

問題1 異質(zhì)屬性網(wǎng)絡嵌入。給定一個異質(zhì)屬性網(wǎng)絡G=(V,E,A),其任務是給出每個節(jié)點vi∈V的統(tǒng)一低維向量表示,目標是得到一個函數(shù)fr:V→R|V|×d,其中dlt;lt;|V|。

3 網(wǎng)絡嵌入模型

本章將詳細介紹提出的模型SHANE,模型的整體框架如圖2所示,由生成節(jié)點序列、seq2seq模型、網(wǎng)絡嵌入三個部分組成。模型的整體流程如下:a) 將輸入的異質(zhì)屬性網(wǎng)絡依據(jù)邊類型劃分為|R|個子圖(|R|為邊類型數(shù)),在每個子圖中進行基于元路徑的隨機游走產(chǎn)生節(jié)點序列;b) 應用seq2seq模型無縫融合網(wǎng)絡的結(jié)構(gòu)和屬性信息,得到每種邊類型下所有節(jié)點的潛在向量表示;c) 利用注意力機制表示不同邊類型的不同影響,并得到最終的節(jié)點表示。

3.1 生成節(jié)點序列

鑒于網(wǎng)絡中邊的異質(zhì)性,SHANE根據(jù)邊類型將網(wǎng)絡劃分為多個子圖,然后在每個子圖中生成節(jié)點序列,這樣節(jié)點表示會更加準確,將復雜網(wǎng)絡簡單化也可以大大提高模型的運行效率。

為了生成有意義的節(jié)點序列,關(guān)鍵是要采用一種可以捕獲網(wǎng)絡中復雜語義的游走策略。在已有的異質(zhì)網(wǎng)絡嵌入的研究中,元路徑是一個用來表征語義模式的重要概念,基于元路徑的隨機游走生成的序列可以捕獲網(wǎng)絡的結(jié)構(gòu)和語義信息。因此,本文使用該方法產(chǎn)生節(jié)點序列,即給定一個邊類型為r的子圖Gr=(V,Er,A)和一條元路徑ρ:V1R1V2R2…Rl-1Vl,第t步的轉(zhuǎn)移概率定義如下:

p(vj|vi,ρ)=1|Ni,r∩Vt+1| (vi,vj)∈Er,vj∈Vt+1

0其他

(1)

其中,vi∈Vt,Ni,r為邊類型r中節(jié)點vi的鄰居,每次游走會重復遵循元路徑模式,直到達到預先定義的游走長度。

3.2 seq2seq模型

索引3.1節(jié)獲得的序列中節(jié)點的特征向量,可以得到節(jié)點內(nèi)容序列Scn={vc1,vc2,…,vcT},seq2seq模型即為內(nèi)容到節(jié)點的自翻譯過程,由Bi-LSTM[28]編碼器和LSTM解碼器與翻譯兩個部分組成,如圖3所示。

3.2.1 Bi-LSTM編碼器

為了建模節(jié)點內(nèi)容序列前向和后向的上下文信息,以捕獲全局語義信息,本文使用Bi-LSTM作為編碼器,首先,使用前向的LSTM編碼Scn,在t時刻的隱藏狀態(tài)向量ht和上下文向量w分別為

ht=Hfw(vct,ht-1)(2)

w=Q({h1,…,hT})(3)

其中:H(·,·)和Q(·,·)均為非線性函數(shù)。同樣,使用后向LSTM編碼節(jié)點內(nèi)容序列得到隱藏狀態(tài)向量ht:

ht=Hbw(vct,ht+1)(4)

用Q(·,·)拼接前向和后向LSTM得到的隱藏狀態(tài)向量來表示w:

w=Q({h1,…,hT,h1,…,hT})(5)

其中,LSTM使用記憶單元存儲信息,因此在長序列中可以充分考慮上下文信息,表現(xiàn)較好,其形成過程如下:

it=σ(Uivct+Viht-1+Wict-1+bi)

ft=σ(Ufvct+Vfht-1+Wfct-1+bf)

ot=σ(Uovct+Voht-1+Woct-1+bo)

t=tanh(Ucvct+Vcht-1+bc)

ct=ftct-1+itt

ht=ottanh(ct)

(6)

其中:σ(·)為sigmoid函數(shù);表示點積;Uj、Vj、Wj和bj(j∈{i,f,o,c})是學習的參數(shù);it、ft、ot分別是輸入門、忘記門和輸出門向量;ct是細胞記憶向量。

3.2.2 LSTM解碼器與翻譯

由Bi-LSTM編碼器得到了上下文向量表示w,其無縫融合了節(jié)點內(nèi)容序列Scn的結(jié)構(gòu)信息和屬性信息。將w轉(zhuǎn)換為節(jié)點身份序列Sn之前,先使用LSTM解碼器將其解碼為高維隱藏向量序列D={d1,d2,…,dT},其中dt(t∈(1,T))為t時刻的向量表示。最后,引入一個翻譯層將dt翻譯為對應的節(jié)點身份vt,這樣可以實現(xiàn)節(jié)點序列從內(nèi)容語義空間到身份語義空間的轉(zhuǎn)換。這里,使用全連接層將dt轉(zhuǎn)換為|V|維向量:

gt=σ(Wndt+bn)(7)

其中:Wn和bn是學習的參數(shù)。使用softmax函數(shù)將gt轉(zhuǎn)換為概率:

pt(k)=softmax(gt)k=exp(gt(k))∑k′exp(gt(k′))(8)

為了預測翻譯的準確性,本文應用了交叉熵損失函數(shù):

Lt=-∑Nn=1∑vt∈Sn∑k∈N(vt-1)δ(vt,k)pt(k)(9)

其中:δ(·,·)是一個二元函數(shù);vt等于k時為1, 否則為0。

3.3 網(wǎng)絡嵌入

通過訓練seq2seq模型,編碼器的輸出被視為節(jié)點的向量表示,它充分融合了結(jié)構(gòu)和屬性信息。每個節(jié)點會出現(xiàn)在多個節(jié)點序列中,和不同的鄰居交互時會捕獲不同方面的語義信息。假設vi出現(xiàn)在|vi|個不同的序列中, 將會得到|vi|個嵌入向量,將這些向量求平均得到節(jié)點vi的表示:

h(vi)=1|vi|∑|vi|j=1[hj(vi);hj(vi)](10)

同樣,可以得到每個子圖中節(jié)點vi的向量表示,將vi的所有表示連接為大小為d×|R|的向量H(vi),d表示嵌入維數(shù):

H(vi)=(h(vi,1),h(vi,2),…,h(vi,m))(11)

其中:h(vi,r)(r∈(1,m))是邊類型為r的子圖中節(jié)點vi的向量表示。

為了表征不同邊類型對節(jié)點嵌入的不同影響,使用了自注意力機制[29],節(jié)點vi的注意力系數(shù)計算式如下:

ai=softmax(wTtanh(WH(vi)))T(12)

其中:w和W分別是大小為da和da×d的訓練參數(shù)。因此,節(jié)點vi的最終嵌入ui為

ui=H(vi)ai(13)

3.4 時間復雜度分析

作為SHANE的重要部分,seq2seq模型只需讓編碼器讀取一遍輸入序列,解碼器根據(jù)當前狀態(tài)產(chǎn)生下一個狀態(tài),因此,seq2seq模型的時間復雜度為O(l), 其中l(wèi)為隨機游走生成元路徑的長度。利用注意力機制的時間復雜度為O(|V|d|R|), |V|為節(jié)點個數(shù),d為嵌入維數(shù),|R|為邊類型數(shù)。由此可知SHANE模型的時間復雜度為O(|R||V|(lm+d)), m為每種邊類型中以每個節(jié)點為起點隨機游走生成的節(jié)點序列數(shù)。在后續(xù)實驗部分將對時間復雜度進行實證分析。

4 實驗

4.1 數(shù)據(jù)集

本文在Amazon和YouTube兩個真實數(shù)據(jù)集中進行鏈接預測任務,實驗結(jié)果證明了本文提出模型的有效性。表1是兩個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)。

Amazon記錄了用戶對產(chǎn)品的評價信息,本文只使用電子產(chǎn)品類的產(chǎn)品元數(shù)據(jù),產(chǎn)品之間存在兩種不同類型的關(guān)系。關(guān)系類型分別為共同瀏覽和共同購買,產(chǎn)品的屬性包括類別、品牌、銷售排行、價格。

YouTube是一個具有許多視頻鏈接的大型網(wǎng)絡數(shù)據(jù)集,由15 088個用戶和5種鏈接組成。鏈接類型包括聯(lián)系人、共享訂閱、共享好友、共享訂閱人及用戶之間共享喜愛的視頻。

4.2 基線算法

為了對SHANE模型進行全面的比較分析,本文將其與以下一些算法進行比較:

DeepWalk通過隨機游走構(gòu)造鄰域生成節(jié)點序列,然后使用skip-gram模型保留網(wǎng)絡的結(jié)構(gòu)信息。

node2vec優(yōu)化了DeepWalk中的隨機游走模式,添加參數(shù)控制隨機行走過程,生成更有效的節(jié)點序列。

LINE保留節(jié)點的一階和二階相似性對節(jié)點進行嵌入,以捕獲網(wǎng)絡的全局結(jié)構(gòu)。

ANRL[30]設計了一個鄰居增強型自動編碼器和一個屬性感知的skip-gram模型,分別捕獲網(wǎng)絡的屬性信息和網(wǎng)絡結(jié)構(gòu)。

metapath2vec利用基于元路徑的隨機游走生成序列,并利用skip-gram模型得到節(jié)點表示。

PMNE通過結(jié)合PMNE(n)、PMNE(R) 和PMNE(c)三種不同的模型,為每個節(jié)點生成最終的全局嵌入。

MVE通過注意機制將多視圖網(wǎng)絡嵌入集成到最終節(jié)點嵌入中。

MNE構(gòu)建了一個統(tǒng)一的網(wǎng)絡嵌入模型,對于每一種邊類型網(wǎng)絡,該模型同時學習其公共嵌入和其他附加嵌入。

GATNE-I將節(jié)點嵌入分為基本嵌入和邊緣嵌入,并考慮節(jié)點的屬性信息,最終得到節(jié)點的整體嵌入。

4.3 實驗設置和評估指標

表2列出了SHANE中seq2seq模型的架構(gòu)。在兩個數(shù)據(jù)集中均以每個節(jié)點為起點生成20條長度為10的隨機游走序列。此外,本文實驗環(huán)境為:處理器為Intel CoreTM i7-11700KF CPU@3.60 GHz,內(nèi)存為32 GB,操作系統(tǒng)為Windows 10 64 bit。

鏈接預測是網(wǎng)絡嵌入的應用之一。大多數(shù)真實的網(wǎng)絡都是部分連接的,尤其是在電子商務場景中,因此預測節(jié)點對之間的鏈接具有重要意義。SHANE將網(wǎng)絡中的一組邊緣和非邊緣隱藏,在剩余網(wǎng)絡上進行訓練。對于每種邊類型,隨機選擇5%的正樣本和相同數(shù)量的負樣本作為驗證集用于訓練超參數(shù),隨機選擇10%的正樣本和同等數(shù)量的負樣本作為測試集用于性能評估,評估指標包括ROC曲線下面積(ROC-AUC)[31]、PR曲線下面積(PR-AUC)[32]和F1分數(shù)。

4.4 鏈接預測結(jié)果分析

表3展示了兩個數(shù)據(jù)集的鏈接預測結(jié)果。結(jié)果表明,SHANE在兩個數(shù)據(jù)集中均獲得了最好的結(jié)果,與GATNE-I相比,ROC-AUC、PR-AUC和F1分別提升1.26%、2.36%、1.72%和1.09%、2.43%、2.31%。在Amazon中,ANRL表現(xiàn)最差,在YouTube中,卻優(yōu)于某些算法,這是因為ANRL對節(jié)點屬性非常敏感,Amazon數(shù)據(jù)集中沒有足夠豐富的節(jié)點屬性;而YouTube的節(jié)點屬性是DeepWalk嵌入的結(jié)果,是由網(wǎng)絡結(jié)構(gòu)生成的。相比于未考慮邊類型的算法(metapath2vec),考慮邊類型的算法(PMNE、MVE、MNE、GATNE、SHANE)表現(xiàn)與其相當或更好,而且在YouTube中更勝一籌,這是由于YouTube邊類型較Amazon更多,這也說明處理異質(zhì)網(wǎng)絡考慮其異質(zhì)邊是有意義的。GATNE-I由于同時考慮了網(wǎng)絡結(jié)構(gòu)和節(jié)點屬性,所以在基線算法中表現(xiàn)最好,但它沒有將兩者充分融合,只是簡單地相加,這也是SHANE結(jié)果更優(yōu)的原因。

4.4.1 參數(shù)分析

本文對SHANE部分參數(shù)進行了敏感性分析,包括嵌入維數(shù)和隨機游走的長度。

圖4展示了嵌入維數(shù)對結(jié)果的影響,對于Amazon和YouTube兩個數(shù)據(jù)集,分別展示了嵌入維數(shù)在100~1200和50~400內(nèi)的ROC-AUC分數(shù)。圖中表示SHANE在不同數(shù)據(jù)集中不同維度下的性能是穩(wěn)定的,且嵌入維數(shù)最佳值為800和100。若嵌入維數(shù)過高會夾雜大量噪聲,反之會丟失一些節(jié)點特征。圖5展示了隨機游走長度在6~20內(nèi),SHANE在兩個數(shù)據(jù)集中的鏈接預測結(jié)果,在不同游走長度下,SHANE的性能均較穩(wěn)定,當長度設置為10時,表現(xiàn)最佳,長度過短,難以捕捉節(jié)點的高階語義信息,反之會引入過多噪聲。

4.4.2 實例測試

本文在兩個數(shù)據(jù)集中進行實例樣本測試,隨機刪除網(wǎng)絡中五條存在的邊,使用刪減后的網(wǎng)絡訓練SHANE模型得到所有節(jié)點的表示向量,利用邏輯回歸方法預測給定節(jié)點對存在邊的可能性。圖6展示了兩個數(shù)據(jù)集的部分網(wǎng)絡拓撲結(jié)構(gòu)圖,紅色的邊表示實例樣本,其他不同顏色的邊表示不同類型的鏈接(見電子版)。實驗表明,SHANE可以準確預測網(wǎng)絡中刪除的五條邊,在鏈接預測任務中性能較好。

4.4.3 效率測試

根據(jù)文獻[27],GATNE-I的時間復雜度為O(|V||R|dL),其中L為負采樣個數(shù)。與之相比,SHANE在提升鏈接預測結(jié)果的同時效率也有所提升。為了驗證這一結(jié)果,本文還比較了相同條件下SHANE和GATNE-I在兩個數(shù)據(jù)集中運行一個epoch的時間。表4為比較結(jié)果。從表中可以看出,SHANE的運行時間比GATNE-I少約40%。在擁有數(shù)十萬個節(jié)點和鏈接的Amazon數(shù)據(jù)集中,SHANE的訓練時間不超過20 min,這是非常有效的。此外,在YouTube數(shù)據(jù)集(包括五種邊類型)上的結(jié)果表明,SHANE也適用于由更多類型的鏈接組成的網(wǎng)絡。

5 結(jié)束語

本文提出了一種融合屬性信息的異質(zhì)網(wǎng)絡嵌入方法SHANE,應用seq2seq模型學習每種邊類型中節(jié)點的向量表示,然后采用自注意力機制表示每種邊類型對節(jié)點整體嵌入的影響。SHANE的優(yōu)勢有以下三個方面:a)將異質(zhì)屬性網(wǎng)絡依據(jù)邊類型劃分子圖,在每個子圖中進行節(jié)點嵌入,在考慮到異質(zhì)邊的同時將復雜網(wǎng)絡簡單化;b)將網(wǎng)絡嵌入視為機器翻譯任務,無縫融合了節(jié)點的結(jié)構(gòu)信息與屬性信息,也避免了結(jié)構(gòu)嵌入與屬性嵌入的人工結(jié)合;c)模型可以捕獲節(jié)點的復雜語義信息,可用于許多真實應用中。對于幾種不同類型的數(shù)據(jù)集,SHANE在鏈接預測任務中表現(xiàn)較好。

然而,異質(zhì)屬性網(wǎng)絡嵌入的研究仍然面臨一些新的挑戰(zhàn):a)不同類型的鏈接之間存在一定的關(guān)系,例如用戶在購買商品之前可能會先進行點擊和加入購物車操作,因此為了獲得更好的節(jié)點嵌入,不僅要考慮不同邊類型的不同影響,還需要考慮不同邊類型之間的相互作用;b)本文在兩個數(shù)據(jù)集上的實驗不足以證明SHANE的穩(wěn)定性和可擴展性,因此仍需要應用于更大的數(shù)據(jù)集或?qū)嶋H應用。接下來將在SHANE模型的基礎上增加一個協(xié)作框架,并將該模型進一步應用到推薦系統(tǒng)中,以解決上述問題。

參考文獻:

[1]Bhagat S, Cormode G, Muthukrishnan S. Node classification in social networks[J].Computer Science,2011,16(3):115-148.

[2]Ding C H Q, He Xiaofeng, Zha Hongyuan, et al. A min-max cut algorithm for graph partitioning and data clustering[C]//Proc of IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2001:107-114.

[3]Taskar B, Wong M F, Abbeel P, et al. Link prediction in relational data[C]//Proc of the 16th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2003:659-666.

[4]Tang Jian, Liu Jingzhou, Zhang Ming, et al. Visualizing large-scale and high-dimensional data[C]//Proc of the 25th International Conference on World Wide Web. Republic and Canton of Geneva:International World Wide Web Conferences Steering Committee,2016:287-297.

[5]Grover A, Leskovec J. node2vec: scalable feature learning for networks[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016:855-864.

[6]Perozzi B, Al-Rfou R, Skiena S. DeepWalk:online learning of social representations[C]//Proc of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2014:701-710.

[7]Tang Jian, Qu Meng, Wang Mingzhe, et al. LINE: large-scale information network embedding[C]//Proc of the 24th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee,2015:1067-1077.

[8]Dong Y, Chawla N V, Swami A. metapath2vec: scalable representation learning for heterogeneous networks [C]// Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2017:135-144.

[9]Fu Taoyang, Lee W C, Lei Zhen. HIN2Vec: explore meta-paths in heterogeneous information networks for representation learning[C]//Proc of ACM on Conference on Information and Knowledge Management.New York: ACM Press,2017:1797-1806.

[10]Zhang Chuxu, Song Dongjin, Huang Chao, et al. Heterogeneous graph neural network[C]//Proc of the 25th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2019:793-803.

[11]Hamilton W L, Ying R, Leskovec J. Inductive representation lear-ning on large graphs[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2017:1025-1035.

[12]Wang Xiao, Ji Houye, Shi Chuan, et al. Heterogeneous graph attention network[C]//Proc of International Conference on World Wide Web.New York:ACM Press,2019:2022-2032.

[13]Wang Daixin, Cui Peng, Zhu Wenwu. Structural deep network embedding[C]//Proc of the 22nd ACM SIGKDD International Confe-rence on Knowledge Discovery and Data Mining.New York:ACM Press,2016:1225-1234.

[14]Luo Xuexiong, Wu Jia, Zhou Chuan, et al. Deep semantic network representation[C]//Proc of IEEE International Conference on Data Mining.2020:1154-1159.

[15]Ou Mingdong, Cui Peng, Pei Jian, et al. Asymmetric transitivity preserving graph embedding[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016:1105-1114.

[16]Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[C]//Proc of the 1st International Conference on Learning Representations.2013:203-214.

[17]Shi Chuan, Hu Binbin, Zhao W X. Heterogeneous information network embedding for recommendation[J].IEEE Trans on Know-ledge and Data Engineering,2018,31(2):357-370.

[18]Zhang Xinyi, Chen Lihui. mSHINE: a multiple-meta-paths simultaneous learning framework for heterogeneous information network embedding[J/OL].IEEE Trans on Knowledge and Data Enginee-ring.(2020).http://doi.org/10.1109/tkde.2020.3025464.

[19]Liu Weiyi, Chen P Y, Yeung S, et al. Principled multilayer network embedding[C]//Proc of IEEE International Conference on Data Mining Workshops.Piscataway,NJ:IEEE Press,2017:134-141.

[20]Qu Meng, Tang Jian, Shang Jingbo, et al. An attention-based colla-boration framework for multi-view network representation learning[C]//Proc of ACM on Conference on Information and Knowledge Management.New York:ACM Press,2017:1767-1776.

[21]Zhang Hongming, Qiu Liwei, Yi Lingling, et al. Scalable multiplex network embedding[C]//Proc of the 27th International Joint Confe-rence on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:3082-3088.

[22]湯啟友,張鳳荔,王瑞錦,等.結(jié)合元路徑的屬性重邊異質(zhì)網(wǎng)絡嵌入方法[J/OL].小型微型計算機系統(tǒng).(2021-09-06)[2022-01-04].http://kns.cnki.net/kcms/detail/21.1106.TP.20210906.1609.052.html.(Tang Qiyou, Zhang Fengli, Wang Ruijin, et al. Method of attributed multiple-edge heterogeneous network embedding with meta-path[J/OL].Journal of Chinese Computer Systems.(2021-09-06)[2022-01-04].http://kns.cnki.net/kcms/detail/21.1106.TP.20210906.1609.052.html.)

[23]鄭蘇蘇,關(guān)東海,袁偉偉.融合不完整多視圖的異質(zhì)信息網(wǎng)絡嵌入方法[J].計算機科學,2021,48(9):68-76.(Zheng Susu, Guan Donghai, Yuan Weiwei. Heterogeneous information network embedding with incomplete multi-view fusion[J].Computer Science,2021,48(9):68-76.)

[24]Tang Jian, Qu Meng, Mei Qiaozhu. PTE: predictive text embedding through large-scale heterogeneous text networks[C]//Proc of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2015:1165-1174.

[25]Chang Shiyu, Han Wei, Tang Jiliang, et al. Heterogeneous network embedding via deep architectures[C]//Proc of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2015:119-128.

[26]Zhang Chuxu, Swami A, Chawla N V. SHNE: representation lear-ning for semantic-associated heterogeneous networks[C]//Proc of the 12th ACM International Conference on Web Search and Data Mining.New York:ACM Press,2019:690-698.

[27]Cen Yukuo, Zou Xu, Zhang Jianwei, et al. Representation learning for attributed multiplex heterogeneous network[C]//Proc of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2019:1358-1368.

[28]Hochreiter S, Schmidhuber J. Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

[29]Lin Zhouhan, Feng Minwei, Santos C N D, et al. A structured self-attentive sentence embedding[C]//Proc of International Conference on Learning Representations.2017.

[30]Zhang Zhen, Yang Hongxia, Bu Jiajun, et al. ANRL:attributed network representation learning via deep neural networks[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:3155-3161.

[31]Hanley J A, McNeil B J. The meaning and use of the area under a receiver operating characteristic (ROC) curve[J].Radiology,1982,143(1):29-36.

[32]Davis J, Goadrich M. The relationship between precision-recall and ROC curves[C]//Proc of the 23rd International Conference on Machine Learning. New York: ACM Press,2006:233-240.

主站蜘蛛池模板: 114级毛片免费观看| 亚洲69视频| 丁香婷婷久久| 玖玖免费视频在线观看| 亚洲无码电影| 日韩无码视频专区| 亚洲高清在线天堂精品| 18禁色诱爆乳网站| 国产福利影院在线观看| 波多野吉衣一区二区三区av| 日韩经典精品无码一区二区| 18禁影院亚洲专区| 美女国内精品自产拍在线播放| 91成人在线免费视频| 在线观看国产黄色| 99无码中文字幕视频| 国产一级二级在线观看| 国产精品不卡片视频免费观看| 波多野结衣久久高清免费| 亚洲有无码中文网| 中文字幕在线播放不卡| 欧美综合中文字幕久久| 国产sm重味一区二区三区| 日本91在线| 91精品国产一区自在线拍| 57pao国产成视频免费播放| 69免费在线视频| 久久先锋资源| 无码网站免费观看| swag国产精品| 日本黄网在线观看| 亚洲国产精品无码AV| 亚洲人妖在线| 精品91视频| 人妻一区二区三区无码精品一区| 性视频一区| 99热这里只有免费国产精品 | 色AV色 综合网站| 国产aaaaa一级毛片| 老色鬼久久亚洲AV综合| 热九九精品| 午夜综合网| 欧美成人二区| 免费中文字幕一级毛片| 国产精品久久自在自线观看| 777午夜精品电影免费看| 亚洲一区二区精品无码久久久| 亚洲人成网站日本片| 国产成人禁片在线观看| 99久久人妻精品免费二区| 精品国产一区二区三区在线观看| 久久精品国产999大香线焦| 小说区 亚洲 自拍 另类| 亚洲高清在线天堂精品| 激情无码字幕综合| 色婷婷电影网| 色吊丝av中文字幕| 99尹人香蕉国产免费天天拍| 国产真实自在自线免费精品| 久久亚洲国产最新网站| 亚洲视频色图| 国产97色在线| 久久青草免费91线频观看不卡| 乱色熟女综合一区二区| 国内精品久久九九国产精品| 98超碰在线观看| 波多野结衣久久高清免费| 亚洲av日韩综合一区尤物| 制服丝袜国产精品| 精品国产一区91在线| 永久免费av网站可以直接看的 | A级毛片高清免费视频就| 国产亚洲日韩av在线| 色欲综合久久中文字幕网| 久久国产高潮流白浆免费观看| 亚洲中文精品久久久久久不卡| 色妞永久免费视频| 99精品国产自在现线观看| 中文字幕在线观看日本| 国产成a人片在线播放| 欧美日本在线观看| 欧美a级在线|