999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡節點文本增強的鏈路預測算法

2019-04-01 09:27:10趙海興冶忠林
計算機應用與軟件 2019年3期
關鍵詞:文本

曹 蓉 趙海興 冶忠林

1(青海師范大學計算機學院 青海 西寧 810008)2(陜西師范大學計算機學院 陜西 西安 710062)3(青海省藏文信息處理與機器翻譯重點實驗室 青海 西寧 810008)4(藏文信息處理教育部重點實驗室 青海 西寧 810008)

0 引 言

近年來,網絡中的鏈路預測問題已廣泛受到學者們的關注,鏈路預測問題一直是復雜網絡領域中的一個研究重點,也取得了很多的成就。網絡中的鏈路預測一般指的是通過某種預測算法利用已知網絡的節點和結構等信息,來預測下一時刻網絡中不相鄰的兩個節點之間產生連邊的可能性[1-3]。該預測包括未知預測和未來預測。常見的鏈路預測方法有:基于節點屬性信息、基于網絡結構和最大似然估計法。通常情況下,與節點的屬性信息相比,更容易獲得網絡的結構信息,而且網絡的結構信息也相對比較可靠。此類方法對于結構相似的一類網絡都比較適用,并且從一定程度上減輕了對不同網絡需要機器學習來獲得一些特定的參數組合。文獻[4]提出一種基于網絡拓撲結構相似性的鏈路預測方法,基于網絡拓撲結構的相似性指標可分為兩類,分別為基于節點的相似性指標和基于路徑的相似性指標,并在社會合作網絡中進行了預測,分析了預測的效果。

基于網絡結構的最大似然估計方法是另一類鏈路預測方法。2008年,文獻[5]在層次結構的網絡中提出了一種運用網絡層次結構的鏈路預測方法,并在層次網絡中進行了預測,結果顯示預測效果確實比較明顯。此外,還利用隨機分塊模型[6-9]對網絡中的錯誤邊和缺失邊進行了預測。在文獻[6-9]中首次提到網絡中存在錯誤連邊的概念,即在已知的鏈接中很可能存在著一些錯誤的鏈接,如人們對蛋白質相互作用關系的錯誤認識。

隨著網絡技術的不斷發展,計算機性能的日益提升,僅對網絡節點屬性的預測不能夠真實精確地反映出目標網絡的特性。目前,尤其針對大規模網絡,還沒有較好的預測算法。近幾年,深度學習在表示學習網絡的特征提取上取得了非常巨大的進展[10]。基于此方法的啟發,我們進一步關注到了網絡表示學習算法。網絡表示學習又叫作網絡特征學習,它是機器學習領域里一個非常重要的研究領域,該方法的目標是通過對目標網絡的特征進行學習,將網絡中的每一個節點表示為一個低維向量[11]。網絡表示學習方法可以更好地幫助我們理解節點之間的語義關系,且能更進一步緩解由于網絡稀疏性帶來的不便。現存的大部分網絡表示學習算法都是基于網絡結構的。例如DeepWalk[12]算法,該算法起源于Word2Vec[13-15]算法。DeepWalk算法利用隨機游走獲得當前節點的上下文,然后將上下文節點輸入到神經網絡中進行訓練。

然而,現實世界中,網絡的一個節點通常包含了非常豐富的信息。例如,在引文網絡中,每個節點中含有該節點的論文標題、類別屬性等。假設,兩個節點的文本內容中含有較多的共現詞語,那么,這兩個節點屬于同一類別的概率也較大。另外,已有研究證明了,DeepWalk算法其實質為矩陣分解,分解的目標矩陣記為M。基于此,本文提出一種基于網絡節點文本增強的鏈路預測方法。它將網絡結構和節點的文本屬性信息結合起來,該算法也是基于DeepWalk算法之上。與DeepWalk算法不同的是,在目標矩陣M的分解上,考慮了網絡節點的文本屬性信息。因此,本文提出的TELP算法旨在通過對目標矩陣的分解的同時融入了網絡節點的文本內容,使得得到的網絡表示中既含有了網絡的結構屬性,又有了網絡節點的文本屬性。最后,通過三個數據集實驗仿真,并將仿真結果與現存的眾多鏈路預測算法相比較,實驗證實本文算法取得了較好的預測效果。

1 相關工作

常見的鏈路預測算法主要是基于節點相似性的預測算法,該類算法包括基于局部信息的相似性指標、基于路徑的相似性指標以及基于隨機游走的相似性指標。

基于局部相似性指標的方法通常指的是基于共同鄰居CN(Common Neighbors)的相似性指標[16]。CN指標可以理解為,若兩個節點擁有很多的共同鄰居,則這兩個節點相似,它們的共同鄰居數越多,相似性也就越高。考慮節點的共同鄰居,以及兩端節點的度對網絡的影響,可將其細分為6種相似性指標,分別為:余弦相似性(Salton)指標[17]、Jaccard指標[18]、Sorenson指標[19]、大度節點有利指標HPI(Hub Promoted Index)[20]、大度節點不利指標HDI(Hub Depressed Index)[21]和(LHN-I)指標[22]。若考慮共同鄰居節點的度的信息,又可分為AA(Adamic-Adar)指標[23]和資源分配RA(Resource Allocation)指標[21]兩類指標。

基于局部相似性的算法是一種比較直觀、簡單的算法,其計算復雜度相對較低,然而該方法只關注目標節點和其鄰居節點的屬性信息,并沒有完全挖掘出整個網絡所攜帶的豐富的信息,導致節點相似性分數的分布過于集中,節點對與節點對之間的區分度太低,從而導致算法的預測精度受到了一定的限制。但是,該類算法的優點是可以在大規模網絡中進行鏈路預測。

CN指標本質上可以看成是二階路徑指標,周濤等[24]在基于共同鄰居的相似性指標的基礎上,考慮了三階路徑的因素,提出了基于局部路徑的相似性指標。該類指標有3個,分別為局部路徑指標、Katz指標[25]和LHN-II指標[22]。Katz指標考慮了網絡的全部路徑,其定義為:

al(Al)xy

基于路徑的鏈路預測算法考慮了節點之間的路徑信息,但是由于在節點之間存在多條路徑,且路徑搜索算法具有較大的計算復雜度,因此,導致了這類算法計算代價大。這類算法的優點是考慮了所有的路徑信息,因此,在鏈路預測任務重通常具有很好的性能。

基于隨機游走的相似性指標可以分為基于網絡全局的隨機游走指標和基于局部的隨機游走指標兩大類,基于全局的隨機游走指標主要包括平均通勤時間ACT(Average Commute Time)[26]、基于隨機游走的余弦相似性(Cos+)指標[27]、有重啟的隨機游走指標RWR(Random Walk With Restart)[28]、SimRank指標(SimR)[29]。基于全局的隨機游走指標往往計算復雜度都比較高,很難應用于大規模網絡中。劉偉平[30]等提出了一種基于網絡局部隨機游走的相似性LRW指標(Local Random Walk),該指標不同于全局隨機游走的指標,它只考慮了有限部署的隨機游走過程。它包括基于局部隨機游走指標和有疊加效應的局部隨機游走SRW指標(Superposed Random Walk)兩種指標。

基于隨機游走的鏈路預測算法可被高效地應用于鏈路預測任務中,且具有很高的精度。只是這類算法僅僅是基于節點之間的隨機游走,并沒有考慮節點之間的結構特征屬性。如果首先挖掘節點之間的結構特征,之后再基于該結構特征進行鏈路預測研究,那么該算法的預測性能就會得到較大的提升。

當然,還存在一些其他的相似性算法,比如基于矩陣森林理論的矩陣森林指數MFI算法(Matrix Forest Index)[31]、自洽轉移相似性算法[32]等。

雖然目前也有將文本信息融入鏈路預測的一些算法,但是這些算法是將文本中的詞語作為一類特殊的節點考慮,其實質是構建異構網絡進行鏈路預測。本文通過將文本信息轉化為文本特征矩陣,之后通過分解網絡特征矩陣步驟,將文本特征的影響因子融入到網絡節點的表示向量中。文本算法的實質是基于神經矩陣分解模型挖掘網絡結構特征,之后再基于該特征向量進行鏈路預測。因此,與傳統的基于異構網絡的鏈路預測算法有著本質的區別。本文使用的基于神經矩陣分解的鏈路預測算法也異于本節中介紹的3類基于節點相似性的鏈路預測算法,是一種簡單高效的鏈路預測算法。與該3類鏈路預測算法最大的區別是先進行了網絡結構特征挖掘,而非直接利用網絡節點的連邊信息直接進行鏈路預測。

2 算法設計

已知目標網絡G=(V,E),其中,點集為V,邊集為E,相關的節點文本信息矩陣為T∈Rft×|V|,ft為文本特征的維度。本文提出一種基于文本增強的鏈路預測方法(TELP),該方法不僅結合了網絡的結構特征,而且也考慮了網絡中節點的文本屬性信息,從而更有效地挖掘到目標網絡的結構特征,以便更好地理解目標網絡。

2.1 基于矩陣分解的DeepWalk算法

DeepWalk算法是由Perozzi等[12]提出的一種基于深度學習的網絡表示模型,該模型是一個淺層的三層神經網絡,它由輸入層、投影層和輸出層組成。DeepWalk提供了兩種實現模型,即CBOW(Continuous Bag of Words)模型和Skip-Gram模型。DeepWalk使用了層次化的softmax函數和負采樣方法來優化模型的訓練過程,相比于語言模型中的Word2Vec算法,DeepWalk算法將隨機游走的過程中生成的節點序列當作句子,其中的節點看作文本中的詞,來訓練和學習目標網絡的節點向量表示。由于DeepWalk算法其實質為矩陣分解,因此,DeepWalk算法的目標函數為:

(1)

Yang等[33]證明了DeepWalk算法實質上等價于分解目標網絡的矩陣M,因此,在文獻[33]和文獻[34]中定義了式(1)中的M如下:

Mij=log2(ei(A+A2+A3+…+At)j/t)

(2)

(3)

式中:A表示PageRank的轉移矩陣;ei表示從節點i開始隨機游走時的初始狀態,它是一個第i行為1,剩余行均為0的eiAt維行向量,ejAt中第j列值為從節點vi在t步之內隨機游走到節點vj的概率的大小。j則表示節點vj在隨機游走t步內出現在節點vi周圍的次數。

從式(2)可以看出,當滑動窗口t不斷增大時,DeepWalk算法計算矩陣M的復雜度達到了O(|V|3)。

2.2 基于文本信息的DeepWalk算法

DeepWalk算法單純的使用網絡的結構特征來訓練節點的向量,文獻[34]在網絡結構特征的基礎上引入節點的文本信息,提出了基于文本信息的DeepWalk算法,簡稱TADW(Text Associated DeepWalk)算法[34]。該算法使用誘導矩陣補全IMC(Inductive Matrix Completion)算法對M矩陣進行分解,同時將目標網絡節點的文本屬性信息引入到網絡表示學習中。由于log2M矩陣中含有大量的非零元,且大部分真實網絡通常是稀疏的,即O(E)=O(V),這使得算法的復雜度上升。因此,在式(2)中分解矩陣M時,可去掉log進行分解。在TADW算法中,考慮了算法的時間和空間效率等因素,直接對目標矩陣M進行分解,最終得到的分解的目標矩陣為:M=(A+A2)/2。通過TADW算法,使得矩陣分解的時間復雜度從原來的O(|V|3)大大地降低到O(|V|2)。因此,在TADW算法很大地降低了矩陣分解的時間復雜度。在目標矩陣M的分解過程中,使得下式達到最小:

(4)

本文中,也擬采用網絡表示學習中矩陣分解的目標矩陣為:M=(A+A2)/2。

2.3 基于文本增強的鏈路預測算法

通過觀察TADW算法的網絡中節點表示學習,發現它不但考慮了目標節點周圍的網絡結構信息,而且也將節點的相關文本信息作為輸入,并通過深度學習的方法不斷結合網絡結構和節點相關的文本信息,訓練得到節點的最優網絡結構的特征向量表示。通過實驗表明,使用TADW算法訓練出網絡中任意兩個節點在向量空間上的分布,這也可以很好地計算目標網絡中任意兩個節點不僅在網絡結構上而且在文本內容上潛在的相似性。受到TADW模型的啟發,本文提出了基于網絡節點文本增強的鏈路預測算法。首先基于TADW算法并結合了與目標網絡相關的文本矩陣T分解目標矩陣M,得到網絡中每個節點的向量表示,然后根據余弦相似性算法,計算出任意兩個節點的相似度,從而構建出最終的相似度矩陣。另外,本文算法通過TADW框架訓練每個節點的表示向量,故本文的算法復雜度主要來自于訓練TADW模型。由于TADW算法的訓練復雜度為O(|V|2),因此,本文提出的TELP算法的時間復雜度為O(|V|2)。

定義1網絡中任意兩個節點i、j之間的網絡結構相似性為:

(5)

本文中,基于文本增強的鏈路預測TELP算法的具體框架如圖1所示。

圖1 基于網絡節點文本增強的鏈路預測算法框架

本文的算法主要由網絡特征構建模塊、網絡表示學習模塊、相似度矩陣構建模塊、鏈路預測模塊4個模塊組成,每個模塊的主要任務處理如下所示:

1) 網絡特征構建模塊:將目標網絡轉化成鄰接矩陣的形式,然后使得矩陣M=(A+A2)/2為網絡的特征矩陣。

3) 相似度矩陣構建模塊:對得到的目標矩陣WT矩陣中的每一行、每一列,利用定義1的余弦相似度算法計算任意節點的相似度,得到目標網絡的相似度矩陣S=[Sij],其中0≤i≤|V|-1,0≤j≤|V|-1。

4) 鏈路預測模塊:將WT矩陣分為訓練集和測試集,使用AUC評價指標,評估本文算法的鏈路預測性能。

本文算法的主要流程由以上4個模塊組成,為了更進一步詳細展示本文算法,下面提供本文算法的偽代碼:

輸入:

目標網絡G的鄰接矩陣:A

數據集的訓練率:training ratio

向量表示長度:k

輸出:AUC

1. 計算鄰接矩陣A:A=[aij]

if(i,j)∈E,aij=1/di

elseaij=0

2. 網絡特征矩陣M:

M=(A+A2)/2

3.1 獲取每個節點的標題

3.2 刪除標題中的停用字

3.3 為每個詞賦一個向量,并構建詞表D

3.4 使用循環控制生成文本特征矩陣T|V|×ft:

(1) 若標題中的詞出現在詞表D中:

將該位置設置為1,否則設置為0

(2) 直到最后一條標題

4. 使用IMC算法分解:M

(W,H,time)=IMC(E,M,T,k…)

5. 將WT作為目標網絡的節點向量:

[ei]←WT

6. 構建相似度矩陣S:

S=[Sij]=sim(i,j)

7. 計算測試集的AUC值:

7.1 將網絡G分成測試集和訓練集:

7.2 AUC←[training set,testing set]

結束

3 實驗結果與分析

3.1 數據集和實驗參數設置

本文所采用的三個數據集均為真實的科研合作網絡,通過比較本文所提出的算法和現存的多種鏈路預測算法,進一步驗證本文所提算法的有效性。本文所使用的數據集分別為Citeseer數據集、DBLP數據集和Cora數據集,有關數據集的詳細信息如表1所示。

表1 數據集描述

通過表1可以看出,這三個數據集中的節點數大概都在3 000個左右,然而這三個網絡中的邊數卻大不相同。其中,DBLP數據集中的邊數最多,幾乎為Citeseer和Cora 中邊數的7倍多。顯然,在網絡節點數幾乎相同的情況下,網絡中的連邊數S直接影響了該網絡的稠密度、平均度以及平均聚類系數的大小。正因如此,三個數據集中,相比其他兩個網絡,DBLP網絡的密度最大,平均度也最大,網絡直徑和平均聚類系數也最大。

在本文中使用的Citeseer、DBLP和Cora三個引文網絡數據集不僅包含了節點之間的連邊關系,同時也包含了每個節點的標題文本,該節點文本為引文網絡中的論文題目。本文引入的TELP算法不僅建模了節點之間的連接關系,同時也建模了節點與節點文本之間的關系。因此,TELP算法訓練得到的節點表示向量中既含有連接因子,也含有文本影響因子。

3.2 評價指標

鏈路預測算法精確度的衡量指標通常有AUC[32]、精確度和排序分等。本文采用的是AUC評價指標來衡量本文算法的準確性。AUC指標將實驗數據隨機地獨立劃分為測試集和訓練集兩部分,其中90%作為訓練集,10%作為數據集。通過在測試集中隨機地選擇一條已經存在的連邊的分數值比一條不存在的連邊的分數值高的概率。即,每次隨機地從測試集中選一條連邊,再從不存在的連邊中隨機選一條。若測試集中的連邊分數值大于不存在連邊的分數,就加1分;若兩者相等就加0.5分。通過獨立地比較n次,若有n′次測試集中的連邊分數值比不存在連邊的分數值大,有n″次兩者分數值相等,則AUC的值可以表示為:

AUC=(n′+n″)/n

(6)

一般而言,AUC評價指標的值應至少大于0.5,但不超過1。訓練集越大,對應的AUC的值越高,算法的精確度也就越高。

3.3 對比分析

本文將目標網絡的鄰接矩陣分解為三個低維矩陣的乘積:M=WT×H×TT。然后基于余弦相似度方法構建網絡的相似度矩陣,最后在Citeseer、DBLP和Cora三個數據集上做了仿真實驗。為了進一步驗證本文所提算法的有效性,用所列出的現存的多種預測方法與我們所提出的方法進行了對比。在本實驗中,設置訓練比例分別為0.7、0.75、0.8、0.85、0.9和0.95,以及經過訓練所得到的向量長度為200,實驗結果如表2所示。

表2 Citesser、DBLP和Cora數據集上的鏈路預測結果

從表2中看到,本文所提出的TELP算法和現存的多種常用的鏈路預測方法進行了比較,通過對實驗結果分析發現MFI算法在Citeseer、DBLP和Cora三個數據集上都表現出了最優的性能,Katz算法在這三個數據集上的表現基本相同,尤其在Citeseer數據集上表現較優。本文提出的TELP算法其性能也優于表2中剩余的多種算法,尤其是在Citeseer數據集上表現得比較明顯。根據上述分析可知:本文所提出來的TELP算法的性能優于現存的絕大多數鏈路預測算法,是因為本文算法使用了基于淺層神經網絡的方法,并且充分地考慮了已知網絡的結構和豐富的文本信息;通過對目標網絡進行無監督學習來訓練網絡的節點表示向量,有助于快速地從目標網絡中提取信息,便于更加準確和深入地理解學習目標網絡呈現其特征。

3.4 度分布

度分布是對一個網絡中節點度數的總體描述,網絡的度分布通常指的是網絡中節點的度的概率分布。現存的絕大多數復雜網絡都具有無標度性,即其度分布服從冪律分布的網絡。可以看出,研究網絡的度分布指數可以基本確定一個網絡的類型。通過研究復雜網絡的度分布,可以幫我們更好地認識、分析目標網絡的拓撲結構和動力學行為等。可見,度分布是復雜網絡中的一個非常重要的參數,對網絡的度分布研究也具有十分重要的研究價值。本文通過Matlab編程計算出Citeseer、DBLP和Cora三個數據集網絡中每個節點的度分布及頻率,如圖2所示。

(a) Citeseer 數據集

(b) DBLP數據集

(c) Cora數據集圖2 在Citeseer、DBLP和Cora數據集上的度

圖2中的橫坐標表示數據集中該節點度的大小,縱坐標表示數據集中該度值對應的節點個數。根據這三個數據集的度分布可以看出,Citeseer數據集和DBLP數據集中大度節點相對較多,但大度節點出現的頻率卻明顯很低,反之,小度節點有較高的出現頻率,其最高次數可達170余次。而Cora數據集則恰好與之相反,在Cora數據集中,雖然節點的度值都相對較小,但其度值出現的頻率卻明顯高于前兩個數據集,其度值出現的頻率最高可達560余次。可見Citeseer數據集、DBLP數據集和Cora數據集并不是一個高稠密的網絡。

3.5 調參與分析

在本文實驗中,需要設置向量長度k值和訓練比例的值。通過調整訓練比例可以將已知數據分成兩部分,一部分為訓練集,一部分為測試集。我們對訓練集中數據的鄰接矩陣使用本文提出的算法進行分解,從而得到目標網絡矩陣存儲形式。實驗的訓練率對算法預測結果的影響如圖3所示。

(a) Citeseer數據集

(b) DBLP數據集

(c) Cora數據集圖3 訓練率與預測結果之間的關聯關系

從圖3中可以看到,設置的向量長度分別為:50、100、150、200、300,其相應的訓練集比例為:0.75、0.8、0.85、0.9、0.95。通過分析圖3可以得出,由于Citeseer數據集和Cora數據集是一個相對稀疏的網絡,當向量長度為100時,且對應的訓練比例為0.75時,AUC獲得了較好的性能;當向量長度增大到300時,且對應的訓練比例為0.95時,AUC獲得了最優的性能;然而DBLP數據集是一個相對稠密的網絡,當向量長度大于100時,其訓練比例在0.75和0.95之間,AUC的變化幅度相差都不大。因此,對于稀疏網絡而言,向量長度和訓練集比例的大小對AUC的影響比較大,而對于越稠密的網絡,影響相對較小。

3.6 網絡表示可視化

本文從Citeseer、DBLP和Cora三個數據集中,分別隨機地選取3個類別,并隨機地在每個類別中選取150個節點,使用T-SNE(T-distributed Stochastic Neighbor Embedding)可視化降維算法[35],將數據集中的450個節點投影到2維坐標平面上,用3種不同的形狀分別表示每個數據集中的3個不同類別。本算法的網絡表示可視化的投影結果如圖4所示(說明:圖4中橫縱坐標的值為降維到2維后在坐標軸上的值,該刻度值無單位,隨著可視化算法的降維效果而不斷地發生變化)。

(a) Citeseer 數據集的可視化

(b) DBLP數據集的可視化

(c) Cora數據集的可視化圖4 三個數據集上的網絡表示2維可視化

通過觀察圖4可以看出,網絡的2維可視化結果表現出了很好的區分能力。因此,基于網絡節點文本增強的鏈路預測算法表示的網絡節點具有很好的標簽分類性能。從可視化結果中可以看出,同一種線型表示具有同類標簽的節點的集合,對同類標簽節點的歸類之后,再使用降維T-SNE算法,將其投影到同一個2維坐標平面上。從圖4的3個數據集的可視化結果中可以看出,相同形狀的節點具有很明顯的聚類現象,且它們表示在二維平面上的距離也比較近。因此,可以進一步表明,基于網絡節點文本增強的鏈路預測算法可以很好地將目標網絡的結構信息和節點的文本結合起來,通過預測將具有相似的網絡結構節點聚集到一個相對較近的距離空間中,體現了很好的聚類性能;反之,也可將相差較大的網絡節點表示到較遠的距離空間中。因此,基于聚類性質的網絡節點文本增強的方法可以很好地應用于鏈路預測領域。

3.7 案例研究

為了更好地理解基于文本增強的鏈路預測算法的有效性,在DBLP數據集中做了實驗,DBLP數據集是一個引文網絡,根據該數據集中論文的方向可將其分為4個領域,分別為計算機視覺領域、數據庫領域、人工智能領域和數據挖掘領域。在該數據集中,設置目標節點的向量表示長度為200,其訓練比例為0.9,并隨機選取一個標題為:“Factorial Hidden Markov Models”的目標節點,分別使用DeepWalk 算法和本文所提出的TELP算法計算其對應的余弦相似度值。通過統計得到該標題中5個相似度值最高的鄰居節點,最終分別篩選出了5條標題與目標標題“Factorial Hidden Markov Models”所對應。使用兩種預測算法篩選出的5條標題的具體的信息如表3和表4所示。

表3 DeepWalk算法案例實證研究

表4 本文算法案例實證研究

在表3和表4中,通過對網絡表示的相似度計算,分別用DeepWalk算法和TELP算法返回了5條與目標標題最相關的標題。通過比較可以發現,本文提出的TELP算法要比已有的DeepWalk算法相似度高。通過計算對應的余弦相似性,發現DeepWalk算法預測出來的5條標題雖然與目標標題能達到結構上的相似,但是不能夠達到文本上的相似。而在表4中,使用TELP算法預測出的5條相關標題與目標標題之間不僅在結構上而且也在文本上達到了很高的相似性。每個相關標題幾乎都包含了目標標題中的關鍵字“Markov Models”或“Hidden”。在該實例中,本文算法顯然優于DeepWalk算法。其中,使用本文算法預測出的5條標題中,第一條標題里幾乎包含了所有的關鍵字,可以看出,這條標題與目標標題“Factorial Hidden Markov Models”的相似性達到了最高。因此,基于文本增強的鏈路預測算法可以有效地將網絡的結構信息和節點的屬性信息結合起來,從而更好地學習并挖掘網絡的內部結構關聯性,達到更好的預測效果。

4 結 語

針對目前鏈路預測問題研究中的研究方法主要是基于已知網絡的結構信息,沒有考慮到與已知網絡相關的文本信息,本文提出了一種基于網絡文本增強的鏈路預測算法,并應用到了三個真實的科研合作網絡Citeseer、DBLP和Cora中,運用基于淺層神經網絡的無監督學習方法對其進行預測。實驗結果表明,在真實的網絡環境中,本文算法表現出了較為優異的預測性能。通過進一步對目標網絡的可視化研究發現,基于本文算法,在實驗過程中,所訓練得到的網絡節點也具有十分明顯的聚類現象,即該方法可以很好地應用于分類任務中。最后通過對實驗案例的研究,充分地證明了具有相似結構和內部相似的網絡節點之間的空間距離相比其他節點而言更為相近。因此,綜上所述,本文算法是一種新的且行之有效的鏈路預測算法,它能夠在真實的網絡環境中表現出較為優異的預測性能。在今后的研究過程中,我們將把該方法擴展到大規模的復雜網絡中進行預測分析及驗證,同時,還會進一步研究更多的鏈路預測指標以適應更為復雜的網絡結構。

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 精品视频在线观看你懂的一区| 天天爽免费视频| 天堂久久久久久中文字幕| 亚洲热线99精品视频| 操操操综合网| a在线亚洲男人的天堂试看| 婷婷色丁香综合激情| 国产激情无码一区二区三区免费| 国产精选自拍| 99热线精品大全在线观看| a在线亚洲男人的天堂试看| 伊人激情综合| 国产精品亚欧美一区二区三区| 91毛片网| 人妻无码AⅤ中文字| 欧美在线伊人| 伊人91视频| 欧美三级不卡在线观看视频| 好紧太爽了视频免费无码| 十八禁美女裸体网站| 人妖无码第一页| 亚洲最大综合网| 欧美激情第一欧美在线| 毛片视频网址| 宅男噜噜噜66国产在线观看| 亚洲国产精品久久久久秋霞影院| 国产91成人| 波多野结衣视频一区二区| 无码人妻免费| 伊人AV天堂| 女人天堂av免费| 中文字幕免费视频| 国产99免费视频| 欧美一级99在线观看国产| 国产精品性| 欧美区一区二区三| 欧美精品二区| 亚洲精品国产首次亮相| Aⅴ无码专区在线观看| 亚洲一区二区在线无码| 国产视频欧美| 免费一级成人毛片| 国产拍在线| 国产成人精品一区二区| 亚洲天堂久久新| 制服丝袜亚洲| 国产一国产一有一级毛片视频| 久久久受www免费人成| 99在线视频精品| 国产亚洲欧美日韩在线观看一区二区| 四虎国产成人免费观看| 亚洲青涩在线| 一级全黄毛片| 国产av一码二码三码无码| 色欲综合久久中文字幕网| 夜夜高潮夜夜爽国产伦精品| 成人小视频网| 996免费视频国产在线播放| 香蕉国产精品视频| YW尤物AV无码国产在线观看| 国产精品v欧美| 国产精品99在线观看| 亚洲三级色| 国模粉嫩小泬视频在线观看 | 亚洲欧美人成人让影院| 日韩av手机在线| 国产经典在线观看一区| 人妻免费无码不卡视频| 噜噜噜久久| 毛片久久网站小视频| 欧美日韩精品一区二区视频| 国产日韩欧美视频| 国产区人妖精品人妖精品视频| 色综合久久久久8天国| 好紧好深好大乳无码中文字幕| 精品無碼一區在線觀看 | 国产爽歪歪免费视频在线观看| 色婷婷在线影院| 色悠久久综合| 国内精自视频品线一二区| 国产欧美成人不卡视频| 动漫精品啪啪一区二区三区|