999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測

2021-03-15 07:52:36曹志鵬潘啟亮
情報學(xué)報 2021年2期

曹志鵬,潘 定,潘啟亮

(暨南大學(xué),廣州 510632)

知識網(wǎng)絡(luò)是由創(chuàng)造、轉(zhuǎn)移、吸收和應(yīng)用知識的行為主體構(gòu)成,在知識傳播與交流過程中,彼此聯(lián)結(jié)而形成的復(fù)雜網(wǎng)絡(luò)。許多學(xué)者借助合著網(wǎng)絡(luò)、引證網(wǎng)絡(luò)和共詞網(wǎng)絡(luò)等對知識網(wǎng)絡(luò)的形成和演化進(jìn)行了深入的研究。從研究對象和立足點上看,這些研究體現(xiàn)出了兩種不同的研究思路:一種是基于物理統(tǒng)計的方法,側(cè)重于對實際知識網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和演化特征進(jìn)行客觀的描述及分析,其研究對象往往是文獻(xiàn)、書刊等;另一種是基于認(rèn)知的角度,與思維、語言等要素相結(jié)合,側(cè)重語義地圖、知識圖譜等,其研究對象往往是關(guān)鍵詞等情報單元[1]。不同的研究思路促進(jìn)了知識網(wǎng)絡(luò)研究的發(fā)展,但也在一定程度上造成了割裂。實際上,知識網(wǎng)絡(luò)的完整研究應(yīng)該兼具物理統(tǒng)計和認(rèn)知兩種角度,但是這方面的進(jìn)展卻相對緩慢,目前僅有的研究主要集中于二部圖網(wǎng)絡(luò)和異質(zhì)網(wǎng)絡(luò)。近年來,人工智能領(lǐng)域,尤其是網(wǎng)絡(luò)表示學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的技術(shù)突破,為知識網(wǎng)絡(luò)的研究帶來了新的方法,為融合知識網(wǎng)絡(luò)客觀主體和認(rèn)知文本提供了新的途徑。

本文將借助知識表示學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù),對合著主體及知識文本分別建立復(fù)雜網(wǎng)絡(luò),形成雙層知識網(wǎng)絡(luò)結(jié)構(gòu)。利用網(wǎng)絡(luò)表示學(xué)習(xí),分別將兩層網(wǎng)絡(luò)中的節(jié)點映射到低維的向量空間,然后輸入到專門設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行鏈路預(yù)測。該模型在進(jìn)行鏈路預(yù)測時,綜合利用合著網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征以及作者研究領(lǐng)域等文本內(nèi)容中的潛在信息,使預(yù)測準(zhǔn)確率得到大幅提升。

1 相關(guān)研究工作

1.1 情報學(xué)基本原理

隨著科學(xué)的發(fā)展,學(xué)科領(lǐng)域日益復(fù)雜,知識與信息呈幾何級增長,知識體系逐步演化為一個復(fù)雜的知識網(wǎng)絡(luò)。知識網(wǎng)絡(luò)屬于宏觀情報學(xué)的研究范疇,知識網(wǎng)絡(luò)中節(jié)點的鏈路產(chǎn)生機制受到情報學(xué)基礎(chǔ)理論的指導(dǎo)和約束。靖繼鵬教授在著作《情報學(xué)理論基礎(chǔ)》[2]中給出四個基本原理,即情報產(chǎn)生原理、情報序化原理、情報傳遞原理和情報吸收原理。

靖繼鵬教授認(rèn)為,“情報產(chǎn)生原理”的理論基礎(chǔ)是相似性原理,包括幾何相似、運動相似和動力相似。只有相似單元、相似層次的構(gòu)造,才能產(chǎn)生相似;具備相似過程、相似環(huán)境,相似才能產(chǎn)生。如果客觀事物中相似屬性、相似特征越多、越強烈,那么這種相似的功能就越多、越大。“情報序化原理”指出,序化就是將雜亂無章、隨機的知識,加以整序、分析綜合成人們解決問題的形態(tài)。情報序化原理依據(jù)耗散結(jié)構(gòu)理論來闡述,因為耗散結(jié)構(gòu)理論同樣是人類情報現(xiàn)象和行為的基本原理。“情報傳遞原理”研究情報傳遞交流的行為和過程,情報傳遞必須處于激發(fā)狀態(tài),即I≥I0,傳遞情報所需的時間(T)與其自身的價值(I)和情報用戶對情報的需求強度(F)成正比,與傳遞環(huán)境阻力(f)成反比。“情報吸收原理”指出,“情報接受”是用戶與情報之間保持的一種關(guān)系,是接受主體能動的行為,是情報主體為了追求和實現(xiàn)情報價值的一種合目的性和合規(guī)律性的行為,其實質(zhì)是情報價值的選擇性實現(xiàn)[2-3]。

情報學(xué)的基本原理為知識網(wǎng)絡(luò)的鏈路預(yù)測提供了理論支撐,指明了鏈路預(yù)測的努力方向。網(wǎng)絡(luò)結(jié)構(gòu)相似性是鏈路預(yù)測的重要切入點,尋找知識網(wǎng)絡(luò)中與某節(jié)點結(jié)構(gòu)和功能類似的節(jié)點,有助于分析該節(jié)點可能產(chǎn)生的鏈路。情報序化的基礎(chǔ)耗散結(jié)構(gòu)理論指出,系統(tǒng)由無序走向有序的一個重要條件是系統(tǒng)內(nèi)部要素之間存在非線性的相互作用,那么作為復(fù)雜系統(tǒng)的知識網(wǎng)絡(luò),其鏈路預(yù)測應(yīng)基于非線性的作用,即預(yù)測函數(shù)要具有非線性的特征。情報傳遞和吸收原理則動態(tài)解釋了信息在高維知識網(wǎng)絡(luò)向量場中的流動方向和大小。這些都表明,用同樣符合這些特征的人工神經(jīng)網(wǎng)絡(luò)來擬合知識網(wǎng)絡(luò),借鑒網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)能夠提升鏈路預(yù)測的效果。

1.2 知識網(wǎng)絡(luò)鏈路預(yù)測

鏈路預(yù)測是知識網(wǎng)絡(luò)的重要研究領(lǐng)域,處理的是信息科學(xué)中最基本的問題——缺失信息的還原與預(yù)測。鏈路預(yù)測通過網(wǎng)絡(luò)中已知的網(wǎng)絡(luò)節(jié)點、網(wǎng)絡(luò)結(jié)構(gòu)等信息,預(yù)測網(wǎng)絡(luò)中尚未產(chǎn)生的兩個結(jié)點之間產(chǎn)生鏈接的可能性[4]。鏈路預(yù)測可以分為兩類:未知鏈路預(yù)測和未來鏈路預(yù)測。未知鏈路(missing links)是指網(wǎng)絡(luò)中實際存在,但尚未被探測到的鏈路;未來鏈路(future links)是指網(wǎng)絡(luò)中目前不存在,但應(yīng)該存在或?qū)砗芸赡艽嬖诘逆溌贰烧邔?yīng)的數(shù)據(jù)集劃分方法也有所不同,前者多采用隨機抽樣,后者需要考慮時序狀態(tài)[5]。

經(jīng)典的鏈路預(yù)測方法主要有:①基于節(jié)點結(jié)構(gòu)相似性的方法,包括共同鄰居(common neighbors,CN)指標(biāo)、Adamic-Adar(AA)指標(biāo)、網(wǎng)絡(luò)資源分配(resource allocation,RA)指標(biāo)等;②基于路徑結(jié)構(gòu)相似性的方法,包括局部路徑(local path,LP)指標(biāo)、Katz 指標(biāo)和LHN-II(Leicht-Holme-Newman -II)指標(biāo)等;③基于隨機游走相似性的方法,包括平均通勤時間(average commute time,ACT)指標(biāo)、有重啟的隨機游走(random walk with restart,RWR)指標(biāo)、局部隨機游走(locally random walk,LRW)指標(biāo)等。此外,還有一些研究提出了基于似然分析和基于機器學(xué)習(xí)的鏈路預(yù)測方法。這些算法以及衍生出來的改進(jìn)算法,都是通過對已知數(shù)據(jù)結(jié)構(gòu)特征的刻畫來實現(xiàn)預(yù)測。雖然在科學(xué)合著網(wǎng)絡(luò)等實際網(wǎng)絡(luò)中取得了較好的預(yù)測效果,但是也存在明顯的不足,即這些指標(biāo)一般只能運用到同質(zhì)性的復(fù)雜網(wǎng)絡(luò)中,不能用于包含異質(zhì)節(jié)點和異質(zhì)邊的網(wǎng)絡(luò)。

近年,有一些學(xué)者在經(jīng)典鏈路預(yù)測方法之外另辟蹊徑,嘗試提出二分網(wǎng)絡(luò)等異質(zhì)網(wǎng)絡(luò)的鏈路預(yù)測方法。張金柱等[6]在作者-關(guān)鍵詞二分網(wǎng)絡(luò)中,抽取多種路徑表示作者間的關(guān)聯(lián),并計算多種合著連接預(yù)測指標(biāo),最終通過機器學(xué)習(xí)方法組合這些指標(biāo),構(gòu)建出一個二分網(wǎng)絡(luò)中基于路徑組合的合著關(guān)系預(yù)測模型。項欣等[7]以作者-關(guān)鍵詞網(wǎng)絡(luò)為例,基于相似連接、優(yōu)先連接等演化機制,構(gòu)建了二分屬性知識網(wǎng)絡(luò)上的鏈路預(yù)測模型。陳文杰等[8]以CNKI 引文數(shù)據(jù)集為例,結(jié)合引文網(wǎng)絡(luò)K階鄰近結(jié)構(gòu)和關(guān)鍵詞屬性,提出了基于向量共享的交叉學(xué)習(xí)機制,并運用到鏈路預(yù)測中。整體上看,已有的關(guān)于異質(zhì)知識網(wǎng)絡(luò)或多層知識網(wǎng)絡(luò)的研究還很少,且已提出的算法僅是考慮到了節(jié)點的文本詞語,少有結(jié)合網(wǎng)絡(luò)表示學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)并進(jìn)行深入分析的成果。

1.3 網(wǎng)絡(luò)表示學(xué)習(xí)

網(wǎng)絡(luò)表示學(xué)習(xí)的目的是學(xué)習(xí)網(wǎng)絡(luò)節(jié)點的潛在低維表示,同時保留網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、節(jié)點內(nèi)容、節(jié)點外部信息以及其他方面的信息。常見的基于網(wǎng)絡(luò)表示學(xué)習(xí)算法主要分成兩大類。

一是基于網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)。這類算法包括:基于矩陣分解和特征向量計算的方法、基于簡單神經(jīng)網(wǎng)絡(luò)的方法和基于深層神經(jīng)網(wǎng)絡(luò)的方法。具體算法包括譜聚類方法中的局部線性表示(locally linear embedding,LLE)、拉普拉斯特征映射(La‐placian eigenmap,LE)、有向圖表示(directed graph embedding,DGE)、GraRep 算法[9]及各類改進(jìn)算法。這類算法基于網(wǎng)絡(luò)的鄰接矩陣或者拉普拉斯矩陣,在時間復(fù)雜度和空間復(fù)雜度上都較高,難以應(yīng)用到大規(guī)模數(shù)據(jù)和實時數(shù)據(jù)中[10]。神經(jīng)網(wǎng)絡(luò)相關(guān)的網(wǎng)絡(luò)表示學(xué)習(xí)算法主要有DeepWalk 算法、word2vec 算法、LINE 算法和SDNE 算法等[11]。這類算法使用隨機游走序列而不是鄰接矩陣,雖然降低了計算時間和空間消耗,但是仍然專注于網(wǎng)絡(luò)結(jié)構(gòu)本身而無法處理節(jié)點結(jié)構(gòu)以外的額外信息。

二是結(jié)合外部信息的網(wǎng)絡(luò)表示學(xué)習(xí)。在真實世界的復(fù)雜網(wǎng)絡(luò)中,節(jié)點往往具有豐富的外部信息,如標(biāo)簽信息、地理位置信息、研究領(lǐng)域信息等。傳統(tǒng)網(wǎng)絡(luò)表示學(xué)習(xí)主要依賴網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,而忽略了這些異質(zhì)的外部信息。增加外部信息有助于提高網(wǎng)絡(luò)表示的質(zhì)量,并增強表示向量在具體的網(wǎng)絡(luò)分析中的應(yīng)用。半監(jiān)督的網(wǎng)絡(luò)表示學(xué)習(xí)方法,如MMDW 算 法[12]、node2vec 算 法、GCN 算 法[13]等;結(jié)合外部信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法主要是結(jié)合文本信息的方法,如TADW 算法[14]、CANE 算法[15]等;結(jié)合邊上標(biāo)簽信息的網(wǎng)絡(luò)表示學(xué)習(xí),如TransNet 算法[16]等。

知識網(wǎng)絡(luò)表示學(xué)習(xí)是面向知識網(wǎng)絡(luò)中的實體和關(guān)系進(jìn)行表示學(xué)習(xí),該方向逐漸成為知識網(wǎng)絡(luò)領(lǐng)域熱門研究話題,在知識網(wǎng)絡(luò)的節(jié)點分類、聚類分析和鏈路預(yù)測等領(lǐng)域有良好的運用前景。

2 研究思路與研究設(shè)計

本研究的雙層知識網(wǎng)絡(luò),由作者合著關(guān)系網(wǎng)絡(luò)和學(xué)術(shù)領(lǐng)域關(guān)系網(wǎng)絡(luò)構(gòu)成,是具有雙層網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)。首先,通過特定的網(wǎng)絡(luò)表示學(xué)習(xí)算法,分別計算得到兩層網(wǎng)絡(luò)中節(jié)點的低維向量表示;其次,將代表同一作者的向量按照特定規(guī)則運算,得到該作者的綜合向量表示;最后,在進(jìn)行鏈路預(yù)測時,將兩個作者的綜合向量表示作為輸入,通過深層卷積神經(jīng)網(wǎng)絡(luò)計算,輸出作者間合作的概率。新的節(jié)點向量融合了作者合著關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)信息和作者學(xué)術(shù)領(lǐng)域信息,具有更優(yōu)秀的鏈接預(yù)測能力。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

作者合著關(guān)系網(wǎng)絡(luò)記作G=(V,E),其中V表示節(jié)點集合,E表示邊的集合;邊e=(vi,vj) ∈E表示了節(jié)點vi到vj的一條邊,i,j≤|V|,|V|表示網(wǎng)絡(luò)節(jié)點的數(shù)量。網(wǎng)絡(luò)的鄰接矩陣定義為A∈R|V|×|V|。若(vi,vj)∈E,則Aij= 1;否則,Aij= 0。采用鄰接矩陣作為該網(wǎng)絡(luò)的表達(dá)形式,鄰接矩陣A的每一行,表示節(jié)點與所有其他節(jié)點的合作關(guān)系。

網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí),主要采用node2vec 算法。該算法以word2vec 算法為基礎(chǔ),由Grover 等[17]在2016 年提出,其改進(jìn)了經(jīng)典的DeepWalk 算法的游走序列生成策略,引入將寬度優(yōu)先搜索(breadth-first sampling,BFS) 和深度優(yōu)先搜索(depth-first sam‐pling,DFS)策略,DFS 注重鄰近的節(jié)點并刻畫了相對局部的一種網(wǎng)絡(luò)表示,BFS 則反映了更高層面上的節(jié)點間的同質(zhì)性。該算法通過兼顧BFS 的寬度和DFS 的廣度,讓隨機游走序列更完整的保存節(jié)點中所包含的網(wǎng)絡(luò)原始信息。具體如圖1 所示。

該算法將Skip-Gram 架構(gòu)擴展到網(wǎng)絡(luò),尋求優(yōu)化 目 標(biāo) 函 數(shù)并 使 用 隨機梯度上升來優(yōu)化模型參數(shù)[17]。其中,vi∈V,定義Ns(vi)?V為節(jié)點vi通過策略S得到的鄰居節(jié)點。在得到節(jié)點的表示學(xué)習(xí)向量后,Grover 等[17]通過bootstrapping 方法將單個節(jié)點的特征學(xué)習(xí)擴展到節(jié)點對的特征學(xué)習(xí)中,并提出edge2vec 方法,以適用(于)網(wǎng)絡(luò)節(jié)點對的鏈路預(yù)測任務(wù)。具體如表1所示。

圖1 BFS和DFS的節(jié)點vi搜索策略(修改自文獻(xiàn)[17])

表1 生成節(jié)點對向量的二元運算方法(修改自文獻(xiàn)[17])

2.2 研究領(lǐng)域表示學(xué)習(xí)

與網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)類似,將作者研究領(lǐng)域網(wǎng)絡(luò)記作D=(N,B),其中N是節(jié)點集合,B是邊的集合,邊b=(ni,nj) ≤B表示節(jié)點ni到nj的一條邊,i,j∈|N|。網(wǎng)絡(luò)的鄰接矩陣定義為B∈R|N|×|N|,|N|表示網(wǎng)絡(luò)中節(jié)點的數(shù)量,若(ni,nj)∈B,則Bij= 1;否則,Bij= 0。

研究領(lǐng)域表示學(xué)習(xí)主要采用doc2vec 算法,該算法基于word2vec 算法,由Mikolov 等[18-19]提出。實際上,word2vec 是一個淺層神經(jīng)網(wǎng)絡(luò)模型,輸入是采用獨熱編碼的單詞,隱藏層不使用激活函數(shù),用Softmax 回歸。當(dāng)模型訓(xùn)練好后,該模型通過訓(xùn)練數(shù)據(jù)所學(xué)得的隱藏層的權(quán)重矩陣即詞的向量表示。這個模型在定義數(shù)據(jù)的輸入和輸出時,一般分為CBOW(continuous bag-of-words)與Skip-Gram 兩種方法。CBOW 模型的訓(xùn)練輸入是某一個特征詞的上下文相關(guān)詞所對應(yīng)的詞向量,而輸出就是這個特定詞的詞向量。Skip-Gram 方法與CBOW 相反,即輸入是一個特定詞的詞向量,而輸出是特定詞對應(yīng)的上下文詞向量。具體如圖2 所示。

圖2 CBOW和Skip-Gram模型(修改自文獻(xiàn)[18])

以word2vec 為基礎(chǔ),Mikolov 在2013 年提出了句子和文檔的向量表示模型,即doc2vec,模型在輸入層引入了文檔向量,并將其看作輸入單詞所構(gòu)成的語境信息的補充[20]。與word2vec 的Skip-Gram和CBOW 方法對應(yīng),doc2vec 在處理輸入向量和輸出向量時,也分為PV-DM(distributed memory ver‐sion of paragraph vector) 和PV-DBOW (distributed bag of words version of paragraph vector)兩種方法,具體如圖3 所示。

在doc2vec 得到文檔的表示學(xué)習(xí)后,可以利用文檔的余弦相似性進(jìn)行作者間的鏈路預(yù)測。

圖3 PV-DM和PV-DBOW文檔表示學(xué)習(xí)框架(修改自文獻(xiàn)[19])

2.3 雙層知識網(wǎng)絡(luò)鏈路預(yù)測

雙層知識網(wǎng)絡(luò)鏈路預(yù)測主要通過專門設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)完成,做到同時關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)節(jié)點向量和研究領(lǐng)域節(jié)點向量,更好的聚合網(wǎng)絡(luò)結(jié)構(gòu)和文本信息,大幅度提高鏈路預(yù)測的準(zhǔn)確性。這是由于該關(guān)注機制避免了傳統(tǒng)單層合著網(wǎng)絡(luò)表示學(xué)習(xí)的不足,即單層合著網(wǎng)絡(luò)的表示學(xué)習(xí)只能依靠節(jié)點拓?fù)浣Y(jié)構(gòu)的特征,無法感知節(jié)點的屬性信息,使得預(yù)測能力受到網(wǎng)絡(luò)結(jié)構(gòu)的限制。知識網(wǎng)絡(luò)中作者的合作預(yù)測固然是作者根據(jù)自身合作經(jīng)歷所做出的理性選擇,有來自以往合作的慣性動力,與此同時,作者在選擇合作伙伴時也關(guān)注與自己研究領(lǐng)域相近的其他作者。新的鏈路產(chǎn)生是多方面共同作用的結(jié)果。以往的研究大多聚焦在一個方面,少有同時關(guān)注文本和結(jié)構(gòu)信息的知識網(wǎng)絡(luò)鏈路預(yù)測方法,或者尚未形成較為理想的模型。本研究提出的雙層知識網(wǎng)絡(luò)鏈路框架(圖4)通過引入節(jié)點屬性的特征向量,給單層合著網(wǎng)絡(luò)帶來額外的信息,減少知識網(wǎng)絡(luò)的混沌程度,有效且大幅度強化了網(wǎng)絡(luò)的預(yù)測能力。

圖4 卷積神經(jīng)網(wǎng)絡(luò)鏈路預(yù)測框架

本研究提出的框架主要借鑒了圖像視覺識別領(lǐng)域成熟的卷積神經(jīng)網(wǎng)絡(luò)機制。卷積神經(jīng)網(wǎng)絡(luò)有兩個突出的優(yōu)勢:一個是參數(shù)共享,降低了神經(jīng)網(wǎng)絡(luò)處理圖像時內(nèi)存和計算資源的開銷;另外一個是具有局部感知能力,與人類處理圖像的機制類似,局部感知機制使得每個神經(jīng)元不需要感知圖像中的全部信息,只對圖像的局部像素進(jìn)行感知,然后在全連接層進(jìn)行合并,從而得到圖像的總體表征。這種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者其他形式的變形具有高度不變性。

卷積神經(jīng)網(wǎng)絡(luò)的特點使其非常適合運用到雙層知識網(wǎng)絡(luò)的鏈路預(yù)測中,但需要解決一個問題,即使用什么樣的輸入和輸出數(shù)據(jù)作為訓(xùn)練的樣本?在圖像處理中,往往使用圖片的像素矩陣;在自然語言處理中,往往是上下文詞語的one-hot 表示。顯然,在雙層知識網(wǎng)絡(luò)中,并沒有現(xiàn)成的數(shù)據(jù)來源,尤其是要結(jié)合兩層網(wǎng)絡(luò)的所有信息。因此,本研究提出了一種整合結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)和作者研究領(lǐng)域表示學(xué)習(xí)的數(shù)據(jù)整合方式,

其中,Dinput和Doutput分別表示卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)和分類標(biāo)簽(即是否存在鏈接);f(vi)表示圖G中的節(jié)點vi通過node2vec 訓(xùn)練后得到的表示學(xué)習(xí);γ(ni)表示圖D中的節(jié)點ni通過word2vec 訓(xùn)練后得到的表示學(xué)習(xí);Aij表示在作者合著關(guān)系網(wǎng)絡(luò)中節(jié)點vi和vj的度;運算符號◎表示對向量按行進(jìn)行疊加 操 作,例 如:的運算結(jié)果構(gòu)成了雙層知識網(wǎng)絡(luò)中的作者vi的綜合向量,該向量聚合了網(wǎng)絡(luò)結(jié)構(gòu)信息和研究領(lǐng)域信息,應(yīng)當(dāng)注意的是,研究領(lǐng)域圖D中的節(jié)點ni須是作者節(jié)點vi對應(yīng)的研究領(lǐng)域。

根據(jù)圖4,Dinput是卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入,即進(jìn)行◎操作后的節(jié)點對向量,框架主體包括2 個卷積層、1 個池化層和2 個全連接層,輸出Doutput是兩個節(jié)點間的鏈接情況,是2 分類變量。下文將使用hypernet2vec 代表基于卷積神經(jīng)網(wǎng)絡(luò)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測框架。

2.4 模型評價

為了驗證鏈路預(yù)測的性能,通常將數(shù)據(jù)劃分為兩部分:一部分用于模型訓(xùn)練,一部分用于模型預(yù)測。本研究采用AUC(area under curve)作為評估模型的評價指標(biāo),通過比較雙層知識網(wǎng)絡(luò)的鏈路預(yù)測和其他鏈路預(yù)測指標(biāo)的AUC 值,判斷本模型與主流模型的性能優(yōu)劣。AUC 是從整體上衡量算法的性能,其在幾何上指的是ROC 曲線(receiver oper‐ating characteristic curve)下面積的大小,也可以理解為在測試集中隨機選擇一條連邊的預(yù)測分?jǐn)?shù)值,比隨機選擇一條不存在的邊的預(yù)測分?jǐn)?shù)值高的概率。假設(shè)獨立比較n次,如果有n'次測試集中的分?jǐn)?shù)大于不存在集合中的邊的分?jǐn)?shù),有n"次相等,那么AUC 的定義為

本研究將利用這個指標(biāo)來衡量模型的性能,AUC值越高,表示模型更加優(yōu)越。

3 數(shù)據(jù)來源與數(shù)據(jù)處理

本研究采用Python 編程語言和TensorFlow 機器學(xué)習(xí)框架作為數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理和模型實現(xiàn)的開發(fā)工具。

3.1 數(shù)據(jù)來源和數(shù)據(jù)抽樣

3.1.1 數(shù)據(jù)來源

本研究的基礎(chǔ)數(shù)據(jù)采集自CSSCI(Chinese Social Sciences Citation Index,中文社會科學(xué)引文索引)數(shù)據(jù)庫中2010—2018 年管理學(xué)核心期刊論文的基本信息,包括《管理世界》《南開管理評論》《中國行政管理》等10 種,論文基本信息包括論文名稱、論文作者、論文標(biāo)題和論文關(guān)鍵詞,共采集16523 篇論文,論文作者19650 名。

3.1.2 數(shù)據(jù)抽樣

與鏈路預(yù)測研究常見的抽樣方法不同,本研究不能直接采用隨機抽樣的方法生成訓(xùn)練集和測試集數(shù)據(jù)。這是由于一篇文章發(fā)表之后,作者、參考文獻(xiàn)和關(guān)鍵詞這些屬性信息就確定了,因此斷邊重連機制無法應(yīng)用其中[3]。具體來講,本研究加入了經(jīng)典鏈路預(yù)測指標(biāo)(如CN 指標(biāo)、RA 指標(biāo)、LP 指標(biāo)等)所不涉及的作者研究領(lǐng)域信息,如果在建立訓(xùn)練集和測試集時,不區(qū)分同一作者在兩個數(shù)據(jù)集合中的研究領(lǐng)域信息,會導(dǎo)致訓(xùn)練集中的部分作者研究領(lǐng)域信息重合和其在訓(xùn)練集中的研究領(lǐng)域信息一致;如果直接使用本模型,可能導(dǎo)致錯誤的實驗結(jié)果。

例如,假設(shè)作者A、作者B 和作者C 共同發(fā)表了一篇文章,即作者A、B、C 相互間建立了連接關(guān)系,那么三位作者也共享基于該論文題目和關(guān)鍵詞的研究領(lǐng)域文檔。如果作者A 與作者B 的連邊和作者A 和作者C 的連邊被選擇進(jìn)入訓(xùn)練集,作者B和作者C 的連邊進(jìn)入測試集,很顯然,因為B 和C有幾近相同的研究領(lǐng)域(即研究領(lǐng)域相似度約等于1),在預(yù)測B 和C 的連接時,不管模型本身的預(yù)測效果如何,B 和C 幾乎能夠被預(yù)測。顯而易見,這種預(yù)測結(jié)果并不是因為模型的貢獻(xiàn),而僅僅是因為訓(xùn)練集中已經(jīng)包含了測試集的信息,這不是本研究所希望看到的檢驗?zāi)P偷男ЧR酝恍╊愃频难芯恐校捎昧松厦骐S機抽樣的方法,可能忽視或者低估這個問題對檢驗結(jié)果的影響。

要得到能夠適合本研究的訓(xùn)練集和測試集數(shù)據(jù),必須保證訓(xùn)練集和測試集中同一作者的研究領(lǐng)域不能采集自同一篇論文。一種可行的方法是采取時間分段抽樣,以某一時點為分界,將該時間點以前的所有論文用于建立訓(xùn)練集,該時點之后的所有論文用于建立測試集。

3.2 數(shù)據(jù)處理

本研究以2015 年為時間節(jié)點,將2010—2014 年的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù)源,2015—2018 年的數(shù)據(jù)作為測試集數(shù)據(jù)源,測試集和訓(xùn)練集的論文量如表2所示。篩選出2 個數(shù)據(jù)源中共同出現(xiàn)過的作者,利用訓(xùn)練集數(shù)據(jù)源建立作者合著關(guān)系網(wǎng)絡(luò),選取其中最大連通子圖的節(jié)點作為最終訓(xùn)練和測試樣本的節(jié)點。

表2 2010—2018年CSSCI管理學(xué)核心期刊論文數(shù)

3.2.1 網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

首先,建立訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)G。采用鄰接矩陣作為該網(wǎng)絡(luò)的表達(dá)形式,鄰接矩陣的每一行表示一個節(jié)點和其他節(jié)點的合作關(guān)系,關(guān)系值用0 和1 表示,0 代表沒有發(fā)生過合作,1 代表有過合作,網(wǎng)絡(luò)基本特征如表3 所示。

表3 訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)的基本特征

在作者合著關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上采用node2vec 計算得到網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí),向量的維度d=128,如表4 所示。

表4 訓(xùn)練集作者合著關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)表示學(xué)習(xí)

在表4 中,節(jié)點{v1,v2,v3,…,v960}={吳曉波,楊力,高旭東,吳曉云,…,宿慧爽}∈V。表中的每一行代表從作者合著關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)中捕獲和學(xué)習(xí)到的信息,每一列代表該信息的一個維度。

3.2.2 研究領(lǐng)域表示學(xué)習(xí)

作者研究領(lǐng)域主要用作者發(fā)表過的論文標(biāo)題和關(guān)鍵詞來描述。從訓(xùn)練集提取出作者所發(fā)表的每一篇論文的關(guān)鍵詞和論文標(biāo)題,合并為一篇文檔;然后,對文檔進(jìn)行中文分詞,得到一個關(guān)鍵詞集合,該集合代表了作者的學(xué)術(shù)研究領(lǐng)域。

{吳曉波:技術(shù)創(chuàng)新戰(zhàn)略 制造企業(yè) 阿里巴巴集團(tuán) 專利 綠色運營模式 企業(yè)績效 政府作用 許可 二次創(chuàng)新 技術(shù)跨越……}

{楊力:全要素能源效率 無效 影子價格 技術(shù)缺口比率 區(qū)域差異 能源技術(shù) 技術(shù)差距 改進(jìn) 決策單元 中國 共同技術(shù)率 非期望產(chǎn)出……}

{高旭東:商業(yè)模式 探索型創(chuàng)新 企業(yè) 融資社會嵌入 低收入群體 利用型創(chuàng)新 多案例研究BOP 人力資本}

{吳曉云:模式全球化組織結(jié)構(gòu) 戰(zhàn)略 營銷 顧客 服務(wù)營銷標(biāo)準(zhǔn)化 績效 前置因素 服務(wù)性全球營銷戰(zhàn)略 市場相似性 東道國 服務(wù)性跨國公司……}

根據(jù)作者的學(xué)術(shù)研究領(lǐng)域,利用doc2vec 計算得到作者研究領(lǐng)域的向量表示,向量的維度d=128,如表5 所示。

在表5 中,節(jié)點{u1,u2,u3,…,u960}={吳曉波,楊力,高旭東,吳曉云,…,宿慧爽}∈N。表中的每一行代表從作者研究領(lǐng)域網(wǎng)絡(luò)中捕獲和學(xué)習(xí)到的信息,每一列代表該信息的一個維度。

表5 訓(xùn)練集作者研究領(lǐng)域表示學(xué)習(xí)

4 實證分析

4.1 模型性能

為了驗證基于表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測模型hypernet2vec 的性能,本研究選取了3 種經(jīng)典的鏈路預(yù)測指標(biāo)作為比較參考,分別是基于節(jié)點結(jié)構(gòu)相似性的網(wǎng)絡(luò)資源分配(RA)指標(biāo)、基于路徑結(jié)構(gòu)相似性的局部路徑(LP)指標(biāo)和基于隨機游走的局部隨機游走(LRW)指標(biāo)。同時,加入只使用單層網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測的相關(guān)指標(biāo),分別是基于合著網(wǎng)絡(luò)結(jié)構(gòu)的edge2vec 指標(biāo)和基于作者研究領(lǐng)域的doc2vec 指標(biāo)。除此之外,還加入綜合使用網(wǎng)絡(luò)結(jié)構(gòu)信息和研究領(lǐng)域信息進(jìn)行鏈路預(yù)測的基準(zhǔn)方法,即通過計算節(jié)點間的向量余弦相似性進(jìn)行鏈路預(yù)測,該算法公式是,其中,vi和vj分別是節(jié)點結(jié)構(gòu)向量和研究領(lǐng)域向量的橫向拼接,該指標(biāo)命名為hypernet_base。本研究使用AUC作為評估標(biāo)準(zhǔn),值越大說明模型越好。若AUC 值為0.5,則表示預(yù)測效果與隨機猜測相當(dāng)。各指標(biāo)的AUC 值取10 次結(jié)果的平均值,如表6 所示。

表6 hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)的AUC值

從表6 可知,幾種主要算法的AUC 值差異比較大,分布在0.66~0.78。RA 模型是基于共同鄰居的指標(biāo),僅利用一階相似性的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,算法比較簡單,但與其他指標(biāo)相比,效果最差。基于路徑信息的LP 指標(biāo)在共同鄰居指標(biāo)的基礎(chǔ)上考慮了三階鄰居的貢獻(xiàn),利用了比基于共同鄰居指標(biāo)更多的網(wǎng)絡(luò)結(jié)構(gòu)信息,預(yù)測效果得到了明顯的提升,從0.6655 提升至0.7052。LRW 指標(biāo)的預(yù)測效果在局部路徑指標(biāo)的基礎(chǔ)上又有了一定的提升,在經(jīng)典的鏈路預(yù)測算法中取得了最好的預(yù)測效果。值得注意的是,使用基于合著網(wǎng)絡(luò)結(jié)構(gòu)的edge2vec 指標(biāo)的AUC 值是0.7039,使用基于作者研究領(lǐng)域的doc2vec指標(biāo)的AUC 值為0.6899,綜合使用合著網(wǎng)絡(luò)結(jié)構(gòu)信息和作者研究領(lǐng)域信息的hypernet_base 指標(biāo)的AUC值為0.7038,大致與LP 指標(biāo)相當(dāng),優(yōu)于基于共同鄰居的指標(biāo),但都比不上基于隨機游走的指標(biāo)。本研究所提出的hypernet2vec 框架的預(yù)測效果在所有指標(biāo)中表現(xiàn)最為優(yōu)秀,AUC 值與所有參考的指標(biāo)的平均值約提升了11.17%,比其中的最好值仍然能夠提高7.40%,這說明hypernet2vec 框架在鏈路預(yù)測方面優(yōu)于以往的指標(biāo),并取得顯著優(yōu)勢。

4.2 模型穩(wěn)定性

4.2.1 預(yù)測效果穩(wěn)定性

本研究所提出的hypernet2vec 框架與其他算法分別進(jìn)行10 次實驗,得到的AUC 值如圖5 所示,AUC 值的數(shù)據(jù)差異如表7 所示。研究結(jié)果,hyper‐net2vec 與其他算法相比,AUC 值的極差和標(biāo)準(zhǔn)差偏大,預(yù)測效果存在一定的不穩(wěn)定性。就整體而言,hypernet2vec 模型就算取10 次中的最差值,仍然比其他指標(biāo)的最優(yōu)值大3.13%,性能提升仍然顯著。從圖5 中還可以看出,hypernet2vec 模型的不穩(wěn)定性一定程度上與作者研究領(lǐng)域網(wǎng)絡(luò)層doc2vec 的不穩(wěn)定性有關(guān),另外一個原因可能來自模型卷積神經(jīng)網(wǎng)絡(luò)本身,如本研究使用Adam 作為損失函數(shù)的優(yōu)化算法,可能導(dǎo)致得到局部優(yōu)化的參數(shù),造成訓(xùn)練結(jié)果的差異。

圖5 hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)10次實驗的AUC值

表7 各鏈路預(yù)測指標(biāo)AUC值差異統(tǒng)計

4.2.2 正樣本量對預(yù)測的影響

模型訓(xùn)練的正樣本是指訓(xùn)練集數(shù)據(jù)中真實存在的作者合作關(guān)系,正樣本的數(shù)量對模型的性能起到重要的作用。本節(jié)將選擇5 個正樣本比例進(jìn)行實驗,分別是20%、40%、60%、80%和100%,每種樣本量計算10 次取平均AUC 值,結(jié)果如圖6 所示。從圖6 可知,當(dāng)入選正樣本量是全部正樣本的20%時,所有的指標(biāo)預(yù)測效果都很差,跟隨機猜測類似;隨著樣本量的增加,各個指標(biāo)的AUC 值都不斷上升,但hypernet2vec 模型上升的幅度最大。這說明要提高作者合作關(guān)系的鏈路預(yù)測性能,在其他條件不變的情況下,必須提高正樣本量的大小。實際上,本實驗集中數(shù)據(jù)節(jié)點共有960 個,可能存在的連邊達(dá)到920640 條,而實驗集中的實際連邊僅有1405 條,占全部可能連邊的0.15%,這是個非常稀疏的網(wǎng)絡(luò),如果實際連邊數(shù)能夠再增加,hyper‐net2vec 框架的鏈路預(yù)測效果將會有比其他指標(biāo)更大幅度的提升。

圖6 不同正樣本量下hypernet2vec與經(jīng)典鏈路預(yù)測指標(biāo)的AUC值

影響模型預(yù)測效果的另一個因素是正負(fù)樣本的比例。由于訓(xùn)練集數(shù)據(jù)正負(fù)樣本比例嚴(yán)重失衡,在這種情況下,常用的方案是過采樣和欠采用。在本實驗中,兩種采樣方式差異不大,但是正負(fù)樣本比例須控制在1∶20 以內(nèi),才能保證較好的預(yù)測效果,如果負(fù)樣本占比過大,模型的預(yù)測AUC 值會出現(xiàn)快速下降。這也提示在模型訓(xùn)練時必須考慮到正負(fù)樣本的比例問題,否則可能存在比較嚴(yán)重的過擬合風(fēng)險。

5 結(jié)論與展望

5.1 研究結(jié)論

當(dāng)前知識網(wǎng)絡(luò)鏈路預(yù)測主要是基于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)相似性,很少考慮作者的研究領(lǐng)域等相關(guān)的文本信息,導(dǎo)致信息利用不充分等問題,本文提出了一種綜合采用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點文本信息的雙層知識網(wǎng)絡(luò)的鏈路預(yù)測框架hypernet2vec 算法。雙層知識網(wǎng)絡(luò),即作者合著關(guān)系網(wǎng)絡(luò)和學(xué)術(shù)領(lǐng)域關(guān)系網(wǎng)絡(luò),利用網(wǎng)絡(luò)表示學(xué)習(xí),分別將兩層網(wǎng)絡(luò)中的節(jié)點映射到低維的向量空間,再輸入到專門設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)中計算并進(jìn)行鏈路預(yù)測。通過在我國管理學(xué)領(lǐng)域的實際科研合著網(wǎng)絡(luò)中進(jìn)行實驗,研究結(jié)果表明,與經(jīng)典的鏈路預(yù)測指標(biāo)(如RA 指標(biāo)、LP 指標(biāo)、LRW 指標(biāo)和余弦相似性指標(biāo)等)相比,hyper‐net2vec 算法預(yù)測的AUC 值取得了顯著的提升,平均提升幅度達(dá)11.17%,并且隨著知識網(wǎng)絡(luò)密度的增加,hypernet2vec 算法的預(yù)測準(zhǔn)確性提升最為明顯。綜上所述,本文所提出的算法是一種新的且行之有效的鏈路預(yù)測算法,能夠在真實的知識網(wǎng)絡(luò)環(huán)境中表現(xiàn)出優(yōu)異的預(yù)測性能。

5.2 研究貢獻(xiàn)

5.2.1 進(jìn)一步明晰知識網(wǎng)絡(luò)鏈接的混合擇優(yōu)機制

目前,有關(guān)知識網(wǎng)絡(luò)演化機制的提法較多,如富者愈富、好者變富、馬太效應(yīng)、累積優(yōu)勢等。這些演化機制都指向了BA 網(wǎng)絡(luò)的無標(biāo)度屬性,即網(wǎng)絡(luò)演化是度擇優(yōu)機制發(fā)生作用的結(jié)果,經(jīng)典的鏈路預(yù)測模型與這種優(yōu)先連接機制密切相關(guān)。經(jīng)典模型在很大程度上解釋了新連邊的來源,但由于受到單層網(wǎng)絡(luò)結(jié)構(gòu)特征的限制,難以描述真實知識網(wǎng)絡(luò)的連邊產(chǎn)生機制。這是因為知識網(wǎng)絡(luò)新增連邊時,節(jié)點除了傾向度大的節(jié)點合作外,還受到其他內(nèi)在因素的驅(qū)動,包括人際交往、知識交流等[21]。有些學(xué)者已經(jīng)意識到這個問題,通過研究提出了可能影響鏈路預(yù)測的額外機制,如認(rèn)為知識節(jié)點的外部屬性對連邊的形成也具有貢獻(xiàn)。但是目前的文獻(xiàn)大多是從理論上進(jìn)行闡述,在真實知識網(wǎng)絡(luò)中進(jìn)行檢驗的研究很少,尤其是對加入作者興趣和研究領(lǐng)域后鏈路預(yù)測性能提升的定量研究幾乎沒有。hypernet2vec模型綜合利用了作者合著關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)信息和研究領(lǐng)域關(guān)系網(wǎng)絡(luò)的文本信息,實際上,是引入混合網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點屬性信息的擇優(yōu)機制,帶來了鏈路預(yù)測性能的大幅提升。研究表明,本模型比僅利用合著網(wǎng)絡(luò)結(jié)構(gòu)信息的edge2vec 模型的AUC 值由0.7039 提升至0.7766,比僅利用研究領(lǐng)域的doc2vec模型的AUC 值提升幅度達(dá)到12%。

5.2.2 進(jìn)一步揭示知識網(wǎng)絡(luò)鏈路預(yù)測中神經(jīng)網(wǎng)絡(luò)發(fā)生作用的深層機理

網(wǎng)絡(luò)表示學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)都是人工智能領(lǐng)域熱門研究方向,并且被不同的學(xué)科驗證其有效性。本文首次在雙層知識網(wǎng)絡(luò)中引入表示學(xué)習(xí)技術(shù)和卷積神經(jīng)網(wǎng)絡(luò),取得了良好的效果,進(jìn)一步揭示了神經(jīng)網(wǎng)絡(luò)在知識網(wǎng)絡(luò)鏈路預(yù)測中發(fā)生作用的深層機理。

正如文獻(xiàn)回顧和相關(guān)研究中指出,情報產(chǎn)生原理的理論基礎(chǔ)是相似性原理。雙層知識網(wǎng)絡(luò)的鏈路產(chǎn)生,即兩個作者建立合作關(guān)系,根本上由網(wǎng)絡(luò)結(jié)構(gòu)本身和作者研究領(lǐng)域決定。前者代表作者在整個網(wǎng)絡(luò)中的幾何結(jié)構(gòu)特征相似,在網(wǎng)絡(luò)中具有相似的網(wǎng)絡(luò)地位和功能;后者代表作者的屬性相似性,作者的研究領(lǐng)域相似的地方越多、越強烈,其合作關(guān)系的產(chǎn)生可能性越大。相似性是復(fù)雜系統(tǒng)重要的動力學(xué)機制,知識網(wǎng)絡(luò)節(jié)點連接的相似性原理是復(fù)雜系統(tǒng)自相似理論和分形理論的具體體現(xiàn)。從節(jié)點的角度看,具有潛在連接可能的節(jié)點之間具有相似的結(jié)構(gòu)和研究領(lǐng)域,從連邊的角度看,邊的產(chǎn)生與邊的結(jié)構(gòu)、功能、含義的相似性有關(guān)。知識網(wǎng)絡(luò)節(jié)點和連邊的相似性通過節(jié)點表示學(xué)習(xí)以及節(jié)點表示學(xué)習(xí)的綜合,來進(jìn)行抽象和計算。在節(jié)點表示學(xué)習(xí)的計算過程中,運用了基于隨機游走的各種策略,如DFS、BFS 等,這些策略使得本文得到的節(jié)點表示學(xué)習(xí)向量不僅能包括節(jié)點小局部的結(jié)構(gòu)和功能,還包括更大范圍的局部甚至近乎整體的特征。而這正是自相似和分形理論“通過認(rèn)識部分來反映和認(rèn)識整體,以及通過認(rèn)識整體來把握和深化對部分的認(rèn)識”思想的具體實現(xiàn),其揭示了知識網(wǎng)絡(luò)系統(tǒng)看似雜亂、破碎的連邊現(xiàn)象內(nèi)部所蘊含的規(guī)律,使知識網(wǎng)絡(luò)系統(tǒng)從無序中發(fā)現(xiàn)有序。另外,情報序化原理依據(jù)耗散結(jié)構(gòu)理論來闡述,即系統(tǒng)由無序走向有序的一個重要條件,是系統(tǒng)內(nèi)部要素之間存在非線性的相互作用。本文提出的鏈路預(yù)測模型基于卷積神經(jīng)網(wǎng)絡(luò),在激活網(wǎng)絡(luò)結(jié)點時引入非線性函數(shù)sig‐moid,該函數(shù)數(shù)學(xué)形式是,通過該激活函數(shù)將上層節(jié)點的輸入進(jìn)行非線性轉(zhuǎn)換,然后輸出到下一層神經(jīng)網(wǎng)絡(luò),這實際是對雙層知識網(wǎng)絡(luò)作者之間非線性相互作用機制的模擬,也是卷積神經(jīng)網(wǎng)絡(luò)能夠起作用的深層依據(jù)。

5.3 研究展望

作者合作關(guān)系的鏈路預(yù)測是多種因素共同驅(qū)動的結(jié)果。本文提出的基于網(wǎng)絡(luò)表示學(xué)習(xí)的雙層知識網(wǎng)絡(luò)鏈路預(yù)測模型綜合考慮了合著網(wǎng)絡(luò)本身的內(nèi)生動力、作者合作的歷史、作者的研究領(lǐng)域等信息,這些信息通過相互補充,降低了網(wǎng)絡(luò)的不確定性,增加了鏈路預(yù)測的成功率。然而,知識網(wǎng)絡(luò)作為科學(xué)知識積累和思想傳播的載體網(wǎng)絡(luò),知識的傳承與創(chuàng)新還通過學(xué)者之間的非正式網(wǎng)絡(luò)進(jìn)行聯(lián)系和溝通。這個非正式網(wǎng)絡(luò)包括學(xué)者的學(xué)術(shù)群體朋友圈、師徒關(guān)系等社會網(wǎng)絡(luò)。如果能夠?qū)W(xué)者的社會網(wǎng)絡(luò)層增加到雙層知識網(wǎng)絡(luò)中,擴展知識網(wǎng)絡(luò)到三層,這對作者合作關(guān)系的預(yù)測無疑起到積極的作用,這也是將來值得研究的方向。另外,本模型沒有考慮到作者合作關(guān)系的權(quán)重,對加權(quán)網(wǎng)絡(luò)的研究也值得進(jìn)一步探索。

主站蜘蛛池模板: 无码aaa视频| 99久久精品久久久久久婷婷| 日韩精品亚洲精品第一页| 国产乱人伦AV在线A| 欧美一区二区福利视频| 日本在线视频免费| 精品少妇人妻无码久久| 欧美有码在线观看| 国产欧美视频一区二区三区| 麻豆精品在线播放| 色播五月婷婷| 99人妻碰碰碰久久久久禁片| 亚洲人成网站18禁动漫无码| 精品国产网站| 国产成人亚洲精品色欲AV| 538国产在线| 中文一区二区视频| 99人体免费视频| 91久久夜色精品国产网站| AV无码一区二区三区四区| 亚洲,国产,日韩,综合一区| 熟妇丰满人妻av无码区| 久久人人爽人人爽人人片aV东京热| 国产精品亚洲五月天高清| 真实国产精品vr专区| YW尤物AV无码国产在线观看| V一区无码内射国产| 亚洲成在线观看| 91麻豆精品视频| 欧美日韩中文国产| 久久综合伊人77777| 亚洲无码高清视频在线观看| 午夜三级在线| 国产精品不卡片视频免费观看| 亚洲色欲色欲www在线观看| 国产在线观看99| 国产欧美日韩91| 亚洲性色永久网址| 国产精品冒白浆免费视频| 亚洲香蕉久久| 欧美综合区自拍亚洲综合绿色| 热re99久久精品国99热| 国产在线视频二区| 国产肉感大码AV无码| 亚洲Aⅴ无码专区在线观看q| 欧美日韩午夜视频在线观看 | 国产在线自乱拍播放| 国产精品13页| 精品久久蜜桃| 久久精品无码中文字幕| 三区在线视频| 91免费精品国偷自产在线在线| 午夜福利在线观看成人| 色欲不卡无码一区二区| 在线免费a视频| 青青青国产视频| 欧美狠狠干| 91青草视频| 青草视频久久| 国产一区成人| 波多野结衣视频网站| 日韩欧美在线观看| 四虎永久免费在线| 91香蕉视频下载网站| 久久99久久无码毛片一区二区 | 欧美日韩免费在线视频| 亚洲人成亚洲精品| 午夜日b视频| 超清人妻系列无码专区| 欧美精品xx| 色成人综合| swag国产精品| 国产欧美精品专区一区二区| 亚洲av无码牛牛影视在线二区| 国产视频a| 国产福利影院在线观看| 91在线无码精品秘九色APP | 色婷婷电影网| 国产精品久久久精品三级| 亚洲精品无码久久久久苍井空| 国产精品亚洲一区二区三区z| 国产自在线播放|