SLTA-PathSim：一種融合節點屬性和文本信息的相似性度量算法

2020-05-12 09:09:44劉輝林羅夢瑩

小型微型計算機系統 2020年3期

關鍵詞：文本

劉輝林，閆娜，羅夢瑩

(東北大學計算機科學與工程學院，沈陽110169)

E-mail：liuhuilin@mail.neu.edu.cn

1 引言

隨著在線社交媒體的發展，網絡交互變得極其復雜.現有的網絡大多是包含多種類型節點、鏈接以及豐富語義信息的異質信息網絡.通過在異質信息網絡中建模數據，可以捕捉豐富的語義信息并應用于其他網絡分析任務.

異質信息網絡分析的一個基本問題是確定合適的相似性度量指標來表征節點之間的相似性.文獻信息網絡作為一種典型的異質信息網絡，描述了科學文獻的體系結構和客觀規律.在文獻信息網絡中搜索與指定作者相似的其他作者有利于各種數據挖掘任務.例如，相似性結果可以指導作者發現潛在的合作者.因此，兩個作者可能會更早地進行學術交流，有助于學術研究.此外，相似性搜索在推薦系統方面也有廣泛應用，例如文章推薦，朋友推薦等.

相似性度量作為一種常用的評估節點對之間相似度的無監督方法，一直是數據庫和web搜索領域的重要研究內容.目前，很多學者對相似性度量方法進行了研究，大多針對于同質信息網絡.然而，隨著在線社交媒體的發展，包含多種類型節點以及交互關系的異質信息網絡在真實世界中占據主要地位，圖1的文獻信息網絡就是一種常見的異質信息網絡.該網絡包含“作者”、“論文”、“會議”、“術語”四種不同類型的節點，這些節點之間構成了多種交互關系.以作者A1和作者A2之間的關系為例，作者A1撰寫的論文P1和P2與作者A2撰寫的論文P4和P5都發表在“SIGMOD”會議上，論文P3和P6都包含相同的術語“Link Prediction”.

圖1 文獻信息網絡

異質信息網絡中的兩個節點可以通過不同的路徑進行連接，不同路徑表達的語義信息也不盡相同.2011年，孫等人[1]提出了元路徑的概念，為異質信息網絡中的相似性度量提供了一個全新的視角.通過對現有方法進行分析和總結，本文在PathSim算法的基礎上，設計了基于節點屬性和文本信息的SLTA-PathSim 算法.該算法考慮了論文中作者署名位置、論文標題和摘要對挖掘結果的影響，其主要貢獻如下：

1)作者署名位置信息是論文的一個重要屬性，在一定程度上反映了作者對論文的貢獻程度.因此，本文提出了基于元路徑和作者署名位置的SL-PathSim算法，在計算交換矩陣時加入了作者署名位置的計算.

2)由于提交渠道的不同，同一個會議上發表的多篇論文研究內容可能存在差異[2].論文標題和摘要反映了論文的主要研究方向，通過分析兩個作者發表文章的文本相似性可以了解作者的研究興趣是否相近.因此，本文提出了基于元路徑和文本內容的TA-PathSim算法，實現了兩個節點之間相似性分數的加權組合.

3)最后，通過在著名的AMnier數據集上進行多組相似性搜索實驗，對本文提出算法的有效性進行了驗證.

2 相關工作

相似性度量作為一種常用的評估節點對之間相似度的無監督方法，一直是復雜網絡分析領域的一個熱點話題.直觀地說，如果兩個節點交互得越頻繁則它們的相似程度越高.

2011年孫等人提出了用于單條對稱元路徑中同種類型節點間相似性計算的PathSim方法[1]，該方法綜合了兩個作者之間的所有路徑以獲得相似性，在搜索相似作者方面取得了良好的效果.為了評估不同類型節點的相似性，石川等人借鑒異質信息網絡中SimRank算法[3]的基本思想，提出了HeteSim算法[4].該算法采用雙向隨機游走計算兩個節點通過給定元路徑的相遇概率，可以在任意元路徑下測量任何節點之間的相似性.2018年周等人通過對大量文獻進行研究，發現現有方法大多基于用戶指定的元路徑，為此設計了一種基于元結構的異質SMSS框架[5]，能夠自動構建并捕獲豐富的語義信息.文獻[6]從信息論的角度出發，提出了一種基于元路徑的互信息模型MMI，通過路徑實例熵的數量來定義相似性分數，減少了因節點之間缺少連通關系而造成的誤差.

上面介紹的方法均屬于根據專家的先前經驗來挖掘有用的知識，而如何自動且有效地進行網絡特征的學習推動了網絡嵌入的發展.網絡嵌入旨在將每個網絡嵌入到低維空間中，學習節點的嵌入向量[7].在得到節點的向量表示之后就可以通過余弦相似性等距離度量方式計算節點之間的相似性.Bryan Perozzi等人于2014年提出了DeepWalk嵌入算法[8]，首先在網絡上采用隨機游走策略生成節點的鄰居集合，然后應用Skip-Gram模型訓練嵌入.付等人提出了一種針對異質信息網絡的Hin2Vec網絡嵌入方法[9]，不同于DeepWalk，Hin2Vec的核心是一個神經網絡模型，通過同時嵌入網絡中的節點和鏈接，更多地利用了網絡結構和元路徑所表達的語義信息，使得生成的向量空間與實際網絡更加接近.盡管大多數現有的嵌入方法考慮了異質關系，但它們通常對所有關系采用單一模型進行嵌入，沒有區分不同的關系類型，這不可避免地限制了網絡嵌入的能力.2019年陸等人提出了RHINE模型[10]，從數學分析角度出發，將作者與論文之間的關系視為一種點對點結構，論文與會議之間的關系看成一個以另一個為中心的結構，針對不同的關系結構采用不同的嵌入方法.

系統回顧所有相關研究，我們發現以往的研究并沒有考慮節點屬性和豐富的文本信息來量化相似性.因此，本文在PathSim基礎上提出了一種融合節點屬性和文本信息的SLTA-PathSim算法，并通過在AMiner數據集上進行多組對比實驗，證明了SLTA-PathSim的有效性.

3 問題定義

本節將簡要介紹文獻信息網絡中涉及的一些概念、符號以及交換矩陣的定義和計算.

定義1.異質信息網絡(Heterogeneous Information Network)通常被定義為G=(V，E，A，R)，其中V表示網絡中的節點，E表示這些節點所形成的鏈接.節點類型映射函數為θ:V→A，鏈接類型映射函數φ:E→R.對于任意節點v∈V，屬于一個特定的節點類型θ(v)∈A，對于任意一條邊e∈E，屬于一個特定的鏈接類型φ(e)∈R，并且滿足節點類型|A|>1或者鏈接類型|R|>1[1，2].

定義2.文獻信息網絡(Bibliographic Information Network)是一種典型的異質信息網絡.圖1展示了一個包含作者(Author)、論文(Paper)、會議(Venue)以及術語(Term)四種節點類型的文獻信息網絡.

圖2 網絡模式與典型元路徑

定義3.網絡模式(Network Schema)通常被定義成TG=(A，R).類似數據庫中的E-R圖，網絡模式是網絡的一種元描述.圖2(a)為文獻信息網絡的網絡模式示意圖.

4 SLTA-PathSim算法

文獻信息網絡包含多種類型的節點和鏈接.由于網絡的異質性，同質網絡方法不能簡單地應用到異質信息網絡中，進而吸引了大量研究人員對異質信息網絡研究的興趣.孫等人提出的PathSim算法雖然在作者相似性評估方面取得了一定的成果，但該方法依賴于路徑實例的數量，通過整合節點間有限的路徑數計算相似性.

給定一條對稱元路徑P，對于任意兩個節點ai和aj，PathSim(ai，aj)定義如公式(1)所示，其中pai→aj指在元路徑P下從節點ai到達節點aj的路徑實例.

(1)

由公式(1)可知，PathSim由兩部分組成：一是給定元路徑P下源節點與目標節點之間的路徑實例數，二是節點到自身的路徑實例數.如果兩個節點之間的元路徑實例越多，相似性就越高.對于單一查詢來說，PathSim算法的時間復雜度為O(n*d)，其中n表示目標節點的數量，d為交換矩陣MP中目標節點的平均鄰居數.

盡管PathSim后續被應用于文獻信息網絡中的多種數據挖掘任務，但忽略了節點屬性和文本信息的影響.針對PathSim的不足，本文提出了一種融合節點屬性和文本信息的SLTA-PathSim算法.下面幾小節，將對該算法進行詳細描述.

4.1 基于元路徑和作者署名位置的SL-PathSim算法

對于計算文獻信息網絡中兩個作者之間的相似性，論文這一類型節點起著關鍵性作用，很多基于元路徑的方法都可以圍繞論文進行擴展.通過對論文中存在的多種屬性和文本內容進行分析，與現有方法不同，本文抓住了作者署名位置這一重要屬性對計算結果的影響.一般來說，作者的署名位置越靠前，作者對論文的貢獻程度越大.基于這樣的想法，本文提出了基于元路徑和作者署名位置的SL-PathSim(Signature Location-PathSim)算法，其時間復雜度同樣為O(n*d).下面將給出該算法的定義，并通過分析實例對該算法進行介紹.

根據交換矩陣的定義，給定對稱元路徑P，對于兩個相同類型的節點ai和aj，SL-PathSim算法的定義如公式(2)所示.其中sl(ai)表示作者ai的署名位置，sl(ai)=slmax+1-slcur，slmax是ai發表的所有論文中署名位置的最大值，slcur指作者在當前論文中的署名位置.若作者與論文之間不存在寫作關系，則sl(ai)為0.

(2)

圖3是作者Jim和Mike之間基于元路徑APVPA的一個簡單文獻信息網絡實例，其中包含作者、論文、會議三種不同類型的節點.

在元路徑APVPA下，交換矩陣M=WAPWPV…WVPWPA，其中WPA=WAPT，WVP=WPVT.鄰接矩陣WAP表明作者和論文之間是否存在寫作關系.以圖3中的Jim為例，該作者發表了三篇論文P1、P2、P5，并沒有發表論文P3、P4和P6，因此本例中通過PathSim算法計算得到的WAP如表1所示.

圖3 基于元路徑APVPA的文獻信息網絡實例

表1 PathSim計算的鄰接矩陣WAP

Table 1 Adjacency matrixWAPcalculated by PathSim

P1P2P3P4P5P6Jim110010Mike001101

作為論文節點的一個重要屬性，作者署名位置信息在一定程度上反映了該作者對論文的貢獻程度.因此，本文在計算交換矩陣時，增加了作者署名位置.同樣以圖3示例中的Jim為例，該作者發表的三篇文章P1、P2、P5中最大署名位置為2，根據公式slmax+1-slcur，可以得到：slP1(Jim)=2+1-1=2，slP2(Jim)=2+1-2=1，slP5(Jim)=2+1-1=2.因此，本例中通過SL-PathSim計算得到的WAP如表2所示.

表2 SL-PathSim計算的鄰接矩陣WAP

Table 2 Adjacency matrixWAPcalculated by SL-PathSim

P1P2P3P4P5P6Jim210020Mike001102

鄰接矩陣WPV表示論文與會議之間的發表關系，其通過PathSim算法計算的結果可以表示為表3.由于作者署名位置僅存在于作者和論文之間，在論文和會議之間并不存在，所以這里直接將PathSim計算的WPV結果作為SL-PathSim算法的WPV鄰接矩陣.

表3 PathSim計算的鄰接矩陣WPV

Table 3 Adjacency matrixWPVcalculated by PathSim

KDDSIGMODP110P210P310P410P501P601

4.2 基于元路徑和文本信息的TA-PathSim算法

文獻信息網絡中的論文節點包含多種文本信息，例如論文標題，摘要，關鍵詞等，其中論文標題是對文章最簡要的概括.這也與現實情況相符，兩個作者所撰寫的論文標題越相似表明其研究方向越相近，但通過標題僅能了解作者的大致研究方向.設想兩位作者在同一會議上發表了文章，標題都是“網絡表征學習的研究與應用”，但二者分別基于同質信息網絡和異質信息網絡，雖然兩篇文章的標題完全相同，但是研究內容卻存在很大差異.如果僅僅考慮論文標題之間的相似性，反映的只是論文的部分信息，計算的準確性就會下降.因此，本文提出了基于元路徑和文本信息的TA-PathSim算法，同時計算論文標題和摘要之間的相似性，并取它們的平均值作為兩篇文章的最終文本相似度.

目前文本特征提取問題的研究工作，逐漸從傳統方法向深度學習方法轉移[12].傳統的“Bag-of-Words”忽略了詞的順序和單詞之間表達的語義信息.雖然“N-Grams”模型考慮了順序，但效果沒有顯著改善.為此，本文采用Doc2Vec模型來實現論文標題及摘要相似度的計算，該模型通過PV-DM模型將文本映射成向量，在一定程度上保留了文本的語義信息[13].

算法1詳細介紹了Doc2Vec模型的使用流程.首先根據文獻信息網絡中論文節點提供的標題集對Doc2Vec模型進行訓練，然后利用訓練出來的模型M將論文標題和摘要轉化為特征向量，最后通過距離計算公式計算論文標題及摘要的相似度.關于距離公式本文使用的是余弦相似性度量方法，其時間復雜度為O(n*m)，n代表作者的個數，m是兩位作者在同一個會議上發表文章的數量.

算法1.文本相似性的計算

輸入：文獻信息網絡G，作者集合A，給定作者a1

輸出：論文標題相似性St，論文摘要相似性Sa，論文相似性Sta

1. 初始化相似性值列表St，Sa，Sta為φ

2. 使用論文標題集訓練Doc2Vec模型得到M

3.Va1←a1參加的會議

4. FOR eacha2inADO

5.Va2←a2參加的會議

6. IFVa1∩Va2=φ

7.Sta=0

8. END IF

9. ELSE

10. FOR eachvinVa1∩Va2DO

11.P1，P2←v中a1，a2發表的論文

12.T1，T2←a1，a2發表論文的標題

13.A1，A2←a1，a2發表論文的摘要

14.v1，v2←M(T1)，M(T2)

15.v3，v4←M(A1)，M(A2)

16.St，Sa←cos(v1，v2)，cos(v3，v4)

Sta←(St+Sa)/2.0

17. END FOR

18. END ELSE

19. END FOR

20. RETURNSta

給定元路徑P，雖然PathSim能夠捕捉節點之間微妙的語義信息，但是節點自身存在很多屬性信息和豐富的文本信息，如何考慮這些信息對挖掘結果的影響是個關鍵.因此，在PathSim算法的基礎上，本文將論文標題和摘要的相似性作為兩位作者之間基于元路徑相似性分數的權重.對于相同類型的作者ai和aj，TA-PathSim(ai，aj)定義如公式(3)所示，其中Sta(ai，aj)表示ai和aj在同一會議上發表論文的標題相似性和摘要相似性的平均值.

(3)

由于TA-PathSim加入了標題和摘要文本相似度的計算，在執行和計算過程中會花費相應的時間，因此執行效率要低于PathSim，其時間復雜度為O(n*d*m)，m是兩位作者在同一個會議上發表的文章篇數.由于對于任意兩位作者a和a′，若不存在一個滿足APV的元路徑使得作者a與作者a′關聯，那兩個作者a和a′一定不相似[12].因此，本文計算文本相似度的前提是判斷兩位作者是否在同一會議發表了論文，如果存在這樣的目標作者，則執行計算，避免查找網絡中的所有作者，大大縮減了計算時間.

5 實驗

本節利用PathSim算法對所提出的算法進行了定性評估，基于元路徑APVPA搜索并分析與“Christos Faloutsos”相似的Top-10作者，對本文提出算法的有效性進行了驗證.

5.1 數據集

由于加入了論文標題及摘要的相似性計算，數據集的獲取成為了本文的難點.以往的研究大多采用DBLP的“4-area-dataset”數據集，但該數據集包含的標題和摘要信息基本一致.因此，本文使用AMiner數據集進行實驗.AMiner是清華大學計算機科學系開發的數據分析與服務平臺，為計算機領域的研究者提供了許多前沿知識和研究方向.為了使計算出來的結果更加真實，本文選取了AMiner數據集中1992年到2011年的數據，并刪除了不包含摘要的論文.此外，考慮到大多數研究者關注頂級會議上發表的論文以及每個研究領域都有相應的社區，本文根據谷歌學術指標提取了6個領域的數據，即人工智能(AI)、計算機視覺(CV)、數據挖掘(DM)、數據庫(DB)、計算語言學(CL)和信息系統(IS)[14].處理后的數據集包括1.46M論文、476K作者和4K會議.

5.2 SL-PathSim算法分析

首先對數據集進行處理，從而獲得每篇論文中每位作者的署名位置.在計算交換矩陣時，如果作者發表了一篇論文，slmax+1-slcur可用來表示兩個節點間的連通性，其中slmax為作者在所有發表論文中署名位置的最大值，slcur為作者在當前論文中的署名位置.

分析表4中SL-PathSim，PathSim查找的與“Christos Faloutsos”相似的Top-10作者，“Heikki Mannila”和“Ravi Kumar”之間的順序略有不同.“Heikki Mannila”共發表論文19篇，其中2篇作為第一作者，9篇作為第二作者，7篇作為第三作者，1篇作為第六作者.作者“Ravi Kumar”發表論文43篇，第一作者7篇，第二作者25篇，第三作者7篇，第四作者3篇，第五作者1篇.根據上述數據以及作者署名位置計算公式我們可以得出結論，作者“Heikki Mannila”對論文的貢獻程度要大于“Ravi Kumar”.如果目標作者和源作者在同一會議上發表論文，目標作者對論文貢獻程度越大，該作者與源作者越相似.因此，“Heikki Mannila”的相似度得分應高于“Ravi Kumar”.

表4 APVPA下PathSim和SL-PathSim搜索的與“Christos Faloutsos”相似的Top-10作者

Table 4 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and SL-PathSim under APVPA

PathSimSL-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.8794Philip S.Yu0.8921Philip S.Yu0.8551Jian Pei0.8714Jian Pei0.7404Charu C.Aggarwal0.6943Jieping Ye0.6502Ravi Kumar0.6847Heikki Mannila0.6491Eamonn J.Keogh0.6845Ravi Kumar0.6198Heikki Mannila0.6753Huan Liu0.5752Vipin Kumar0.6715Bing Liu0.5585Hui Xiong0.6677Hui Xiong0.5513

從表4中我們可以看出，關于與“Christos Faloutsos”相似的Top-10作者，SL-PathSim和PathSim的查找結果存在細微的差別.原因是PathSim算法只是基于元路徑的實例數量計算節點對之間的相似度，僅僅考慮作者是否發表了一篇論文，并沒有考慮作者對該篇論文的貢獻程度.本文提出的SL-PathSim算法在考慮元路徑實例數量的同時考慮了作者署名位置的影響，所以它的結果更接近事實.

5.3 TA-PathSim算法分析

TA-PathSim算法的實現主要包含四個步驟：首先訓練論文標題集以獲取Doc2Vec模型，然后利用Doc2Vec模型將論文的標題和摘要轉化為特征向量，再利用余弦相似性度量方法分別計算標題和摘要的相似度，最后計算得到兩個作者的相似度.

表5 APVPA下PathSim和TA-PathSim搜索的與“Christos Faloutsos”相似的Top-10作者

Table 5 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and TA-PathSim under APVPA

PathSimTA-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.6268Philip S.Yu0.8921Philip S.Yu0.6058Jian Pei0.8714Jian Pei0.5917Charu C.Aggarwal0.6943Ravi Kumar0.4703Ravi Kumar0.6847Charu C.Aggarwal0.4676Eamonn J.Keogh0.6845Vipin Kumar0.4666Heikki Mannila0.6753Heikki Mannila0.4645Vipin Kumar0.6715Hui Xiong0.4634Hui Xiong0.6677Eamonn J.Keogh0.4549

表5給出了TA-PathSim與PathSim搜索到的與“Christos Faloutsos”相似的Top-10作者，其中“Heikki Mannila”和“Eamonn J.Keogh”的排名順序有較大差異.“Heikki Mannila”發表的文章共有19篇，其中6篇關于“similarity”，3篇關于“cluster”.“Eamonn J.Keogh”共發表21篇論文，其中15篇論文關于“time series”，4篇論文關于“similarity”.源作者“Christos Faloutsos”發表了8篇關于“proximity measures”和“similarity queries”的論文，2篇論文關于“time series”，2篇關于“cluster”.通過上面對作者發表文章主要內容的分析，“Heikki Mannila”的研究興趣與源作者的研究興趣更為相似.因此，“Heikki Mannila”應該排在“Eamonn J.Keogh”之前.

PathSim算法僅僅考慮在同一會議上發表論文的作者之間的交互關系，而不考慮作者發表的論文內容是否相似，即作者的研究興趣是否接近.因此，TA-PathSim搜索出來的結果更加可信.

5.4 SLTA-PathSim分析

基于上述算法分析，我們已經知道SL-PathSim和TA-PathSim都取得了很好的效果，為此本文對SL-PathSim和TA-PathSim進行了整合，將其作為一個擴展，即SLTA-PathSim算法.對于相同類型的作者ai和aj，SLTA-PathSim(ai，aj)定義如公式(4)所示，其時間復雜度為O(n*d*m).為了證明SLTA-PathSim算法的有效性，本文同樣查找了與“Christos Faloutsos”相似的Top-10作者.

(4)

表6 APVPA下PathSim和SLTA-PathSim搜索的與“Christos Faloutsos”相似的Top-10作者

Table 6 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and SLTA-PathSim under APVPA

PathSimSLTA-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.5982Philip S.Yu0.8921Philip S.Yu0.5806Jian Pei0.8714Jian Pei0.5027Charu C.Aggarwal0.6943Heikki Mannila0.4520Ravi Kumar0.6847Jieping Ye0.4465Eamonn J.Keogh0.6845Ravi Kumar0.4205Heikki Mannila0.6753Huan Liu0.3861Vipin Kumar0.6715Bing Liu0.3828Hui Xiong0.6677Hui Xiong0.3826

分析表6，SLTA-PathSim算法的搜索結果與PathSim的搜索結果相近，但順序略有不同.在元路徑APVPA下，表4中“Heikki Mannila”和“Ravi Kumar”之間的排名順序與表5中的順序相反.通過上面的分析我們已經知道“Ravi Kumar”共發表43篇論文，其中14篇關于“similarity”和“social network”.如果僅僅考慮源作者和目標作者之間所發表文章的文本內容，“Ravi Kumar”與源作者更為相似.但通過分析作者署名位置信息，作者“Heikki Mannila”對文章的貢獻程度比“Ravi Kumar”要大得多.因此，“Heikki Mannila”的相似性分數相對較高，與作者“Christos Faloutsos”更加相似.

為了進一步驗證SLTA-PathSim算法的性能，本文將PathCount、Hin2Vec和SLTA-PathSim進行了對比.表7是三種算法查找到的與“Christos Faloutsos”相似的Top-10作者.在元路徑APVPA下，Path Count算法只是簡單地判斷兩位作者是否在同一個會議上發表了文章，如果存在這樣的元路徑就把兩位作者之間的路徑實例數量加1.因此，如果目標作者與源作者之間存在的路徑實例數量越多，兩個作者越相似.由于“Philip S.Yu”與源作者多次在同一會議上發表文章，所以Path Count查找結果為“Philip S.Yu”與源作者相似程度比較高.路徑數僅僅反映了網絡的局部結構信息，而每個會議包含不同的主題，路徑數越多僅能說明兩個作者研究領域相似，但具體的研究興趣可能存在較大的區別.Hin2Vec算法返回一些作者(例如“Andrew Tomkins”)，在特定的研究興趣上不同于“Christos Faloutsos”.出現這種現象的原因可能是網絡嵌入適用于大規模網絡，而本文使用的數據集是20年內的作者發表論文數據，并且刪除了沒有摘要的數據，因此其效果低于SLTA-PathSim.

本文提出的SLTA-PathSim算法，從網絡結構、節點屬性和文本內容等多角度出發，綜合了能夠影響作者之間相似性的多方面因素.此外，由于存在多個作者與源作者之間的路徑數相等的情況，具體哪位作者與“Christos Faloutsos”更相似則無法判斷，為此本文進一步證明了SLTA-PathSim算法的有效性.

表7 APVPA下Path Count、Hin2Vec和SLTA-PathSim搜索的與“Christos Faloutsos”相似的Top-10作者

Table 7 Top-10 authors similar to “Christos Faloutsos” searched by Path Count、Hin2Vec and SLTA-PathSim under APVPA

Path CountHin2VecSLTA-PathSimChristos Faloutsos78.0000Christos Faloutsos1.0000Christos Faloutsos1.0000Philip S.Yu39.0000Ravi Kumar0.8576Jiawei Han0.5982Jiawei Han33.0000Jiawei Han0.8376Philip S.Yu0.5806Hans-Peter Kriegel27.0000Philip S.Yu0.8349Jian Pei0.5027Hector Garcia-Molina27.0000Andrew Tomkins0.8268Heikki Mannila0.4520JianPei23.0000ChengXiang Zhai0.8234Jieping Ye0.4465Haixun Wang23.0000Jian Pei0.8217Ravi Kumar0.4205Wei Wang′23.0000Charu C.Aggarwal0.8197Huan Liu0.3861H.V.Jagadish22.0000Jimeng Sun0.8144Bing Liu0.3828RaghuRamakrishnan22.0000Bing Liu0.8007Hui Xiong0.3826

6 總結

通過閱讀大量文獻，對現有相似性計算方法進行分析和總結，發現一些算法沒有評估節點屬性和文本信息對挖掘結果的影響.為了更好地表達信息，本文提出了SL-PathSim算法，該算法考慮了作者對論文的貢獻程度.此外，本文還從文本內容角度進行分析，設計了基于論文標題與摘要相似度的TA-PathSim算法以實現相似性分數的加權組合.在指定元路徑APVPA下，利用著名的AMiner數據集設計了多組實驗，通過查找與“Christos Faloutsos”相似的Top-10作者，證明了本文所提算法的查找結果更接近于事實.

雖然SLTA-PathSim在作者相似性度量方面效果很好，但使用的是預先定義好的元路徑.如何在大規模的復雜異質信息網絡中自動挖掘有用的元路徑是一個極具前景的方向.