李文靜 劉向 譚琳潔 嚴婷婷



收稿日期:2020-05-19
作者簡介:李文靜(1996-),女,碩士研究生,研究方向:數據挖掘與信息計量。譚琳潔(1997-),女,碩士研究生,研究方向:數據挖掘與信息計量。嚴婷婷(1996-),女,碩士研究生,研究方向:數據挖掘與信息計量。
通訊作者:劉向(1983-),男,副教授,碩士生導師,研究方向:數據挖掘與信息計量。
摘 要:[目的/意義]多主題覆蓋的樞紐節點群能夠快速“導航”至領域更多主題的高被引綜述文獻和權威節點,從而可以使新領域工作者短時間全面了解領域已有研究、現狀和未來發展趨勢。[方法/過程]本文提出一種節點群發現算法——HubsRank算法,該算法基于引文網絡中節點影響力(信息、知識)的傳遞,通過多輪迭代,得到引文網絡中多主題覆蓋的樞紐節點群。[結果/結論]最后,與HITs算法進行實證對比分析,本算法能更快、全面地提取樞紐節點群和不同主題的高被引權威節點,且該算法可以有效避免主題集聚效應。
關鍵詞:HubsRank算法;樞紐節點群;多主題覆蓋;科學引文網絡
DOI:10.3969/j.issn.1008-0821.2021.01.017
〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2021)01-0144-08
Discovery of a Set of Hub Nodes with Multi-topic
Coverage in Scientific Citation Network
Li Wenjing Liu Xiang* Tan Linjie Yan Tingting
(School of Information Management,Central China Normal University,Wuhan 430079,China)
Abstract:[Purpose/Significance]The hub nodes with the multi-topic coverage can quickly lead to the highly cited literatures and authoritative nodes of multiple topics in the field,so that the new field workers can fully understand the existing research,current situation and future development trend in a short time.[Method/Process]This paper proposed a node group discovery algorithm,HubsRank algorithm,which is based on the transfer of node influence(information and knowledge)in citation network.Through multiple iterations,the hub nodes with multi-topic coverage in citation network was obtained.[Result/Conclusion]Finally,compared with HITs algorithm for empirical analysis,this algorithm can extract a set of hub nodes and highly cited authority nodes of different topics more quickly and comprehensively,and this algorithm can effectively avoid topic clustering effect.
Key words:HubsRank algorithm;hub nodes;multi-topic coverage;scientific citation network
樞紐節點指鏈接多個相關主題權威節點的一類節點,一個好的樞紐節點通常指向許多好的權威節點,一個好的權威節點被許多好的樞紐節點指向[1]。權威節點衡量節點對信息的原創性,樞紐節點則反映節點在信息傳播中的影響力[2]。高影響力的樞紐節點對網絡信息、知識等快速傳播起到重要作用。蘇成等[3]研究發現,樞紐節點中綜述文獻比例高達50%,高被引的綜述文獻不僅能夠總結領域已有的研究成果,同時能夠啟示該領域未來的重大研究趨勢和發展方向。因此,從龐大的知識網絡中快速、全面地找到對某一領域形成多主題覆蓋的樞紐節點群,是初入新領域的學術研究者開啟研究的基礎和全面掌握知識的關鍵,對科研工作具有重要的理論和現實意義。
通過重要節點的發現以簡化網絡,是研究復雜網絡架構和特性的重要內容。重要節點是指相比網絡其他節點能夠在更大程度上影響網絡的結構與功能的一些特殊節點[4],其重要性表現在節點的影響力、權威性、控制力等方面[5]。重要節點的影響力包括局部影響力和全局影響力,節點的全局影響力越高,對整個網絡的信息、知識的傳播控制能力越強[2]。在已有研究中,度中心性[6]、k-殼分解法[7]、PageRank算法[8]、LeaderRank算法[9]都是基于節點重要性取決于鄰居節點的思想得到節點重要性排名,而上述這些節點排序方法都傾向于權威節點在網絡中的重要影響。HITs算法[1]第一次定義網絡中存在權威節點和樞紐節點兩類節點,認為節點的權威值是所有指向該節點的樞紐值之和,節點的樞紐值是該節點指向的所有節點權威值之和,從而明確了樞紐節點在網絡中的重要作用。但是,該算法在迭代過程中,聯系緊密度大的社區,兩類節點的值往往會相互加強,容易發生主題漂移[10]。近年來,越來越多的研究轉向一群全局高影響力節點的發現,以求最大限度地快速擴大網絡整體傳播范圍[11-12]。2016年,Zhang J X等[12]基于最大覆蓋的全局影響力思想提出了VoteRank算法,通過減小位于同一社區的節點被重復選中的概率,可以最大程度覆蓋到網絡的小社區,有效避免了大社區的主題集聚。
單一、局部的重要節點排序算法研究決定了科研人員通常只關注“富者愈富”、聯系更為緊密的大社區少數節點,忽略小社區;而同一社區聯系緊密的節點主題往往又具有相似性。因此,局部節點排序算法對于領域主題的覆蓋往往是片面的。基于多主題覆蓋的樞紐節點群不僅能夠覆蓋到最具影響力的大社區,同時能夠發現連接相對稀疏的小社團、小主題、新興主題,從而可以更為全面地了解領域發展態勢。鑒于樞紐節點群挖掘的空白和樞紐節點對于領域發展的重要作用,本文基于VoteRank全局影響最大化的思想,通過改進提出能夠對網絡主題形成多覆蓋的HubsRank樞紐節點群發現算法。文章將以知識流動方向構建科學引文網絡,把文獻之間知識的傳播視為投票過程,通過節點之間的投票,選出得分最高的節點作為樞紐節點;通過多次迭代,得到領域多主題覆蓋的樞紐節點群。統計樞紐節點鏈接權威節點的能力與主題覆蓋的速度和程度等,并與HITs算法進行比較。
1 HubsRank算法設計
1.1 VoteRank算法概述
VoteRank算法以無向網絡為研究載體,通過設置影響力投票機制,找到一群全局影響力最大的種子傳播節點。算法基本思想是:對每個節點設置兩個屬性,分別為投票得分和投票能力。1個節點的得分取決于其所有鄰居節點的投票能力,初始每個節點的投票能力均設置為1。當1個節點被選為種子節點,則此節點及其鄰居節點的投票能力均下降至一定幅度,減小再被選中的概率。如此反復迭代,直至達到預定的節點數目或所有節點均被更新1遍停止。
1.2 HubsRank算法設計
與VoteRank算法所構建的無向網絡不同,本文將其應用于引文網絡,構造加權有向網絡,其中節點代表文獻,邊代表節點之間的知識流動,故而邊的方向與引用方向相反,即由被引文獻指向施引文獻。在引文網絡中,節點的影響力通過邊傳遞知識,文獻之間的知識傳遞也可以類比節點之間的投票,即視為被引文獻對施引文獻的知識“支持”。因此,本算法同樣設置每個節點u具有兩個屬性(Su,vau),即投票得分和投票能力。節點的投票得分Su源于其參考文獻(前向節點)的知識“支持”,即某個節點的得分Su由其所有前向節點的投票能力之和決定,投票能力vau則由該節點u的前向節點數(參考文獻數)和后向節點數(被引次數)共同決定。
在引文網絡中,文獻具有實際意義,視每篇文獻同等重要是不合理的。因此,本文設置文獻的投票能力為被引次數減參考文獻數。文獻被引次數越多,文獻越重要,投票能力越強。被引數小于參考文獻數的節點,投票能力設置為0,目的在于避免被引次數極低、參考文獻很多的節點成為樞紐節點被選中。當被引次數遠遠大于參考文獻數時,節點的投票能力幾乎不受影響;當被引次數小于參考文獻數時,認為節點引用較多,原創性較低,近似設置投票能力為0,以此有效找到領域高被引的少數重要樞紐節點。
在相互投票過程中,聯系緊密度大的社區,往往會產生TKC(Tightly Knit Community)效應[10],選出的節點通常具有主題相似性,小的社區難以覆蓋。為了找到領域多主題覆蓋的樞紐節點群,本算法在迭代過程中,設置具有最高得分的節點將不參與以后迭代的投票,并且其前向節點的投票能力隨之降低,即主題相似性節點的投票能力將有很大概率下降,減少再被選中的幾率。
1.3 HubsRank算法步驟
第一步:構建引文網絡。搜集待研究領域的文獻,提取每篇文獻的作者、題目或DOI等唯一標識文獻的特征。將搜集到的數據集通過引證關系,按照被引文獻指向施引文獻的知識流方向,構建有向引文網絡。
第二步:初始化。設置所有節點兩個屬性:投票得分和投票能力,即(Su,vau)。初始時節點u的屬性是(0,koutu-kinu)。
第三步:投票。每個節點向其后向節點平均投票,同時接受其所有前向節點的投票之和作為自己的得分。然后計算每個節點的得分Su,選出具有最高分數的節點作為樞紐節點。
第四步:更新。被選中的樞紐節點不再參與以后的投票,設置屬性為(0,0),同時降低其前向節點的投票能力為:(vau-f),直至降為0。此處簡單設置f=〈k〉,〈k〉為網絡平均度。
第五步:迭代。重復步驟二到步驟四,每次迭代都重新計算節點的得分,直到選出k個節點或每個節點都至少被更新1次為止。
為了便于理解,首先構造一個簡單的引文網絡,模擬HubsRank算法的過程,圖1是由11個節點構成的有向網絡圖以及網絡中每個節點的初始狀態。
圖2是HubsRank算法第一輪迭代過程。節點1的前向節點是節點2和3,后向節點是節點4、5、6。初始時每個節點的屬性是(0,koutu-kinu)。在第一輪投票過程中,每個節點接受其前向節點的平均投票作為自己的得分,圖中節點1得分最高,被選中作為樞紐節點。第一輪投票結束后,節點1的投票得分和投票能力將永遠降至為0,同時其前向節點的投票能力下降為(vau-〈k〉)。更新,然后進行第二輪新的投票,如圖3所示,第二輪投票中,節點7被選為樞紐節點,依次迭代進行。
2 實驗及結果分析
2.1 實驗數據與對比說明
本文基于文獻[2]對“基于特征向量的排序方法”中的6種方法,分別為特征向量中心性(Eigenvector Centrality)、累計提名(Cumulative Nomination)、PageRank算法、LeaderRank算法、HITs算法、SALSA算法,作為實驗的數據集。數據采集時間是1998—2019年,數據來源為Web of Science(WOS)核心合集,以6種方法的名稱作為檢索詞進行檢索,獲取所有相關文獻題錄。另外,由于HITs算法和SALSA算法名稱與單詞Hits、Salsa以及其他學科名詞具有混淆性,剔除無關文獻,進行數據清理之后,最終得到文獻合計117 329篇。
由于以往的重要節點發現算法側重權威節點的排序,少有算法進行樞紐節點以及樞紐節點群的研究。VoteRank算法雖然從節點群的角度出發,但算法關注的依然是權威節點在網絡中的重要影響力。HITs算法第一次定義網絡中存在樞紐節點,并給出了樞紐節點排名的具體方法,得到了學界的認可與廣泛應用。因此,本文將選擇HITs算法得到的樞紐節點與HubsRank算法得到的樞紐節點群做對比。
鑒于人們往往只關注排名靠前的節點的重要程度,以及考慮到新領域工作者時間、精力有限等現實情況,本文將分別選取HubsRank算法和HITs算法排名前30節點的特點,進行對比分析。
2.2 基本統計對比
表1顯示了兩個算法排名前10、前20和30樞紐節點的年份數量分布,從表中可以看出,兩個算法1998—2000年樞紐節點數量幾乎為0,占比最少,2016—2019年節點占比最多。其中,HubsRank算法在2016—2019年3次排名中樞紐節點分別占比40%、50%、53.3%,占比逐漸上升;HITs算法在3次排名中分別占比50%、40%、46.7%,占比較為穩定。以上數據表明,兩個算法對于新節點發現均具有敏感性。
表2是根據WOS引文索引默認劃分的兩個算法排名前10、前20和30樞紐節點的文獻類型分布。表中兩個算法的綜述文獻都占據較大比例,其中HubsRank算法在3次排名中綜述文獻分別占比80%、60%、50%;HITs算法分別占比80%、70%、57%,HITs算法占比略高于HubsRank算法。
根據WOS引文索引認定的“高被引論文”中,HubsRank算法排名前30的樞紐節點有10篇為高被引論文,且有8篇為綜述文獻,發表年份均在2010年之后,2017年1篇;HITs算法中有9篇為高被引論文,其中8篇為綜述文獻,發表年份也均在2010年之后,2017年2篇。通過梳理兩個算法的文獻類型,再次證實樞紐文獻中綜述文獻占據較大比例;而且綜述文獻是高被引論文的比例依然很高。
近些年科學文獻的參考文獻數量呈現逐年上升的趨勢,大量新發表的科學文獻引用較多的參考文獻,從而更容易成為樞紐節點受到關注。樞紐節點是新發表同時也是高被引論文的文獻占比很大,如果新發表的高被引樞紐文獻本身具有創新性或科學影響力,那么其本身也將有極大可能成為權威節點。
2.3 樞紐節點影響力對比
高影響力的樞紐節點是引用較多有影響力的權威節點的一類文獻,而高影響力的權威節點被引次數也通常較高。因此,本文將對比HubsRank算法和HITs算法排名前20樞紐節點的前向節點(參考文獻)的被引用情況,間接反映樞紐節點鏈接權威節點的能力以及樞紐節點的重要性。
本文利用樞紐節點的所有前向節點的總出度(參考文獻總被引數)TN、前向節點數(參考文獻數)LN以及前向節點篇均被引數AN來反映樞紐節點鏈接權威節點的范圍及廣度。在投票過程中,被引數較低的前向節點對其后向節點傳遞的知識流相對較少,因此本文將選擇每個樞紐節點的出度排名前5的前向節點出度之和占總出度TN的比例PN5來反映樞紐節點鏈接高被引權威節點的能力。該比例越高,說明排名靠前的高被引參考文獻對樞紐節點的影響力越強,即樞紐節點的影響力是由為數不多的參考文獻的影響力決定的。
從表3和表4可知,兩個算法樞紐節點的參考文獻總被引數TN都較高,HITs算法總被引數相對高于HubsRank算法。從參考文獻數LN結果發現,HubsRank算法的參考文獻數高于HITs算法的有14個,且參考文獻數低于300的節點占比10%,HITs算法占比40%;其他區間HubsRank算法占比都略高,表明HubsRank算法能夠鏈接更多的參考文獻,鏈接范圍更廣。從AN的結果來看,HITs算法的參考文獻篇均被引數基本均遠遠高于HubsRank算法,即HITs算法鏈接的參考文獻被引次數普遍較高;從PN5結果發現,HubsRank算法中有14個節點的占比明顯高于HITs算法,且位于0.61以上的區間占比50%,HITs算法占比30%,即HubsRank算法可以鏈接排名前5的更高被引的參考文獻。
綜合以上4個指標分析,HubsRank算法能夠鏈接更多的參考文獻,但鏈接的參考文獻被引次數差異較大,分布不均;HITs算法鏈接的參考文獻被引數普遍較高且差異小,但對排名前5的更高被引的參考文獻“導航”能力較差。從現實因素出發,由于時間和精力有限,科研工作者往往只會瀏覽少數、多主題的高被引權威文獻作為研究入門的基礎,因此對少數高被引的參考文獻具有更強“導航”能力的HubsRank算法可以更快速發現,在現實科研中更具有實際意義。
2.4 主題覆蓋對比
由于本數據集選擇的主題是“基于復雜網絡的排序算法”,而通過關鍵詞、文本聚類等方法分析文獻主題本身具有相似性。因此,在對主題覆蓋方面做對比時,依然通過樞紐節點中出度排名前5的前向節點的文獻主題來比較兩個算法覆蓋權威節點主題的能力。
表5顯示了排名前10的樞紐節點中,出度排名前5的前向節點標號。從表中統計分析得到,兩個算法覆蓋的權威節點的主題均包括復雜網絡“無標度特性”[13](4號節點)和“小世界特性”[14](310號)的文獻,PageRank算法[8](30號),HITs算法[1](40號),度中心性[6](154號),中介中心性[15](274號)等相關文獻,這表明兩個算法都能夠覆蓋到該領域重要的權威節點,覆蓋效果良好。
從前向節點標號發現,在前10篇不重復的參考文獻中,HITs算法鏈接的權威節點均是關于排序算法的相關文獻;HubsRank算法有兩篇文獻涉及到復雜網絡更廣的主題范圍,分別是Girvan M等提出的GN算法[16](817號),GN算法第一次以社團結構劃分復雜網絡,開創了以社團而不是單個節點分析網絡的先河;另一篇是H指數[17](159號)的提出,H指數通過信息計量量化學者的貢獻,具有廣泛的應用范圍,也因此衍生了含權網絡的H-度中心性排序算法[18]。另外,140號文獻是“基于特征向量排序算法”中重要的“特征向量中心性”方法[19]的文獻,出現在HubsRank算法中第10名樞紐節點的參考文獻中,而HITs算法在第22名樞紐節點的參考文獻中才第一次出現。
擴大到排名前30的樞紐節點,前向節點出度(參考文獻被引數)居于前5的所有文獻,通過HubsRank算法得到:排名前10的文獻中,有19篇不重復文獻,排名前20有38篇,排名前30有49篇,分別占比38%、38%、32.7%;HITs算法中排名前10有11篇,前20有13篇,前30有17篇,分別占比22%、13%、11.3%。從覆蓋的主題角度看,HubsRank算法能夠覆蓋到權威節點更多的主題。
立足在迭代中降低前向節點投票能力的原則,HubsRank算法不重復的前向節點標號明顯較多,占比更大。而且相比HITs算法,HubsRank算法高被引的權威節點大量集中于排名靠前的樞紐節點中,且基本覆蓋了HITs算法發現的所有權威文獻。另外,由于HITs算法在迭代前迭代次數難以預設的固有缺陷,HubsRank算法則可以在迭代前設置迭代次數,從而計算效率大大提高。通過數次迭代,就能夠更早發現、更快覆蓋到更多主題的高被引權威節點。后向延伸到更多排名,樞紐節點將會最大覆蓋到“排序算法”領域的主題,形成最大覆蓋的樞紐節點群。
3 結論與展望
本文基于引文網絡提出了HubsRank迭代算法,通過挖掘引文網絡中的樞紐節點,發現復雜網絡中形成多主題覆蓋的樞紐節點群,從而找到領域最新、覆蓋更廣的高被引綜述文獻和權威文獻。在理論創新方面,本算法對于聯系緊密的大社區,能夠通過數次迭代更早、更快發現樞紐節點和高被引的權威節點;同時也能夠及時跳出大社區,對網絡中的次社團、小主題依然有良好的覆蓋效果,避免節點產生主題集聚效應。在現實應用層面,本算法能夠快速找到領域多主題的高被引綜述文獻和權威文獻,對于新領域科研工作者全面了解領域知識具有重要引領、導航效果。
本算法對現有相關研究做出了一些貢獻。其一,HubsRank算法關注樞紐節點在復雜網絡中的重要作用,并提出了樞紐節點排序的方法。樞紐節點具有鏈接廣泛、傳播能力強、位置優越等特點,因此研究樞紐節點具有同等重要性和必要性。其二,與HITs算法不同,本算法發現多主題覆蓋的樞紐節點群,強調節點群的全局影響力。同時,多主題的樞紐節點群對新領域工作者具有一定實用價值。其三,本算法計算復雜度不高,可以針對大規模網絡進行求解與挖掘。其四,HubsRank算法的應用范圍不僅僅局限于科學引文網絡,對于其他大型復雜網絡的樞紐節點挖掘以及節點群的發現同樣具有適用性和啟發意義。
以下幾個方面還有待進一步改進:首先,針對科學引文網絡,本算法適用于有引文的文獻題錄數據集,對于數據量少的數據集效果可能不佳。其次,本文僅分析了排名前30的科學文獻,結果可能有所偏差。由于數據集本身以及從標號查找原始文獻具有困難性,本文沒有對更多節點進行統計分析。最后,對于節點迭代過程中,投票能力降低的參數設置還沒有統一的標準。因此,今后將繼續致力于算法的改進,進行更深入的研究。
參考文獻
[1]Kleinberg J M.Authoritative Sources in a Hyperlinked Environment[J].JACM,1999,46:604-632.
[2]Lü L Y,Chen D B,et al.Vital Nodes Identification in Complex Networks[J].Physics Reports,2016,650:1-63.
[3]蘇成,Kim H S.基于PageRank,HITS和SALSA算法的學術論文評價[J].情報雜志,2015,(6):48-54.
[4]任曉龍,呂琳媛.網絡重要節點排序方法綜述[J].科學通報,2014,13:1175-1197.
[5]吳思竹,張智雄.網絡中心度計算方法研究綜述[J].圖書情報工作,2010,54(18):107-110,148.
[6]Freeman L C.Centrality in Social Networks Conceptual Clarification[J].Social Networks,1979,(1):215-239.
[7]Kitsak M,Gallos L K,Havlin S,et al.Identification of Influential Spreaders in Complex Networks[J].Nature Phys,2010,(6):888-893.
[8]Brin S,Page L.The Anatomy of a Large-scale Hypertextual Web Search Engine[J].Computer Networks,1998,30:107-117.
[9]Lü L Y,Zhang Y C,Yeung C H,et al.Leaders in Social Networks,the Delicious Case[J].PLoS One,2011,(6):e21202.
[10]Lempel R,Moran S.The Stochastic Approach for Link-structure Analysis(SALSA)and the TKC Effect[J].Computer Networks,2000,33:387-401.
[11]Yang X,Huang D C,Zhang Z K.Neighborhood Coreness Algorithm for Identifying a Set of Influential Spreaders in Complex Networks[J].KSII Transactions on Internet and Information Systems,2017,11(6):2979-2995.
[12]Zhang J X,Chen D B,Dong Q,et al.Identifying a Set of Influential Spreaders in Complex Networks[J].Scientific Reports,2016,(6):1-9.
[13]Barabási A L,Albert R.Emergence of Scaling in Random Networks[J].Science,1999,286:509-512.
[14]Watts D J,Strogatz S H.Collective Dynamics of‘Small-worldNetworks[J].Nature,1998,393:440-442.
[15]Freeman L C.A Set of Measures of Centrality Based on Betweenness[J].Sociometry,1977,40(1):35-41.
[16]Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences,2002,99:7821-7826.
[17]Hirsch J E.An Index to Quantify an Individuals Scientific Research Output[J].Proceedings of the National Academy of Sciences of the United States of America,2005,102(46):16569-16572.
[18]Zhao S,Rousseau R,Ye F Y.h-Degree as a Basic Measure in Weighted Networks[J].Journal of Informetrics,2011,(5):668-677.
[19]Bonacich P.Factoring and Weighting Approaches to Status Scores and Clique Identification[J].Journal of Mathematical Sociology,1972,(2):113-120.
(責任編輯:陳 媛)