費 鵬 彭丹丹
(南京信息工程大學電子與信息工程學院 南京 210044)
對學術論文進行客觀、準確的評價是對學者學術貢獻進行評估的重要前提。論文評價方法有很多,對于數據庫中的海量論文來說,同行評議法[1]評價論文需要投入大量的人力資源,評審人水平差距大,主觀性太強,往往會造成評價錯誤。而大型科學引文數據庫的存在,越來越多的人使用論文引文網絡對論文進行重要性排序,其中應用最為廣泛的方法是根據論文被引數量對論文進行評價[2],論文的被引數量越多,則論文的重要性程度越高。論文被引數評價論文也有局限性,論文被引數忽略了被引論文的差異性[3],將所有論文的引用視為同等重要,其不合理是不言而喻的。
近年來,許多研究者將網絡鏈接算法運用到學術評價中[4~14],喻依等將PageRank 算法[15]和HITS算法[16]用于期刊評價研究并討論了影響因子、PageRank值和authority值之間的區別[17]。李仲謀等在PageRank 算法基礎上考慮了時間對論文的影響,提出一種新的PageRank 算法的學術論文評價方法[18]。本文在HITS 算法的基礎上進一步進行研究,提出加權HTS 算法,對其是否可以應用于論文評價進行了研究與探索。
HITS算法中將網頁分為兩種:Authority頁面與Hub 頁面,Authority 頁面的Authority 值反映了頁面的權威性,Hub 頁面的Hub 值反映了頁面的中心度。Authority 頁面的Authority 值越大,則頁面越具有權威、聲望。HITS 算法的目的是經過一系列的迭代得到最具價值的網頁,即Authority值最大的頁面。HITS算法使用如下公式迭代:
用Ai表示頁面i的權威度,用Hi表示頁面i的中心度。
齊普夫定律是用來表述文獻中詞匯出現頻率分布規律的重要定律之一[19],齊普夫定律可以表述為:把一篇文章的單詞出現頻率按從高到低的次序排列,則每個單詞出現的頻率與它的名次存在簡單的反比關系,這種分布為齊普夫定律。該定律說明使用頻率高的單詞占少數,使用頻率低的單詞占多數。該定律同樣適用于論文,將引文網絡中的論文按照質量從高到底進行排序,則論文質量與論文數量滿足式(3):
r為論文質量,v為論文數量,c為論文總數量,這個公式可以表示成一條斜率為-α的直線,表明在引文網絡,質量高的論文占少數,質量低的論文占多數。
本文將引文網絡表示為矩陣M,其元素mi,j?[0,1]。如果論文i 被論文j 引用,則mi,j=1;如果論文i 未被論文j 引用,則mi,j=0。加權HITS 算法將論文分為兩種:Authority論文與Hub論文,Authority論文的Authority 值反映了論文的權威性,Authority論文的Authority值越大,則論文的權威性越高。
第一次迭代中,計算Authority 論文的Authority值,論文的Authority值等于所有引用該論文的論文Hub 值之和,Hub 值之和越大,Authority 論文的Authority值越大,則Authority論文的權威性越高。
計算Hub論文的Hub值,論文的Hub值等于所有被該論文引用的論文Authority 值之和,Authority值之和越大,Hub 論文的Hub 值越大,則論文利用外部資源能力的越大。
在式(4)中,默認每篇Hub 論文對Authority 論文產生的影響相同,即每篇論文的重要性程度相同,實際上每篇論文的重要性程度是不同的,所以需要引入一個加權系數ρi,j來表示Hub 論文對Authority 論文的重要性程度。加權系數ρi,j越大,則代表Hub論文對Authority論文越重要。
且滿足:
在式(5)中,默認每篇Authority 論文對Hub 論文產生的影響相同,即每篇論文的重要性程度相同,實際上每篇論文的重要性程度是不同的,所以需要引入一個加權系數ηi,j來表示Authority 論文對Hub 論文的重要性程度。加權系數ηi,j越大,則代表Authority論文對Hub論文越重要。
且滿足:
將權值ρi,j帶入式(4)中,得到新的Ai值。
將權值ηi,j帶入式(5)中,得到新的Hj值。
為了保證數據的連續性,抓取了2018 年到2020 年發表的5118 篇論文,計算每篇論文的Authority 值并與論文被引次數進行對比。如圖1 所示,圖1(a)是論文被引次數與論文數量關系圖,圖1(b)是加權HITS 算法的論文Authority 值與論文數量關系圖。在5118 篇論文中,有1796 篇論文被其他論文引用,其余論文的被引數為0。被引數為0的論文Authority 值為0,本文重點分析被引數不為0的1796篇論文。

圖1 論文被引次數與加權HITS算法評價方法對比圖
圖2(b)為HITS 算法的論文評價方法,將HITS算法的論文Authority值按論文被引次數降序排序,從圖2(b)可以看出,只有少數論文Authority 值很高,大多數論文Authority 值很低,這是因為HITS 算法存在TKC 效應(緊密鏈接社區現象)。TKC 效應是指HITS 算法在authority 值和hub 值在相互迭代加強的過程中,權重會越來越集中于緊密度最大的社區[20]。HITS 算法的TKC 效應導致部分論文的Authority 值過高,盡管這些論文真正的價值很低,說明HITS算法不能直接用于論文評價。

圖2 論文被引次數與HITS算法評價方法對比圖
本文在HITS 算法基礎上對其進行了改進,在HITS 算法的基礎上加入了論文權重,提出加權HITS算法。如圖1所示,加權HITS算法的論文Authority 值總體上與論文被引次數趨勢相同,都是呈現下降趨勢,且下降的趨勢越來越緩。說明在整個引文網絡中,質量越高的論文,在整個引文網絡中占比越少,相反,質量越低的論文,在整個引文網絡中占比越多。
表1 為論文被引次數、HITS 算法與加權HITS算法前50 名論文評分與總論文評分之比,三種評價方法前50 名論文評分與總論文評分之比可以反應論文評分的集中程度。由于HITS算法的TKC效應,HITS 算法的前十名論文的占比為0.201,而加權HITS 算法和論文被引次數的占比為0.087 和0.05。HITS 算法的前五十名論文的占比為0.593,而加權HITS 算法和論文被引次數的占比為0.225和0.167,加權HITS算法和論文被引次數的前50論文評分占比遠低于HITS 算法的占比,加權HITS 算法大大降低了TKC 效應。本文使用了兩個不同的數據集測試了三種評價方法的評價值占比,分別是2424 篇論文、5118 篇論文的數據集。如圖3 所示,加權HITS 算法和論文被引次數的前50 論文評分占比均遠低于HITS 算法的占比,說明加權HITS 算法大大降低了TKC 效應,而加權HITS 算法與論文被引次數的前50 論文評分占比相差不大,說明加權HITS算法比HITS算法更加適合論文評價研究。

表1 論文被引次數、HITS算法與加權HITS算法前50論文評分與總論文評分之比

圖3 前50論文評分與總論文評分比值圖
為了進一步說明論文被引次數、HITS 算法的論文Authority 值與加權HITS 算法的論文Authority值之間的關系,本文進行了相關性分析,利用Pearson相關系數來計算兩個變量間的線性相關程度[21]。
本文使用了兩個不同的數據集來對論文的評價方法進行相關性分析,圖4 為HITS 算法的論文Authority 值與論文被引次數的散點圖,圖5 為加權HITS 算法的論文Authority 值與論文被引次數的散點圖。HITS 算法的論文Authority 值與論文被引次數的Pearson 相關系數分別為0.431、0.449,兩者相關性低,導致這種結果的原因是HITS 算法的TKC效應導致論文Authority值預測的不準確,從而造成兩者的相關性低。而加權HITS算法的論文Authority 值與論文被引次數的Pearson 相關系數分別為0.851、0.795,兩者顯著相關,由于加權HITS 算法大大降低了TKC效應,提高了論文Authority值預測的準確性,從而使兩者線性相關性顯著。加權HITS算法的論文Authority 值與論文被引次數在論文影響力的衡量上,總體變化趨勢是一樣的。但加權HITS 算法的論文Authority 值是一個綜合性、復雜度更高的指標,相比于論文被引次數指標僅考慮了論文被引次數,加權HITS 算法的論文Authority 值還考慮了被引論文的質量,因此更為綜合全面。

圖4 論文被引次數與HITS算法的論文Authority值散點圖

圖5 論文被引次數與加權HITS算法的論文Authority值散點圖
綜上所述,一方面由于HITS 算法的TKC 效應導致論文Authority 值預測的不準確,而加權HITS算法降低了TKC效應,從而提高了論文Authority值預測的準確性,說明加權HITS 算法比HITS 算法更加適合評價論文。另一方面加權HITS算法因不僅考慮了論文被引次數,還考慮了被引論文質量,相比于論文被引次數指標可以更加全面地評價一篇論文的學術影響力。
本文將論文被引次數與論文Authority 值按照從高到低的次序排序,從圖6 可以看出論文被引次數與論文數量存在簡單的反比關系,滿足式(3),說明論文被引次數與論文數量的分布滿足齊普夫定律。

圖6 論文被引次數與論文數量關系圖
從圖7可以看出加權HITS算法的論文Authority值與論文數量的分布也滿足此定律,說明質量越高的論文,在整個引文網絡中占比越少,質量越低的論文,在整個引文網絡中占比越多,也解釋了為什么圖1(b)中加權HITS算法的論文Authority值下降的趨勢越來越緩。圖8 可知由于HITS 算法的TKC 效應,導致HITS 算法的論文Authority 值與論文數量的分布不滿足齊普夫定律,通過對比發現加權HITS算法與論文被引數在論文評價方面具有高度的相似性,這也說明加權HITS 算法相比于HITS算法更適合評價論文。

圖7 加權HITS算法的論文Authority值與論文數量關系圖

圖8 HITS算法的論文Authority值與論文數量關系圖
本文在HITS 算法基礎上對其進行了改進,在HITS 算法基礎上加入了權重系數,提出加權HITS算法。結果表明加權HITS 算法大大降低了HITS算法的TKC 效應,加權HITS 算法的論文Authority值與論文被引次數有著高度的線性相關性,論文的Authority 值排名與論文被引數排名雖有差異,但總體上論文的Authority 值與論文被引數在衡量論文學術影響力上的變化趨勢是一樣的,并且都滿足齊普夫定律。加權HITS算法因不僅考慮了論文被引次數,還考慮了被引論文質量,相比于論文被引次數指標可以更加全面地評價一篇論文的學術影響力。