張東紅 張冬芳 馬一凡


摘要:隨著學術網絡平臺的文獻數量不斷增長,快速高效的在眾多質量參差不齊的文獻中找到適合自己研究領域的高質量文獻,對學術研究具有重要的意義。文中首先對傳統的PageRank算法的原理、基本思想以及其發展歷程進行分析;然后在對比了鏈接網路與引文網絡的相似性和差異性后提出將鏈接網絡中的PageRank算法應用到引文網絡中;最后對PageRank算法在引文網絡中的應用進行研究分析。研究發現,傳統的PageRank算法存在一些缺陷,引文網絡中需將文獻發表時間和PageRank算法結合,進而衡量文獻的重要性。
關鍵詞:學術網絡平臺;PageRank算法;引文網絡;文獻排名
中圖分類號:TP311? ? 文獻標識碼:A
文章編號:1009-3044(2021)27-0044-03
Abstract: With the continuous growth of the amount of literature on academic network platforms, it is of great significance for academic research to quickly and efficiently find high-quality literature suitable for one's own research field among numerous literatures with uneven quality. Firstly, the principle, basic idea and development process of the traditional PageRank algorithm are analyzed. Then, after comparing the similarity and difference between link network and citation network, the PageRank algorithm in link network is proposed to apply to citation network. Finally, the application of PageRank algorithm in citation network is studied and analyzed. It is found that the traditional PageRank algorithm has some defects. In the citation network, the publication time of literature and PageRank algorithm should be combined to measure the importance of literature.
Key words: academic network platform; PageRank algorithm; citation network; literature ranking
1 引言
當今時代是知識經濟時代,網絡學術平臺成為人們獲取參考文獻的有效途徑。但隨著科學技術的進步,文獻數量激增,對于開展學術研究產生了一定的不良影響。由于學術網絡平臺的文獻數量之龐大,文獻質量參差不齊,想要在大量的數據中找到適合自己研究領域的高質量文獻變得越來越困難,因此對文獻進行有效的排序變得越來越重要。
通常對于文獻的重要性的研究是建立在文獻被引次數上的,但這存在著明顯的缺陷,比如,一般我們認為,最新發表的文章是最具有參考價值的,但由于新發表的文獻被引用的次數較少,就會導致其排名靠后。文中結合文獻被引次數和文獻的發表時間對文獻排名進行研究。
PageRank算法是用來度量網頁重要性的算法,在Google搜索引擎的網頁排名中取得了成功[1]。由于引文網絡和鏈接網絡的網絡構成極為相似,文中將PageRank算法引入到引文網絡中進行研究。
2 PageRank算法概述
2.1 PageRank算法的原理和基本思想
PageRank算法是一種經典的網頁排序算法,它由Google的創始人L.Page和S.Brin提出[2]。PageRank算法用于衡量由搜索引擎構成的Web圖中的每個網頁相對于其他網頁而言的重要程度[3]。
PageRank算法的基本原理:(1)起初,通過鏈接關系將各網頁構建成Web圖,每一個頁面設置相等的PageRank值,通過一次一次的計算,得到每個頁面所獲得的PageRank值,每次計算,頁面的PageRank值都將更新;(2)每一個頁面將其當前的PageRank值平均分配給本頁面包括的出鏈上,每一個頁面將所有指向該頁面的入鏈分配的值求和,進而得到該頁面在本輪計算中的PageRank數值。
PageRank算法的核心觀點是:對于一個網頁來說,通常它會與其他網頁之間存在一定的聯系,比如,我們在其他網頁中可以看到此網頁的相關鏈接,并可以通過該鏈接對網頁進行直接的訪問,PageRank算法恰好利用了這樣的鏈接關系來評價網頁的重要程度[4]。具體來說,被其他網頁鏈接的數量越大,那么這個網頁的重要程度就越高,相應的,我們也就會得到更加大的PageRank數值。同樣的道理,如果能夠被一個非常重要的網頁所鏈接,那么被連接到的網頁的重要性不言而喻,因此,它所對應的PageRank數值也會變大。
下述公式展示了如何去計算PageRank的數值:
其中,PR(pj)表示網頁pj的PageRank值,L(pj)表示網頁pj的出鏈數量,M(pi)表示網頁pi的入鏈網頁集合,N表示網頁的總數量,d表示阻尼系數。圖1為一個簡單的PageRank的計算過程。