高 臣,高斐斐,張家健
(1.河海大學(xué) 商學(xué)院,江蘇 南京 210000;2.中國(guó)科學(xué)院 力學(xué)研究所,北京 100190;3.江蘇省郵電規(guī)劃設(shè)計(jì)院有限公司 江蘇南京210000)
基于更新網(wǎng)頁(yè)排名算法的研究
高 臣1,高斐斐2,張家健3
(1.河海大學(xué) 商學(xué)院,江蘇 南京 210000;2.中國(guó)科學(xué)院 力學(xué)研究所,北京 100190;3.江蘇省郵電規(guī)劃設(shè)計(jì)院有限公司 江蘇南京210000)
頁(yè)面內(nèi)容的內(nèi)容評(píng)分與PageRank評(píng)分都需要頻繁更新,以保證提供最新的結(jié)果。基于如何使得更新PageRank向量過程更為容易,并使得更為頻繁的更新成為可能這一問題,本文通過對(duì)更新算法的數(shù)學(xué)內(nèi)容分析,研究更新PageRank向量的問題,通過提出假設(shè)矩陣Qm×m的PageRank向量φT=(φ1,φ2,…,φm),文中立足于通過3種聚合更新算法來利用φT中的值計(jì)算G的更新后的πT,文中分析了近似聚合更新、精確聚合更新、迭代聚合更新的算法,并對(duì)3種更新算法各自的使用條件進(jìn)行分析。
PageRank;近似聚合更新;精確聚合更新;迭代聚合更新
網(wǎng)頁(yè)變化可以是網(wǎng)頁(yè)內(nèi)容的改變或是頁(yè)面出鏈的改變,研究表明,一半以上的網(wǎng)頁(yè)在一周內(nèi)發(fā)生了變化,而近三分之一的.com網(wǎng)頁(yè)每天都在發(fā)生變化[1]。相比于較小的網(wǎng)頁(yè),大型網(wǎng)頁(yè)中的變化則更為頻繁[2]。對(duì)于新增的網(wǎng)頁(yè),內(nèi)容和鏈接的更新可能發(fā)生在以小時(shí)計(jì)算的時(shí)間尺度上[3]。因此,反映頁(yè)面內(nèi)容的內(nèi)容評(píng)分與PageRank評(píng)分都需要頻繁更新,以保證提供最新的結(jié)果。如何使得更新過程更為容易,得到研究者越來越多的重視。
PageRank向量可能發(fā)生兩類更新:1)當(dāng)超鏈接被加入到萬維網(wǎng)中或從萬維網(wǎng)中被刪除時(shí),超鏈接矩陣H的元素發(fā)生改變,而矩陣的大小未變。……