ＰａｇｅＲａｎｋ算法在網(wǎng)頁(yè)搜索中的實(shí)現(xiàn)

2009-04-29 00:00:00余潤(rùn)海

考試周刊 2009年24期

摘要：本文首先介紹了Web結(jié)構(gòu)挖掘技術(shù)在Web中的應(yīng)用，其次陳述了Web結(jié)構(gòu)挖掘技術(shù)中的經(jīng)典鏈接分析算法PageRank，最后分析了PageRank在網(wǎng)頁(yè)搜索中具體實(shí)現(xiàn)的方法。

關(guān)鍵詞： Web結(jié)構(gòu)挖掘 PageRank算法網(wǎng)頁(yè)搜索

1.引言

Web是人們獲取信息的重要資源之一，傳統(tǒng)的搜索引擎在技術(shù)上已經(jīng)不適應(yīng)海量的Web資源查詢，為解決Web搜索引擎所存在的問題，人們提出了Web數(shù)據(jù)挖掘概念，并在實(shí)踐中取得了很好的效果。

Web結(jié)構(gòu)挖掘，簡(jiǎn)稱WSM，指通過(guò)分析不同頁(yè)面之間的超鏈接結(jié)構(gòu)，網(wǎng)頁(yè)內(nèi)部的可以用XML、HTML表示成樹形結(jié)構(gòu)，以及文檔URL中的目錄路徑結(jié)構(gòu)等，發(fā)現(xiàn)許多蘊(yùn)涵在Web內(nèi)容之外的、對(duì)我們有潛在價(jià)值的模式和知識(shí)的過(guò)程。

目前WSM主要應(yīng)用有：

*搜索引擎查詢結(jié)果的排序；

*查找相關(guān)文檔；

*計(jì)算Web頁(yè)面Reputation；

*確定某站點(diǎn)的主要內(nèi)容和特征；

*Web Crawler的URL爬行的優(yōu)先順序。

2.WSM的鏈接分析技術(shù)

用戶在Web上使用搜索引擎進(jìn)行信息搜索時(shí)，最關(guān)心的并不是返回結(jié)果的多少，而是檢索結(jié)果是符合自己的需求。許多研究者發(fā)現(xiàn)，Web頁(yè)面的鏈接結(jié)構(gòu)是非常豐富和重要的資源，如果能夠充分利用，可以極大地提高檢索結(jié)果的質(zhì)量。

Web頁(yè)面有三個(gè)重要組成部分：網(wǎng)面內(nèi)容、網(wǎng)頁(yè)所含的超文本標(biāo)記及網(wǎng)頁(yè)間的超鏈接。一般說(shuō)來(lái)，Web文檔中的超鏈接包含了兩種信息：首先，它為用戶提供了瀏覽Web的導(dǎo)航信息，用來(lái)指引訪問者在各頁(yè)面之間跳轉(zhuǎn)；其次，頁(yè)面中的超鏈接往往是文檔作者對(duì)于某一文檔的推薦，被推薦的目的文檔往往與該文檔有相似內(nèi)容而且被作者所認(rèn)同。后者構(gòu)成了鏈接分析的基礎(chǔ)，即某一文檔的重要性不由文檔的內(nèi)容決定，而取決于被其他文檔鏈接（或者引用）的次數(shù)。這種評(píng)價(jià)機(jī)制類似于科學(xué)論文中的參考文獻(xiàn)：被引用次數(shù)多的論文其重要性比引用次數(shù)少的論文要高。在Web檢索中，除了被其他文檔鏈接的次數(shù)外，鏈接源文檔的質(zhì)量也是評(píng)價(jià)被鏈接文檔質(zhì)量的一個(gè)參考因子：被高質(zhì)量文檔鏈接或者推薦的文檔往往具有更高的權(quán)威性。這就是Web結(jié)構(gòu)挖掘中基于超鏈接結(jié)構(gòu)的鏈接分析技術(shù)的理論基礎(chǔ)。

3.獨(dú)立于查詢的算法——PageRank

PageRank算法是Web超鏈接結(jié)構(gòu)分析中最成功的代表之一，是評(píng)價(jià)網(wǎng)頁(yè)權(quán)威性的一種重要工具。搜索引擎Google就是利用該算法和anchor text標(biāo)記、詞頻統(tǒng)計(jì)等因素結(jié)合的方法對(duì)檢索出來(lái)的大量結(jié)果進(jìn)行基于權(quán)威值的排序處理，使最重要的網(wǎng)頁(yè)出現(xiàn)在結(jié)果的最前面。其中，PR值（權(quán)威度）越高的網(wǎng)頁(yè)，在結(jié)果中出現(xiàn)的位置越前。

PageRank的理論基礎(chǔ)是：忽略掉Web頁(yè)面上的文本和其它內(nèi)容，只考慮頁(yè)面間的超鏈接，把Web看成一個(gè)巨大的有向圖。

如果頁(yè)面u包含一個(gè)指向頁(yè)面v的超鏈接，即存在link(u，v)。這里頁(yè)面間的超鏈接構(gòu)成了一個(gè)有向圖G：對(duì)于每個(gè)頁(yè)面構(gòu)成有向圖G的一個(gè)節(jié)點(diǎn)；當(dāng)且僅當(dāng)u中包含指向頁(yè)面v的超鏈接時(shí)，存在著從u到v的有向邊（u，v）。有向圖G如圖1：

對(duì)于節(jié)點(diǎn)v來(lái)說(shuō)，節(jié)點(diǎn)b，c，u對(duì)于v的權(quán)值大小有貢獻(xiàn)，因?yàn)檫@三個(gè)節(jié)點(diǎn)都存在到v的有向邊。指向某一節(jié)點(diǎn)的有向邊越多，其節(jié)點(diǎn)（頁(yè)面）質(zhì)量越高。這種簡(jiǎn)單的算法的主要缺點(diǎn)是僅僅考慮的鏈接數(shù)量——所有的鏈接都是等價(jià)的，而沒有考慮源節(jié)點(diǎn)自身的質(zhì)量即權(quán)值高低。Web中文檔之間超鏈接的情況往往是高質(zhì)量的文檔中包含高質(zhì)量的鏈接，源節(jié)點(diǎn)的質(zhì)量對(duì)于被鏈接文檔質(zhì)量評(píng)價(jià)的作用往往高于數(shù)量上的影響。

為了解決鏈接數(shù)量和源節(jié)點(diǎn)的質(zhì)量問題，Sergey Brin和Lawrence Page提出了PageRank算法：某一Web頁(yè)面的PageRank值等于所有包含指向該頁(yè)面的源文檔的PageRank值與頁(yè)面鏈接總數(shù)之比的和，即：

outlink（j）為網(wǎng)頁(yè)集合j指向所有節(jié)點(diǎn)的超鏈接數(shù)目；

PR（v）為節(jié)點(diǎn)v的權(quán)威度。

PageRank算法的實(shí)現(xiàn)過(guò)程為：將網(wǎng)頁(yè)的URL對(duì)應(yīng)成唯一的整數(shù)，把每一個(gè)超鏈接用其整數(shù)ID存放到索引數(shù)據(jù)庫(kù)中，經(jīng)過(guò)預(yù)處理（如去除數(shù)據(jù)庫(kù)中的懸擺指針）之后，設(shè)每一個(gè)頁(yè)面的PR值為1，通過(guò)以上的遞歸算法計(jì)算每一個(gè)網(wǎng)頁(yè)的PR值，反復(fù)進(jìn)行迭代，直到結(jié)果收斂。

PageRank算法除了對(duì)搜索結(jié)果進(jìn)行排序外，還可以應(yīng)用到其它方面，如估算網(wǎng)絡(luò)流量，向后鏈接的預(yù)測(cè)器，為用戶導(dǎo)航等。

Google是結(jié)合文本的方法來(lái)實(shí)現(xiàn)PageRank算法的，所以只返回包含查詢項(xiàng)的網(wǎng)頁(yè)，然后根據(jù)網(wǎng)頁(yè)的PR值對(duì)搜索到的結(jié)果進(jìn)行排序，把PR值最高的網(wǎng)頁(yè)放置到最前面，但是如果最重要的網(wǎng)頁(yè)不在結(jié)果網(wǎng)頁(yè)集中，PageRank算法就無(wú)能為力了。

4.結(jié)語(yǔ)

在Web結(jié)構(gòu)挖掘中，對(duì)超鏈接的分析算法是重要的研究方向。“權(quán)威性”是鏈接分析算法的對(duì)頁(yè)面進(jìn)行自動(dòng)分析的重點(diǎn)，但目前的算法都是對(duì)不同的鏈接賦予相同的權(quán)重，如何根據(jù)文本內(nèi)容的相關(guān)性，為相應(yīng)的超鏈接賦予不同的權(quán)重，即把Web內(nèi)容挖掘和Web結(jié)構(gòu)挖掘進(jìn)行合理結(jié)合，是一個(gè)值得繼續(xù)深入研究的問題。

參考文獻(xiàn)：

［1］王曉宇，周傲英.萬(wàn)維網(wǎng)的鏈接結(jié)構(gòu)分析及其應(yīng)用綜述［N］.軟件學(xué)報(bào)，2003，14(10)：1768-1780.

［2］宋建康，張禮平.Web結(jié)構(gòu)挖掘算法探討［N］.華東理工大學(xué)學(xué)報(bào)，2003，28(5)：537-540.

［3］曹軍.Google的PageRankWeb技術(shù)剖析［N］.情報(bào)雜志，2002，10：15-18.

［4］WEB超鏈分析算法縱覽.http：//www.reeyee.org/news/20041025214603.htm.

考試周刊2009年24期

考試周刊的其它文章: 開展學(xué)生出題互考活動(dòng)，力求終結(jié)性評(píng)價(jià)過(guò)程化; 點(diǎn)亮生成資源，展現(xiàn)精彩語(yǔ)文; 初中數(shù)學(xué)教學(xué)中的情感教育滲透; 自我效能感理論對(duì)中職英語(yǔ)教學(xué)的啟示; 解析炫耀性消費(fèi)的動(dòng)機(jī); 英語(yǔ)課堂教學(xué)應(yīng)激發(fā)學(xué)生的創(chuàng)造力