搜索引擎頁面排序算法研究綜述

2007-01-01 00:00:00李紹華高文宇

計(jì)算機(jī)應(yīng)用研究 2007年6期

摘要：系統(tǒng)地分析了現(xiàn)有的頁面排序算法，指出了它們各自的優(yōu)勢和存在的不足，并指出不同算法在不同領(lǐng)域和場合所具有的優(yōu)勢。建立專業(yè)搜索引擎是提高搜索準(zhǔn)確性和性能的有效途徑。通過網(wǎng)格技術(shù)將各種專業(yè)搜索引擎集成在一起，形成一個(gè)基于網(wǎng)格的搜索引擎，從而更好地滿足不同背景不同偏好的用戶需求。

關(guān)鍵詞：搜索引擎；頁面排序；鏈接分析

中圖分類號：TP393.09文獻(xiàn)標(biāo)志碼：A

文章編號：1001-3695(2007)06-0004-04

隨著Internet的飛速發(fā)展，其提供的文檔（網(wǎng)頁）也以驚人的速度在增長。有關(guān)的調(diào)查統(tǒng)計(jì)表明，Internet上的網(wǎng)頁每不到一年的時(shí)間就會(huì)增長一倍。要從這么大量的信息庫中提取出有用的信息就越來越依賴于搜索引擎的功能。而網(wǎng)頁的排序則是搜索引擎要解決的關(guān)鍵問題之一。

Sergey Brin等人［1］提出PageRank算法開啟了鏈接分析研究的熱潮。基于鏈接分析的算法，提供了一種衡量網(wǎng)頁質(zhì)量的客觀方法；獨(dú)立于語言，獨(dú)立于內(nèi)容；無需人工干預(yù)就能自動(dòng)發(fā)現(xiàn)Web上的重要資源，挖掘出Web上的重要社區(qū)，自動(dòng)實(shí)現(xiàn)文檔分類。PageRank在Google中的應(yīng)用獲得了巨大的商業(yè)成功。在最初的Google中，首先使用IR（Information Retrieve）算法找到所有與查詢關(guān)鍵字相匹配的網(wǎng)頁；然后根據(jù)頁面因素（標(biāo)題、關(guān)鍵字密度等）進(jìn)行排名；最后通過PageRank得分調(diào)整網(wǎng)站排名結(jié)果。

近幾年來，基于鏈接分析的頁面排序算法一直是一個(gè)熱點(diǎn)問題，學(xué)者提出了許多頁面排序算法。

1 PageRank及其相關(guān)算法

基于鏈接分析的排序算法中，最為著名的就是PageRank。所謂鏈接分析主要基于如下兩個(gè)重要假設(shè)：

①超文本鏈接包含了用戶對一個(gè)網(wǎng)站的判斷信息；

②對一個(gè)網(wǎng)站而言，如果其他網(wǎng)站鏈接到該網(wǎng)站的入鏈數(shù)越多，該網(wǎng)站越重要。

以上假設(shè)在各種基于鏈接分析的算法中均以某種方式體現(xiàn)出來。

1.１ PageRank算法

PageRank算法是最早提出的鏈接分析算法之一，并被Google用于計(jì)算網(wǎng)頁的重要性得分。其基本思想是：如果網(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的鏈接，則表明T的所有者認(rèn)為A比較重要，從而把T的一部分重要性得分賦予A。這個(gè)重要性得分的值則由T的PageRank值PR(T)和T的出鏈（從T鏈出的鏈接）數(shù)C(T) 決定。具體公式為：PR(T) / C(T) 。而對于頁面A，其PageRank值PR(A)的計(jì)算如下：

PR（A）=PR（T1）/C（T1）+…+PR（Tn)/C(Tn)（1）

其中，T1，T2，…， Tn為含有指向A鏈接的頁面。

為了避免Link Sink（許多網(wǎng)頁沒有入鏈或出鏈）問題，對式（1）引入一個(gè)阻尼系數(shù)d，使其變?yōu)楠?/p>

PR（A）=（1-d)+d[PR(T1)/C(T1)+…+PR(Tn)/C(Tn)]（2）

如此經(jīng)過多次迭代，系統(tǒng)的PR值達(dá)到收斂。

PR的計(jì)算公式可以從概率的角度解釋為一個(gè)隨機(jī)網(wǎng)絡(luò)沖浪者隨機(jī)選擇一個(gè)網(wǎng)頁后，不斷地點(diǎn)擊網(wǎng)頁上的鏈接，但是從不返回；除非最后厭煩了才隨機(jī)選擇另一個(gè)頁面。隨機(jī)沖浪者訪問某個(gè)頁面的隨機(jī)概率就是該頁面的PageRank值；阻尼系數(shù)d就是隨機(jī)沖浪者在某個(gè)頁面會(huì)厭煩然后選擇一個(gè)新頁面的概率。頁面的PageRank值越高，則隨機(jī)沖浪者發(fā)現(xiàn)它的概率亦越高。這種思路非常富有創(chuàng)意。一個(gè)網(wǎng)頁的外部鏈接越多，則對網(wǎng)絡(luò)沖浪者來說，發(fā)現(xiàn)它的機(jī)會(huì)也就越大。

文獻(xiàn)［2］結(jié)合近年來Web出現(xiàn)的一些新特性對PageRank提出了一些改進(jìn)措施。文獻(xiàn)［3］中對PageRank算法中的阻尼系數(shù)d進(jìn)行了深入討論，從理論上分析了d的取值不同對于PageRank算法效果的影響。文獻(xiàn)［4］提出了一種方法用于對PageRank中的迭代計(jì)算進(jìn)行加速。

PageRank的一個(gè)優(yōu)勢在于它是一個(gè)與查詢無關(guān)的靜態(tài)算法，因此所有網(wǎng)頁的PageRank值均可以通過離線計(jì)算獲得。這樣有效地減少了在線查詢時(shí)的運(yùn)算量，極大地降低了查詢響應(yīng)時(shí)間。

然而Internet上的內(nèi)容涵蓋了眾多主題，在現(xiàn)實(shí)應(yīng)用中，人們的查詢所希望得到的信息往往是具有某一方面主題特征的，而PageRank僅僅依靠計(jì)算網(wǎng)頁的外部鏈接數(shù)量來決定該網(wǎng)頁的排名，而忽略了頁面的主題相關(guān)性，從而影響了搜索結(jié)果的相關(guān)性和準(zhǔn)確性。

另一方面，PageRank算法對新網(wǎng)頁有很嚴(yán)重的歧視性，因?yàn)橐粋€(gè)新網(wǎng)頁入鏈數(shù)量通常都很少，自然PR值很低。1.２ TopicSensitive PageRank

由于Internet上的內(nèi)容千差萬別，涵蓋眾多不同的領(lǐng)域和主題。同樣一個(gè)查詢?nèi)纭捌嚒保赡苡脩?是想買一臺汽車，他感興趣的是汽車品牌、價(jià)格；而用戶2是想?yún)⒓优c汽車相關(guān)的運(yùn)動(dòng)，他感興趣的是與汽車相關(guān)的運(yùn)動(dòng)項(xiàng)目和賽事。因此要想給用戶返回更為準(zhǔn)確的查詢信息就有必要基于不同的主題來對頁面排序。最初的PageRank算法中是沒有考慮主題相關(guān)因素的。主題敏感PageRank算法（TopicSensitive PageRank，TSPR）［5］正是在這種背景下提出來的。

TSPR核心思想就是通過離線計(jì)算，計(jì)算出一個(gè)PageRank向量集合（在PageRank算法中，僅計(jì)算一個(gè)PageRank向量），該集合中的每一個(gè)向量與某一主題相關(guān)，即計(jì)算某個(gè)頁面關(guān)于不同主題的得分。例如某個(gè)網(wǎng)頁在教育這個(gè)主題的得分為a，在體育這個(gè)主題的得分為b，……。

具體來說，TSPR也可分為兩個(gè)主要階段：

（1）主題相關(guān)的PageRank向量集合的計(jì)算。

先將所有頁面的內(nèi)容劃分為16個(gè)主題，根據(jù)Crawler搜集來的網(wǎng)頁，計(jì)算該網(wǎng)頁在不同主題的得分情況，即不同的PageRank向量。

（2）在線查詢，主題的確定。

根據(jù)用戶的查詢請求和相關(guān)Context判斷用戶查詢相關(guān)的主題（即用戶的興趣取向），從而提高返回結(jié)果的準(zhǔn)確性無疑是一種有效的方法。

遺憾的是TSPR并沒有利用主題的相關(guān)性來提高鏈接得分的準(zhǔn)確性。事實(shí)上對于網(wǎng)頁類別的劃分可以更有效地計(jì)算鏈接的價(jià)值和權(quán)威性。例如評閱論文時(shí)，經(jīng)常需要填寫對相關(guān)領(lǐng)域的熟悉程度。也就是說，評閱者對論文所屬的領(lǐng)域越熟悉，則評閱者所給出的評分越可信，從而在最后的計(jì)算中擁有更高的權(quán)重。

對于網(wǎng)頁之間的鏈接分析與上述論文評閱的例子類似。可以把網(wǎng)頁A指向網(wǎng)頁B的鏈接視為A對B的評分；若A與B的內(nèi)容是相近的，則A的評分更為可信。例如一個(gè)教育相關(guān)的網(wǎng)站A指向另一個(gè)教育相關(guān)的網(wǎng)站B，較一個(gè)娛樂相關(guān)的網(wǎng)站C指向教育相關(guān)的網(wǎng)站B更為權(quán)威、可信。

因此，可以將上述思想應(yīng)用到PageRank的PR值計(jì)算中。這將在今后的研究工作中作進(jìn)一步的考慮。

1.3 Hilltop

Hilltop［6］算法的指導(dǎo)思想與PageRank是一致的，即通過鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。與PageRank不同的是，在Hilltop中僅考慮那些專家頁面（Export Sources），即專門用于引導(dǎo)人們?yōu)g覽資源的頁面。Hilltop在收到一個(gè)查詢請求時(shí)，首先根據(jù)查詢的主題計(jì)算出一列相關(guān)性最強(qiáng)的專家頁面，然后根據(jù)指向目標(biāo)頁面的非從屬專家頁面的數(shù)量和相關(guān)性來對目標(biāo)頁面進(jìn)行排序。目標(biāo)頁面的排序得分反映了與查詢主題相關(guān)的最好的獨(dú)立專家頁面的集體意見。若在此過程中，Hilltop無法得到一個(gè)足夠大的專家頁面集合，則返回空值。

Hilltop算法主要包含兩個(gè)步驟：

（1）專家頁面搜索。

所謂專家頁面就是關(guān)于某個(gè)主題的包含著很多非從屬頁面鏈接的網(wǎng)頁。非從屬頁面是指兩個(gè)頁面分別屬于兩個(gè)來自非從屬組織的作者。在預(yù)處理階段，由搜索引擎的Crawler搜集來的網(wǎng)頁的一個(gè)子集被辨識為專家頁面集。

辨識專家頁面的關(guān)鍵主要有：

①剔除從屬頁面；

②選擇專家頁面（OutLink大于閾值k）；

③對專家頁面進(jìn)行索引。

當(dāng)收到一個(gè)查詢時(shí)，從專家頁面集中挑選出與查詢主題相關(guān)的專家頁面子集。

（2）目標(biāo)頁面排序。

Hilltop算法認(rèn)為“一個(gè)目標(biāo)頁面在某個(gè)查詢主題是權(quán)威的當(dāng)且僅當(dāng)有一些與該查詢主題相關(guān)的最好的專家頁面指向該目標(biāo)頁面。”

然而，Hilltop在應(yīng)用中還存在如下一些問題：

專家頁面的搜索和確定對算法起關(guān)鍵作用，專家頁面的質(zhì)量決定了算法的準(zhǔn)確性；而專家頁面的質(zhì)量和公平性在一定程度上難以保證。同時(shí)Hilltop忽略了大多數(shù)非專家頁面的影響。在Hilltop的原型系統(tǒng)中，專家頁面只占到整個(gè)頁面的1.79%（2.5~140 M），在一定程度上并不能很好地反映整個(gè)Internet的民意。

Hilltop算法在無法得到足夠的專家頁面子集時(shí)（小于兩個(gè)專家頁面），返回為空，即Hilltop適合于對查詢排序進(jìn)行求精，而不能覆蓋。這意味著Hilltop可以與某個(gè)頁面排序算法結(jié)合，提高精度，而不適合作為一個(gè)獨(dú)立的頁面排序算法。

Hilltop中根據(jù)查詢主題從專家頁面集合中選取與主題相關(guān)的子集也是在線運(yùn)行的，這與前面提到的HITS算法一樣會(huì)影響查詢響應(yīng)時(shí)間。隨著專家頁面集合的增大，算法的可伸縮性存在不足之處。

2 HITS及其相關(guān)算法

2.1 HITS算法

HITS（HypertextInduced Topic Search）算法是Kleinberg［7］提出的。它是IBM Almaden Research Center的“CLEVER”研究項(xiàng)目的一部分。

對于每個(gè)頁面P，HITS算法計(jì)算兩個(gè)值，即Authority和Hub。Authority和Hub之間滿足如下關(guān)系：對于Authority，如果有越多具有好Hub的頁面指向P，P的Authority值就越大；對于Hub，如果P指向越多具有好Authority的頁面，P的Hub值就越大。對整個(gè)Web集合而言，Authority和Hub是相互依賴、相互加強(qiáng)的關(guān)系。Authority和Hub之間相互優(yōu)化的關(guān)系，即為HITS算法的基礎(chǔ)。

在HITS算法中，將查詢q提交給傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎。搜索引擎返回很多網(wǎng)頁，從中取前n個(gè)網(wǎng)頁作為根集(Root Set)，用S表示。S滿足三個(gè)條件：

①S中網(wǎng)頁數(shù)量相對較小；

②S中網(wǎng)頁大多數(shù)是與查詢q相關(guān)的網(wǎng)頁；

③S中網(wǎng)頁包含較多的權(quán)威網(wǎng)頁。

通過向S中加入被S引用的網(wǎng)頁和引用S的網(wǎng)頁，將S擴(kuò)展成一個(gè)更大的集合T。

以T中的Hub網(wǎng)頁為頂點(diǎn)集V1，以權(quán)威網(wǎng)頁為頂點(diǎn)集V2，V1中的網(wǎng)頁到V2中的網(wǎng)頁的超鏈接為邊集E，形成一個(gè)二分有向圖SG=(V1，V2，E)。對V1中的任一個(gè)頂點(diǎn)v，用h(v)表示網(wǎng)頁v的Hub值；對V2中的頂點(diǎn)u，用a(u)表示網(wǎng)頁的Authority值。開始時(shí)h(v)=a(u)=1，對u執(zhí)行I操作修改其a(u)，對v執(zhí)行O操作修改其h(v)；然后規(guī)范化a(u)、h(v)；如此不斷重復(fù)計(jì)算下面的操作I、O，直到a(u)、h(v)收斂。HITS算法輸出一組具有較大Hub值的網(wǎng)頁和具有較大權(quán)威值的網(wǎng)頁。

實(shí)驗(yàn)數(shù)據(jù)表明， HITS的排名準(zhǔn)確性要比PageRank高。但是HITS最大的問題在于它是一個(gè)依賴于查詢關(guān)鍵字的算法，在線運(yùn)算量大，極大地影響了算法的可伸縮性，從而難以應(yīng)用于大規(guī)模的網(wǎng)頁數(shù)據(jù)集。

HITS算法還存在著主題漂移問題，即緊密鏈接TKC（TightlyKnit Community Effect）現(xiàn)象。如果在集合T中有少數(shù)與查詢主題無關(guān)的網(wǎng)頁，但是緊密鏈接的，HITS算法的結(jié)果可能就是這些網(wǎng)頁。因?yàn)镠ITS只能發(fā)現(xiàn)主社區(qū)，偏離了原來的查詢主題。

用HITS進(jìn)行窄主題查詢時(shí)，可能產(chǎn)生主題泛化問題，即擴(kuò)展以后引入了比原來主題更重要的新主題，新主題可能與原始查詢無關(guān)。泛化的原因是因?yàn)榫W(wǎng)頁中包含不同主題的向外鏈接，而且新主題的鏈接更加具有重要性。

針對HITS的這些問題提出了許多改進(jìn)算法，如SALSA［8］、BFS［9］、PHITS［10］等。

2.2 SALSA

PageRank算法是基于用戶隨機(jī)的向前瀏覽網(wǎng)頁的直覺知識，HITS算法考慮的是Authority網(wǎng)頁和Hub網(wǎng)頁之間的加強(qiáng)關(guān)系。實(shí)際應(yīng)用中，用戶大多數(shù)情況下是向前瀏覽網(wǎng)頁，但是很多時(shí)候也會(huì)回退瀏覽網(wǎng)頁。基于上述直覺知識，R.Lempel和S.Moran提出了SALSA（Stochastic Approach for LinkStructure Analysis）算法。該算法考慮了用戶回退瀏覽網(wǎng)頁的情況，保留了PageRank的隨機(jī)漫游和HITS中把網(wǎng)頁分為Authority和Hub的思想，取消了Authority與Hub之間的相互加強(qiáng)關(guān)系。

具體算法如下：

（1）與HITS算法的第一步一樣，得到根集并且擴(kuò)展為網(wǎng)頁集合T，并除去孤立節(jié)點(diǎn)。

（2）從集合T構(gòu)造無向圖G′=(Vh，Va，E)：

（3）定義兩條馬爾可夫鏈的變化矩陣，也是隨機(jī)矩陣，分別是Hub矩陣H和Authority矩陣A。

（4）求出矩陣H和A的主特征向量，得到對應(yīng)的馬爾可夫鏈的靜態(tài)分布。

（5）A中值大者對應(yīng)的網(wǎng)頁就是所要找的重要網(wǎng)頁。

SALSA算法沒有HITS中相互加強(qiáng)的迭代過程，計(jì)算量遠(yuǎn)小于HITS。SALSA算法只考慮直接相鄰的網(wǎng)頁對自身AH的影響；而HITS是計(jì)算整個(gè)網(wǎng)頁集合T對自身AH的影響。

試驗(yàn)結(jié)果表明，HITS算法結(jié)果集中于主題的某個(gè)方面。而SALSA算法的結(jié)果覆蓋了多個(gè)方面，也就是說，對于TKC現(xiàn)象，SALSA算法比HITS算法有更高的健壯性。

2.3 BFS

SALSA算法計(jì)算網(wǎng)頁的Authority值時(shí)，只考慮網(wǎng)頁在直接相鄰網(wǎng)頁集中的受歡迎程度，忽略了其他網(wǎng)頁對它的影響。HITS算法考慮的是整個(gè)圖的結(jié)構(gòu)，特別地，經(jīng)過n步以后，網(wǎng)頁i的Authority的權(quán)重是｜BFn(i)｜/｜BFn｜。BFn(i)為離開網(wǎng)頁i的(BF)n的路徑數(shù)目，即網(wǎng)頁j<>i，對i的權(quán)值貢獻(xiàn)等于從i到j(luò)的(BF)n路徑數(shù)量。如果從i到j(luò)包含有一個(gè)回路，那么j對i的貢獻(xiàn)將會(huì)呈指數(shù)級增加，這并不是算法所希望的，因?yàn)榛芈房赡懿皇桥c查詢相關(guān)的。

Allan Borodin等人提出了BFS（Backward Forward Step）算法，既是SALSA的擴(kuò)展情況，也是HITS的限制情況。其基本思想是，SALSA只考慮直接相鄰網(wǎng)頁的影響，BFS擴(kuò)展到考慮路徑長度為n的相鄰網(wǎng)頁的影響。在BFS中，BFn(i)被指定表示能通過(BF)n路徑到達(dá)i的節(jié)點(diǎn)集合，這樣j對i的貢獻(xiàn)就依賴于j到i的距離。BFS采用指數(shù)級降低權(quán)值的方式，節(jié)點(diǎn)i的權(quán)值計(jì)算如下：

2.4 PHITS

D.Cohn and H.Chang提出了計(jì)算Hub和Authority的統(tǒng)計(jì)算法PHITS（Probabilistic Analogue of the HITS）。他們提出了一個(gè)概率模型。在這個(gè)模型中，一個(gè)潛在的因子或主題z影響了文檔d到c的一個(gè)鏈接。PHITS算法進(jìn)一步假定，給定因子z，文檔c的條件分布P(c｜z)存在，并且給定文檔d，因子z的條件分布P(z｜d)也存在。

PHITS算法使用Dempster等人［11］提出的EM算法分配未知的條件概率，使得L最大化，即最好地解釋了網(wǎng)頁之間的鏈接關(guān)系。算法要求因子z的數(shù)目事先給定。Allan Borodin等人［9］指出，PHITS中使用的EM算法可能會(huì)收斂于局部最大化，而不是真正的全局最大化。D. Cohn等人［12］還提出了結(jié)合文檔內(nèi)容和超鏈接的概率模型。

3 頁面排序算法的一些新觀點(diǎn)

3.1 Link Fusion

鑒于目前大多數(shù)頁面排序算法只分析包含在Web頁面中的鏈接，文獻(xiàn)［13］提出了Link Fusion頁面排序算法。在該算法中，將鏈接分為兩類：①Intratype Links。用于表示同一數(shù)據(jù)空間中的數(shù)據(jù)對象關(guān)系，多指包含在Web頁面中的鏈接。②Intertype Links。用于表示不同數(shù)據(jù)空間中數(shù)據(jù)對象之間的關(guān)系，多指用戶、查詢條件與Web頁面之間的關(guān)系。在鏈接分析中，同時(shí)考慮了Intratype Link和Intertype Link的影響。

具體來說，用戶和他們提交的查詢條件以及用戶瀏覽的Web頁面分別代表三個(gè)數(shù)據(jù)空間。當(dāng)用戶提交查詢請求時(shí)、用戶瀏覽Web頁面時(shí)、一個(gè)查詢參考其他Web頁面時(shí)，這三個(gè)不同的數(shù)據(jù)空間便被聯(lián)系起來。三種操作（Submit、Browse、Refe￣rence）包含了這三個(gè)不同數(shù)據(jù)空間之間的Intertype Link。因此在進(jìn)行頁面排序時(shí)，應(yīng)該不僅僅考慮Intratype Link，還要考慮瀏覽Web頁面的用戶以及參考這些Web頁面的查詢請求。

3.2 確定用戶的特性和目標(biāo)——CubeSVD

為了提高用戶查詢結(jié)果的準(zhǔn)確性，一些算法通過用戶的查詢?nèi)罩荆≦uery Log）來確定用戶的偏好，進(jìn)而找出用戶的目的。這是非常有效的方法。例如前面提到的TSPR就是希望確定用戶的主題，從而能更準(zhǔn)確地返回查詢結(jié)果。在文獻(xiàn)［14］中，提出了一種新的用于確定用戶目標(biāo)的方法——Userclick Behavior。它是利用用戶點(diǎn)擊數(shù)據(jù)（Clickthrough）來提高搜索引擎的效果。一個(gè)搜索引擎每天都要接受大量的查詢請求，將用戶提交的查詢請求以及用戶所點(diǎn)擊的查詢結(jié)果頁面記錄下來，然后通過對這些Clickthrough數(shù)據(jù)的分析，獲得用戶的興趣以及用戶定位信息資源的模式，從而更準(zhǔn)確地執(zhí)行用戶的查詢請求。

4 結(jié)束語

Internet上信息量的爆炸式增長使得人們越來越依賴于搜索引擎獲取所需的信息。雖然目前的商用搜索引擎獲得了巨大的成功，但其中還有許多方面可以進(jìn)一步完善。本文通過對現(xiàn)有搜索引擎頁面排序算法的分析，希望為今后的工作提供一些基礎(chǔ)性支持。

ATT香農(nóng)實(shí)驗(yàn)室的Brian Amento指出，用權(quán)威性來評價(jià)網(wǎng)頁的質(zhì)量與人類專家評價(jià)的結(jié)果是一致的，并且各種鏈接分析算法的結(jié)果在大多數(shù)情況下差別很小［15］。通過前面對現(xiàn)有頁面排序算法的分析也可以看出，不同算法在不同領(lǐng)域和場合有各自的優(yōu)勢。對Internet來說，頁面有著眾多不同的主題（領(lǐng)域），用戶有著各種各樣的背景和偏好，因此難以用一種頁面排序技術(shù)來滿足所有的需求。今后對于搜索引擎的研究可以著眼于建立一些專業(yè)搜索引擎，即針對不同應(yīng)用場合和應(yīng)用領(lǐng)域建立不同用途的專業(yè)搜索引擎；然后利用網(wǎng)格技術(shù)，建立基于網(wǎng)格的搜索引擎體系結(jié)構(gòu)，將各種不同的專業(yè)搜索引擎聯(lián)合起來，結(jié)合對用戶背景和偏好的自動(dòng)分析，自動(dòng)引用不同的專業(yè)搜索引擎，從而為用戶提供更為精確的搜索結(jié)果。

本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。

計(jì)算機(jī)應(yīng)用研究2007年6期

計(jì)算機(jī)應(yīng)用研究的其它文章: 具有變結(jié)構(gòu)控制器的無定標(biāo)視覺伺服; 粗糙集理論在網(wǎng)絡(luò)攻擊效果評估中的應(yīng)用研究; ＷＲＦ數(shù)值氣象預(yù)報(bào)模式系統(tǒng)在深騰６８００上的移植與測試; 地質(zhì)結(jié)構(gòu)三維建模及其可視化方法研究; 基于ＸＡＣＭＬ的Ｗｅｂ服務(wù)訪問控制模型; 網(wǎng)絡(luò)視頻監(jiān)控系統(tǒng)管理平臺的設(shè)計(jì)