999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網頁排名的其他鏈接方法的研究

2016-09-14 09:17:36張家健趙冰
電子設計工程 2016年2期
關鍵詞:搜索引擎模型

張家健,趙冰

(河海大學 商學院,江蘇 南京 211100)

基于網頁排名的其他鏈接方法的研究

張家健,趙冰

(河海大學 商學院,江蘇 南京211100)

目前針對主要的排名算法PageRank和HITS的研究與應用較廣泛,同時,其它排名算法也逐漸得到了研究者的重視。文中將對其它排名算法中的SALSA和TrafficRank進行研究。文中首先對布爾搜索引擎、向量空間模型引擎、概率模型搜索引擎、元搜索引擎等基本搜索引擎模型進行綜述,總結各基本搜索引擎模型的特征和優缺點。其次對SALSA和TrafficRank的算法進行分析,總結出兩種排名算法的特征和優缺點。

布爾搜索引擎;向量空間模型引擎;概率模型搜索引擎;元搜索引擎;SALSA;TrafficRank

蒂姆·伯納斯-李和他的萬維網于1989年進入了信息檢索的世界,記錄網絡信息檢索的鏈接分析方法是包括谷歌使用的PageRank和Teoma使用的HITS在內的現今最為流行且成功的多個搜索引擎的底層機制。截至2004年1月,萬維網包含了超過100億個頁面。如何準確并快速地在巨量的信息世界中尋找到對自己有價值的內容?當然這離不開搜索引擎,影響搜索引擎有效性的因素有許多,但從根本上說,關鍵在于搜索引擎自身的鏈接算法設計。

1 基本模型

網絡信息檢索是在世界上最大且相互鏈接的文檔集中進行的搜索,大多數搜索引擎依賴于以下基本模型中的一種或者多種:

1)布爾搜索引擎

信息檢索的布爾模型是最早最簡單的檢索方法之一,它使用嚴格匹配來將文檔與用戶的查詢進行比對。該模型經過改良的派生方法為大多數圖書館所使用。信息檢索的布爾模型工作原理是考察在文檔中有哪些關鍵詞出現了或未曾出現,并據此判定文檔與檢索相關或無關[1]。但是標準的布爾引擎無法返回那些語義相關但關鍵詞未被包括在原始查詢中的文檔。許多布爾搜索引擎要求用戶熟悉布爾運算符以及引擎的特殊語法。布爾模型的各種變體構成了許多搜索引擎的基礎,其優點包括:建立并編寫布爾引擎是直接的;查詢處理迅速,可以采用并行方式對文檔的關鍵詞文件進行快速掃描;布爾模型可以很好地擴展到大的文檔集[2]。

2)向量空間模型引擎

該模型中,向量空間模型被用于避開前述的若干信息檢索難題[3]。向量空間模型將文本數據變換為數值向量和矩陣,使用矩陣分析方法來發現文檔集之中的關鍵特征和聯系。一些高級向量空間模型能夠訪問文檔集中隱含的語義結構[4]。該模型的優點包括:①相關性評分:通過給每個文檔賦予一個0到1之間的數,向量空間模型允許進行文檔的部分匹配查詢。該數值可以被解釋為文檔與查詢之間的相關似然度。進而檢索到的文檔集可以根據相關程度進行排序。按照這一方式,向量空間模型以有序的列表返回結果文檔,按照相關性的分數排序,返回的第一個文檔被認為是與用戶查詢最為相關者,一些向量空間搜索引擎以相似度比例的形式給出相關性的評分。該模型的缺點為:必須計算每個文檔和查詢之間的距離度量,隨著文檔集的增大,矩陣分解的開銷將使模型不再具有可行性[5];向量空間模型無法很好地擴展,它僅局限于小文檔集。

3)概率模型搜索引擎

概率模型試圖對用戶找到某個特定相關文檔的概率進行估計,檢索得到的文檔根據它們的相關幾率進行排名。概率模型以遞歸的方式運行,并要求算法能夠猜測得到初始參數,進而逐次嘗試改善這一初始猜測,以得到最終的相關幾率的排位[6]。概率模型的缺點為:構建和編程難度較大,因此限制了其擴展性。同時該模型要求做出若干不現實的假設。該模型的優點在于概率框架可以自然地納入先驗偏好,可以做到針對單個用戶的偏好調整搜索結果。

4)元搜索引擎

該模型將以上3種模型相結合,其工作原理是用一個搜索引擎來搜索可以完成任務時,用兩個或以上搜索引擎搜索的效果更顯著。一個搜索引擎可能在某個任務上十分出色,而第二個搜索引擎則可能在另一項任務上表現好于第一個搜索引擎。元搜索引擎可以充分利用許多單獨的搜索引擎各自具有的最佳特性,可以同時將一個查詢發送至數個搜索引擎,并將所有這些搜索引擎的結果以一個統一的列表返回。元搜索引擎可以應用于某個特定學科內的搜索[7]。

加快農業產業化發展。支持具有比較優勢的龍頭企業建設現代農業精深加工項目,建立示范性生產基地,大力培育省級農業產業化集群。鼓勵農民專業合作社發展農產品加工、銷售,拓展合作領域和服務內容,積極發展訂單性農產品生產、加工、配送。

2 SALSA

2.1SALSA示例

1998年開始,人們利用PageRank或HITS對網頁的受歡迎程度進行排名。2000年,SALSA方法也被應用于這一領域[8]。SALSA(Stochastic Approach to Link Structure Anatysis)是由羅尼·倫佩爾和什洛莫·莫蘭發明的一種網頁排名方法,該算法采用了HITS的評分方法,為網頁生成了樞紐和權威評分;同時結合了PageRank的導出方式,評分由馬爾可夫鏈導出。

1)SALSA示例

首先為某個特定查詢產生一個對應的領域圖N,如圖1所示:

圖1 頁面1和6的領域圖NFig.1 Page 1 and 6 field figure N

SALSA和HITS的區別在于,SALSA并不構造領域圖N的領接矩陣L,而是構建了一個二分無向圖G。其中G由三個集合給出:樞紐結點集合Vh(N中所有出度>0的結點)、權威結點集合Va(N中所有入度>0的結點)和N中有向邊的集合E,N中的某個結點可能同時出現在Vh和Va中。因此,對于上述領域圖可得:

如圖2所示,二分無向圖G中有一個樞紐側和一個權威側。Vh中的結點列在樞紐側,Va中的結點列在權威側。E中的每條有向邊由G中的一條無向邊所表示。

圖2 G:SALSA的二分圖Fig.2 G:binary chart of SALSA

由此,G可以得出兩條馬爾可夫鏈:一條樞紐馬爾可夫鏈,轉移概率矩陣為H;一條權威馬爾可夫鏈,轉移概率矩陣為A。HITS使用了N的鄰接矩陣L以計算未加權矩陣L的權威和樞紐評分,PageRank使用行歸一化的加權矩陣G以計算類似于權威評分的度量。SALSA則同時使用了行加權和列加權的非零列除以其列和后所得的矩陣。進而計算領域圖N可得:

由此得出的SALSA樞紐矩陣和權威矩陣為:

如果二分圖G是聯通的,那么H和A就均為不可約的馬爾可夫鏈,而H的穩態向量可以給出查詢關于領域圖N的樞紐評分,則可以給出權威評分;如果G不連通,那么H和A各自包含若干個不可約的組分,此時需要通過將每個單獨的不可約部分的穩態向量拼接以得到全局的樞紐和權威評分。對于更大的圖,不能通過簡單地觀察來了解聯通性時,那么也已經有圖的遍歷算法,可以判斷圖的連通性并識別其聯通組分[9]。由于G不連通,因此H和A中包含了多個聯通組分,H包含了兩個聯通組分,即C={2},和D={1,3,6,10};A的聯通組分為E={1}和F={3,5,6}。H和 A中所有不可約組分均包含了自循環,即以上的鏈均是非周期的。H的兩個不可約組分的穩態向為:

而A的兩個不可約組分的穩態向量為:

既然樞紐組分C僅包含了所有5個樞紐結點中的1個,那么其穩態樞紐向量的權值為1/5,而D包含了5個樞紐結點中的4個,其穩態向量的權值為4/5。因此,全局的樞紐向量為:

對權威結點進行加權,可由單獨的權威向量構成出全局權威向量:

有上述示例可以可出如下結論:1)SALSA是將獨立部分的評分加以拼接以構成全局評分的一種方法;2)多個聯通組分對于計算是個優點,因為現在有待求解的馬爾代夫鏈較小。這與PageRank對不連通網絡圖進行的人工調整形成對比,PageRank中的調整需要通過在所有的網頁間增加有向鏈接以使聯通性成立。

2.2SALSA優缺點分析

SALSA將HITS和PageRank的特點進行了結合,因此,SALSA具有的優點包括:不存在主題漂移問題,即跑題的重要頁面會混進領域集并由此獲得了位居前列的評分;因為樞紐和權威評分之間的耦合相對較弱,SALSA受垃圾信息影響的程度較低;SALSA的二分圖G中存在的、實際中常常會出現的多個聯通組分,對于計算而言非常有利。

但是SALSA也存在阻礙其廣泛使用的因素,即其查詢相關性。在查詢期間,必須構建查詢的領域圖N并計算兩條馬爾可夫鏈的穩態向量;SALSA的另一個缺陷是收斂性。SALSA的收斂性和HITS相似,原始形式的HITS和SALSA都不能強行使得圖具有不可約性,因此當領域圖可約時,算法給出的向量可能不唯一[10]。

3 TrafficRank

排名算法在為網絡信息檢索提供幫助時具有較高的有效性,很多新的算法都是基于PageRank、HITS、SALSA3種方法的改進或組合[11]。而TrafficRank則是一種原創性的新的排名算法。

令Pij為由頁面i到頁面j的鏈接上的流量占總網絡流量的比例。如果沒有從i到j的超鏈接,則Pij=0。Pij的這一定義意味著,對萬維網中的每條超鏈接對對應著一個變量。對這些Pij的值進行估計,然后將進入頁面j的流量比例作為頁面j的TrafficRank值。變量Pij必須滿足某些約束:;對任何頁面j,有;Pij可以任意取值。因此,TrafficRank模型中的Pij值:,滿足對所有j,

這個熵函數對選擇Pij的自由度進行了最大化,在以上約束條件下,對這些概率的最佳無偏估計。進而求解這個最優化問題來獲得Pij,并給出每個頁面的TrafficRank值。利用拉格朗日乘子對最優化問題中的多個變量進行快速迭代計算,高的 TrafficRank值傾向于對應具有許多出鏈的情況。TrafficRank衡量了流經一個頁面的流量,而大量的流量需要大量的入鏈和出鏈。

TrafficRank的優點為:當等多的流量信息變得可用時,可以用約束的形式將這些信息加入到模型中;對于該最優化問題的對偶解,將原始解的拉格朗日乘子取倒數,會得到每個網頁的HotRank。

4 結 論

網頁排名的鏈接算法在為網絡信息檢索提供幫助的這一方面已經展現了有效性,但是無論是SALSA、TrafficRank、HITS或是PageRank,目前的研究都還不盡完善。由于不同算法給出的排名前K位的網頁列表彼此之間存在明顯差別,因此未來的研究工作可以將多個相互獨立的評分算法的結果加以融合。

[1]Ricardo Baeza-Yates and Berthier Ribeiro-Neto.Modern Information Retrieval[C]//.ACM Press,New York,1999: 1217-1264.

[2]William B.Frakes and ricardo Baeza-Yates.Information Retrieval:Data structures and algorithms[C]//Prentice Hall,Englewood Cliffs,NJ,1992:381-419.

[3]Gerard Salton and Chris Buckley.Introduction to Modern Information Retrieval[M].McGraw-Hill,New York,1983.

[4]Susan T.Dumais.Improving the retrieval of information from external sources[C]//.Behavior Research Methods,Instruments and Computers,1991.

[5]Carl D.Meyer.Matrix Analysis and Applied Linear Algebra [C]//.SIAM,Philadelphia,2000.

[6]Michael W.Berry and Murray Browne.Understanding search engines:mathematical modeling and text retrieval[J].SIAM,Philadelphia,2an edition,2005:78-93.

[7]Paolo Boldi and Sebastiano Vigna.The WebGraph framework II.Codes for the World Wide Web[C]//.Technical Report 286-03,Universita di Milano,Dipartimento diScienze dell’Informazione Engineering,2003.

[8]Ronny Lempel and Shlomo Moran.The stochastic approach for link-structure analysis and the TKC effect.In The Ninth International World Wide Web Conference[C]//.New York,2000.ACM Press,2000:161-226.

[9]Thomas H.Cormen,Charles E.Leiserson,Ronald L.Rivest,and Clifford Stein.Introduction to Algorithms[C]//.MIT Press,2001(11):278-296.

[10]Ayman Farahat,Thomas Lofaro etc.Authority rankings from HITS,PageRank,and SALSA:Existence,uniqueness,and effect of initialization[J].SIAM Journal on Scientific Computing,2006 (27):1181-213.

[11]Matthew Richardson and Petro Domingos.The intelligent surfer:Probabilisticcombinationoflinkandcontent information in PageRank[J].Advances in Neural Information Processing Systems,2002(14):1398-1399.

The research of other links method based on page rank

ZHANG Jia-jian,ZHAO Bing
(Business School of HOHAI University,Nanjing 211100,China)

There are a lot of PageRank and HITS against the main ranking algorithm study.At the same time,other ranking algorithms also gradually got the attention of the researchers.This paper will study of SALSA and TrafficRank.This paper summarizes the basic characteristics and advantages and disadvantages of search engine model,including the Boolean search engine,vector space model engines,search engines,metasearch engines.Finally,this paper analyzes the algorithm of the SALSA and TrafficRank,summed up the characteristics and advantages and disadvantages of these two kinds of ranking algorithm.

Boolean search engine;vector space model engines;search engines;metasearch engines;SALSA;TrafficRank

TN99

A

1674-6236(2016)02-0128-04

2015-03-31稿件編號:201503473

江蘇省社科聯研究基金(201035)

張家健(1987—),男,江蘇南京人,碩士。研究方向:企業管理、技術經濟。

猜你喜歡
搜索引擎模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
主站蜘蛛池模板: 97视频免费在线观看| 国产福利在线免费| 精品国产香蕉在线播出| 国产精品视频999| 青青草综合网| 国产亚洲精久久久久久久91| jizz国产视频| 免费人成视网站在线不卡| 亚洲av无码成人专区| 欧美.成人.综合在线| 少妇被粗大的猛烈进出免费视频| 免费a在线观看播放| 91探花国产综合在线精品| 久久网欧美| 天天综合网色中文字幕| 亚洲国产AV无码综合原创| 欧美国产综合色视频| 理论片一区| 欧美综合区自拍亚洲综合天堂| a在线观看免费| 亚洲欧美色中文字幕| 久久人搡人人玩人妻精品| 免费99精品国产自在现线| 露脸国产精品自产在线播| 日本免费一区视频| 亚洲人网站| 999国产精品| 青青青国产在线播放| 欧美五月婷婷| 久久夜色精品国产嚕嚕亚洲av| 国产精品亚洲а∨天堂免下载| 国产凹凸一区在线观看视频| 婷婷色一区二区三区| 无码人中文字幕| 国产在线视频自拍| 波多野结衣一区二区三区四区视频| 亚洲成人精品久久| 天堂在线亚洲| 亚洲69视频| AV无码一区二区三区四区| 喷潮白浆直流在线播放| 99热精品久久| 免费a级毛片18以上观看精品| 九九热这里只有国产精品| 亚洲欧美激情小说另类| 1024你懂的国产精品| 国产成人AV男人的天堂| 国产麻豆va精品视频| 国产一区二区三区精品久久呦| 国产成人调教在线视频| 99re热精品视频国产免费| 一级毛片无毒不卡直接观看| 亚洲国产午夜精华无码福利| 青草娱乐极品免费视频| 日本精品视频| 中文字幕有乳无码| 久久一色本道亚洲| 九九热在线视频| 亚洲日韩精品无码专区97| 色婷婷亚洲十月十月色天| 久久五月天国产自| 久青草网站| 韩国v欧美v亚洲v日本v| 亚洲国产一区在线观看| 久久中文字幕2021精品| 丁香五月婷婷激情基地| 尤物午夜福利视频| 青青草国产精品久久久久| 久草视频精品| 凹凸国产分类在线观看| 欧美日韩国产成人高清视频| 日韩无码一二三区| 国产玖玖视频| 欧美福利在线观看| 国产成人亚洲欧美激情| 成年人视频一区二区| 亚洲香蕉伊综合在人在线| 国产地址二永久伊甸园| 亚洲人成在线精品| 国产精品jizz在线观看软件| 中文纯内无码H| 毛片免费视频|