摘要:隨著網絡與數據挖掘技術的發展,Web數據挖掘得到了較多的研究。本文從Web結構挖掘的角度出發,在分析了Web結構挖掘技術的基礎上,研究了HITS算法。針對HITS算法的多主題性、無關頁面、無關鏈接等問題,提出了HITS算法改進算法。
關鍵詞:Web結構挖掘;HITS算法;根集向量投影法;基本集縮減法
中圖分類號:TP312文獻標識碼:A文章編號:1009-3044(2008)20-30218-03
Research on the Algorithm of HITS Based on Web Structure Mining
LIU Jun,WANG Xiao-Ling,TANG Quan
(School of Information Science and Engineering,Central South University,Changsha 410083,China)
Abstract:With the development of the internet and the data mining,more and more research work are come out with the Web data mining.From the direction of Web structure mining and on the base of analyzing the technology of Web structure mining, this paper studies the algorithm of HITS.Comes up with the improvement algorithm of the HITS algorithm aim for the multi—subjects of the algorithm of HITS,unrelated pages,irrelevant links and so on.
Key words:Web structure mining;HITS algorithm;Root-set eigenvector projection method;Base-set downsizing method
1 引言
最近幾年,許多研究者發現,WWW上超鏈結構是個非常豐富和重要的資源,如果能夠充分利用的話,可以極大的提高檢索結果的質量?;谶@種超鏈分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法 ,同年J. Kleinberg提出了HITS算法,其它一些學者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。這些算法有的已經在實際的系統中實現和使用,并且取得了良好的效果。
2 Web結構挖掘簡述
Web結構挖掘的目的是發現頁面的結構(文檔內部結構)和Web的結構(文檔間超鏈結構),利用這些結構所蘊涵的信息可以幫助我們發現很多有用的模式或知識。如果兩篇文獻具有同被引(Co-citation)和耦合(Coupling)等關系,則這兩篇文獻具有相互關系或相互聯系。充分利用這些關系,能夠客觀地反映科學活動中許多隱蔽的和深層次的相關關系,顯示出有用的結構[1]。
M.R.Henzinger認為目前的Web超鏈接分析大多基于以下兩條基本假設[2]:
假設1:從Web網頁A指向網頁B的超鏈接是網頁A作者對網頁B的推薦。
假設2:如果一條超鏈接將網頁A和網頁B相互鏈接起來,則網頁A和網頁B可能有共同的主題(Topic)。
基于上面的兩個基本假設,我們還可以引申出以下幾個假設[2-4]:……p>