999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web結構挖掘中HITS算法的研究

2018-09-04 09:56:58王月琦
中學教學參考·文綜版 2018年5期
關鍵詞:數據挖掘

王月琦

[摘 要]HITS算法是基于鏈接分析的一種權威資源提取算法。相對于其他Web結構挖掘算法來說,HITS算法優勢非常明顯。針對HITS算法的缺陷,可以使用基本集縮減法對HITS算法進行改進。

[關鍵詞]Web結構挖掘;HITS算法;數據挖掘

[中圖分類號] G633.67 [文獻標識碼] A [文章編號] 1674-6058(2018)15-0036-02

Web擁有海量的信息,為人們提供豐富多樣的信息服務。隨著信息技術的發展和Web信息量的指數級增長,快速準確地從Web網絡中獲取信息變得愈發重要。因此,如何從Web網絡中尋找信息,提取出有價值的內容,已成為當前Web結構挖掘的重要研究課題。用戶不但需要獲取Web頁面,還希望查找的頁面質量高,即為權威頁面。HITS算法是基于鏈接分析的一種權威資源提取算法。而作為Web數據挖掘的重要內容,Web結構挖掘的關鍵在于信息檢索。在Web結構挖掘領域中,鏈接分析的作用非常重要,主要用于分析超鏈接以確定權威信息源。本文研究HITS算法,分析了傳統HITS算法存在的問題,并在此基礎上運用基本集縮減法優化HITS算法,從而實現更有效率的權威網頁檢索。

一、HITS算法基本原理

作為數據提取的典型算法之一,HITS算法的應用和需要檢索的主題有直接關系。HITS算法的基本思想是先提取出Web鏈接結構中用戶需要檢索的相關頁面,組成Web鏈接結構子圖,再運用HITS算法分析計算這個鏈接結構子圖。而Web鏈接主要有以下幾點特征:(1)有些鏈接的作用是廣告或導航,只有具有注釋性的鏈接才能用于判斷權威性。(2)由于商業競爭,指向Web網頁競爭領域的權威網頁的情況很少。(3)一般來說,權威網頁都缺少明顯的描述,如百度搜索主頁不會給出明確的有關Web搜索引擎的描述信息。

由此可見,Web鏈接的實際情況與平均分配權值不相符。因此,HITS算法中加入了網頁的另一種類型,即Hub網頁。指向權威網頁的鏈接都集中在Hub網頁,雖然Hub網頁本身并沒有什么網頁指向它,但Hub網頁提供了指向權威網頁的鏈接集合。如,課程主頁上的參考文獻列表。通常情況下,一個優秀的Hub網頁會同時指向數量眾多的權威網頁,同時一個優秀的權威網頁會有很多Hub網頁指向它,而頁面的Authority就等于指向該頁面的所有Hub的和;頁面的Hub等于它指向的頁面的Authority之和。Hub和Authority網頁之間的關系,可用來自動查找權威網頁和Web結構和資源。這就是HITS算法的基本原理。

二、傳統HITS算法存在的問題

傳統的HITS算法主要存在以下幾個問題:第一,下載、分析網頁包含的鏈接并且排除重復的鏈接需要耗費大量的時間,計算量比PageRank算法大。第二,某些情況下,大量主機A上的網頁會指向另一臺主機B上的某一個特定網頁,從而使主機A上的網頁Hub值和主機B上網頁的Authority增加,反之也一樣。HITS算法假設不同的組織或個人決定某個網頁的權威值,上述的情況對主機A和B上網頁的Hub和Authority值造成影響。第三,網頁中包含的無關鏈接網頁中一些無關的鏈接對Hub和Authority值的計算造成影響。網頁在制作的過程中往往會被加入一些無關鏈接,如廣告、友情鏈接,這些都對HITS算法的精確度有影響。第四,主題漂移是HITS算法存在的最大問題。Web鏈接結構的自組織性,使WWW中主題一樣或相關的頁面通過超鏈接形成一個個緊密鏈接區域。當用戶查詢范圍較寬的定義主題或者多個主題時,鏈接結構子圖會因為多個子主題對應多個信息形成多個相對緊密鏈接區域。而HITS算法屬于迭代算法,因此,緊密鏈接區域的頁面權值必然會增大,從而干擾檢索的精確度,使用戶獲得的結果發生漂移,這種現象叫作主題漂移。第五,運用HITS算法查詢主題時,可能會出現主題泛化的現象,也就是說結果中出現了新的與查詢無關的主題。

三、利用基本集縮減法優化HITS算法

在HITS算法的基本集中含有很多互相之間毫無關聯的網頁,因此,需要對基本集進行精簡。可以通過剔除與根集沒什么關系的網頁,從而有效抑制主題偏移問題,同時大大減少運算量。為了實現這個目的,可以對HITS算法進行優化,以優化基本集的獲取方式,從而獲得新的HITS算法優化方法——基本集縮減法。所謂基本集縮減法,是指通過考慮指向或來自根集中網頁的鏈接數目縮減基本集,再從中提取適當的Web Communities。基本集縮減法的優化對象是傳統HITS算法的第二個步驟:通過向S中加入被S引用的網頁和引用S的網頁,將S擴展成一個更大的集合T。改進的HITS算法第二步驟是:首先加入所有的根集網頁指向的網頁以及最多d個指向根集R中網頁的Web網頁,將根集R的規模擴展至n,構建基本集S,再篩選已建立的基本集S,只選擇指向至少k個根集網頁以及被至少k個根集網頁所鏈向的網頁,從而實現基本集的縮減。由此,可以總結出運用基本集縮減算法提取Authoritiy網頁的基本步驟:(1)在搜索引擎中輸入特定關鍵詞,檢索到的r個等級的結果網頁構成根集Rσ。(2)擴展根集R的規模至n,構建基本集Sσ,加入所有的根集網頁指向的網頁以及最多d個指向根集R中網頁的Web網頁,將根集R的規模擴展至n,構建基本集S,再篩選已建立的基本集S,只選擇指向至少k個根集網頁以及被至少k個根集網頁所鏈向的網頁,從而實現基本集的縮減。(3)用G(Sσ)表示根據基本集Sσ中的網頁鏈接關系推導而來的結構子圖,則G(Sσ)中包含內鏈、外鏈兩種鏈接。所謂外鏈,是指域名不同的Web網頁之間的鏈接,內鏈是指域名相同的網頁之間的鏈接,在實際情況下,只考慮外鏈,而忽略基本集Sσ中的所有內鏈。(4)結合基本集Sσ構造鄰接矩陣矩陣A和轉置矩陣AT,計算其每個特征值及所對應的特征向量,并歸一化。(5)歸一化后的特征向量中將絕對值較大的元素作為authorities返回。基本集的縮減,使得鄰接矩陣階數大為減少,因此,基本集縮減法能夠有效降低特征值的計算量。

基本集縮減下的計算量可以采用以下方式進行預估:從與基本集S對應的一個n*n鄰接矩陣選擇指向多個根集R中元素的網頁,表示從n—r行中選取前r個元素之和大于或等于2的行。因此,可預估其計算量為r(n-r)。同樣的道理,選擇被多個根集網頁指向的網頁需要的計算量是一樣的。運用該方法可以將基本集縮減為原先的一半。考慮到計算關于Web數據挖掘中HITS算法的研究特征向量的計算量為n3,即便加上2r(n-r)的額外計算量,運用基本集縮減法還是可以有效減少計算量。同時基本集縮減法能夠有效抑制主題偏移問題。

綜上所述,HITS算法雖然存在一些問題,但是相對于其他Web結構挖掘算法來說,優勢非常明顯。HITS算法的基本思想以頁面之間的鏈接關系為基礎。本文從Web結構挖掘的本質入手,分析了HITS 算法的基本思想,探討了HITS算法的基本原理。但是由于篇幅限制,無法進一步深入研究其算法,在對HITS算法的研究改進過程中,首先分析傳統HITS算法容易出現的問題,針對主題偏移現象和減少基本集鄰接矩陣特征值和特征向量的計算量,提出使用基本集縮減法對HITS算法進行改進,根據網頁與根集元素之間的鏈接數量進一步提取基本集,使基本集規模進一步縮減,從而使搜索結果更加集中于根集,有效減小計算開銷,從而有效提升HITS算法的計算效率和精確度。

[ 參 考 文 獻 ]

[1] 劉軍.基于Web結構挖掘的HITS算法研究[D].長沙:中南大學, 2008.

[2] 盧虹宇.Web結構挖掘中HITS算法的研究[D].成都:西南交通大學, 2008.

[3] 范聰賢,徐汀榮,范強賢.Web結構挖掘中HITS算法改進的研究[J]. 微計算機信息, 2010(3).

(責任編輯 周侯辰)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲视频欧美不卡| 久久精品最新免费国产成人| 国产地址二永久伊甸园| 亚洲精品制服丝袜二区| 国产高清在线观看| 精品欧美视频| 精品福利网| 国产区人妖精品人妖精品视频| 全裸无码专区| 国产精品不卡片视频免费观看| 在线观看av永久| 色爽网免费视频| 亚洲日韩日本中文在线| 欧美在线天堂| 亚洲国产中文精品va在线播放 | 毛片基地美国正在播放亚洲 | 日韩在线观看网站| 女人18一级毛片免费观看| 国产麻豆精品久久一二三| 久久亚洲国产一区二区| 亚洲综合极品香蕉久久网| 国产精品va免费视频| 激情影院内射美女| 亚洲午夜福利精品无码| 国产1区2区在线观看| 色综合天天综合| 日韩精品毛片| 国产精品成人一区二区不卡| 高清免费毛片| 欧美成人看片一区二区三区 | 国产精品一线天| 精品国产免费第一区二区三区日韩| 无码高潮喷水专区久久| 国产精品视频系列专区| 成人日韩视频| 亚洲精品无码日韩国产不卡| 国产中文在线亚洲精品官网| 国产在线视频二区| 亚洲国产综合精品一区| 国产大片喷水在线在线视频| 国产成人啪视频一区二区三区| 97成人在线视频| 伊人久综合| 在线精品亚洲国产| 亚洲91精品视频| 日韩毛片免费| 久久久国产精品免费视频| 国产在线日本| 国产男人的天堂| 国产在线精品99一区不卡| 极品国产一区二区三区| 欧美精品在线看| a毛片在线播放| 国产白浆一区二区三区视频在线| h视频在线播放| 国产在线91在线电影| 99在线观看视频免费| 亚洲精品无码在线播放网站| av午夜福利一片免费看| 中文字幕不卡免费高清视频| 欧美亚洲一区二区三区在线| 在线毛片网站| 亚洲免费人成影院| 国产簧片免费在线播放| 国产精品三区四区| 日韩精品专区免费无码aⅴ| 国产亚卅精品无码| 精品91自产拍在线| 国产亚洲高清在线精品99| 国产成人免费| 国产又爽又黄无遮挡免费观看| 久久一本日韩精品中文字幕屁孩| 宅男噜噜噜66国产在线观看| 亚洲国产清纯| 欧美h在线观看| 国产xxxxx免费视频| 亚洲男人天堂网址| 国产在线麻豆波多野结衣| 国产小视频在线高清播放| 国产国产人在线成免费视频狼人色| 91小视频在线观看免费版高清| 一区二区三区国产精品视频|