王嶸冰,劉 鶴
(遼寧大學 信息學院,遼寧 沈陽110036)
在信息技術蓬勃發展的今天,如何快速并且準確地查詢到自己想要瀏覽的信息已成為一種挑戰.Web鏈接結構分析算法是搜索引擎的一部分,對人們所獲取的Web網頁信息有著重要的評估作用.網絡節點重要性排序是網絡科學領域最基本的問題之一,節點排序算法在搜索引擎、社交網絡和推薦系統等許多應用場景中都是必不可少的一部分,代表性排序算法為PageRank算法和Hyperlink-Induced Topic Search(HITS)算法[1-2].為了改進傳統排序算法的排序效果,相關研究從用戶歷史行為角度出發,將用戶興趣度因子融入頁面排序算法中[3],考慮到用戶對網頁的訪問量、網頁轉載次數等,提高了搜索結果的準確性.但是具體來說,現有研究并未考慮影響頁面流量質量這一重要指標,降低無關頁面對排序質量的影響.即使網頁訪問量較多但僅憑該條件并不能說明網頁的權威性,如果一個用戶只是點擊進入了該頁面,但并沒有點擊該頁面的任何鏈接就直接跳出,這只是增加了頁面訪問量.本文考慮了評估網頁內容黏性突出的指標——跳出率[4],將它以網頁權重因子的形式融入傳統網頁排序算法HITS中,從而可對權威頁面進行鑒別,更新融入頁面跳出率的權威頁面鑒別算法的Authority值.本文擬搭建實驗環境,對比實驗驗證搜索結果相關度情況,以期提高搜索結果的查準率.
HITS 算法是由康奈爾大學的JonKleinberg 博士于1997 年首先提出的[5],它的主要思想是根據網頁的入度與出度來判斷網頁的重要程度,如果一個網頁具有很高的權威性,那么這個網頁所指向的其他網頁也具有較高的權威性;如果這個重要性高的網頁被其他的網頁所指,那么指向這個網頁的其他網頁也具有著較高的權威性.在HITS算法中,Authority值也稱為權威值,Authority值a(p)與Hub值h(p)的公式如下[5]:
(1)
(2)

圖1 將根集拓展為基集
對于每個網頁p,權威值更新為所有導入鏈接所在的頁面中樞紐值的和,樞紐值更新為網頁p上所有導出鏈接指向網頁的權威值的和.在反復迭代后,確定節點的最終權威值與樞紐值.由于直接按照兩者的更新規則進行迭代會導致結果值出現偏差,因此有必要在每次迭代后進行歸一化,使最終獲得的值收斂.
HITS算法是基于一小部分網頁進行計算的:首先通過文本搜索找到相關網頁得到根集,然后找到與這些根集直接相連的網頁得到基集.圖1展示了將根集拓展為基集的示例[5].
吳江等[6]在HITS算法的基礎上,運用網頁排序改進算法識別意見領袖,從而衡量用戶影響力.HITS算法不僅提供了網絡節點的排名,還有助于了解不同域上的權威節點.基于HITS算法,李文靜等[7]提出節點群發現算法HubsRank,基于引文網絡中節點影響力,通過多輪迭代,得到引文網絡中多主題覆蓋的樞紐節點群,使提取樞紐節點群的速率得到了提高.此外,Liu等[8]提出了一種HITS結合PageRank進行蛋白質遠程同源性檢測的HITS-PR-HHBLITS預測方法.隨著網絡規模的擴大,針對頁面排序算法在符號網絡中的局限,陳曉威等[9]提出其改進算法,以識別社會網絡中的關鍵節點.
HITS算法和PageRank算法是兩種具有代表性的排序算法[10],相關學者的研究大多基于這兩種算法開展的.早期的HITS算法還存在著很多不足,例如主題漂移、網頁欺詐、忽略用戶行為的個性化需求.HITS算法利用內容權威和鏈接權威兩個相互影響的權重來評估網絡內容的價值和網絡中超鏈接的價值[11-12].超鏈接多樣性分析的網頁排序算法,能夠在尋找優質頁面的同時抑制網頁排名的作弊[13].楊博等[14]通過引入時間權值函數、分段函數、網頁權值比函數、興趣度函數改進頁面排序算法中存在的問題.由于Web結構挖掘中HITS算法只考慮頁面之間的鏈接關系而忽視了頁面的具體內容,影響了搜索結果,為了抑制主題偏離現象,Wang等[15]把超鏈接信息檢索方法與頁面內容相結合,提出了一種改進的基于內容相關性改進的HITS算法(GHITS),雖然搜索結果與主題的相關度得到了提高,但未考慮無用鏈接對算法的干擾.
亓國濤[16]通過Web日志對用戶網頁瀏覽行為的訪問頁數、訪問時長、訪問深度、網頁跳出率進行分析,并將用戶停留頁面時長與該頁面平均停留時長的比值作為權重因子融入到網頁排序算法中,但是即使在該頁面的停留時間較長,但不再對該頁面進行任何點擊便跳出,上述情況說明該頁面仍存在著網頁排序質量的問題,其質量需要進一步提高.
本文的目標是改善頁面排序質量,使得搜索結果與主題相關度得到提高,而影響頁面流量質量的重要指標為跳出率.文獻[17]使用百度統計軟件采集網站訪問者行為數據,應用回歸分析模型研究訪客跳出率及網站流量的關聯指標,得出訪客跳出率與平均訪問頁面數有關,而網站流量與訪問次數、新訪客數、平均訪問頁數相關.因此考慮到頁面跳出率因素,本文擬將其以網頁權重因子形式融入頁面排序算法HITS中,更新融入頁面跳出率的權威頁面鑒別算法的Authority值.
跳出率指瀏覽了一個頁面便離開網站的訪問次數占總的訪問次數的百分比.頁面跳出率可通過百度統計網站獲取JavaScript跟蹤代碼,并復制此代碼.如果是自己編寫的一般網站,通常將跟蹤代碼粘貼到要跟蹤的網頁底部的
標記之前,且緊臨該標記[18].這樣便可以跟蹤該網站每一個頁面的流量分析報告,其中就包括需要進行統計頁面的跳出率情況.本文權值w(u)反映了統計頁面的跳出率,w(u)的值越大,表明該頁面質量越低.因此本文擬將該權值融入HITS算法之中,進而讓Authority值受跳出率的影響,這樣頁面的排序結果就進一步反映了頁面的質量,達到改善頁面排序質量的目的.
在HITS算法中融入頁面跳出率權重,得到融入頁面跳出率的權威頁面鑒別算法,叫做BRHITS(Bounce Rate HITS)算法,其計算公式如下:
(3)
根據式(3)計算得到的Authority值受頁面跳出率的影響.BRHITS算法中頁面之間的鏈接關系可以建立有向圖模型,用符號G(V,E)表示,V表示節點所代表的頁面集合,E表示節點之間有向邊的集合.
BRHITS算法描述如下:
Input:擴展集合G(V,E,W),其中V表示節點集合,E表示邊集合,W表示節點的跳出率.
Output:節點V所對應的Authority值和Hub值.
Step 1:初始化V中每個節點v的Authority值和Hub值為1,即a0=1,h0=1;
Step 2:初始化計數變量count為1;
Step 3:更新集合V中每個節點v的Authority值和Hub值,具體計算如下:
Step 4:標準化節點v第t次迭代所得Authority值和Hub值,具體計算如下:
at=at/‖at‖
ht=ht/‖ht‖
Step 5:計算變量count=count+1;
Step 6:如果‖at-at-1‖+‖ht-ht-1‖<ε成立,則收斂,返回(at,ht);否則,跳至Step 3.
實驗環境為Windows 10,Pycharm框架下Python 3.7軟件,以及Screaming Frog SEO Spider鏈接分析軟件,將URL地址輸入其中便能夠得到相應的入鏈與出鏈.百度統計網站是其他網站平臺的流量分析工具,通過它獲取JavaScript代碼,對目標網站的網頁進行跟蹤統計.
數據來源為http://www.rank-tennis.com目標網站入口頁面,以及與其頁面相對應的4月7日至4月14日的百度統計報告,以“tennis”為主題的20個根集頁面及頁面跳出率擴展成的403個基集頁面,然后通過鏈接分析軟件將上述基集頁面構造成了含有2 059條邊的鏈接分析圖.
1)本文針對http://www.rank-tennis.com網站中入口頁面根據頁面貢獻瀏覽量獲得它的排行,數據來源于百度統計報告(見表1),將獲得的前20個頁面作為根集R;2)從根集進一步擴展獲得構造頁面鏈接關系圖所需的基集網頁;3)以Screaming Frog SEO Spider為鏈接分析軟件,將根集R的URL鏈接輸入到該網站中,可以獲得該URL頁面的入鏈與出鏈,將根集頁面R所鏈接的所有頁面以及指向該根集頁面的前50個頁面作為基集.擴展成的基集頁面共包含403個網頁,提取基集頁面的鏈接關系后構造頁面鏈接分析圖,圖中邊的總數為2 059;4)然后用BRHITS算法計算頁面的Authority值,進行排序;5)對排序所得到的結果進行評估.

表1 百度統計報告
頁面跳出率可通過百度統計網站進行搜索,統計“tennis”查詢主題下所構成的基集頁面在2021年4月14日近7天的頁面跳出率情況.
在這個實驗中,大部分用戶可能只對搜索結果中排名前20的頁面感興趣,本文利用融入頁面跳出率因素的改進算法計算.這20個頁面的Authority值,頁面跳出率情況見表1.
為了驗證算法的可行性,實驗一給出了兩種算法在相同查詢條件下的結果分析.實驗二進一步驗證BRHITS算法能在一定程度上改善排序質量,并通過搜索結果頁面的相關性及查準率進行了說明.
實驗一 相同查詢條件下的結果分析.
表2、表3為基于HITS算法和BRHITS算法對基集頁面進行計算排名,并給出了前10個頁面的入鏈個數與Authority值.BRHITS算法與傳統的網頁排序HITS算法相比更能篩選出用戶滿意的頁面排序情況,頁面得到了提升,與用戶查詢相關度低的頁面排名下降.具體表現在HITS算法與BRHITS算法針對前10個頁面出現了不同的排名情況,名次提高的頁面為5、6、8、9、10,并且頁面1、5、6、8的Authority值都有提升;頁面2、3、4、7的Authority值減少,排名下降5名.頁面排序變化較大的為頁面2、3、4、7,即使權威值較高但并不一定是用戶滿意的排名結果,而在傳統的網頁排序HITS算法中其排名仍靠前.通過進一步對2、3、4、7頁面進行分析并獲得它們的入鏈集合可知,即使它們有較多的入鏈數,但入鏈頁面包含較多的存在著跳出率的入口頁面,例如頁面1、5、6、8、9、10均有指向其頁面的鏈接.此外,從URL頁面可知2、3、4、7頁面還是登錄頁面.所以只考慮基于入鏈數量計算的Authority值是片面的,頁面的排名還與入鏈頁面的跳出率有關.

實驗二 搜索結果相關度對比.
用戶在搜索引擎中進行信息查詢時,常常關注的是前n條搜索結果,比如:大多數用戶只關注搜索結果中的第一頁[19],而提高搜索結果頁面中與用戶查詢相關的頁面排名也是改進搜索引擎算法的目的.因此本實驗對搜索結果的前5、10、15、20的網頁中與查詢主題相關的頁面數以及查準率進行比較分析.查準率為查詢主題相關的網頁數與查詢結果網頁總數的比值.在同一查詢主題“tennis”下對比HITS算法、GHITS算法(基于內容相關性改進的HITS算法)、BRHITS算法搜索結果的頁面排序情況,并進行相關度的測評.實驗結果如表4、圖2、圖3所示.

表4 搜索結果相關性頁面與查準率對比

圖2 三種算法搜索結果相關度對比

圖3 三種算法搜索結果查準率對比
從圖2、圖3中可以看出運用BRHITS算法之后提高了搜索結果相關性,改善了搜索結果的排序質量,排在前25的頁面相關度較高,查準率提高10%~30%.
本文提出的BRHITS算法考慮了評定頁面流量質量的重要指標頁面跳出率,將跳出率因子融入傳統的HITS算法中,優化并得到了BRHITS算法.實驗結果表明,用戶在進行主題查詢時頁面的排序質量得到了提高,在一定程度上提升了檢索準確度.在接下來的研究中將在不同查詢主題下進行信息檢索,進一步證明所提出的算法的有效性.
主站蜘蛛池模板: 精品亚洲麻豆1区2区3区| 亚洲无码精品在线播放| 国产91无毒不卡在线观看| 国产高清国内精品福利| 免费AV在线播放观看18禁强制| 国产精品亚洲一区二区三区z| 一区二区三区四区精品视频| 无码网站免费观看| 正在播放久久| 一级毛片在线免费看| 高清精品美女在线播放| 国产亚洲一区二区三区在线| 亚洲综合经典在线一区二区| 又爽又黄又无遮挡网站| 成年人久久黄色网站| 亚洲浓毛av| 91探花国产综合在线精品| 不卡无码网| 91外围女在线观看| 国产精品美女自慰喷水| 免费观看国产小粉嫩喷水| 欧美福利在线| 国产香蕉一区二区在线网站| 97视频在线精品国自产拍| 亚洲香蕉在线| 91免费国产在线观看尤物| 国产原创演绎剧情有字幕的| 国产成人免费视频精品一区二区| 精品国产自| 免费大黄网站在线观看| 亚洲欧美日本国产专区一区| 国产综合无码一区二区色蜜蜜| 日韩欧美国产另类| 欧美第二区| 国产69精品久久久久孕妇大杂乱 | 国产午夜福利片在线观看| 亚洲欧洲自拍拍偷午夜色| 尤物亚洲最大AV无码网站| 精品久久久久久中文字幕女 | 伊在人亚洲香蕉精品播放| 午夜激情婷婷| 一本久道久综合久久鬼色| 四虎成人精品在永久免费| 手机精品视频在线观看免费| 无码高潮喷水专区久久| 国内精品自在欧美一区| 色婷婷成人| 美女免费黄网站| 免费毛片全部不收费的| 欧美精品成人| 亚洲第一天堂无码专区| 久热这里只有精品6| 一级看片免费视频| 国产精品亚洲天堂| 中美日韩在线网免费毛片视频| 久久精品娱乐亚洲领先| 九色视频线上播放| 日本一区二区三区精品视频| 99re热精品视频国产免费| 91福利片| www.99在线观看| 成年人国产视频| 无码一区中文字幕| 99中文字幕亚洲一区二区| 国产小视频在线高清播放| 国产第一页第二页| 亚洲欧洲日韩综合| 欧美精品亚洲精品日韩专| 国产欧美日韩精品综合在线| 国产精品3p视频| 91小视频在线| 国产在线无码av完整版在线观看| 婷婷亚洲视频| 色网站在线免费观看| 精品一区二区三区无码视频无码| 丁香婷婷激情综合激情| 亚洲成人精品久久| 日韩精品无码免费专网站| 日韩在线永久免费播放| 亚洲欧美日韩中文字幕在线| 国产亚洲欧美在线专区| 久久久黄色片|