999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣度的PageRank改進算法

2014-06-27 05:46:31黃賢英陳紅陽
關鍵詞:頁面排序用戶

黃賢英,陳紅陽

(重慶理工大學計算機科學與工程學院,重慶 400054)

基于用戶興趣度的PageRank改進算法

黃賢英,陳紅陽

(重慶理工大學計算機科學與工程學院,重慶 400054)

傳統的PageRank算法容易導致主題漂移、偏重舊網頁、用戶對搜索結果的主觀選擇被忽略等問題。針對PageRank算法存在的上述缺陷,提出了一種基于用戶興趣度的網頁排序算法——PRUI算法。該算法主要從網頁自身的客觀特性和用戶興趣的主觀特性兩方面對網頁的PR值進行重新估算,并依據估算后的網頁PR值對網頁做重排序。相比傳統的PageRank算法,改進的PRUI算法進一步提高了系統檢索的準確率和首頁命中率。

搜索引擎;PageRank算法;主題漂移;用戶興趣度;頁面排序

目前,搜索引擎是人們獲取網絡信息的主要工具。面對互聯網信息爆炸式的增長和日益復雜的用戶信息需求[1],基于關鍵字查詢的傳統網頁排序算法已經愈加顯露出自身的不足。如何快速、高效、準確地從信息海洋中找到符合用戶需求的信息資源是搜索引擎網頁排序算法亟待解決的問題[2]。

針對PageRank算法中存在的主題漂移問題,王春花等[3]提出了一種改進的非平均權值傳遞PageRank算法。該算法考慮了源網頁與其出鏈網頁之間的相關度,對網頁的權值采取非平均分配方式;缺點是未能考慮目標網頁與用戶查詢詞的主題相關度。王德廣等[4]考慮網頁的時間因素,認為網頁發布時間和被檢索時間之差與其PR值呈負相關,引入了時間函數,使內容較新穎且對用戶具有吸引力的新網頁PR值得到提高。郭慶寶等[5]提出了融合反饋信息和內容相關度的PageR-ank改進算法,考慮了用戶對搜索結果頁面的反饋信息,但僅將用戶對網頁的點擊量作為衡量指標,未對用戶的反饋行為進行深入分析以及探究用戶對網頁的興趣度。黃華東[6]提出了基于用戶模型的個性化搜索研究,引入了用戶興趣模型的概念,從而為網頁排序算法的改進提供了一種新的思路——構建完善的用戶興趣模型,并將其融入到搜索引擎的網頁排序中;算法的不足之處是用戶興趣模型的構建并不完善。

本文從網頁自身的客觀特性和用戶興趣的主觀特性兩個角度出發,提出了一種改進的網頁排序算法——PRUI算法(PageRank algorithm based on user interest degree)。首先針對PageRank算法存在的主題漂移、偏重舊網頁問題,引入了源網頁與目標網頁、用戶查詢詞之間的主題相關度,并結合網頁的駐留時間對PR值重新估算;其次從用戶的角度出發,構建用戶興趣模型,重新定義了用戶對頁面的興趣度。估算后的PR值和用戶興趣度兩部分加權得到頁面最終的PR值。

1 傳統PageRank算法

PageRank算法[7-8]基于萬維網超鏈接關系對網頁的質量進行評估,進而實現網頁排序。該算法采用隨機游走模型來模擬網絡用戶的瀏覽行為,估算每個頁面的被訪問概率。隨機游走模型假設用戶主要使用兩種方式訪問網頁:其一,用戶從給定的頁面集合中隨機挑選某頁面進行訪問;其二,用戶根據初始頁面中存在的超鏈接遞歸跟蹤訪問感興趣的頁面。因此,每個頁面的被訪問概率(簡稱網頁的PR值)可通過式(1)計算獲得。

式(1)中:PR(A)表示目標網頁A的PR值,用以表征網頁的重要程度;λ是介于0和1之間的衰減系數(一般取值為0.85左右);Ti表示鏈向目標網頁A的入鏈網頁(1≤i≤n);Count(Ti)表示網頁Ti的出鏈網頁總數。

2 改進的PRUI算法

PRUI算法主要從以下兩個方面著手對網頁PR值的計算公式進行改進:一是基于網頁內容和鏈接結構的客觀特性,解決PageRank算法存在的主題漂移、偏重舊網頁問題;二是基于用戶興趣度的主觀特性,通過分析用戶與系統交互過程中的瀏覽行為,構建完善的用戶興趣度;綜合考慮網頁自身的特性和用戶的主觀選擇行為,為用戶提供更為合理的檢索結果。

2.1 基于網頁內容和鏈接結構的客觀特性改進PageRank算法

1)主題漂移。將網頁權值平均分配給出鏈網頁忽略了網頁與其出鏈網頁及查詢詞間的相關度,以致某些網頁憑借較高的PR值在搜索結果中排在靠前的位置,卻與用戶查詢主題相關度甚小。以往改進的PageRank算法在解決主題漂移問題時,未能綜合考慮網頁內容與用戶查詢詞、其出鏈網頁之間的主題相關度對網頁PR值的影響[3]。實際上,這兩種主題相關度均與該網頁所獲得的PR值呈正相關。假設目標頁面為A,鏈向它的源網頁集合T={T1,T2,…,Tn},用戶提交給系統的查詢詞為Q,將頁面A、用戶查詢詞Q及源網頁Ti(1≤i≤n)分別向量化后可表示為:A=(a1,a2,…,an),Q=(q1,q2,…,qn),Ti=(Ti1,Ti2,…,Tin)。采用余弦相似度度量頁面A與用戶查詢詞Q之間的相似度,如式(2)所示。

源網頁Ti和目標頁面A之間的相似度為

綜合式(2)、(3)改進PR值計算公式,如式(4)所示。

2)偏重舊網頁。新舊網頁被其他網頁鏈向的機會、所獲的權值及在結果頁面中所排位置正比于其在網絡上存在的時間,以致出現舊網頁上浮、新網頁下沉的現象,從而使用戶可能感興趣的新網頁排在搜索結果尾部。因此,為降低網頁在網絡上的時間對其PR值的影響,引入時間衰減因子(網頁存在時間與其PR值呈反比例關系)改進PR值計算公式,具體如式(5)所示。

2.2 基于用戶興趣度的主觀特性改進PageRank算法

融入用戶對搜索結果的主觀選擇能較為全面、準確地刻畫用戶對網頁的興趣度,從而更好地衡量網頁的質量,提高網頁的排序效果[9]。本算法主要通過以下幾個方面對用戶興趣度進行描述與衡量。

1)用戶搜索歷史記錄。囊括了用戶對網頁的各種瀏覽行為,在一定程度上反映了用戶的興趣偏好。通過分析用戶以往搜索的關鍵詞、統計各個關鍵詞被搜索的次數,可將用戶的歷史興趣[10]用向量表示為HInterest=(HIw1,HIw2,…,HIwn),當前網頁A經過向量化后表示為A=(a1,a2,…,an)。因此,基于用戶歷史興趣衡量用戶對當前網頁的興趣度,如式(6)所示。

其中:ai為網頁A的第i個特征詞的權重;HIwi為用戶搜索第i個關鍵詞的次數。

2)用戶瀏覽網頁的時間。一般情況下,如果用戶對某一網頁內容感興趣,會點擊、瀏覽并在頁面中停留一定時間。在特定的時間范圍內,用戶的興趣濃度較高;超出此范圍,用戶的興趣度則大幅衰減[11]。通過觀察用戶瀏覽網頁的時間與其對網頁興趣度的關系,構建正態分布模型,并基于頁面瀏覽時間改進用戶興趣度,如式(7)所示。

其中:t為用戶瀏覽網頁的時間,服從正態分布N (T,(Δt/6)2);T為正常情況下用戶瀏覽一個頁面所需的平均時間;Δt為特定時間范圍,Δt= tmax-tmin。

3)同類用戶的協同過濾。協同過濾推薦[12]是指通過分析用戶興趣偏好,尋找與其具有類似興趣的用戶,然后根據同類用戶對某一信息的興趣度,推測該用戶對此信息也具有同樣的興趣度,并推薦符合用戶需求的信息。

基于上述思想,提出了一種同類用戶的協同過濾方法。當前用戶對某網頁的興趣度可用群體用戶的興趣度量,即借助同類用戶的興趣偏好過濾無關信息。同類用戶興趣用其歷史興趣向量表示為CInterest=(CIw1,CIw2,…,CIwn),當前網頁A向量化為A=(a1,a2,…,an),那么通過協同過濾后,用戶對當前網頁的興趣度如式(8)所示。

其中:ai為網頁A的第i個特征詞的權重;CIwi為用戶搜索第i個關鍵詞的次數。

2.3 利用改進的PRUI算法計算網頁的PR值

綜上所述,一個網頁的質量融合了網頁自身的客觀特性與用戶興趣度的主觀特性,網頁最終的PR值用式(9)表示。

其中:α與β為控制影響網頁重要性的客觀因素與主觀因素的權重參數。

3 實驗結果及分析

其中:F1為查準率;Ra為系統根據用戶查詢詞檢索出的相關文檔總數;R為系統檢索出的文檔總數;F2為首頁命中率;Sa為在首頁檢索結果中滿足用戶需求的相關文檔總數;S為首頁檢索結果中文檔的總數。

本文使用Java語言在Galago開源平臺上集成PRUI算法,并采用開源的Heritrix爬蟲框架將搜狐主頁作為爬取時的起始網頁,以增量式爬取方式對網頁進行動態抓取。網頁的抓取數量設定為50萬,同時隨機選取來自不同專業的20名學生作為測試人員,每位測試人員代表一種查詢請求。各種查詢請求如表1所示。

本文采用查準率和首頁命中率作為系統檢索性能的衡量指標。具體計算如式(10)所示。

表1 測試人員查詢請求表

為了確定式(9)中α與β的取值,分別針對α+β=1,且β>α>0的4種可能取值情況(精度為0.1,考慮到網頁的PR值計算受用戶興趣度的主觀影響因素較大,選取β>α)測試其在PRUI算法下的查詢準確率。當α與β分別為0.4和0.6時,查詢準確率取得最大值0.75,最終確定α與β的取值分別為0.4和0.6。

根據表1中每個用戶的查詢請求進行檢索,選取前10頁結果頁面進行統計,其中每一頁包含10條記錄。比較每個查詢請求在改進的PRUI與傳統PageRank算法下的檢索效果(如圖1所示)。

圖1 傳統的PageRank算法與改進的PRUI算法準確率比較

觀察圖1中數據的變化趨勢可以發現:在PRUI算法下,用戶查詢的準確率有了進一步提高,說明融入用戶對網頁的興趣度有效改善了網頁的排序效果,可為用戶提供更好的檢索體驗以滿足用戶個性化的檢索請求。

系統采用2種算法針對20種不同的查詢請求返回對應的相關結果集,從中選取首頁10條記錄,統計首頁命中率,對比結果如圖2所示。

圖22 種不同算法下的首頁命中率

觀察圖2中的數據可知:在2種不同算法下,針對不同的用戶查詢請求,其首頁命中率有著明顯的差異。采用PRUI算法,首頁命中率相對有所提高,穩定在0.68附近。這間接表明滿足用戶需求的網頁在搜索結果中排在了相對靠前的位置。

本文引入頁面與查詢詞及出鏈網頁的相關度、網頁存在的時間因素,解決了主題漂移和偏重舊網頁的問題。用戶對檢索結果的滿意度某種程度上還取決于其主觀選擇行為,因此本文提出的算法融入用戶興趣度,考慮了用戶的主觀感受。最后,結合兩者有效改善了網頁的排序效果,使得滿足用戶需求的網頁盡量排在靠前的位置。

4 結束語

本文主要針對傳統PageRank算法存在的主題漂移、偏重舊網頁以及用戶對搜索結果的主觀選擇被忽略問題,提出了一種改進的PRUI算法。該算法從網頁內容和鏈接結構角度出發解決主題漂移、偏重舊網頁問題;引入用戶興趣度以解決用戶對搜索結果的主觀選擇被忽略問題,最后綜合二者對網頁的PR值進行重新估算。實驗結果表明:PRUI算法提高了系統檢索的準確率、改善了用戶的檢索體驗。

算法存在的不足包括:基于向量空間模型表示網頁文本與用戶查詢詞,采用余弦相似度衡量二者之間的相似度時,未挖掘出文本內容蘊含的深層含義,相似性的準確度量需進一步改善;在本算法實施過程中,需要搜集、存儲及處理與用戶興趣度相關的數據,這在一定程度上增加了算法的時間復雜度。在今后的研究工作中,需不斷優化算法,提高搜索匹配的范圍與準確度,從而將最符合用戶需求的頁面排在搜索結果的最前端。例如,可對語義相似度模型[13]進行深入研究,以精確衡量網頁文本與查詢詞間的相似度。

[1]Luiz C M,Miranda,Carlos A S,et al.Trends and cycles of the internet evolution and worldwide impacts[J].Technological Forecasting and Social Change,2012,79 (4):744-765.

[2]Rashid Ali,Sufyan Beg M M.An overview of Web search evaluation methods[J].Computers and Electrical Engineering,2011:835-848.

[3]王春花,朱俊平.改進的非平均傳遞權值PageRank算法[J].計算機工程與設計,2010,31(10):216-217.

[4]王德廣,周志剛,梁旭.PageRank算法的分析及其改進[J].計算機工程,2010(11):291-293.

[5]郭慶寶,賈代平.融合反饋信息與內容相關度的PageRank改進算法[J].計算機工程與設計,2011,32 (12):4072-4074.

[6]黃華東.基于用戶模型的個性化搜索研究[D].上海:華東理工大學,2013.

[7]賀志明,王麗宏,張剛,等.一種抵抗鏈接作弊的PageRank改進算法[J].中文信息學報,2012,26(5):102-106.

[8]謝月.網頁排序中PageRank算法和HITS算法的研究[D].成都:電子科技大學,2012.

[9]Ling ZHENG,Shuo CUI,Dong YUE,et al.User Interest ModelingBased on Browsing Behavior[C]//2010 3rd International Conference on Ad-vanced Computer Theory and Engineering(ICACTE).Chengdu:[s.n.],2010:455-458.

[10]王宇.基于搜索歷史的用戶興趣建模[D].上海:復旦大學,2011.

[11]南智敏.基于網頁興趣度的用戶興趣模型體系研究[D].上海:復旦大學,2012.

[12]吳月萍,鄭建國.協同過濾推薦算法[J].計算機工程與設計,2011,32(9):3019-3021.

[13]朱征宇,孫俊華.改進的基于《知網》的詞匯語義相似度計算[J].計算機應用,2013,39(8):2276-2279.

(責任編輯 楊黎麗)

Improved PageRank Algorithm Based on User Interest Degree

HUANG Xian-ying,CHEN Hong-yang
(School of Computer Science and Engineering,
Chongqing University of Technology,Chongqing 400054,China)

Traditional PageRank algorithm had such drawbacks as theme drifting,history pages being emphasized and the user's interests in results being ignored.Facing the above defects described,an improved ranking algorithm called PRUI was proposed,which was based on user interest degree.It mainly re-estimated PR value of web page integrating objective characteristics of web page with subjective characteristics of user's interests,and ranked the web page according to the calculated PR value again.The experimental results show that PRUI algorithm has acquired higher retrieval accuracy as well as first page hit ratio,compared with traditional PageRank algorithm.

search engine;PageRank algorithm;user interest degree;page ranking

TP391.03

A

1674-8425(2014)05-0074-05

10.3969/j.issn.1674-8425(z).2014.05.015

2013-12-19

國家自然科學基金項目(61173184);重慶市教委科技計劃項目(KJ100821);重慶理工大學研究生創新基金項目(YCX2012317)

黃賢英(1967—),女,重慶人,教授,碩士生導師,主要從事嵌入式技術、移動技術研究;陳紅陽(1989—),女,河南南陽人,碩士研究生,主要從事信息檢索研究。

黃賢英,陳紅陽.基于用戶興趣度的PageRank改進算法[J].重慶理工大學學報:自然科學版,2014(5):74-78.

format:HUANG Xian-ying,CHEN Hong-yang.Improved PageRank Algorithm Based on User Interest Degree[J].Journal of Chongqing University of Technology:Natural Science,2014(5):74-78.

猜你喜歡
頁面排序用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
排序不等式
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 欧洲亚洲一区| 日韩免费成人| 中文字幕啪啪| 亚洲精品天堂自在久久77| 88av在线| 97青青青国产在线播放| 嫩草影院在线观看精品视频| 98精品全国免费观看视频| 在线国产毛片手机小视频 | 任我操在线视频| av在线人妻熟妇| 亚洲中文制服丝袜欧美精品| 欧美在线天堂| 国产成人精品男人的天堂| 欧美精品在线看| 欧洲成人免费视频| 91久久偷偷做嫩草影院电| 亚洲av无码久久无遮挡| 久久6免费视频| 欧美在线精品怡红院 | 国产91色在线| 亚洲第一成网站| 无码av免费不卡在线观看| 中文字幕中文字字幕码一二区| 天天色综网| 精品1区2区3区| 中文字幕无码av专区久久| 91在线一9|永久视频在线| 五月天久久婷婷| 在线观看国产黄色| 亚洲视频免费播放| 午夜国产精品视频| 五月天丁香婷婷综合久久| 伊人网址在线| 欧美狠狠干| 日韩激情成人| 三上悠亚在线精品二区| 蜜臀AVWWW国产天堂| 色噜噜狠狠色综合网图区| 亚洲欧美国产五月天综合| 久久精品国产精品青草app| 97se亚洲综合在线| 欧美激情综合| 欧美综合中文字幕久久| 国产精品成人啪精品视频| 国产人人乐人人爱| 日韩黄色大片免费看| 少妇精品在线| 国产综合精品一区二区| 在线日韩日本国产亚洲| 永久免费AⅤ无码网站在线观看| 国产成人盗摄精品| 久久这里只有精品23| 亚洲乱伦视频| 成人福利一区二区视频在线| 日本一区中文字幕最新在线| 亚洲国产在一区二区三区| 亚洲性一区| 在线播放真实国产乱子伦| 天堂av高清一区二区三区| 国产一区二区三区免费| 老司机精品一区在线视频 | 日本精品影院| 日本中文字幕久久网站| 四虎精品国产AV二区| 婷婷99视频精品全部在线观看| 久久伊人久久亚洲综合| 婷婷99视频精品全部在线观看| 午夜不卡视频| 米奇精品一区二区三区| 熟妇丰满人妻av无码区| 69国产精品视频免费| 不卡色老大久久综合网| 永久免费无码日韩视频| 久久国语对白| 国产成人喷潮在线观看| 国产无码网站在线观看| 香蕉蕉亚亚洲aav综合| 黄色网页在线播放| 国产99欧美精品久久精品久久| 亚洲欧美不卡视频| 香蕉蕉亚亚洲aav综合|