999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用戶興趣模型在垂直搜索引擎檢索模塊中的應用

2012-12-31 00:00:00李曉紅,李茂林
計算機時代 2012年12期

摘 要: 在Lucene的基礎上設計了垂直搜索引擎模型的檢索模塊,以提高檢索的質量,改變文檔的排名,改善用戶體驗。該模型在檢索模塊中綜合了四個方面來計算文檔得分,即主題相關度得分、網頁重要性得分、用戶興趣計算得分、關鍵詞位置權值得分。為了讓檢索結果更能體現用戶的實際需要,特別加重了用戶興趣部分的權重分值,并通過實驗證明了改進的檢索模塊比傳統的檢索更有實際效果,增強了垂直搜索的個性化。

關鍵詞: 用戶興趣; Lucene; 檢索; 個性化

中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2012)12-34-02

Application of user interest model in retrieval module of vertical search engine

Li Xiaohong, Li Maolin

(Center of Computer; Shaoyang Medical College, Shaoyang, Hunan 422200, China)

Abstract: In this paper, retrieval module of vertical search engine model based on Lucene is designed, in order to improve the retrieval quality, change the document rank and improve the user’s experience. Four aspects are combined in this module to calculate the document score, that is, subject correlation score, webpage importance score, user interest score, key words position weight score. In order to make the retrieval results better reflect the actual needs of users, user interest part is especially aggravated. The results prove that the improved retrieval module has more practical effect than the traditional retrieval, and it enhances the vertical search personalization.

Key words: user interest; Lucene; retrieval; individualization

0 引言

搜索引擎作為網絡信息查詢的主要工具已經在人類生活中占據了主導地位,搜索引擎的搜索質量直接影響到用戶體驗。垂直搜索在專業性上略勝與傳統的搜索引擎。本文主要改進垂直搜索引擎的檢索模塊,在傳統的Lucene檢索模塊中加入Pagerank得分,關鍵詞得分,并特別加入了用戶興趣得分,建立了一個個性化的垂直搜索檢索模塊模型,從而使垂直搜索在個性化上更貼近用戶的使用習慣和興趣。

1 用戶興趣模型的建立

用戶興趣作為垂直搜索引擎當中的一項個性化服務,直接影響到了用戶使用該垂直搜索的體驗[1]。用戶興趣模型的建立應從兩個方面分析:一是用戶興趣模型能否反映用戶的真實興趣愛好;二是針對用戶查詢興趣的多變性,該模型是否能滿足變化的用戶興趣。

1.1 常用的用戶建模技術

現今的用戶建模技術分為三類:用戶手工定制建模、示例用戶建模和自動用戶建模。

⑴ 用戶手工定制建模

用戶自己動手在網頁上選擇或者手動輸入自己的興趣愛好。該方法實現簡單,得到的用戶興趣結果可靠。但是存在不足:①影響用戶體驗,一般用戶對頻繁的輸入和選擇缺乏興趣;②更新用戶模型困難,一旦用戶的興趣發生轉移,而又讓用戶重新提交網頁文檔會給用戶造成負擔;③反映用戶興趣不全面,提供給用戶的選擇項本身就帶有主觀性,另外用戶選擇時也存在不能準確表達的情況,這些將直接導致收集的用戶興趣不夠準確[2]。

⑵ 示例用戶建模

示例用戶模型的建模是用戶自己提供相關的興趣愛好示例及其類別屬性。用戶在瀏覽網頁時標注對頁面的感興趣程度即可得到用戶建模的示例。

⑶ 自動用戶建模

通過留意用戶瀏覽網頁的內容和瀏覽網頁時的行為自動為用戶構建一個用戶模型[5],這種建模無需用戶主動參與,通過用戶上網時的行為采用數據挖掘技術自動獲取用戶的興趣愛好。雖然這種方法會帶來一定的噪聲,影響用戶瀏覽時的速度,對建立高質量的用戶模型也有一定的影響,但是該方法無需用戶主動提供信息,不干擾用戶的其他操作,從用戶體驗的角度來說是比較好的建模方法。因此,未來建模技術的發展方向都會采用自動建模技術。

1.2 用戶興趣行為的量化表示

通過對自動用戶建模的相關研究發現,用戶的興趣與用戶的行為是緊密相連的。用戶興趣可以通過用戶瀏覽該頁面的時間和拖動滾動條的時間來有效地反映。而通過用戶閱讀頁面平均速度能幫助建模時確定用戶興趣的等級。另外用戶查詢、標記書簽、瀏覽頁面、點擊鼠標、反饋信息、拖動滾動條、后退、前進等這些行為都可以暗示用戶的愛好。用戶訪問頁面時的停留時間、訪問次數、保存、編輯、修改等動作都能夠揭示用戶興趣[3]。

通過以上分析,將用戶行為用二維表格來記錄,稱用戶行為數據表[3]。數據表又分為兩種類型:基于關鍵詞的用戶行為數據表和基于文檔的用戶行為數據表。前者描述用戶在關鍵詞上的行為,其結構如表1所示;后者描述用戶在一篇文檔上的行為,其結構如表2所示。

表1中的數據為:用戶id號(uid)、關鍵詞(kw)、所屬主題(t)、關鍵詞因被選中而高亮顯示的次數(hlt)、關鍵詞被用戶圈住的次數(cir)和在該關鍵詞下畫下劃線的次數(udl)。

表2中的數據為:文檔id(did)、文檔所屬主題(t)、關鍵詞的單擊次數(clk)、瀏覽該文檔時間(time)、在該文檔中添加書簽的數目(bmk)、批注次數(ant)。

由于瀏覽時間受一些客觀因素的影響,因此以上時間是修正后的時間。

1.3 用戶興趣度的計算

由于用戶在瀏覽網頁的過程中有自己固定的愛好和使用方法,因此可以針對不同的用戶用不同的權重值來表示用戶的不同行為[4]。

⑴ 基于關鍵詞的用戶興趣計算

用戶行為權重,

,表示用戶對某主題下n個關鍵詞的行為。兩者的乘積定義為:

kw(t)=bkw*bk(t)=(kw1,kw2,…,kwn)T

基于關鍵詞的用戶興趣度為:

基于文本的用戶興趣度計算方法類同。

2 檢索模塊設計與應用

將用戶興趣應用到檢索模塊以改善用戶體驗,同時考慮了其他一些相關因素。

⑴ 主題相關性。

Lucene排序算法:以關鍵詞在文檔中出現的次數排序。

⑵ 關鍵詞在文檔中的位置。

可以通過關鍵詞在文檔中出現的位置和頻率得出網頁或文檔的權重值。

⑶ 用戶興趣。

⑷ 網頁的重要性。

網頁重要性的分值可以通過PageRank算法得到[4]。

將這四個因素綜合考慮,可設計網頁的排序算法如下:

Score_f=d1*luceneScore+d2*PagerankScore+

d3*keyScore+d4*yhxqScore

Score_f:文檔f總得分;

luceneScore:主題相關度得分;

PagerankScore:網頁重要性得分;

keyScore:關鍵詞位置權值得分;

yhxqScore:用戶興趣計算得分;

d1,d2,d3,d4表示權重系數,d1+d2+d3+d4=1。

3 實驗

將改進的檢索算法與原Lucene檢索算法對比查全率,查準率和系統響應時間。其中改進算法的權值設置為d1=0.35,d2=0.2,d3=0.13,d4=0.32。加大了用戶興趣的得分權值。我們測試的數據量為20萬條,得到如下結果:

⑴ 查全率

估值計算,改進算法得到的結果為n1;Lucene算法得到的結果為n2。

Recall=n1(n2)/(n1+n2)

⑵ 查準率

查準率的計算為:

p=k0/k

k0:正確的數據;k:全部相似數據。

⑶ 系統響應時間

Lucene基礎排序算法平均響應時間在35ms左右,而改進的搜索平均響應時間在46ms左右。

兩種檢索在三個方面得到的結果對比如表3所示。

4 結束語

本文主要改進了垂直搜索引擎的檢索模塊,在該模塊中綜合了主題相關度得分、網頁重要性得分、用戶興趣計算得分、關鍵詞位置權值得分四個方面來計算網頁文檔得分。特別將用戶興趣得分部分設置了較重的權重值,使得本文的垂直搜索更具有個性化。通過實驗證明,該模型從用戶的角度提高了搜索質量,改善了用戶體驗。該模型還存在一定的局限性,在權重值的分配上還需要大量的實驗來驗證更合理地分配方案,以達到更合理的搜索效果。

參考文獻:

[1] 黃國華.基于相對高度的曲線特征提取算法[J].邵陽學院學報(自然科

學版),2011.1:29-33

[2] 楊永毅.基于Lucene的二手汽車交易信息垂直搜索引擎的研究與實

現[D].重慶大學,2009:21-24

[3] LEWANDOWSKI D. A three-year study on the freshness of web

search engine databases[J].J.Inf.Sci.,2008.34 (6):817-831

[4] 盛振華,吳羽,江錦華等.InfoSigs:一種面向Web對象的細粒度聚類算

法[J].計算機研究與發展,2010.5:796-804

[5] 邱哲,符滔滔.開發自己的搜索引擎一Lueene2.0+Heritrix[M].人民

郵電出版社,2007.

主站蜘蛛池模板: 国产亚洲视频免费播放| av在线5g无码天天| 国产一级毛片网站| 日韩黄色在线| 精品国产自在现线看久久| 日韩人妻无码制服丝袜视频| 白丝美女办公室高潮喷水视频 | 亚洲高清中文字幕| 日本黄网在线观看| 日本福利视频网站| 亚洲欧美在线看片AI| 国产成人乱无码视频| 影音先锋丝袜制服| 国产99欧美精品久久精品久久| 青青国产成人免费精品视频| 免费无遮挡AV| 国产香蕉一区二区在线网站| 国产十八禁在线观看免费| 国产波多野结衣中文在线播放| 黄色网站不卡无码| 日本不卡视频在线| 美女国产在线| www亚洲精品| 亚洲黄网在线| 亚洲天堂成人在线观看| 国产一区成人| 亚洲精品自产拍在线观看APP| 成人另类稀缺在线观看| 国产三区二区| 国产男女免费视频| 日韩高清欧美| 在线免费a视频| 国产人成在线观看| 福利一区三区| 九九九久久国产精品| 亚洲成人免费在线| 久爱午夜精品免费视频| 日韩成人在线一区二区| 全部免费特黄特色大片视频| 国产色图在线观看| 日韩一级毛一欧美一国产| 国产精品美人久久久久久AV| 欧美a网站| 538精品在线观看| 九九九精品成人免费视频7| 香蕉视频国产精品人| 国产亚洲精品97AA片在线播放| 亚洲激情99| 毛片三级在线观看| 日韩精品专区免费无码aⅴ| 91九色国产在线| 欧美国产日韩在线| 亚洲成肉网| 久久综合丝袜长腿丝袜| 日韩欧美91| 欧美黄网在线| 色老二精品视频在线观看| 91福利一区二区三区| 重口调教一区二区视频| 久久频这里精品99香蕉久网址| 在线观看欧美国产| 激情网址在线观看| 在线观看免费人成视频色快速| 欧美第九页| 免费一级毛片完整版在线看| 国产精品欧美在线观看| 91人妻在线视频| 老司机精品一区在线视频| 亚洲欧美另类色图| 国产探花在线视频| 高清免费毛片| 久久久久青草大香线综合精品| 中文字幕免费播放| 亚洲国产成人精品无码区性色| 色香蕉网站| 久青草国产高清在线视频| 久久6免费视频| 国产人人射| 亚洲色婷婷一区二区| 日韩在线永久免费播放| 亚洲一区二区三区国产精华液| 亚洲精品无码AV电影在线播放|