999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣模型的Nutch個性化搜索引擎研究

2015-10-21 18:12:24蔣翀費洪曉張嘯
計算機時代 2015年9期
關鍵詞:搜索引擎

蔣翀 費洪曉 張嘯

摘 要: 針對目前主流搜索引擎個性化程度低的問題,通過分析用戶的瀏覽行為和瀏覽內容來獲取用戶的興趣類別以及關鍵詞,用一組帶權重的關鍵詞組成的向量集來表示用戶興趣模型,利用更新算法對模型進行更新與優化。將用戶興趣模型與開源搜索引擎Nutch相結合,加入中文分詞組件IKAnalyzer,實現了個性化搜索引擎。進行了傳統搜索和個性化搜索對比實驗,結果證明,Nutch個性化搜索引擎結果更符合用戶興趣。

關鍵詞: 用戶興趣模型; 個性化; 搜索引擎; Nutch

中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2015)09-26-03

Research of personalized search engine based on user profile

Jiang Chong1, Fei Hongxiao2, Zhang Xiao2

(1. Modern Education Technology Center, HunanWoman's Vocational University, Changsha, Hunan 410004, China;

2. School of Software, Central South University of China)

Abstract: In order to improve the degree of personalization for popular search engine, the user's interest categories and keywords were got by analyzing user's browsing behavior and content. User profile was represented by a vector set which consisted of a set of weighted keywords and updated by correlated algorithm. By embedding in user profile and IKAnalyzer, Nutch became a personalized search engine. Comparative experiments were carried out with the traditional search and the personalized search. The results show that, the personalized search engine got more relevant result with user interest than traditional research engine and was proved to be effective.

Key words: user profile; personalized; search engine; Nutch

0 引言

飛速發展的互聯網在帶給人們海量信息的同時,也產生了難以讓用戶快速準確獲取有效信息的問題[1]。目前,占市場主導地位的搜索引擎查詢結果僅僅跟用戶輸入的關鍵詞有關,并未考慮在相同關鍵字中所隱藏的用戶個性化需求。這一類的搜索引擎以自動抓取信息和自動排序查找為主要特征[2]。目前,主流的搜索引擎均未實現面向客戶需求和興趣的個性化搜索。在這種情況下,個性化搜索引擎的研究和發展逐漸興起。在這一代的搜索引擎中,公認的應該具備的特征是個性化和智能[3]。

為了根據用戶需求和興趣產生搜索結果,搜索引擎需要以用戶興趣模型的構建為基礎。本文中采用隱式反饋的方式,通過分析用戶的瀏覽行為和瀏覽內容,獲取用戶的興趣類別和關鍵詞,用一組帶權重的關鍵詞組成的向量集表示用戶興趣,利用更新算法對模型進行優化,使用戶模型的構建能在指導的條件下進行,實現智能化的搜索。在個性化搜索引擎的實現部分,以Lucene為基礎,使用Nutch實現了個性化搜索引擎,以此為實驗平臺,驗證了用戶興趣模型的有效性。

1 用戶興趣模型的建立和應用

通常來說,個性化搜索引擎的結果取決于用戶興趣模型的表示,所以,用戶興趣模型的構建在個性化搜索引擎研究和實現中十分關鍵[4]。

本文在傳統向量空間的基礎上,使用一種改進的多層次向量空間模型表示用戶興趣。由于用戶興趣的多樣性,對用戶的興趣進行類別劃分,可有效減少不同類別之間的相互干擾,提高檢索的準確度。具體來說,就是“用戶→興趣類別→興趣詞條”的層狀樹型結構,如圖1所示。

[用戶][興趣類別1][KW11][……][KW1n] [……][興趣類別m] [KWm1][……][KWmn]

圖1 多層次向量空間的用戶興趣模型

在圖1中,第一層是用戶,第二層是興趣的類別,第三層由用戶興趣的詞條組成。假設有m個領域是用戶感興趣的,那么興趣模型(Interest Profile)也可以用以下向量來表示:

IPro={(C1,H1,Q1,T1),(C2,H2,Q2,T2),…,(Cm,Hm,Qm,Tm)}

其中,(Ck,Hk,Qk,Tk)是用戶的第k類興趣的節點,Ck表示興趣類別的名稱;Hk表示類別的權重,是對Ck類的所有樣本的興趣程度的乘積。Qk表示的是樣本的數量,Tk表示的是興趣詞條的列表。

如果Ck 類有n個興趣的詞條,那么Tk可以表示為:

Tk={(KWk1,WTk1),……(KWkn,WTkn)}

其中,(KWkn,WTkn)是第n個詞條,KWkn是關鍵詞,WTkn是它的權重。

用戶興趣模型構建之初,需要主動輸入一些興趣類別,這部分主要是用戶的穩定興趣。在使用過程中,搜索引擎需要具備隱式獲取用戶興趣的能力,自動處理用戶興趣模型的更新。根據人類的行為和心理特征,將用戶興趣分為實時興趣和穩定興趣,分別指代用戶短期內和長期不變的興趣傾向。

用戶實時興趣主要從用戶短期內所訪問的頁面獲取。假設用戶在一天內訪問了w個頁面,那么可以使用m維的向量Ptd來描述這一天的興趣:

ptd=(,,…… ,)

其中,每一項可表示為:

=

用戶的穩定興趣可以通過用戶n天內的訪問歷史來獲取,在本文中,將n的值作為天數窗口尺度,定義了Sj為用戶在前j天瀏覽的頁面數,其中s0表示的是用戶當天瀏覽的頁面數。在此基礎上,通過設置窗口的尺度n來構造用戶的穩定興趣模型,在這里將n定義為60。與構造Ptd相類似,用一個m維的向量來表示用戶的穩定興趣,具體表示如下:

psd=(,,…… ,)

根據以上分析,公式中每一項可表示為:

=

其中,是衰減因子,表示穩定興趣的遺忘速率,正如人的大腦會遺忘事情一樣,用戶穩定興趣中的元素權值也會隨著時間的流逝而有所下降,所以說用戶模型中的衰減因子的應用保證了模型的時間可靠性。在此遺忘因子中,hl是生命周期參數,根據經驗,人所接受的新知識一般都在一周后便開始遺忘,所以將hl的值設置為7;din表示關鍵詞t(k)第一次出現的日期,d表示當前日期,d-din表示的就是關鍵詞tk在模型中存儲的天數,也就是用戶對其感興趣的天數。最后,由于用戶每天訪問的頁面數量不等,通過每天訪問的頁面總數Sn對其規范化。

隨著用戶訪問網絡時間的累積,所訪問頁面數量的持續增加,用戶穩定興趣模型會自動進行更新。結合用戶實時興趣,可構成用戶的興趣模型,表示如下:

P= a×ptd+c×b×psd

其中,a+b=1,c是一個常量,定義如下:

其中,dur表示用戶花費在每個關鍵詞上的平均時間,通過初步實驗分析研究,本文確定閾值Th=0.317。

Web頁面與用戶興趣模型一樣,都可以用向量空間表示,所以也就能運用向量的相似度計算來對它們進行統一處理。假設頁面ri是使用搜索引擎查詢到的第i個頁面,用戶興趣模型P與ri的向量形式的相似度計算方法公式表示如下:

利用這個公式可計算出搜索引擎查詢到的頁面ri 與用戶興趣模型P之間的相似度。也就是說,搜索引擎得到一般搜索結果后,可以按照相似度大小對檢索結果進行降序排列并顯示,從而達到個性化搜索的目的。

2 基于Nutch的個性化搜索引擎實現

與一般的搜索引擎類似,Nutch最主要的兩大功能是爬取跟查詢。Nutch中爬蟲的主要職責是從網絡上爬取web頁面并且建立數據結構良好的索引。查詢則是根據用戶的查詢關鍵詞返回符合要求的網頁[5]。由于Nutch的中文分詞采用默認的單字切分,這會直接影響到檢索結果的排序和檢索的效率,以及準確度,所以本文在Nutch中加入了IKAnalyzer中文分詞組件。

個性化搜索引擎的關鍵就是高質量、高精度的用戶興趣模型應用到普通的搜索引擎中去[6]。引擎匹配模塊就是基于此原理來發揮作用的,計算用戶搜索到的網頁文本跟用戶的興趣的相關度,并且進行排序。本文編寫了Java代碼實現了用戶興趣模型中用戶興趣的提取。具體來說,首先構建一個對象,實現映射,打開建立好的索引文件,新建爬蟲對象,得到最基本的用戶興趣類別;然后根據用戶的輸入關鍵詞,得到匹配結果鏈表,返回與查詢關鍵詞相匹配的興趣類別;接著對得到的興趣類別賦予權值,得到興趣類別的關鍵詞鏈表,并輸出;最后,返回提取的用戶興趣。

個性化搜索引擎的接口界面是提供給用戶檢索并且返回查詢結果的地方,也是直接給用戶提供服務的地方,所以簡潔、方便是最基本的要求。最后實現的個性化搜索引擎界面采用Nutch系統自帶的頁面,如圖2所示。

圖2 個性化搜索引擎界面

3 實驗結果

實驗中需要先根據用戶興趣模型得到用戶興趣類別。通過索引得到的文本文檔存放在/nutch-1.2/vipcrawl下,vipcrawl是通過nutch自帶的爬蟲爬取同一目錄下的vipurls.txt得到的。vipurls.txt中存放了一百個左右網頁比較多的網站的鏈接,爬取深度為2,得到的頁面具有代表性。分析了用戶的瀏覽行為和內容之后,對網頁進行文本分類的結果如表1。

表1 對網頁進行文本分類的結果

[主題類別\&文檔總數T\&查準數N1\&查錯數N2\&查準率P\&足球\&300\&245\&55\&0.817\&IT\&800\&756\&44\&0.945\&手機\&200\&175\&25\&0.875\&旅游\&600\&564\&36\&0.940\&]

表1中,P=N1/T。完成了對文本的分類之后,所分成的主題類別就是用戶的興趣類別所在。由于網頁的興趣度已經計算出來了,所以可以根據公式得到用戶每個興趣類別的權重,計算出的結果如表2。

表2 用戶興趣類別及權重

[用戶興趣的類別\&權重\&足球\&0.32\&IT\&0.26\&手機\&0.17\&旅游\&0.09\&]

由此可以得到具體用戶的興趣模型,模型的形象化表示如圖3所示。

[用戶][足球(0.32)][英超

10.85][德甲

5.65][西甲

3.26] [IT(0.26)][手機(0.17)] [蘋果

12.36][三星

8.36][小米

6.32]

圖3 用戶興趣模型的圖形表示

圖3中,在每個興趣類別下,有若干個興趣詞條,是用“關鍵詞(其權重)”來表示的。從圖3模型中可以看出,用戶最感興趣的三個領域分別是“足球”、“IT”、“手機”。其中在“足球”這個類別中,描述用戶興趣的關鍵詞分別是“英超”、“德甲”、“西甲”,關鍵詞“英超”所占的比例又是最大的。

在實驗中,輸入的關鍵詞與預期的與用戶興趣相關的內容如表3。

表3 預期的用戶興趣相關的搜索結果

[關鍵詞\&預期的與用戶興趣相關的內容\&安德森\&與英超球員安德森相關的內容\&蘋果\&與蘋果產品和公司相關的內容\&小米\&與小米公司和產品相關的內容\&小跳蚤\&與巴薩球星梅西(綽號小跳蚤)相關的內容\&]

分別根據以上四個關鍵詞進行個性化搜索和百度搜索,根據表3,統計每個關鍵詞每次搜索結果的前30個頁面是否與用戶興趣相關,得到的搜索結果對比如圖4所示。

圖4 百度搜索與Nutch個性化搜索結果對比

從圖4結果對比可以看出,基于用戶興趣模型的Nutch個性化搜索引擎獲得了更多的符合用戶興趣的搜索結果。在百度搜索的前30個結果中,符合用戶興趣的分別占到了10%,30%,96.7%和10%;在Nutch個性化搜索的前30個結果中,符合用戶興趣的分別占到了60%,60%,100%和100%。通過實驗證明,個性化搜索引擎能夠在一定程度上提供更符合用戶興趣的搜索結果。

4 小結

本文以用戶興趣模型的構建作為切入點和研究重點,建立了分層的向量空間模型表示用戶興趣,構建了Nutch個性化搜索引擎,實現了引擎匹配模塊與搜索接口模塊。在實驗中,使用百度搜索引擎和Nutch個性化搜索引擎,針對相同的關鍵字分別進行頁面搜索,根據預期的用戶興趣相關內容,對搜索結果進行分析和比較。實驗結果證明,構建的用戶興趣模型可以在一定程度上達到個性化搜索的目的,驗證了用戶興趣模型的有效性。但是,在研究過程中,還存在著一些需要改進和完善的方面。這主要包括:用戶興趣模型中信息的隱式獲取需要更高效的方式;搜索結果的個性化程度還需要進一步提高;用戶興趣更新的有效性需要更長期和頻繁的實驗來證明。所以,在下一步的工作中,將針對所發現的問題,對個性化搜索引擎的核心——用戶興趣模型進行優化,設計和進行更長期、更高頻次的實驗,對用戶興趣更新的有效性進行驗證,進一步提升搜索引擎的個性化程度。

參考文獻:

[1] 費洪曉,莫天池,秦啟飛等.社交網絡相關機制應用于搜索引擎的研究綜述[J].計算技術與自動化,2014.33(1):1-9

[2] Lu D, Li Q. Personalized search on Flickr based on searcher's preference prediction[C]//Proceedings of the 20th international conference companion on World wide web. ACM,2011:81-82

[3] 袁柳,張龍波.個性化搜索中的用戶特征模型研究[J].計算機工程與應用,2011.47(15):19-24

[4] 李清華,康海燕,苑曉姣等.個性化搜索中用戶興趣模型匿名化研究[J].西安交通大學學報,2013.47(4):131-136

[5] 丁兆貴,金敏.基于Lucene的個性化搜索引擎研究與實現[J].計算機技術與發展,2011.21(2).

[6] Kim H N, Rawashdeh M, Alghamdi A, et al. Folksonomy-basedpersonalized search and ranking in social media services[J]. Information Systems,2012.37(1):61-76

猜你喜歡
搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
一種自反饋式元搜索系統的設計
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 亚洲欧美精品一中文字幕| 亚洲性影院| 91精品国产丝袜| 波多野结衣国产精品| 亚洲一区波多野结衣二区三区| 欧美一级黄片一区2区| 午夜免费视频网站| h网址在线观看| 亚洲精品无码专区在线观看| 欧美精品亚洲精品日韩专区va| www.99精品视频在线播放| 中文字幕啪啪| 2022精品国偷自产免费观看| 国产精品人莉莉成在线播放| 国产成人精品18| 欧美激情二区三区| 一级毛片基地| 精品福利网| 国产亚洲欧美在线人成aaaa| 最新国产你懂的在线网址| 人妻丰满熟妇αv无码| 亚洲无卡视频| 97超级碰碰碰碰精品| 欧美日韩综合网| 国产精品制服| 久久久噜噜噜久久中文字幕色伊伊| 欧美成人区| 这里只有精品在线| 欧美成人精品一级在线观看| 国产一级裸网站| 91精品国产丝袜| 在线观看无码av五月花| 毛片在线看网站| 免费看一级毛片波多结衣| 精品久久久久无码| 老司机午夜精品网站在线观看| 少妇精品在线| 99热这里只有免费国产精品 | 欧美一级专区免费大片| 免费啪啪网址| 日本黄色a视频| 99精品福利视频| 99视频国产精品| 欧美亚洲中文精品三区| 成人综合网址| 成人国产精品一级毛片天堂| 亚洲AⅤ无码日韩AV无码网站| 亚洲国产成人精品无码区性色| 婷婷伊人久久| 国产精品3p视频| 在线亚洲小视频| 伊人国产无码高清视频| 黄色网页在线观看| 亚洲欧美不卡| 久久99久久无码毛片一区二区 | 激情五月婷婷综合网| 久久亚洲国产视频| 中文字幕永久在线观看| 亚洲第一黄色网址| 2022国产无码在线| 国产美女在线观看| 97成人在线视频| 狠狠色综合久久狠狠色综合| 免费啪啪网址| 欧美精品高清| 91九色视频网| 欧美亚洲一二三区| 国产精品人莉莉成在线播放| 久久香蕉欧美精品| 不卡无码h在线观看| 伊人丁香五月天久久综合| 亚洲三级影院| 天天躁夜夜躁狠狠躁躁88| 日韩大片免费观看视频播放| 国产高潮视频在线观看| 天天摸天天操免费播放小视频| 国产小视频网站| 亚洲欧美成人| 黄片在线永久| 久久国产精品娇妻素人| 免费av一区二区三区在线| 日韩福利在线观看|