999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣的個性化信息檢索方法研究

2015-04-11 05:30:58張一洲
現代情報 2015年6期
關鍵詞:信息檢索

張一洲

(中共淮安市委黨校,江蘇?淮安 223003)

·理論探索·

基于用戶興趣的個性化信息檢索方法研究

張一洲

(中共淮安市委黨校,江蘇?淮安 223003)

〔摘要〕在信息檢索中對基于用戶興趣的檢索結果進行重排得到廣泛關注。為了構建用戶興趣的知識庫,本文對用戶的登錄細節和點擊數據進行綜合分析,提出了定制用戶訪問信息的方法,同時采用開放式目錄項目Dmoz自動進行用戶興趣主題映射,對搜索結果進行個性化分類,并根據用戶興趣對檢索結果重排,比正常的搜索引擎更容易找到相關的信息。聯機實驗結果表明,本文提出的方法可有效地提高用戶檢索精度。

〔關鍵詞〕信息檢索;用戶興趣;主題映射;個性化分類

隨著電子文檔的急劇增加,人們從Internet上獲取所需信息,搜索引擎發揮著重要作用。在此基礎上,搜索引擎可以進行結構化數據(例如,作者=“比爾蓋茨”,年份=“1995”)或非結構化數據(例如,“數據庫”)的搜索。結構化數據包含文檔的元數據,非結構化數據包含不同種類的圖像、視頻、書籍等。信息檢索就是采用信息檢索的技術或方法、找出滿足用戶需求相關的信息過程。信息檢索系統是指根據特定的信息需求而建立起來的一種有關信息搜集、加工、存儲和檢索的程序化系統,為人們提供信息服務[1]。

由于用戶的興趣愛好復雜多變、有時甚至矛盾,加上自然語言查詢本身就模糊,通用搜索引擎模糊查詢獲得的結果可能與用戶無關,也就是說通用搜索引擎的檢索結果并不總是根據用戶興趣進行信息檢索。根據分析,大多數情況下提交給搜索引擎的查詢關鍵詞的長度為3個或少于3個,短查詢提供給用戶的信息比長查詢提供的信息少,且短查詢往往模棱兩可。為了檢索到與用戶需求相關的文檔,根據用戶的搜索歷史、書簽、社區行為、網站的點擊率等都可發現用戶興趣,添加用戶興趣主題可消除查詢的歧義,并使用相關性反饋進行個性化信息的重排可解決短查詢出現的模棱兩可問題。

個性化信息檢索是指能夠為具有不同信息需求的用戶提供個性化檢索結果的技術,即對不同用戶提交的同一種查詢詞語也能按照不同的用戶需求而生成不同的檢索結果。通過對用戶信息需求的分析可知,信息源既可包括用戶需求的部分信息,例如E-mail、文本文檔等,也可包括用戶信息搜索、點擊數據確定的檢索結果。李樹青[2]從用戶模式表達方法、個性化結果獲取方法和結果呈現方法3個角度,對個性化信息檢索技術的發展現狀進行全面的分析,指出未來個性化信息檢索技術需要進一步解決的問題。Micarilli[3]等人認為根據文檔的相似性和用戶興趣可自動創建用戶興趣模型,在對提交的文檔進行重排時,信息檢索系統不會增加負擔。開發目錄項目ODP(Open Directory Project,簡稱ODP)是Internet最大的人工編制分類檢索系統,在搜索時能夠準確地消除二義性,Paul[4]等人根據概念相似性的特點將用戶愛好映射成ODP概念層,為用戶提供符合其預期的搜索結果。

本文對用戶的登錄細節和點擊數據進行綜合分析,根據關鍵詞的相似性進行定義,形成用戶興趣概念網,且用ODP類的概念矢量表示[5]。在用戶興趣概念網中定義了涵蓋用戶檢索時所選擇的文檔集范圍和用戶檢索時從選定的文檔集中提取關鍵詞的屬性集目標,采用開發目錄項目Dmoz自動進行用戶興趣主題映射和傳統的TF-IDF加權方案,定制用戶搜索信息方法,并對搜索結果進行個性化分類,且根據用戶興趣對檢索結果重排。該方法比正常的搜索引擎更容易找到相關的信息。

1 信息檢索體系結構

為了利于搜索引擎的檢索,本文使用Dmoz標簽結構進行分析[6],統計相關數據,并根據這些數據提出一種創建用戶興趣獨特方法。該方法只使用現有知識資源,因而無須開發新資源。由于不同的概念可映射給不同用戶,且Dmoz可覆蓋大多數概念領域,因此用戶興趣文檔也可無限制地映射到不同的概念領域。不過需根據用戶興趣,對檢索結果進行重排,便可實現個性化信息檢索。圖1是本文提出的信息檢索體系結構。

圖1個性化信息檢索體系結構

圖1的個性化信息檢索體系結構由脫機處理和聯機處理兩部分組成。脫機過程中,從語法上進行Dmoz解析并創建其主題概念文檔,同時對出現的主題進行關鍵詞的向量加權。聯機過程中,使用混合方法收集用戶信息,并使用Google API實現排序功能。通過查找與用戶Dmoz主題相關且被用戶訪問過的文檔間的相似度學習用戶興趣,并根據用戶興趣文檔向量和初始排序文檔向量間的余弦相似度進行重排,圖2是本文提出的信息檢索流程圖。

圖2信息檢索流程圖

1.1脫機處理

首先解析Dmoz以便創建與主題標題和相應描述的主題記事本文件,以RDF格式表示含有主題及其相關描述的Dmoz,并使用Stanford Core NLP開發的語法分析器對記事本文件進行停止詞預處理。

算法1:解析和創建Dmoz算法Step1:dowhilenotatendofDmozRDFfileStep2: Createtextfile(topic:description)Step3: RemovestopwordsStep4: MorphologyanalyzerStep5:enddo

預處理后,創建單個Dmoz主題索引,接著使用算法2按Dmoz主題創建Lucene索引。

算法2:按Dmoz主題創建Lucene索引算法Step1:N=NumberofDmoztopicsStep2:fori=1toNdoStep3: Readfile(i)Step4: Analyzefile(i)Step5: Indexfile(i)Step6: i=i+1Step7:endfor

1.2聯機處理

1.2.1收集用戶數據

由于收集和更新用戶的信息非常重要,因此獲取有效的用戶數據集是一項重要的任務。本文綜合使用間接和直接相結合方法,通過用戶訪問過的文檔收集用戶數據。用戶選擇的文檔標題或片段可作為相關性的間接判斷依據。使用余弦相似度將文檔標題或片段映射成Dmoz主題。文檔的關聯性也可從用戶處直接獲取,如名稱、用戶名、密碼、電子郵件等初始登錄細節都可作為創建用戶興趣愛好的直接數據。

1.2.2使用Google API排序

使用Google提供的自定義API獲取最初的文檔排序,使用該API用戶還可以搜索指定的網站,并將其添加到用戶興趣數據庫中去。JSON(Javascript Object Notation)對象是返回結果,從返回的結果中便獲取關聯文檔的標題、URL、片段及一些元數據[7]。一旦創建用戶興趣概念網,排序過的文檔向量也就創建了,并用于重排。對于新用戶來說,由于之前沒有可用信息,因而最初的排序結果就是重排結果。

1.2.3按余弦相似度重新排序

排序時需計算學習過的用戶興趣向量與檢索過的文檔向量間的余弦相似度,其余弦相似度[9]公式如下:

(1)

其中,D和D′分別表示文檔集和Dmoz主題集的加權向量。

1.2.4用戶興趣學習

無論是老用戶,還是新用戶都需進行用戶興趣學習。當用戶提交文檔時,系統將對用戶查看過的文檔標題或點擊過的片段進行相關標記。脫機處理時,將Dmoz索引主題點擊過的文檔標題或片段看作一個查詢,排在最前面的檢索文檔便是與主題相關的文檔,并將其添加到用戶興趣概念網中。根據用戶興趣創建關鍵詞詞頻向量,假設關鍵詞詞率向量是N維,其中N是詞匯表中關鍵詞的個數,用戶興趣中每個關鍵詞的權重用tf-idf表示[8]。

◆Dmoz主題D′=主題∪描述。

◆主題標題Td={t1,t2,t3,…,tx}。

◆描述Dd={d1,d2,d3,…,dy}。

◆用戶興趣U={u1,u2,u3,…,um}。

其中,ti、di、ui分別表示關鍵詞的標題、關鍵詞的描述、用戶興趣。

對Dmoz主題D′來說,文檔D和用戶興趣U向量就可產生了,產生的向量V公式如下:

V={w1,w2,w3,…,wN}

(2)

wi是第關鍵詞i的tf-idf。tf-idf計算公式如下:

tf-idf(t,d,D)=tf(t,d)×idf(t,D)

(3)

(4)

(5)

為了重排,需計算用戶興趣向量U和文檔向量D間的余弦相似度。計算機余弦相似度而不是遍歷所有詞匯表,而是只考慮出現在U∪D中的關鍵詞。余弦公式變成如下:

(6)

其中,w是關鍵詞出現在U∪D中的集合。聯機處理算法如下:

算法3:聯機處理算法 Step1:QueryQ=q1,q2,q3,…,qa Step2:SnippetS=s1,s2,s3,…,sb Step3:UserProfileU=u1,u2,u3,…,uc Step4:DmozTopicT=t1,t2,t3,…,td Step5:Initializations:numberofresultsn=10 Step6:rankedGoogleAPI(Q) Step7:ifOlduserthen Step8: fori=1tondo Step9: sim[i]=similarity(S,U) Step10: ?re-rankedsort(sim) Step11: endfor Step12: printre-ranked Step13: relevantDocRelevanceFeedback Step14: relevantTopicLucenesearchresultsforrel-evantDocasquery Step15: UpdateProfile(relevantTopic) Step16:else Step17: printranked Step18:endif

由于用戶不斷地執行信息檢索,并在檢索結果中選擇相應的文檔,因而用戶興趣概念網將會漸漸地復雜起來。

2 實驗性能分析

本實驗旨在驗證用戶使用本文提出的方法對不同的網站進行搜索,系統是否將與用戶興趣關聯的鏈接提供給用戶,并添加到用戶興趣的概念網中。實驗結果表明本文提出的方法能準確地進行用戶興趣學習并給出更貼近用戶的結果。

2.1性能指標設置

實驗時收集來自10個不同領域(如經濟學、電子、生物、自然語言處理、民事、機械、計算機、物理、統計和化學)的用戶數據,且每個用戶在自己的領域內執行10個不同的查詢。從用戶的點擊模式中間接獲取用戶反饋,反饋的文檔可能與用戶所在領域相關或不相關,或部分相關。用戶不僅要對排序結果給出直接的反饋,也要對重排結果給出直接的反饋。用精度(P)測試檢索到最相關且頂級文檔的能力。

P=檢索得到的關聯文檔數/需檢索文檔總數

(7)

由于原排序和重排文檔一樣,因而只使用排在最前面的n個結果,n=9,即只考慮排在最前面的9個結果。P@9表示排在最前面的9個的精度:

P@9=包含在最前9中的關聯文檔數/9

(8)

2.2結果分析

如果考慮每個查詢的平均精度,那么平均精度比Google API的平均值提高了約17%;如果考慮每個用戶的平均精度,那么也有大約10%的提高。表1和表2是本文提出的方法與Google搜索引擎的比較結果,圖3和圖4分別是每個查詢和每個用戶的P@9平均精度性能。測試表明本文提出的方法能準確地學習用戶興趣且給出的結果更貼近用戶。與現有的Google搜索引擎相比,本文提出的方法具有良好的平均精度。

表1 搜索結果平均精度值(每個查詢)

表2 搜索結果平均精度值(每個用戶)

圖3本文方法與Google方法的性能(每個查詢)

圖4本文方法與Google方法的性能(每個用戶)

表3是使用Google和本文提出的方法示例查詢結果。本文提出的方法首先確定用戶查詢屬于哪個學科,然后對查詢結果進行相應的重排。例如在“計算機程序設計”、“生物學”等領域使用混合查詢,可確定每個用戶來自的領域。Google搜索系統平均精度低的主要原因是“計算機程序設計”關鍵詞在Web中具有多樣性,而“生物學”關鍵詞在Web中不具有多樣性。

表3 示例查詢結果

重排后,幾乎不存在性能減少的查詢。可是由于將以前查詢反饋結果中的許多關鍵詞添加到用戶興趣文檔中去,又有可能導致主題漂移。例如,進行“癌癥”查詢時,性能從1.0減少到0.8,并導致諸如“商業”、

“學院”等用戶興趣關鍵詞主題的漂移。

3 結束語

回顧近年來的相關研究,本文提出了一種基于用戶興趣的個性化信息檢索方法。為了學習用戶興趣,在提出的方法中使用Dmoz的主題創建Lucene索引,使從點擊文檔到創建索引映射用戶興趣變得很容易。在相似度計算時,使用輕量級的余弦相似性給出高精度。選用10個用戶進行測試,每個用戶從各自的領域進行10個查詢,選擇的查詢方式在不同的領域有不同的含義。將本文提出的方法與Google API搜索方法進行比較時,如果計算每個查詢的平均值,本文提出的方法性能提高了約17%;如果計算每個用戶的平均值,本文提出的方法提高了約10%。

參考文獻

[1]俞揚信.個性化網絡學習的語義信息檢索研究[J].情報學報,2012,31(1):18-22.

[2]李樹青.個性化信息檢索綜述[J].情報理論與實踐,2009,32(5):107-113.

[3]A.Micarilli,F.Gaspaetti,F.Sciarrone,et al.Personalized Search on the World Wide Web[C].Lecture Notes in Computer Science,2007:225-230.

[4]F.Paul M.Speretta and S.Gauch.Personalized search based on user search histories[C].Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence,2005:622-628.

[5]俞揚信,劉瀛澤.基于概念網的用戶個性化信息檢索研究[J].情報雜志,2012,31(2):136-140.

[6]姜冶,管仁初,梁艷春.整合Dmoz和Yahoo標簽的BNF文法及其實現[J].計算機工程與設計,2009,30(19):4520-4523.

[7]屈展,李嬋.JSON在Ajax數據交換中的應用研究[J].西安石油大學學報:自然科學版,2011,53(1):95-98,122.

[8]徐建民,王金花,馬偉瑜.利用本體關聯度改進的TF-IDF特征詞提取方法[J].情報科學,2011,32(2):279-283.

[9]李巍,孫濤,陳建孝,等.基于加權余弦相似度的XML文檔聚類研究[J].吉林大學學報:信息科學版,2010,28(1):68-76.

(本文責任編輯:馬卓)

Personalized Information Retrieval Approach Based on User Interest

Zhang Yizhou

(Party School of Chinese Communist Party Huai’an City State,Huai’an 223003,China)

〔Abstract〕Re-ranking of the retrieval results based on the user’s interests has received wide attention in information retrieval.In order to build the knowledge base about user’s interests,the proposed approach to access information was taken into consideration login details and click-through data.This paper automatically mapped Dmoz Open Directory Project topics to users’ interests,categorized and personalized retrieval results according to user interests and re-ranking of the results was done based on user interests.This made it easy to find relevant document faster than normal search engines.Online experimental results showed that the proposed approach could be effectively used for improving the precision of user retrieval.

〔Key words〕information retreival;user interest;topic map;personalized taxonomy

〔中圖分類號〕G252.7

〔文獻標識碼〕A

〔文章編號〕1008-0821(2015)06-0025-04

DOI:10.3969/j.issn.1008-0821.2015.06.005

作者簡介:張一洲(1981-),男,副教授,碩士,研究方向:信息管理與信息系統、智能化信息處理技術。

基金項目:江蘇省高校社會科學基金項目(項目編號:No.2012SJD870001)和淮安市科技支撐(工業)項目(項目編號:No.HAG2012055 )。

收稿日期:2015-03-19

猜你喜歡
信息檢索
基于同態加密支持模糊查詢的高效隱私信息檢索協議
基于信息檢索課的大學生信息檢索行為調查研究
高職院校圖書館開設信息檢索課的必要性探討
基于MOOC理念的“翻轉課堂”教學改革探索——以海南大學《文獻信息檢索與利用》課程為例
網絡環境下數字圖書館信息檢索發展
山西青年(2018年5期)2018-01-25 16:53:40
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
地理信息檢索中空間相似性度量的一種模糊方法
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 亚洲综合精品第一页| 欧美另类图片视频无弹跳第一页| 97色婷婷成人综合在线观看| 最近最新中文字幕在线第一页| 伊人91在线| 久久综合一个色综合网| 日韩欧美国产另类| 欧美一区福利| 波多野结衣一区二区三区AV| 日本欧美视频在线观看| 国产欧美日韩精品综合在线| 欧美日韩理论| 91在线免费公开视频| 丰满人妻一区二区三区视频| 亚洲色图欧美在线| 精品国产网| 亚洲浓毛av| 日韩精品高清自在线| 久草中文网| 91青青视频| 国产精品流白浆在线观看| AV色爱天堂网| 日韩欧美中文亚洲高清在线| 国产乱人伦AV在线A| 国产精品爽爽va在线无码观看| 欧美成人亚洲综合精品欧美激情| 国产全黄a一级毛片| 免费观看欧美性一级| 亚洲欧美日韩高清综合678| 久久久久久久蜜桃| 全午夜免费一级毛片| 波多野结衣无码AV在线| 欧美综合激情| 国产激情无码一区二区免费| 国产女人18水真多毛片18精品| 丰满人妻久久中文字幕| 高清不卡毛片| 精品少妇三级亚洲| 国产激情无码一区二区APP| 亚洲综合色区在线播放2019| 国产区成人精品视频| 亚洲一区二区三区国产精华液| 亚洲人在线| 中文字幕亚洲无线码一区女同| 欧美亚洲一区二区三区在线| 在线毛片网站| 97在线碰| 国产麻豆福利av在线播放| 欧美特黄一级大黄录像| 国产簧片免费在线播放| 精品国产一区二区三区在线观看| 成年人视频一区二区| 久久中文电影| 真实国产乱子伦视频| 日韩在线影院| 久久这里只有精品免费| 91青青草视频| 日本不卡在线| 青青草国产免费国产| 少妇高潮惨叫久久久久久| 久久精品无码专区免费| 91视频日本| 免费99精品国产自在现线| 五月婷婷精品| 亚洲人成网18禁| 亚洲人网站| 国产精品第| 热这里只有精品国产热门精品| 亚洲综合精品香蕉久久网| 第一区免费在线观看| 日韩无码黄色网站| 午夜国产在线观看| 日韩精品一区二区三区免费在线观看| 亚洲欧洲日韩综合色天使| 国产精品视频免费网站| 国产在线自乱拍播放| 国产青青操| 国产视频一区二区在线观看| 国产欧美成人不卡视频| 91福利在线观看视频| 呦视频在线一区二区三区| 香蕉蕉亚亚洲aav综合|