王水萍
(鄭州經貿職業學院計算機系 河南 460005)
隨著Web信息成指數級的增長,傳統搜索引擎能夠搜索出來的網頁越來越多,但這些搜索出來的網頁大多都與用戶請求無關,并且網頁之間沒有任何關系,用戶需要從眾多的結果中過濾出自己所要的信息,大大加重了用戶的檢索負擔。傳統的搜索引擎是通用型的搜索引擎,一般來說,不同的用戶輸入相同的查詢請求總會返回相同的查詢結果,然而,對于每一個用戶來說,由于關注點不同,用戶更期望得到個性化的檢索結果。
搜索引擎本就是為了方便用戶在網絡信息中搜索有用的信息。利用個性化技術來提高搜索引擎系統的性能,主要是為了給查詢用戶提供較為準確的個性化搜索結果。比如,當用戶用傳統的搜索引擎來查詢時,如果輸入“蘋果”,由于傳統搜索引擎采用普通的排序算法排序,不同的用戶輸入“蘋果”,搜索引擎返回的結果都是相同的。一般情況下,排在前面的網頁都是一些“平板電腦”、“手機”等電子產品的頁面,然而如果用戶的興趣不在于此,而是想查詢蘋果收購和銷售方面的信息,那么相關的搜索結果就不是他們想要的。但是,當傳統的搜索引擎使用了個性化檢索技術后,用戶的查詢結果就發生了改變,這時搜索引擎系統利用用戶興趣模型來對初始的搜索結果頁面集進行優化過濾,從而為用戶返回個性化的查詢結果,這也就是用戶想要的結果。
個性化信息檢索系統主要是面向廣大的Internet用戶,因此本文設計的該系統考慮綜合了多種解決方法和個性化技術。
Web挖掘是Web技術、數據挖掘、計算機技術、信息科學的一個交叉學科,是數據挖掘在網絡環境下的應用。在Web信息檢索領域使用Wcb挖掘技術,目的是提高信息檢索的準確率和效率,改善查詢結果。其幾點應用如下:
①使用Web內容挖掘中的聚類技術、文檔分類技術對Web文檔進行分析處理,對文檔進行摘要,以改善Web文檔索引的組織結構,提高檢索效率。
②Wcb結構挖掘通常分析頁面間的鏈接結構和組織結構發現重要的信息,用以改進檢索的結果。
③Web使用挖掘常用的一個領域就是對服務器端用戶日志進行挖掘,通過用戶日志挖掘出用戶的興趣,從而獲取用戶的反饋信息,也可以通過對用戶日志里的訪問歷史進行分析來發現有用的用戶訪問模式,為構建用戶的興趣模型提供有效的信息,利用用戶興趣模型對檢索結果的過濾可以提高信息檢索系統的查準率。因此,將Web挖掘技術運用到個性化信息檢索系統中,能夠提高信息檢索的效率及準確度。
基于Web挖掘的個性化信息檢索系統架構如圖1所示。

圖1 個性化信息檢索系統架構
個性化信息檢索系統的整個運行過程可以描述為:首先,我們利用信息搜集索引模塊中的Spiders來遍歷Internet自動獲取收集文檔信息,并通過過濾、轉換技術對文檔信息進行處理,提取索引項生成索引表,將索引處理過的數據放入索引數據庫;接著,在處理后的數據上利用個性化模型進行相關度檢測,并對搜索結果進行個性化過濾,最終用戶可以搜索到符合自己興趣的個性化結果。因為用戶隨著環境的變化和時間的推移會形成新的興趣,也同樣會對原來感興趣的東西失去興趣,用戶的興趣處于不斷變化之中,所以個性化興趣模型也需要不斷更新。由此可見,我們需要及時根據用戶的興趣變化來調整個性化興趣模型。因此,個性化興趣模型的功能非常重要。利用智能代理能夠實時跟蹤監視用戶行為,分析判斷用戶的瀏覽行為來及時發現用戶興趣的變化。因此,個性化興趣模型的主要工作就是用戶興趣模塊的構建和及時更新。
該個性化信息檢索系統為了滿足不同用戶個性化檢索的需求,構建用戶興趣模型,采用相關反饋技術過濾掉了大量不相關文檔,有效地提高了用戶進行信息檢索的效率。
根據圖1,系統架構主要包括下面幾個模塊組成:信息搜集索引模塊、用戶興趣建模模塊、用戶興趣自動更新模塊、結果過濾模塊。其中的用戶興趣建模和用戶興趣自動更新模塊構成了個性化模型。本系統考慮了用戶個性化的需求和用戶個體的差異,所以能夠提供更準確更高質量的檢索結果。
①信息搜集索引模塊
利用Spiders來遍歷Internet自動獲取收集文檔信息,并通過過濾、轉換技術對文檔信息進行處理,提取索引項生成索引表,最后將處理過的數據放入索引數據庫。
②用戶興趣建模模塊
本模塊采用一種不需要用戶干預的用戶動態興趣學習方法來生成初始的用戶興趣模型。該模塊通過分析用戶客戶端Wcb緩存中用戶瀏覽過的網頁以及用戶在網頁上的行為,來提煉出用戶的興趣,生成初始化的用戶興趣描述文件。
③用戶興趣自動更新模塊
用戶興趣建模模塊得到的是一個初始化的用戶興趣模型,然而用戶的興趣是動態變化的,如果用戶模型在檢索過程中一直靜態不變,那么根據此用戶模型判斷而做出的輸出結果多半是不準確的。用戶興趣自動更新模塊主要根據用戶的瀏覽行為動態的更新用戶興趣模型。其中用戶在訪問過程中的行為包括了用戶從上網開始到結束的所有動作,比如:用戶對某個頁面的訪問次數、停留時間、是否保存、是否下載等,這些行為動作都能體現出用戶的興趣。本模塊采用智能Agent對用戶瀏覽網頁的所有行為動作進行跟蹤,深度挖掘出隱含在這些行為里的用戶興趣,并隨時對用戶興趣文件進行更新,從而使用戶興趣模型得以動態更新。
用戶興趣建模模塊與用戶興趣自動更新模塊共同構成了個性化模型,也是本系統的重點組成部分。
④結果過濾模塊
本模塊主要利用文本相似度算法比較計算用戶興趣模型和每一個初始結果的相關度,然后依據用戶興趣的相關度按照由大到小的順序返回給用戶,從而使用戶得到個性化的檢索結果,在最大程度上滿足了用戶的個性化需求。
個性化信息檢索系統中各模塊都實現了不同的重要功能,是該系統的核心。這些模塊不但實現的功能各不相同,而且運行機制方式也不盡相同。信息搜集索引模塊和用戶興趣建模模塊是周期運行模塊,用戶興趣自動更新模塊是一個實時運行模塊,結果過濾模塊是按指令調用被動運行的模塊。信息搜集索引模塊周期運行Spiders收集網頁信息,網頁信息經過索引處理后放入索引數據庫。用戶興趣建模模塊按指定的周期執行,周期更新用戶興趣描述文件,實現用戶模型的更新。用戶興趣自動更新模塊實時跟 蹤監視用戶的瀏覽行為,并隨時挖掘用戶的動作來更新用戶的興趣描述文件。結果過濾模塊是只有在查詢請求提交時,才會被調用并執行,是一個不定期被動運行的模塊。
本文主要研究了采用Web深度挖掘技術針對個性化信息檢索系統進行總體設計。本系統的設計目的是在為不同用戶提供不同的搜索結果的基礎上為用戶提供能夠滿足用戶興趣的搜索結果,它的前一個功能由個性化模塊實現,后面的功能由結果過濾模塊完成,結果過濾模塊是對初始搜索的結果進行個性化過濾,并依據用戶興趣相關度進行排序,從而使用戶得到滿意的搜索結果。
[1]周迎新,方暉,李欣蔚.基于Web的數據挖掘技術研究[J].科技創新導報.2008(3):25.
[2]林培光.面向Web的個性化語義信息檢索技術[M].北京:中國財政經濟出版社,2009.
[3]張強.搜索引擎—網絡信息檢索方法[J].農業網絡信息.2010(02) .