[摘要]本文針對教育系統中的電子圖書館檢索,提出了一個基于用戶興趣的分組模型。通過為電子圖書館訪問用戶劃分不同的組,實現有的放矢的資源檢索。論文采用LINGO聚簇算法進行資源主題的提取,然后通過相似度匹配的方式進行用戶分組調整,以實現準確高效的電子信息資源檢索。
[關鍵詞]電子圖書館 LINGO聚簇算法 用戶興趣 分組模型
20世紀末開始隨著計算機技術的發展,各種信息資源大量涌現,進入了信息大爆炸的時代。如何在廣闊的信息海洋中檢索到自己感興趣的數據越來越成為網絡用戶關注的焦點。針對用戶檢索信息的需求,相繼出現了許多優秀的搜索引擎,比如雅虎,Google,百度等。同時一些電子商務網站,比如Amazon,eBay,淘寶,當當等也通過不同的檢索策略為用戶提供信息檢索服務。而且隨著商業搜索引擎的不斷完善,信息檢索在教育領域發揮的作用也越來越重要,其中最重要的應用就是在電子圖書館中的資源檢索。
一、電子圖書館概述
電子圖書館(Digital Library)在信息大爆炸的時代背景下誕生,改變了傳統圖書館資源管理方式、信息檢索方式上的不足,越來越成為圖書資源管理和資源檢索的重中之重。
廣義而言,電子圖書館包括所有電子形式的圖書館資源:經過電子化轉換的或以電子形式出版的資料,新出版的或經過回溯性加工的資料(包括期刊、參考工具書、專著、視頻音頻資料等)[2]。電子圖書館還可以通過網絡將分散的電子資源集中在一起,為用戶提供無限量的電子資源信息。
一個完整的電子圖書館系統應該包括以下幾個部分:用戶發出信息查詢請求、系統接收請求并進行檢索處理、檢索結果返回給用戶三個部分。
但是現存的很多電子圖書館系統把注意力放在如何提高檢索請求的處理速度上,而忽略了最重要的一個因素:用戶(Users)。電子圖書館服務的主要服務對象是不同的用戶,關鍵在于針對不同的用戶,通過系統的分析和判斷,對不同用戶的檢索行為進行記錄、分析、綜合,進而為不同的用戶返回用戶感興趣的檢索結果。
例如電子圖書館應該針對不同學院不同學科的用戶的不同興趣進行信息的檢索,通過為不同組的用戶設置不同的檢索庫,在進行相關檢索時首先從這幾個數據庫中進行檢索,從而達到最快最高效的返回檢索結果的目的。
所以本文提出了一個基于用戶興趣的分組模型。根據用戶的興趣將用戶進行分組,根據不同的分組采取更有針對性的信息檢索。
二、用戶分組算法設計
用戶分組模塊主要包含兩個部分,第一部分是電子資源主題關鍵字的獲取,獲取主題關鍵字后返回給用戶,根據用戶對這些關鍵字的興趣獲得用戶興趣集合,該集合是進行用戶分組的主要依據;第二部分是根據第一部分獲得的用戶興趣集合進行用戶間的形似度匹配,將具有相同興趣的用戶劃歸為同一組。
1.資源主題提取原理
本文提出的檢索系統模型根據用戶的檢索興趣對用戶進行分類,通過處理同類用戶的請求以實現快速準確的檢索電子資源。用戶興趣(User interest)主要通過歸納分析用戶對電子資源的瀏覽、查詢以及下載等操作而獲得。
要實現資源檢索,首先就要獲得相應資源的主題(Topic)信息。本文利用LINGO聚簇算法實現電子資源主題的提取。同時該算法也可以用來解決稀有主題的檢索和冷門主題過度重復檢索的問題。
當用戶檢索主題為T1的資源時,通過LINGO聚簇算法返回的結果既包括T1有關的資源,也包括與主題T1相近的其他資源,用戶需要在這些返回結果中進行選擇。同時系統為用戶返回一組這些相近主題的集合。通過記錄、分析、歸納用戶對這些主題對應資源的操作,為每個主題T計算一個權值 ,同時對這些主題T根據其權值進行排列,獲得用戶興趣關鍵字集合。
利用LINGO算法檢索到的電子資源主題(topic)和用戶興趣集合是本文提出的檢索模型中對用戶進行分類的主要依據。
2. 相似度匹配算法原理
在進行信息檢索時,最重要的相似度匹配方法有兩種:變量相似性匹配和相關性匹配。所以,我們需要進行如下計算:
(公式1)
(公式2)
(公式3)
公式(1)代表了用戶a和i的相關性。其中,表示用戶a中主題j的權值,代表用戶a對主題j的重視程度。j表示用戶a和i所對應的用戶興趣集合中的元素。V代表由公式(3)計算出的用戶興趣集合元素的概率。公式(2)代表了用戶a和i的變量相似性。
當某個主題的權值改變或者新加主題的時候,分組系統將重新計算用戶興趣權值,從而對用戶分組進行調整。
當用戶a的操作影響主題j時,根據主題j的權值變化,通過計算每個用戶分組受影響的概率來判斷將對哪個用戶組進行調整,見公式(4)。
(公式4)
其中表示用戶組k受影響的概率。T為系統中所有用戶的數量,是用戶i所屬的分組,是用戶i受主題j影響的概率,N代表用戶組K中的用戶總數,表示用戶組k的用戶數在系統總用戶數中的比率。
三、系統框架及原理
1.模型框架設計
圖3-1是本模型的一個系統框架結構圖。
圖3-1系統框架結構簡圖
由圖3-1可知,該模型與傳統的圖書館檢索模型并沒有差別,都是由三大部分組成:用戶,檢索服務器,資源。首先,用戶的查詢請求發送給檢索服務器,檢索服務器根據用戶的檢索主題和用戶興趣集合對用戶分類,然后針對用戶類別的不同,將用戶的檢索請求進行分化處理,然后針對不同的用戶組別查詢相應的電子資源庫。
在本模型中,最重要的是用戶分組模塊,只有對用戶進行有效的分組才能對用戶的信息檢索請求進行有針對性的查詢。本文提出的分組模型主要根據用戶興趣的相似度來對用戶進行分組。
2. 系統工作流程
系統工作流程分為以下幾個步驟:
(1)用戶發出資源查詢請求。
用戶在客戶端操作電子信息資源,在這個過程中,用戶會瀏覽、下載、查詢特定資源,客戶端根據用戶的行為搜集用戶查詢主題集合T與用戶興趣集合I。
(2)檢索服務器接收用戶請求以及集合T和集合I。
服務器端接收用戶請求后,首先根據客戶端傳送過來的用戶查詢主題集合T和用戶興趣集合I為用戶分組。同時,當用戶有新的查詢請求到達時,分組模塊利用相似度匹配算法對現在的分組情況進行調整。
(3)根據步驟(2)獲得的分組結果,針對電子圖書館的不同資源庫進行資源查詢處理。
(4)將查詢結果返回給用戶。
四、 結束語
本文介紹了基于用戶興趣的分組模型在電子圖書館信息檢索中的應用。本論文提出的檢索模型與傳統的圖書館檢索模型并無大的差別,唯一不同的地方是在檢索服務器端對用戶進行分組處理,根據用戶興趣將用戶分成不同的組別,針對不同的組別,檢索服務器將檢索不同的電子信息資源庫。這樣縮小了檢索服務器檢索資源的范圍,提高了檢索效率和準確度。
本文采用LINGO聚簇算法實現電子資源主題的提取,該算法能夠有效解決稀有關鍵字的檢索問題,同時對于某些冷門領域的過度重復檢索問題也有良好的解決方案,所以利用該算法進行電子資源的檢索和管理,能夠提供用戶感興趣且全面的電子資源信息。
本文的重點在于用戶的分組,根據用戶興趣集合利用相關性匹配和變量相似度匹配算法進行用戶的分組處理,該算法能夠根據用戶檢索、瀏覽、下載電子資源的行為對用戶進行自動分組,為檢索服務器確定目標檢索資源庫提供了依據。進一步保證了檢索結果的準確性和高效性。
參考文獻:
[1] Digital Librarieshttp://springerlink.lib.tsinghua.edu.cn/content/u34u53494t736660/fulltext.html
[2] 王預:基于數字圖書館檢索技術的數據挖掘研究[J].計算機技術與發展,2006(11)
[3] Stanislaw Oilskin and David Weiss: Conceptual Clustering Using Lingo Algorithm: Evaluation on Open Directory Project Data, Advanced in Soft Computing, Intelligent Information Processing and Web Mining, Proceedings of the International IIS: IIPWM’04 Conference, Zapopan, Poland (2004) 369-37
[4] 林鴻飛,楊元生:用戶興趣模型的表示和更新機制[J].計算機研究與發展,2002(7)
[5] 宋麗哲,詹赤兵,王勝海:基于本體的數字圖書館個性化用戶模型表示[J].中文信息學報, 2008,(01)
[6] 李秋,王建維,魏小鵬:改進的蟻群聚類算法在本體知識庫中的應用[J].計算機系統應用, 2009,(10)