黃小根
(中共佛山市委黨校,佛山 528300)
隨著科學技術水平的不斷進步,網絡上的圖書數字資源越來越為豐富,然而,面對互聯網上海量的圖書數字資源,依靠傳統互聯網的搜索引擎功能,已經不能滿足用戶快速獲取所需的知識.由于現有搜索工具大部分沒有考慮到用戶的興趣、個性特征及歷史偏好,往往使得用戶的需求無法與意向的圖書數字資源有較準確匹配,也由此造成用戶所搜集到的圖書信息存在較大差異[1].WWW (World Wide Web)即全球廣域網,自身具有重復性、數量龐大,以及無序性的特點,已經成為當前圖書數字資源檢索的主要工具.但隨著用戶的檢索需求增加,Web 所反饋至用戶的結果也越來越多,在大量圖書信息中,用戶也越來越難定位自身感興趣的圖書[2].因此,打造基于Web 知識發現圖書數字資源個性化檢索系統的設計,準確獲得搜索圖書數字資源,對于提高圖書數字資源搜索性能,有著重要的影響意義,也是本次研究的重點.
傳統圖書數字資源大多數是以結構化的格式存儲在圖書館管理系統數據庫中,并以二維表結構表達圖書信息,但隨著信息技術的發展,圖書數字資源表達形式變得越來越豐富,大量電子書籍及資料由結構化向半結構化或非結構(文檔、圖片、HTML、各類報表及音視頻)的格式存儲在Web 網絡上,由于非結構化的數據結構是不規則或不完整,沒有預定義的數據模型,普通用戶無法使用常規的檢索方法找到關聯性的知識.因此,如何在網絡中從海量的、嘈雜的圖書數字資源中找到滿足特定的需求,已經成為普通用戶面臨的一個難題,而引入個性化檢索服務是有效解決上述問題的有效方法.
個性化檢索是基于Web 知識發現、智能代理及數據挖掘等信息技術,根據用戶的特征、偏好、瀏覽記錄及需求,針對不同的用戶采用不同的方式和策略,提供不同的檢索結果的綜合技術服務[3].個性化檢索服務是以用戶需求為中心,改變了以往無論哪個用戶在檢索平臺以不同關鍵詞搜索,卻得到相同結果的現象,滿足不同用戶的不同需求,提供了千人千面的個性化服務.這種服務是在當用戶不明確真實需求時,個性化檢索平臺主動對用戶的過往的歷史檢索記錄、檢索習慣和個體信息(用戶興趣、性格、行為)進行分析,推測用戶真實意圖,并利用Web 知識發現、智能代理技術及數據挖掘等技術,挖掘出隱含的、可利用的、有效的知識與用戶需求進行關聯匹配,在完成對匹配結果進行索引、過濾及排序后,主動地向用戶推送其感興趣或所需的圖書數字資源信息[4].
個性化檢索服務,首先應該是要以用戶需求為核心,從信息輸入到檢索結果的呈現,要以用戶需求為主導,提供友好、交互式的人機接口界面.其次,個性化檢索服務要是一種個性化的服務,在用戶需求不明確的情況下,善于挖掘用戶有關信息,精準推測出用戶真實的需求,從而主動地提供特定信息源.最后,個性化檢索服務是一種智能化的服務,充分利用Web 知識發現、大數據、人工智能、云計算等信息技術,結合用戶的個體信息和偏好,提供用戶所需的信息資源和服務,并根據信息資源的變化,積極引導用戶做出最佳選擇.
1.2.1 Web 知識發現
隨著網絡精準搜索要求越來越高,過去由人工分類的方法已經無法滿足現在的搜索分類需求.在大部分網頁無法達成精準搜索分類的情況下,Web的自動分類功能是一種有效的解決途徑[5].設計檢索系統時,可利用Web 知識發現技術功能,對圖書數字資源所在的網頁進行分類,通過標引達成對圖書數字資源所在網頁的分類實施,使標引與檢索形成一體化,并且該種檢索還具備分類瀏覽的功能,通過檢索關鍵詞,直接標引的方式,快速讓用戶獲得所需要的圖書數字信息[6].
由于圖書數字資源主要匯集在Internet 服務系統中,通過對用戶相關信息的搜集,從而建立用戶訪問模式[7],而Web 知識發現主要是通過該工具的挖掘功能,實現對用戶感興趣圖書數字資源的快速獲取建模的關鍵技術[8,9].Web 知識發現是將Web 本身具的挖掘功能,應用于Internet 個性化服務中,利用Web 知識發現技術,達成Internet 個性化服務,更好的滿足用戶圖書信息搜集的個性化需求,其根本原理在于對圖書資源信息的挖掘,第一,是針對網頁內容進行分析,采用Web知識發現的自動分類技術,通過搜索功能,進入圖書數資源領域,進行全面性的解析[10];第二,是利Web 知識發現針對用戶訪問過程中,留下的日志進行數據挖掘,從而對用戶提供具有個性化的圖書數資源檢索[11],第三,是利用Web 知識發現針對結構挖掘,根據結構獲取的圖書信息,由導航指引進入,在此過程中對于一些圖書資源庫進行網站的設計,并設有評價界面,了解用戶的滿意程度,通過圖書主題或關鍵詞的搜索,打造個性的檢索效果[12].
1.2.2 智能代理技術
在20世紀90年代,智能代理的理論和技術已經被提出來,它是一個涉及到人工智能、數據庫技術及自然語言處理的計算機科學領域,尤其在人工智能領域有較深度的應用.智能代理技術具有智能性、主動性及適應學習性等特點,一般使用智能代理技術處理復雜的數據分類、數據分析及數據信息加工.
智能代理技術在信息檢索領域中利用智能代理服務器收集用戶需求,根據用戶定義的規則,利用特有的通信技術協議向特定的用戶推送信息.在個性化檢索的研究成果中,充分體現智能代理技術得到廣泛應用.在一些沒有特定要求的用戶檢索需求下,可以將復雜的工作代替用戶完成,如圖書數字資源信息的主題篩選、查詢、管理等,可通過智能代理技術推算用戶可能產生的意圖,形成自主化的圖書信息制定,以及相應的資源調整,并且制定可能需要的計劃[13].在圖書數字資源的個性化檢索中,通過智能代理技術,可以有效的達成推理,該技術自身的知識源非常豐富,能夠進一步的推測用戶意圖,并將一些海量及復雜的圖書信息快速整理,按照用戶的需求給予提供相應的接收,設置相應的自動拒絕功能.在該技術作用下,也可以訓練個性化檢索模型,提升檢索功能,進一步增強圖書數字資源檢索系統中處理問題的能力.
1.2.3 數據挖掘技術
數據挖掘技術是Web 知識發現技術的一個分類,一般認為數據挖掘是指利用決策樹、神經網絡、回歸、關聯規則、聚類等多方面的技術,從海量的數據中抽取隱含的、未知的、可利用的信息,并用于決策或知識存儲的數據分析方法[14].數據挖掘一般用于事物描述和預測,由于其具有聚類、數據關聯分析及數據分類等特點,經常被用于Internet 上的圖書數字資源的數據清洗、集成、變換、模型評估及知識表示.另外,數據挖掘技術可以被用于傳統圖書館管理系統數據庫的檢索查詢調用,也可以用于非結構化的圖書數字資源進行統計、分析及推理.同時,還可以利用檢索圖書數字資源信息挖掘事件之間的關聯性,從而對信息進行預測.
基于Web 知識發現圖書數字資源個性化檢索系統設計,可以有效的根據收集到用戶信息,用戶在網頁上的操作,不斷積累經驗,從而推測用戶的興趣和行為,最終用戶完成檢索后,快速反饋用戶的需求結果.基于Web 知識發現圖書數字資源個性化檢索系統,主要是增強了學習與更新的用戶模型,相較于以往系統的單純檢索更具智能化,并且在Web 知識發現的基礎上,進一步優化了查詢與優化結果模塊.個性化檢索系統的設計,還進一步的考慮用戶之間的差異,利用Web知識發現提升圖書數字資源個性化檢索質量.具體系統設計可見結構圖1所示.

圖1 圖書數字資源個性化檢索系統結構圖
由圖1可見,基于Web 知識發現圖書數字資源個性化檢索系統結構圖,表示層為Web 知識發現瀏覽器.然后是業務邏輯層,由應用服務器與業務邏輯共同支撐用戶管理搜索模塊、個性化模塊、優化結果模塊.在數據持久層設置了用戶數據庫、搜索結果數據庫、興趣數據庫、其他數據庫,所有數據庫時時反饋相應信息,并進行自我學習,增強自身的知識,實時反饋業務邏輯層相關數據處理信息,達成圖書數字資源個性化檢索系統的設計效果.
用戶數據登錄流程具體見圖2所示.

圖2 用戶數據登錄流程圖
由圖2可見,系統會接收到來自Web 瀏覽器端的用戶搜索請求,根據搜索請求調用相關業務,對數據持久層的圖書數字資源進行有效的訪問,并且對所需要處理的數據返回至瀏覽器端,隨即快速反饋用戶的請求.這種個性化的系統設計主要是依據用戶在圖書數字資源庫瀏覽網頁頁面中的滿意度所反饋的信息,了解用戶的興趣(見圖3所示),再進一步的優化搜索結果,反饋用戶感興趣的網頁圖書數字資源內容.用戶在登錄網頁過程中需要完成注冊,也可以訪客的身份進入瀏覽,而已注冊的用戶身份,可以完成搜索功能,在注冊與登錄過程中,均設置了MD5的加密技術,從而保證用戶信息的安全性.

圖3 用戶興趣生成流程圖
由圖3可見,用戶在圖書數字資源的瀏覽頁面可以提交滿意度評分,系統根據提交的滿意度評分獲取用戶的搜索結果,根據用戶滿意度評分,了解用戶對圖書數字資源的興趣,再進一步的為用戶優化搜索結果.具體可見圖4.

圖4 優化搜索結果流程圖
圖書數字資源個性化檢索系統的一切功能實現,均需要獲取用戶的信息,只有在了解用戶信息的基礎之上,才能夠對相關信息進行綜合處理分析,達成個性化的服務需求.由此在系統數據庫設計方面,主要設計用戶需求數據、搜索圖書數字資源表、用戶興趣表、用戶與規則關聯表、搜索結果分值表.
用戶需求數據表設計見表1所示.

表1 用戶表
搜索圖書數字資源表主要來保存圖書具體類別和類別詳細信息,具體數據表設計見表2所示.

表2 搜索圖書數字資源表
用戶興趣規則表主要是通過用戶滿意度評分,進一步獲得用戶對于圖書數字資源信息的興趣.具體設計內容見表3所示.
用戶與規則關聯表主要是通過用戶與獲得的興趣關聯,進一步獲得用戶對于圖書數字資源的個性化需求,更好的提出優化結果.具體設計內容見表4與表5所示.

表4 用戶與規則關聯表

表5 搜索結果分值表
經過對個性化檢索需求分析后,根據系統的總體規劃設計,系統需要開發多個功能,才能達到對圖書數字資源個性化檢索系統的檢索效果.主要實現的功能為:系統檢索主頁、注冊用戶登錄以及用戶評分管理等.
(1)系統檢索主頁
用戶可以通過圖書數字資源個性化檢索系統中主頁搜索框進行搜索圖書數字資源,也可以通過使用系統的分類的圖書類型針對性的檢索.當用戶輸入關鍵詞檢索后,系統會根據用戶的檢索歷史記錄,建立個性化檢索模型,完成初次檢索結果的展示,系統以素雅的頁面展示,使得用戶更加清晰看到圖書數字資源數量,實現效果如圖5所示.

圖5 系統檢索主頁圖
(2)注冊用戶登錄
圖書數字資源個性化檢索系統支持注冊用戶登錄系統功能,注冊用戶輸入用戶名和密碼后,可以進入用戶中心管理后臺,登錄頁面實現效果如圖6所示.

圖6 注冊用戶登錄圖
(3)用戶評分管理
用戶評分管理是用于記錄用戶在查看某類圖書數字資源的評價情況.當某個用戶給出某類圖書數字資源的評分后,作為用戶興趣模型構建因素,影響著用戶興趣模型,用戶評分管理實現效果如圖7所示.

圖7 用戶評分管理圖
(1)算法調用.根據登錄用戶信息的情況,結合圖書數字資源的評分記錄,決定調用不同的算法實現構建個性化推薦模型,部分代碼實現如下:
public String recommend(){
User cUser=getCurrentUser();//獲取當前登錄用戶
CFUtil cfUtil=new CFUtil();//實例化協同過濾推薦工具類
List<BaseModel>allScorerecords=scorerecordServic e.find(null,new Scorerecord());//獲取所有評分記錄
List<BaseModel>allItems=itemService.find(null,new Item());//所有項目
model=cfUtil.getDadaModel(cUser,allItems,allScorerecords);//獲取用戶-項目評分矩陣List<Item>cfItemBaseUser=cfUtil.baseUser(cUser,allItems,model);//基于用戶的推薦
request.setAttribute("cfItemBaseUser",cfItemBaseUser);
return "recommendSuccess";
}
(2)獲取數據.根據用戶的搜索請求,系統在整個Internet Web 上進行檢索并獲取符合用戶需求的圖書數字資源數據,部分代碼實現如下:
public static void dataUtil(String realPathParam,//獲取數據
ItemService itemServiceParam,TypeService typeServiceParam){
realPath=realPathParam;
itemService=itemServiceParam;
typeService=typeServiceParam;
getTag();
}
(3)推薦實現.根據用戶個性化推薦模型,對獲取的數據進行預處理,最后實現推薦搜索結果,部分代碼實現如下:
System.out.println("推薦項目與預測評分:");//定義推薦的項目集合
List<Item>cfItem=new ArrayList<Item>();
for(RecommendedItem ri:recommendations){//循環得到推薦項目對象
int itemid=(int) ri.getItemID();//推薦項目id
float score=ri.getValue();//預測評分
System.out.println(ri.getItemID()+","+score);
for(BaseModel basemodel:allItem){
Item item=(Item) basemodel;
if(item.getId()==itemid){
cfItem.add(item);
break;
}}}
return cfItem;
} catch (TasteException e) {
e.printStackTrace();
}
return null;
}
用戶通過注冊、登陸后完成相應的圖書數字資源的搜索功能,設計3 種身份的搜索,第1 種是訪客,第2 種是新用戶注冊后完成搜索,第3 種已注冊用戶的搜索.用戶界面所獲取的信息,能夠利用Web 知識發現,跟蹤用戶對圖書數字資源的興趣度.該技術影響下,更加全面的用戶行為信息獲取與更新,能夠防止用戶興趣淘汰過快的現象產生.Web 瀏覽器通過后臺的智能代理運行,能夠時刻監測用戶對圖書數字資源瀏覽的一切行為,并將這些行為填加到書簽,包括摘要信息、次數信息、時間信息等,通守返回的信息充分了解用戶的興趣度.
圖書數字資源個性化檢索系統運行過程中,用戶短期興趣、長期興趣、新興趣會存在較大的不同,此時需要使用個性化的模型更新,從而時間掌握用戶的變化特征.上述掌握用戶行為的信息后,利用Web 知識發現后臺的智能代理,抽取相關信息特征,智能代理具有捕捉功能,可以將用戶在Web 網頁中的操作分類,并建立新特征詞表,從而更多好的達成各因子的篩選,并通過濾信息,去除用戶不感興趣的信息,保證信息獲取的有效性、準確性.
個性化模型的更新完成后,返回至系統后臺,依據所獲得的結果與用戶興趣對應,進再進行自動過濾,智能加工處理信息后,推測用戶的興趣,給予個性化的服務.在這一過程中的處理方法,主要是通過個性化模型和每一個頁面對應找到相似度,經過快速反應處理后,會將最優的搜索結果返回至用戶頁面,用戶會直接獲得所需信息.
在互聯網時代,大量圖書數字資源信息在網絡中充斥,用戶對于圖書數字資源的需求也越來越多,然而面臨海量的圖書數字資源信息,如何快速定位感興趣的資源,已經成為當前用戶的核心需求.由此可見,圖書數字資源個性化檢索系統的設計是一種必然發展趨勢.傳統圖書資源的基礎之上,打造個性化的搜索引擎,能夠更好的挖掘用戶需求,匹配用戶搜索關鍵詞,優化搜索結果,快速返回用戶,最終使用戶獲得符合自身興趣的結果.本次研究中基于Web 知識發現和與智能代理等技術相結合,深入挖掘客戶的興趣信息,利用后臺智能代理技術獲取用戶瀏覽過程中一切行為,通過所獲取的用戶興趣信息,利用個性化技術建立個性化模型.在個性化模型中,過濾用戶不感興趣的搜索結果,并通過優化搜索結果,快速返回至用戶,從而真正實現用戶所需信息的獲取.