李云華 李新廣



[摘要]個性化推薦是解決數字圖書館資源“既多又少”矛盾的有效途徑,分發模式是個性化推薦研究的重要內容。本文系統研究了數字圖書館資源個性化推薦所涉及的各種分發模式,給出了分發模式的執行流程和形式化定義,并提供相應實例。
[關鍵詞]數字圖書館;分發模式;個性化推薦;形式化定義
DOI:10 3969/j.issn 1008-0821.2015.06.011
[中圖分類號]G250.73 [文獻標識碼]A [文章編號]1008-0821(2015)06-0054-04
隨著數字圖書館館藏資源的急劇增加、人們生活節奏和知識更新速度的不斷加快,數字圖書資源“既多又少”的矛盾日益突出。如何從浩瀚的圖書資源中準確和及時地獲取用戶感興趣的內容,已成為大數據時代數字圖書館領域亟待解決的迫切課題?;跀祿诰蚣夹g的數字圖書的個性化推薦是解決該問題的有效途徑。分發模式是個性化推薦研究的重要內容,合適的分發模式能夠針對特定用戶實現圖書資源的高效分發。根據用戶和系統互動角色的不同,數字圖書資源的分發可分為拉取模式和推送模式兩類:拉取模式是用戶提供檢索條件,系統被動返回檢索結果的分發模式;推送模式則根據用戶的需求特征,系統主動推薦滿足用戶需求的圖書資源。為了使計算機能夠準確理解分發模式的相關算法,進而實現圖書資源的高效分發,分發模式的形式化表達尤為重要。本文系統研究了數字圖書館資源個性化推薦所涉及的各種分發模式,設計了分發模式的執行流程,并給予形式化定義。
1.拉取模式
拉取模式是用戶主動提供查詢條件,系統根據用戶給定的查詢條件,返回查詢結果的信息分發模式。標準檢索和智能檢索是拉取模式的兩種實現方式,其區別在于拉取過程中用戶的興趣偏好是否被考慮在內。
1.1標準檢索
標準檢索是一種傳統的檢索方式,是用戶通過數字圖書館的借閱端瀏覽器獲取圖書資源的常用方式。在標準檢索中,系統嚴格匹配用戶輸入的檢索條件,并返回符合檢索條件的圖書資源。其執行流程如圖1所示,形式化定義如定義1。標準檢索的執行流程為:①用戶通過人機交互界面輸入檢索條件;②Web服務器接收到檢索條件后,遍歷數據服務器中的圖書資源,根據檢索條件對資源進行過濾;③web服務器將檢索結果返回給用戶;④若有新資源入館,圖書館員通過管理端將新資源的信息入庫并予以維護。
由于標準檢索不考慮用戶的偏好特征,因而即便用戶需求有所差異,只要檢索條件相同,返回的結果就完全一致。估值函數μ(Bi)的值域為[0,1],當目標資源Bi完全符合用戶的需求時,估值函數取值為1,完全不符合用戶需求時取值為0,否則根據符合程度的不同取值為介于0和1之間的某個值;T為估值函數的閾值;R(retr)為針對檢索條件retr和用戶需求特征的系統返回結果,它是由滿足條件retr且由估值函數μ(Bi)算得的效用度大于閾值T的B中的資源Bj(j=1,2,…,m)的集合;m為返回的結果集中的資源數量;e為不滿足條件retr的B中的資源的集合。
例如,假設數字圖書館中存在資源集合B={《人工免疫系統與GIS空間分析應用》,《地理信息系統(GIS)與森林資源管理》,《GIS設計與實現》,《城市地理學》},用戶的題名檢索條件為retr=“GIS”,則日中的前三項資源由于均包含了“GIS”關鍵詞,因而布爾函數h(Bi,retr)的取值均為true,最后一項資源則取值為false,相應地,經過匹配函數h(Bk,retr)過濾的結果為R1={《人工免疫系統與GIS空間分析應用》,《GIS設計與實現》,《地理信息系統(GIS)與森林資源管理》}。若估值函數μ(Bi)相應的用戶模型為userPro={(人工免疫,0.5),(森林,0.8),(城市,0.2)},估值函數的閾值為T=0.3,則由估值函數對R1中的資源排序并去除效用度小于閾值T的資源,最終系統的返回結果為R(retr)={(《地理信息系統(GIS)與森林資源管理》0.8),(《人工免疫系統與GIS空間分析應用》0.5)}。
2.推送模式
推送模式是根據用戶的需求特征,系統主動返回相關結果的信息分發模式,主要包括系統主動推薦、用戶訂閱推送或者兩種推送形式相結合等類型。在推送模式中,系統根據用戶的定制條件、訂閱內容,或者通過分析用戶的信息獲取歷史發掘其偏好特征,進而確定用戶感興趣的內容,并將其主動推送給用戶。推送模式能夠主動搜集用戶感興趣的信息并予以推薦,幫助用戶高效發掘潛在的有價值的信息。
2.1主動推薦
主動推薦不需要用戶輸入檢索條件,而是根據用戶偏好模型等用戶需求表達,估算目標圖書資源滿足用戶需求的程度,并將估算值大于所設閾值的資源主動推薦給用戶。其執行流程如圖3所示,形式化定義如定義3。主動推薦的執行流程為:①根據用戶的圖書資源獲取歷史,建立用戶偏好模型等用戶需求表達;②Web服務器動態監控數據服務器中的資源變更,若有新資源入庫,則啟動主動推薦機制;③Web服務器根據用戶的偏好特征計算資源的效用度,并根據效用度的大小對資源進行優劣排序;④Web服務器將排序后的結果返回給用戶;⑤若有新資源入館,圖書館員通過管理端將新資源的信息入庫并予以維護。
定義3:設數字圖書館中的資源集合B={B1,B2,…,BN},描述資源滿足用戶需求程度的估值函數為μ(Bi)估值函數由反映用戶需求特征的用戶偏好模型等決定,其值域為[0,1],閾值為T),則滿足用戶需求的資源對象的集合為,該種資源的獲取方式即為數字圖書館資源的主動推薦。n為B中的資源數量;估值函數μ(Bi)的值域為[0,1],當目標資源Bi完全符合用戶的需求時,估值函數取值為1,完全不符合用戶需求時取值為0,否則根據符合程度的不同取值為介于0和1之間的某個值;T為估值函數的閾值;R為針對用戶需求特征的系統推薦結果,它是由估值函數μ(Bi)算得的效用度值大于閾值T的B中的資源Bi(i=1,2,…,m)的集合;m為返回的結果集中的資源數量。endprint
例如,假設數字圖書館中存在資源集合B={《人工免疫系統與GIS空間分析應用》,《地理信息系統(GIS)與森林資源管理》,《GIS設計與實現》,《城市地理學》},若估值函數μ(Bi)相應的用戶偏好模型為userPro={(人工免疫,0.5),(森林,0.8),(城市,0.2)},估值函數的閾值為T=0.3,則由估值函數對B的資源進行排序并去除小于閾值T的資源,系統推薦的資源為R={(《地理信息系統(GIS)與森林資源管理》,0.8),(《人工免疫系統與GIS空間分析應用》,0.5)}??梢?,主動推薦過程中,不需要用戶輸入檢索條件,系統直接根據先前建立的用戶偏好模型決定推薦的資源內容及推薦強度。
2.2訂閱推送
訂閱推送,或叫訂閱分發,它根據用戶事先訂制的條件和方式主動分發符合用戶要求的資源。與主動推薦不同的是,訂閱推送一般不具備強大的用戶偏好建模功能,不能進行用戶偏好特征的挖掘。一般而言,訂閱推送的功能較為單一,用戶的定制條件較為簡單和機械。其執行流程如圖4所示,形式化定義如定義4。訂閱推送的執行流程為:①用戶定制訂閱推送的條件;②Web服務器動態監控數據服務器中的圖書資源變更,若有新資源入庫,則啟動訂閱推送機制;③Web服務器根據用戶的訂閱推送條件過濾圖書資源;④Web服務器將符合用戶訂閱條件的結果返回給用戶;⑤若有新資源入館,圖書館員通過管理端將新資源的信息入庫并予以維護。
例如,假設數字圖書館中存在資源集合B={《人工免疫系統與GIS空間分析應用》,《地理信息系統(GIS)與森林資源管理》,《GIS設計與實現》,《城市地理學》},其中,《地理信息系統(GIS)與森林資源管理》為期刊,其余均為圖書。用戶的訂閱條件為retr=“type”=‘圖書&title llke,%GIS%”,則《地理信息系統(GIS)與森林資源管理》和《城市地理學》由于分別不屬于圖書和不包含“GIS”關鍵詞而被濾去,從而系統的推送結果R(subs)={《人工免疫系統與GIS空間分析應用》,《GIS設計與實現》}。
3.結束語
本文系統分析數字圖書館資源個性化推薦所涉及的各種分發模式,設計標準檢索、智能檢索、主動推薦、訂閱推送等分發模式的執行流程,并給予形式化定義。鑒于分發模式在數字圖書資源個性化推薦過程中的重要性,本文的研究具有一定的理論和現實意義。同時,本文數字圖書館資源分發模式的形式化定義方法,對其他領域的信息分發研究與實踐,也具有通用意義。
(本文責任編輯:郭沫含)endprint