李萍 彭小華
摘 要: 采用協同過濾的圖書館書目推薦方法存在冷啟動以及矩陣稀疏等問題,新書目未被讀者評分或少量評分無法被推薦,存在推薦命中率低以及個性化服務差的缺陷。因此,提出基于讀者個性化特征的圖書館書目推薦方法,設計基于讀者個性化特征的數字圖書館書目推薦模型,給出圖書館書目個性化推薦流程,采集讀者特征并分析讀者行為后,塑造讀者興趣個性化特征,通過興趣模型向讀者推薦書目,塑造基于讀者個性化特征的讀者興趣模型,基于顯式信息和隱式信息對讀者興趣模型實時更新,進化讀者個性化特征本體模型。分析基于讀者個性化特征的圖書館書目推薦過程,個性化推薦業務實現過程。實驗結果表明,所提方法可實現圖書館書目的個性化推薦,推薦準確率和效率較高。
關鍵詞: 讀者; 個性化特征; 圖書館書目; 協同過濾; 興趣模型; 推薦業務
中圖分類號: TN99?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2018)17?0182?05
Abstract: The traditional library bibliographic recommendation method based on collaborative filtering has the problems of cold start and sparse matrix, low recommendation hit rate and poor personalized service because the new bibliography is not scored by readers or can′t be recommended with a small number of scores. Therefore, a library bibliographic recommendation method based on personalized feature of readers is proposed, a digital library bibliography recommendation model based on personalized feature of readers is designed, and the recommended procedure of library bibliographic recommendation is given. The reader feature is collected and the reader behavior is analyzed to construct the personalized features of interest of readers. The interest model is used to recommend books to readers, and the readers′ interest model based on personalized feature of readers is constructed. On the basis of explicit information and implicit information, the readers′ interest model is updated in real time to improve the ontology model of users′ personalized feature. The library bibliographic recommendation process based on personalized feature of users and implementation process of personalized recommendation business are analyzed. The experimental results show that the proposed method can realize the personalized recommendation of library bibliography, and has high recommendation accuracy and efficiency.
Keywords: reader; personalized feature; library bibliography; collaborative filtering; interest model; recommendation business
數字圖書館是整合線上以及線下圖書資源的重要手段,其通過分布式網絡以及數據挖掘等手段,向讀者提供可靠的信息服務。由于圖書館系統的文獻資源量不斷提升,采用有效的圖書館數碼推薦方法,協助讀者準確挖掘出感興趣的圖書書目成為研究的重點方向[1]。采用協同過濾的圖書館書目推薦方法存在冷啟動以及矩陣稀疏等問題;新書目未被讀者評分或少量評分無法被推薦,存在推薦命中率低以及個性化服務差的缺陷。個性化圖書館書目推薦方法全面分析了讀者以前個體或同其相似的讀者群體的偏好,協助讀者從海量圖書資源中獲取感興趣的資源,并將資源推薦給讀者,為讀者提供主動且多樣化的信息服務。因此,提出基于讀者個性化特征的圖書館書目推薦方法,提高圖書館書目推薦命中率和效率,實現圖書資源的個性化推薦。
1.1 基于讀者個性化特征的圖書館書目推薦模型
將讀者個性化特征本體融入圖書館書目推薦模型中,塑造基于讀者個性化特征的圖書館書目推薦模型,如圖1所示。為了讓資源在結構化表示中獲取語義關聯,應使用讀者個性化特征本體描述資源。協同與內容過濾推薦是個性化推薦模型的中心特征,本體概念針對讀者評價矩陣中評價信息項目進行更新,其增強的個性化推薦性能表現為可以完全運用讀者偏好與本體概念語義相關聯[2]。
讀者在登錄以后,根據注冊讀者標識可以得到預設個性化數據和初始模型讀者注冊基礎數據。為了取得讓讀者滿意的推薦列表,可利用讀者興趣模型中推薦算法和相關信息處理收集到用戶的興趣概念集。讀者興趣模型的關鍵標志是:資源項目在讀者對系統進行評論、瀏覽、下載時實施信息互換,利用此互換信息進一步評估、分析獲得讀者感興趣的訪問資源,從中了解評測出讀者項目評價矩陣。以此評價矩陣為核心,反映領域本體概念,產生讀者興趣本體,概念間關系可運用統一領域本體查詢,如此即可最大化減少系統消耗,降低多余數據,而且在某種角度確保了模型中概念間關系的相似性,也使讀者興趣模型的實時更新更為便捷。已知興趣概念后,興趣概念相似度就可以利用傳統推薦算法計算,并從中獲取讀者關聯緊密興趣概念進而整合為概念推薦集[3]。最后為了得到興趣概念對應資源,經過數字圖書館資源庫查詢并總結生成讀者個性化推薦列表反饋于讀者。
1.2 圖書館書目個性化推薦流程
綜合圖1推薦模型,可看出依據讀者個性化特征本體數字圖書館的個性化推薦流程為:
1) 采用OWL本體描述語言和本體構建工具Protégé按照資源特點、構建方式打造與其資源相配的領域本體。
2) 讀者的行為分辨和特征提取。注冊的讀者系統會按照讀者的注冊信息和系統瀏覽的自動記錄、下載過程等實施剖析歸納,總結讀者的興趣特點和瀏覽資源的側重點;而未注冊的讀者,因為缺少從前的歷史數據和基礎信息,系統只能按照讀者目前的瀏覽記錄來剖析讀者的興趣度[4]。
3) 讀者興趣本體的構建。領域本體的概念應在觀察讀者行為和取得讀者興趣特征之后進行。利用對讀者興趣特征的辨別,領域本體中相呼應的概念也被弱化,保留上下位和同位這種普遍的關系,應用系列評價值描述興趣概念,讀者興趣模型推薦的依據是讀者興趣本體的形成。復雜語義可利用查詢領域本體獲取,這樣可以減少系統消耗,使讀者興趣概念和領域本體概念保持更加穩定的相似性。
4) 向讀者推薦時使用興趣模型。讀者興趣本體被取得時,把讀者間的關系和讀者感興趣的概念編輯成讀者興趣概念矩陣,讀者興趣模型便可以構建出來,圖2為其詳細過程。通過該過程辨析興趣概念評價矩陣,采用過濾推薦算法計算出讀者興趣概念評價矩陣的相仿程度,收集不同讀者對概念間喜愛的一致性,從中獲取與讀者聯系最密切的興趣項,獲取讀者興趣推薦集。為收集讀者個性化推薦列表,還需要經過數字圖書館資源查詢,才能找出哪種是讀者常用的資源,并將資源反饋給讀者。
5) 進化讀者個性化特征本體模型。因為讀者的興趣是時刻變換的,讀者興趣模型必然依照興趣的改變而變化,這樣模型才能更好地與讀者的真實愛好吻合,以便于更加精準確切地為讀者實施個性化推薦。有兩種穩妥信息源可以指導模型更新[5]:第一種顯式信息(由讀者主動提供);第二種是隱式信息(由讀者動作辨識得到)。以上信息是模型進化的基礎數據,能讓更新后的模型對讀者的喜愛有更準確的認識,讀者當前的喜愛是讀者興趣模型更新的關鍵[6]。
1.3 個性化圖書館書目推薦方法
采用如下方法實現圖書館書目的推薦,推薦過程如圖3所示。
讀者的查詢和借閱愛好是圖書館書目推薦的基礎信息,個性化圖書館書目推薦方法過程是:
1) 取得讀者查詢[Q],讀者進入后輸入尋找[Q],當[Q]={([c1],[q1]),([c2,q2]),…,([cn,qn])}即需要類別[ci]和需求值[qi]是查詢中讀者確定的;
2) 讀者訪問整理,整理改正模塊加載讀者訪問[Q],形成整理目錄[Qi]且暫時保存;
3) 尋找讀者滿意的訪問資源。依照[Qi]里元素的不同特點和各元素間的線索聯系,把訪問目標[Qi]變成與之關聯的SPARQL語句[Qsparql]滿足條件的資源集合[LR=][{lr1,lr2,…,lrn}];
4) 讀者個性化特點的取得。登錄借閱者本體中目前的讀者實例[Icurrent]相對的借閱愛好信息集合[UP=up1,up2,…,upn];
5) 個性化過濾條件的取得。推理作業的進行是目前讀者本體實例[Icurrent]和推理規則[R]的結合。把讀者借閱喜好變換成圖書館館藏資源特征集[LRF=]
6) 在館藏資源尋找符合個性化特征資源。用LRF做過濾,對LR實施進一步選擇,直到最后檢驗結果為[LR=][lr′1,lr′2,…,lr′n];
7) 排序結論。
對目前讀者的滿意度用復檢結果[LR]中的各個資源進行計算,結果用總權重[C]表示:
式中:[wij]代表讀者閱讀喜好;[upi]表示和館藏資源特征[lrfj]相似度,某列條文生效后的影響系數默認值為[1;kij],[0 以上過程中,兩個部分形成了最后的推薦結果列表,當[LR?LR],結果列表的開始環節(即[LR]環節)要經歷排序處理的審核報告,余下是被第一次檢驗個性化部分過濾掉的環節。剩下環節的結束可以利用統計借閱次數(TotalNOL)和讀者評價(Rate)實施排列,各個資源的分值用[S]代表,依據降序順序回溯。[S]計算公式為: 1.4 個性化推薦業務實現
本文基于讀者個性化特征的圖書館書目推薦方法,其推薦主體為讀者,根據讀者的喜好變化,對其推薦不同類型的書目。讀者的個人喜好評價指標包括性別、年齡、學歷和職業等,讀者將各種評價指標的特征值填寫在讀者個性化特征的圖書館書目推薦平臺上[7],可實時查看圖書館書目推薦結果。圖書館書目推薦業務采用本體概念對讀者閱讀喜好進行描述,利用本文方法進行相似度計算,按此結果向讀者推薦其最感興趣的書目。圖4為向讀者個性化特征推薦書目的應用層讀者推薦業務時序圖[8]。
實驗從本文方法推薦的圖書館書目質量的好壞和推薦結果的準確度來判斷本文方法的有效性。圖書館書目推薦的標準包括決策支持精度測量和統計精度測量兩種。決策支持精度測量對圖書館書目推薦質量的評價標準有查準率和查全率;統計精度測量常采用平均絕對偏差算法(MAE)對本文方法推薦書目結果精度進行評價[9]。
本文方法對讀者推薦的書目列表中使讀者滿意的書目用查準率表示;查全率可以衡量書目推薦列表中使讀者滿意的書目在測試集中占該讀者所有滿意的書目的比例。查準率和查全率的計算公式為:
式中:ret表示經過訓練后估計出的目標讀者滿意的書目列表;rel為向讀者推薦的讀者真實喜好的書目;[ret?rel]為目標讀者估計的讀者真實喜好的書目的集合。
圖書館推薦書目精度評價中采用的平均絕對偏差是計算測量值與算術平均值偏差的絕對值的平均數。將這種精度評價算法應用于圖書館推薦書目質量評價中,對估計的讀者評分結果與實際讀者的評分結果進行偏差程度計算,得出結果的數值越小說明本文方法推薦的書目推薦精度較高。將估計的目標讀者評分結果設為[p1,p2,…,pn],實際目標讀者的評分結果為[q1,q2,…,qn],對目標讀者實施估計評分的書目數量為[N],式(5)為平均絕對偏差的定義公式:
實驗利用Matlab 7.0編程對本文方法和傳統協同過濾推薦方法進行實驗仿真,將仿真結果進行對比分析。實驗為驗證本文方法和傳統協同過濾方法對讀者個性化特征的圖書館書目推薦效果,對實驗數據進行劃分。將評分次數不超過300的讀者作為實驗研究對象;將30位讀者分為一群,每位讀者屬于讀者群的標準由評分項目數進行判決,該評分項目數不超過[30n]([n]=1,2,…,10);在選定的10個讀者群中隨機選取5名讀者,比較兩種方法對他們推薦書目的質量。
實驗采用5折交叉驗證的方法對讀者數據實施處理操作。該操作過程將讀者數據集隨機地劃分成5份,依次選取4份當作訓練數據,另外一份為測試數據,據此操作進行數據處理,目的是增強圖書館書目的推薦質量。對屬于某一讀者群中的讀者來說,通過5折交叉法向該讀者進行5次圖書館書目推薦,取5次推薦結果的平均值作為最終的推薦結果。以此類推得到該讀者群中其他讀者的圖書館書目推薦結果,求該讀者群中所有讀者的圖書館書目推薦結果的平均值。實驗中本文方法和傳統協同過濾方法分別利用5折交叉驗證的方法對讀者群的圖書館書目推薦結果的平均值進行求解[10]。實驗分析兩種方法在平均絕對誤差、查準率和查全率三個圖書館書目推薦評價指標的實驗仿真結果,表1為兩種方法的實驗結果數據表。
從圖5可以得出,本文方法相比傳統的協同過濾推薦方法,在圖書館書目推薦上的質量較好。從圖5中可以明顯看出,本文方法的平均絕對誤差結果比傳統協同過濾方法小,傳統協同過濾方法的MAE曲線遠遠高于本文方法。MAE值越小說明推薦的書目推薦精度較高,在特定評價讀者集合較小的情況下MAE曲線的差別更大。
從圖6和圖7兩種方法的查準率和查全率對比結果可以看出,本文方法的查準率和查全率均優于傳統協同過濾方法。從圖6可以明顯看出兩種方法在隨著特定讀者評價集合增大的過程中,查準率均逐漸提高,且本文方法的查準率始終高于傳統協同過濾方法;從圖7中可以看出,兩種方法隨著特定讀者評價集合的不斷增大,查全率的變化比較平穩,但本文方法的查全率曲線始終明顯高于傳統協同過濾方法,說明本文方法在進行圖書館書目推薦過程中的推薦效果較高。
本文提出基于讀者個性化特征的圖書館書目推薦方法。在采集讀者特征并分析讀者行為后,塑造讀者興趣個性化特征,通過興趣模型向讀者推薦書目,同時構建了基于讀者個性化特征的讀者興趣模型,對讀者個性化特征實時更新,提高圖書館書目推薦的個性化以及效率。
參考文獻
[1] 蔡寶家.讀者代購:基于PDA的圖書館個性化服務[J].現代情報,2014,34(10):149?152.
CAI Baojia. Reader purchase: a personalized service of library based on PDA [J]. Modern information, 2014, 34(10): 149?152.
[2] 陳臣.圖書館個性化智慧服務體系的構建[J].圖書館建設,2014(11):37?40.
CHEN Chen. Construction of the personalized intelligence service system of the library [J]. Library development, 2014(11): 37?40.
[3] 鄭祥云,陳志剛,黃瑞,等.基于主題模型的個性化圖書推薦算法[J].計算機應用,2015,35(9):2569?2573.
ZHENG Xiangyun, CHEN Zhigang, HUANG Rui, et al. Perso?nalized book recommendation algorithm based on topic model [J]. Journal of computer applications, 2015, 35(9): 2569?2573.
[4] 琚春華,裘月.一種融入個體人格特質的混合圖書推薦方法[J].情報學報,2015,34(2):164?175.
JU Chunhua, QIU Yue. A hybrid method for books recommendation involving individual personality traits [J]. Journal of the China society for scientific and technical information, 2015, 34(2): 164?175.
[5] 馬曉亭.大數據時代圖書館個性化服務讀者隱私保護研究[J].圖書館論壇,2014,34(2):84?89.
MA Xiaoting. Study on user privacy protection for library personalized service in big data era [J]. Library tribune, 2014, 34(2): 84?89.
[6] 李默,梁永全.基于標簽和關聯規則挖掘的圖書組合推薦系統模型研究[J].計算機應用研究,2014,31(8):2390?2393.
LI Mo, LIANG Yongquan. Research of hybrid recommendation system model based on tags and association rules mining for books [J]. Application research of computers, 2014, 31(8): 2390?2393.
[7] 張閃閃,黃鵬.高校圖書館圖書推薦系統中的稀疏性問題實證探析[J].大學圖書館學報,2014,32(6):47?53.
ZHANG Shanshan, HUANG Peng. Empirical study on sparsity of university libraries [J]. Journal of academic libraries, 2014, 32(6): 47?53.
[8] 宋楚平.一種改進的協同過濾方法在高校圖書館圖書推薦中的應用[J].圖書情報工作,2016,60(24):86?91.
SONG Chuping. Application of an improved collaborative filte?ring method on recommending books in college libraries [J]. Library and information service, 2016, 60(24): 86?91.
[9] 程遠.公共圖書館展覽服務中嵌入圖書推薦的實踐探索:以江西省圖書館為例[J].國家圖書館學刊,2015,24(5):110?112.
CHENG Yuan. Exploration on the mode of recommendation on books embedded in exhibition services in public libraries: taking Jiangxi Library as an example [J]. Journal of the national library of China, 2015, 24(5): 110?112.
[10] 郭明環,張峰,焦娜.新凱恩斯理論在高校圖書館圖書資源配置效益中的應用:以西安科技大學圖書館為例[J].西安科技大學學報,2016,36(2):296?300.
GUO Minghuan, ZHANG Feng, JIAO Na. Application of the new Keynes theory in university library book resource distribution efficiency: taking Xian University of Science and Technology Library as an example [J]. Journal of Xian University of Science and Technology, 2016, 36(2): 296?300.