
摘 要:本文通過讀者借閱日志和讀者信息的高維數據進行聚類分析,并將其借閱次數進行加權篩選,即時推薦該類圖書的新書或熱門書給讀者,提高圖書館的業務績效。
關鍵詞:模糊聚類;讀者興趣取向
注:此文系中華人民共和國教育部人文社會科學研究青年基金項目 (No.10YJC870037)。
圖書貴在流通,以讀者為導向,創新圖書館服務已然成為泛在圖書館發展的必然。高校圖書館的讀者服務,必須遵循“以讀者為中心”,及時定向地為讀者提供個性化的推薦圖書服務。那么,如何實現技術支撐保障,快捷準確,真正意義上的“一對一”推薦服務,是每個館員思考的問題。如何才能實現以用戶需求為導向為用戶提供適時、適當的個性化服務已然成為圖書館未來發展的研究重點和必然。對用戶真實的、個性化的需求挖掘成為圖書館信息服務和系統設計的重要依據。在泛在知識環境的大背景下。
1 模糊聚類分析概念
模糊聚類分析是以模糊理論為依據,用模糊的方法,按照一定的要求和規律對事物進行區分和分類來處理聚類問題。它得到樣本是客觀的反映現實世界。
2 模糊聚類樣本矩陣確定
選取圖書館讀者借閱信息、館藏文獻信息等公共性數據進行聚類分析。數據來源服務器端日志數據和讀者注冊數據。按照中圖法,書籍可分22個子類,即其書類集Type={A,B,…,Z},如果有n個讀者成功借閱圖書,即讀者集Reader={Reader1,Reader2,…Readern}。因此,該圖書館的圖書借閱情況就被映射成一個ReaderType矩陣。其中行表示已被借閱的書類集,列表示可借閱的讀者集,每個元素項tij表示讀者Readeri對某類書Typej的借閱次數Quantity,反映讀者對該類圖書的借閱興趣度。我們構建了如下10000*22數據矩陣ReaderType(如表1)。
3 聚類分析驗證
利用這些數據對這10000位讀者進行聚類分析,將興趣取向近似的讀者歸為同一類,聚類的結果就是這512個讀者被自動分為8類(如圖2)。
例如:已知Reader1,Reader20,Reader140,Reader230,Reader663,Reader915,…,被歸為一類C1,讀者Reader1可能僅僅借閱了O類的圖書,但是由于C1類的讀
者普遍會借閱{O,TP}這兩類的圖書,因此可以推斷讀者Reader1也會借閱TP類的圖書,館員可以提前將TP類的新書或熱門書推薦給這位讀者。
6 推送書籍讀者的正負反饋
眾所周知,讀者的歷史借閱記錄真實反映其興趣愛好。其一,依據對讀者借閱歷史記錄的聚類分析,推薦算法的結果。其二,根據讀者登錄信息找出其所屬的興趣組。當讀者反饋的意見和推薦的結果不相符合,出現負反饋時,說明該興趣組的讀者,在這段時期內其興趣對象發生了變化,需要重新聚類更新讀者興趣度分組。通過讀者反饋幾次反復,最終得到了某興趣組讀者可信的推薦結果。
7 本文HSFC的模糊聚類創新點:
(1)在動態聚類中心數量中,采用評價函數最小的一組聚類中心,作為算法最終的結果,自動找尋正確或合理的聚類中心數;(2)通過特征屬性加權,提高了聚類準確性;
文獻文獻
[1]焦秋陽,許增樸.高校圖書館科技查新概論[J].中國輕工教育,2009,4(4):40-42,86.
[2]教育部科技發展中心.教育部關于在東北師范大學等10所法人機構設立第四批教育部部級科技查新工作站的通知[EB/OL].http:∥www.cutech.edu.cn/cn/kjcg/cgcx/2009/01/1229477998896943.htm,2009-01-21.
[3]徐慧芳,陳朝暉,鄭菲.科技查新業務分析———以中國科學院國家科學圖書館總館為例[J].圖書情報工作,2007,11(11):106-110.
[4]董政娥,吳素坤,陳惠蘭,等.科技查新需求分析及其增值服務探討[J].現代情報,2009,7(7):153-156.
作者簡介
周建女(1968-),副研究館員從事圖書信息服務多年,發表專業論文40余篇主持或參研國家級/省部級課題7項。