王蕾(山東中醫藥大學圖書館,山東濟南250300)
數據挖掘技術在高校圖書館個性化書目推薦服務中的應用
王蕾
(山東中醫藥大學圖書館,山東濟南250300)
[摘要]數據挖掘技術在高校圖書館個性化書目推薦服務中的應用很有必要,闡述個性化書目推薦服務系統的設計目的和設計思路,設計其整體構架、功能模塊和工作流程,并指出數據挖掘的主要實施過程、數據源的選取和借閱信息處理等。
[關鍵詞]數據挖掘技術個性化服務書目推薦高校圖書館
[分類號]G252.1
隨著數字化時代的到來,高校圖書館館藏信息資源越來越豐富,種類和形式日益多樣化,面對這些海量的資源,讀者在查詢自己所要的信息時不僅要花費大量的時間,而且到最后得到的信息也可能價值不大。對廣大讀者來說,目前的難題是如何從海量的資源中準確尋求到自己所需的信息資源,這對高校圖書館而言這也是一個不小的挑戰。
基于讀者的個性化閱讀需求,管理者應該逐步創新高校圖書館的服務模式,把圖書館的服務功能變被動為主動。在圖書館服務功能中,數據挖掘技術的產生和發展,為圖書館個性化服務的開展創造了有利條件。
數據挖掘是從數據庫中發現知識,是一個對大量數據進行分析的復雜過程,通過這一過程可以把未知的、有價值的知識抽取挖掘出來。數據挖掘設計的學科領域很多,是一個交叉學科領域,使用的方法也很多,包括數據庫技術、神經網絡、可視化等。
數據挖掘首先把數據庫中的數據進行清洗并集成進入到數據倉庫中,數據清洗不僅可以清除噪聲,還可以把與主題無關的數據都清除出去;數據的集成是把組合多數據源的相關數據有機地集中。進入數據倉庫中的數據還要進行選擇和轉換進入到特定的數據集中,這部分主要是轉換數據的存儲形式,以便于數據挖掘的進行。其次,針對特定數據集中的數據,數據挖掘技術的利用主要體現在對數據模式或者數據規律的挖掘,其僅僅是數據挖掘總體中的一部分。最后進行模式評估和知識表示,利用評估標準和可視化表達技術,篩選出有意義的知識模式并向用戶進行展示。
2.1高校圖書館信息資源的極大豐富
圖書館經過多年的積累和沉淀,不僅有濃厚的文化氛圍,更有系統的專業知識和豐富的館藏資源。伴隨著人們對與數字圖書館相關的多媒體大數據信息的研究,圖書館與網絡技術的結合也逐漸成為一種趨勢。現在,人們對館藏資源可視化的研究主要包括可視化檢索的研究和可視化檢索結果的研究。數字圖書館信息資源可視化當前突出的問題不只是數據資源的豐富和可視化效果要好,館藏資源的數字化過程也是個大問題,有些資源的保存介質是很久以前的紙質,這些信息數據的數據庫錄入工作就不是件容易的事,這在很大程度上影響到數字圖書館的館藏資源的可視化過程。2.2高校圖書館用戶信息需求的多樣化
在高校圖書館中,用戶信息需求有其多樣化的特點[3],主要表現在3個方面:首先是用戶信息需求主體的多樣化,導致信息用戶不斷增多,而這些用戶群體之間又存在不同的信息需求;其次是信息需求內容的多樣化,使得用戶有了更多可選擇的信息源,不同的用戶可以獲取不同的信息內容;最后是用戶信息需求方式的多樣化,提供了更多的途徑方便用戶獲取信息。不同的用戶可以根據自己本身的閱讀需求,從高校圖書館中可以自由地選擇信息獲取的方式和內容。
圖書借閱服務是高校圖書館主要工作內容,圖書館要做好這項工作的關鍵就是通過對用戶閱讀習慣及喜好的分析,總結出不同用戶的借閱規律。而且在圖書館提供的服務中,借閱服務更能把高校圖書館“以人為本”的理念體現出來,同時也是做好圖書館服務的一項基礎工作。高校圖書館中數據挖掘技術的應用可歸納為以下幾點。
3.1圖書文獻推薦工作中的應用
高校圖書館中最主要、最基礎的就是圖書文獻資源,圖書館中文獻資源的利用率是評價圖書館各項服務質量高低的最主要因素之一,特別是個性化服務質量的評價所占比重更大。所以在高校圖書館中,個性化書目推薦工作是整個圖書館服務的重點。
采用聚類分析或者關聯分析的方法研究讀者的歷史借閱數據時,利用數據挖掘技術有利于關聯規則的發現,可對讀者圖書文獻的借閱提供理論支持,簡單地理解也就是不同的讀者借閱的圖書類型不同,而且同一讀者也可能會借閱不同類型的圖書,通過計算類型相關圖書文獻之間的關聯規則,可以分析得到置信度和支持度,進而得出讀者的借閱模式,形成在圖書館館藏資源基礎上的圖書推薦數據庫,通過對讀者借閱行為的分析,從數據庫中推薦相對有用的圖書介紹給讀者。例如,通過關聯分析讀者的借閱行為,關聯性較強的有計算機編程和數據庫類型的文獻,那么當讀者有意向對計算機編程語言圖書進行借閱時,就可以向讀者推薦數據庫類別的資源,不僅節省了讀者的查找時間,圖書館服務的質量也能得到有效提高。
3.2文獻檢索中的應用
在高校圖書館提供的個性化信息推薦服務中,其中的重要一環無疑就是文獻檢索。在傳統的文獻檢索中,圖書館僅能把一些簡單的館藏文獻資源提供給讀者,而不是進行個性化推薦服務。
圖書館在對讀者提供個性化推薦服務時,在目標的實現過程中應用數據挖掘技術可以減輕工作強度。首先是數據準備階段,數據信息是數據的基礎,所以數據的收集對應的也是數據挖掘技術應用的基礎,收集的數據主要是讀者歷史借閱行為,這種類型的數據收集本身就是一項巨大的工程,在圖書館后臺數據庫中,數據資源是海量的,數據的收集不僅要收集讀者的歷史借閱記錄,還要把相關的讀者預約和續借等信息都收集起來。其次,是數據篩選和處理階段,該階段的數據篩選主要是處理上階段收集到的數據,包括噪聲和重復數據的消除等。然后把處理后的數據進行預處理和轉換,至此構建完成結構化的數據庫,有助于數據挖掘算法的進一步實施。第三,是數據挖掘階段,該階段是運用關聯分析和聚類分析等方法研究建立的數據庫,把不同類型讀者閱讀的喜好和借閱書目信息分析出來。最后,結合可視化技術利用以上分析結果把個性化的文獻推薦服務提供給讀者,當讀者進行文獻的檢索時,通過推薦集把與讀者搜索文獻相關的其他文獻自動推薦給讀者,同時根據讀者喜好進行相關優秀文獻的推薦,不僅能有效進行讀者的導讀推薦,還能以可視化的方式把有用的數據信息呈現給讀者。
3.3館藏書架管理的優化
高校圖書館的館藏文獻資源十分豐富,其包含的內容不僅囊括了本所高校設置的專業領域資源,還涉及了其他相關的研究領域,有效幫助全校師生的教學和科研,并能提供給師生個性化的推薦服務。高校圖書館有著種類繁多的館藏資源,正因如此,在高校圖書館科學發展中館藏書架管理工作的優化極其重要,而其中的一個重點方向就是圖書文獻變化趨勢預估,在書架上給預測出的最新文獻預留出位置,盡量減少書架上圖書的倒架次數,做到舊文獻及時剔除,新文獻迅速上架。
上面所述館藏書架的優化管理,可以通過數據挖掘技術的引入來實現,首先針對圖書館的歷史圖書文獻借閱日志,選擇預測分析技術進行數據分析,選用的方法為回歸與時序分析方法,可以得出文獻被借閱的周期變化,之后對整理好的圖書流通日志進行具體分類,并采用統計方法對其進行分析,把借閱增幅較大和借閱頻繁的館藏資源挑選出來,并根據這些數據按照排架規則進行圖書的上架管理,在容易查找的書架位置放置借閱量較大的館藏資源,并預留位置給那些借閱增幅較大的館藏文獻,使圖書的倒架次數減小。最后要及時剔除陳舊文獻,實時更新上架新文獻,要對館藏文獻資源中的圖書進行分類分析,統計出來已印刷新版的舊版圖書、擁有過多副本的館藏圖書、殘缺破損的圖書以及規定時間已到不予以流通的圖書,按照以上圖書分類分別統計各類圖書的數量及其具體所在書架位置,然后對整理好的圖書做到及時下架,并將下架信息反饋給相關管理單位,使圖書館館藏文獻資源的及時更新得到保障。
4.1系統結構設計
圖1所示為高校圖書館個性化服務模型圖,首先是采集用戶信息,而后根據信息數據對整體用戶利用相關技術進行建模,最后匹配規則庫與針對用戶構建的模型,提供給用戶個性化的信息服務。

圖1 基于數據挖掘熱切地個性化系統結構
該個性化系統主要包括在線推薦模塊和離線挖掘模塊,分別表示為實線圖和虛線圖,而在知識庫中,分別由資源的采集、存儲、加工處理以及最后服務的提供一起完成了知識的獲得。其中前三層提供數據基礎給第四層的資源服務層進行知識的推送。在該模型中,數據采集階段主要是對一些比較零散的數字信息進行采集,一般情況下包括圖書館的館藏資源信息,讀者基本信息、借閱記錄以及檢索記錄,最后的資源處理階段要對采集到的信息進行加工處理,保證能實時進行數據庫信息的更新,唯此資源數據的時效性才能得到有效的保證。其知識資源獲取結構圖如圖2所示。

圖2 知識資源獲取結構
在資源采集層中,主要由兩種信息采集方式:一種是自動采集方式,讀者在圖書館進行借閱時,系統提取借書證中的讀者個人信息并在讀者信息庫中進行存儲;一種是對讀者信息進行手工采集,這主要是在讀者借書證中存在不完全的個人信息記錄的情況下才會采用,在這部分信息不全的讀者在借書時,工作人員需要對讀者遺缺的信息進行手工的補充。在資源處理層中,要清理不規范的數據并進行適當的格式轉化,使數字信息可被數據挖掘識別,最后通過數據挖掘,存儲轉換后的知識并提供給讀者個性化的服務。
4.2系統功能描述
在高校圖書館中,個性化推薦系統要具有以下功能:
首先是收集用戶信息模塊,該模塊還有兩個子模塊,分別為圖書信息采集和讀者信息采集模塊。在前一個模塊中,主要是準備全面的圖書信息提供給后期的數據處理過程,這些采集的信息包括書名、索書號、出版社信息以及作者信息,有些還包括圖書館分類號,在讀者進行圖書的借閱以及個性化推薦圖書時就可以提供給用戶以上詳細的書籍信息,方便用戶的使用。后一個子模塊不僅要收集用戶的注冊信息,還要更全面地對能體現用戶個性的各類信息進行收集。
其次是用戶模型分析模塊,該階段是針對用戶生成具體模型,也即是分析上述采集到的信息,將讀者按照數據背后隱藏的規律進行分類,進而把讀者借閱模型構建出來。
最后是個性化推薦模塊,該模塊也是最核心部分,推薦算法的不同決定著推薦系統的差異,其具體劃分包括:系統過濾[6];基于內容的推薦系統[7];混合推薦系統[8]及基于規則的推薦系統[9]。
個性化服務系統通過以上3個模塊,不僅展示了圖書館個性化服務,還可以看出圖書館服務的主動性。在讀者對資源沒有明確的需要時,這種功能根據讀者的以往借閱記錄,參考與其相似讀者的屬性對讀者的借閱行為進行預測,從而提供給讀者個性化的服務。
4.3系統工作流程
總的工作流程,將從讀者和圖書館的后臺數據庫兩方面同時開展。首先,從讀者的角度來說,根據網站的注冊信息在首頁輸入賬號和密碼就可以選擇進入個性化界面,實現人機交互,對各類書籍信息進行查詢,同時可以參考系統提供的個性化推薦。另外,從圖書館的后臺數據方面來說,個性化系統對讀者的個人信息和特點進行后臺的調取,然后進行分類再分析,把具體的讀者借閱模型構建出來,再利用數據挖掘技術中的關聯分析把其中關聯關系最好的資源推薦給讀者。其工作流程圖如圖3所示。

圖3 系統工作流程
數據挖掘技術在高校圖書館個性化書目推薦服務中優勢很明顯。在網絡時代背景下,圖書館在數字化進程中館藏文獻資源愈加豐富,在數字化進程中應用數據挖掘技術能更好地發揮出高校圖書館信息服務的作用,對提高圖書館的服務質量具有重要意義。
參考文獻:
[1]國華.數據挖掘技術在高校圖書館管理系統中的應用研究[J].科技致富向導,2013(6):74-76.
[2]項爾津.高校圖書館個性化服務中數據挖掘技術的應用研究[J].蘭臺世界,2014(6):50-53.
[3]楊雪霞.數據挖掘技術在高校圖書館管理系統中的應用研究[J].軟件,2012(6):9-11.
[4]肖永霖,吳旭東,柳炳祥.數據挖掘在高校圖書館個性化服務中的應用[J].科技廣場,2012(12):14-18.
[5]魏萍.探究數據挖掘技術在高校圖書館個性化服務中的應用[J].內蒙古科技與經濟,2014(6):81-84,87.
[6]楊芳.數據挖掘在高校圖書館個性化信息服務中的應用[J].科技情報開發與經濟,2012(1):58-67,112.
[7]李靜.數據挖掘技術在高校圖書館個性化服務中的應用研究[D].天津:天津大學,2012(5).
[8]劉顯顯.基于數據挖掘的高校圖書館個性化信息推薦方法研究[D].沈陽:遼寧大學,2013(5).
[9]王斌.數據挖掘在高校圖書館服務中的應用研究[D].西安:西安理工大學,2010(5).
王蕾1972年生,館員。研究方向:圖書管理。
收稿日期:(2015-04-02;責編:楊新寬)