[摘 要] 當今的高校圖書館每天都要產生大量的統計數據,而如何從這些數據中挖掘出有利于圖書管理的信息就顯得尤為重要。本文在介紹數據挖掘相關概念的基礎上,重點分析了數據挖掘中的決策樹和關聯規則方法在圖書流通和圖書采編中具體應用,以期為圖書的有效管理提供決策支持。
[關鍵詞] 數據挖掘; 圖書館; 圖書管理; 決策
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 09. 070
[中圖分類號] G251; TP391 [文獻標識碼] A [文章編號] 1673 - 0194(2012)09- 0113- 02
數據挖掘已經成為非常活躍的研究領域,它被廣泛應用于制造業、零售業、供應鏈分析和電子商務等領域。在當今的圖書管理系統中,每天都產生大量的統計數據和表單,這些數據背后往往隱含著諸如讀者興趣、借閱習慣及學科關聯等重要信息,如何有效利用這些有價值的信息正是圖書管理中亟待研究解決的重要課題,而數據挖掘技術為這類問題的解決提供了新的途徑。
1 數據挖掘概念
數據挖掘是近年來隨著數據庫技術和人工智能技術的發展而出現的一種全新的信息技術,它是從大量的、不完全的、隨機的實際應用數據中提取隱含在其中的但不為人們所知、且又有潛在價值的信息和知識,如趨勢、特征以及相關的過程等。隨著圖書館自動化程度的不斷提高,自動化管理系統已經在圖書館日常工作中占有了非常重要的地位,它每天產生的流通日志數據、數字圖書館各種資源的訪問記錄以及圖書館網站的 Web日志等,都為數據挖掘工作提供了原始數據。要讓這些數據發揮更大的作用,必須對它們進行深層次挖掘分析,以便為圖書館工作提供技術支持和決策管理支持。
數據挖掘也稱知識發現,它通過對查詢內容進行模式的總結和內在規律的搜索,幫助決策者分析歷史數據及當前數據,進而發現隱藏的關系和模式,從而為決策行為提供有利的支持。數據挖掘有許多種方法,其中最常用方法的是關聯分析、決策樹和聚類分析等。
2 基于數據挖掘的圖書管理決策
2.1 基于關聯規則挖掘的圖書流通決策
2.1.1 關聯規則概述
在數據挖掘技術中,關聯規則由Agrawal等人在1993年首先提出,是數據挖掘領域一個重要的研究內容,它是通過發現描述數據庫中數據項之間潛在的關聯,找出大量數據之間未知的依賴關系。
關聯規則的產生源于交易事務的信息利用,規則給出的信息是以“if-then”的形式出現,其采用如X ?圯Y的蘊涵式,其中X ?奐I,Y?奐I,并且X∩Y = ?準,I稱為項集(事務集),可以理解為數據記錄中所有字段取值構成的最大合集 。關聯規則一般用支持度Support和可信度Confidence兩個參數描述其屬性。其中,支持度是包含項集X 和Y 的事務數與所有事務數之比,記為Support(X ?圯Y),它描述了X 和Y 這兩個項集在所有事務中同時出現的概率;可信度是包含項集X 和Y 的事務數與包含X 的事務數之比,記為Confidence(X?圯Y),它描述了在出現項集X 的事務集中,項集Y 也同時出現的概率。在關聯規則的研究中,最著名的算法有Apriori算法、FP-growth算法和DWAR算法等。
2.1.2 流通決策過程
圖書館自動化管理系統每天都會產生大量的流通數據, 這些數據不僅包含讀者當前的借還記錄、賬單記錄,還包括曾經發生過的借還操作,它們以日志的方式寫入系統文件中, 如果用關聯分析的方法對日志數據進行挖掘,我們會發現其中的某些規律。例如: 特征A:借閱《管理學》;特征B:借閱《計算機網絡》;特征C:借閱《信息管理與信息系統》。布爾型關聯規則為A,B→C。它的含義是:借閱《管理學》和《計算機網絡》兩本書的人也會借閱《信息管理與信息系統》。如果通過計算得出支持度為0.4,可信度為0.6,則表示在所有讀者中,有40%的人同時借閱了這3 本書,在借閱《管理學》和《計算機網絡》的讀者中,有60%的人也借閱了《信息管理與信息系統》。
通過這樣的關聯分析,可以發現讀者借閱行為中的規律。也就是說,從圖書管理決策的角度來看,應加強相關圖書的科學排架和合理擺放,將這幾類書放置在離入口較近的書架上,這樣可以幫助讀者提高借閱效率,同時也可減輕工作人員的勞動量,以及由于減少圖書的搬運活動而減少對圖書的損壞。
2. 2 基于決策樹的圖書采編決策
2.2.1 決策樹概念
決策樹是分類的一種方法,其目標是從數據集中提取出能夠描述數據類基本特征的模型,并利用這些模型把數據集中的每個對象都歸入到其中某個已知的數據類中。它以決策樹或一組分類規則展現,在最終生成的分類模型中,每條分類規則都應該覆蓋一定量的數據, 而被同一條分類規則覆蓋的數據應該具有比較高的相似性。
決策樹是這樣的一棵樹,它的每個非葉節點均表示考察數據項目的測試或決策。根據測試結果,選擇某個分枝,為了分類一個特定數據項目,從根節點開始,一直向下判定,直到達到一個終端節點(葉子節點)為止。這樣,一個決策就形成了。
2.2.2 采編決策過程
假定系統書目數據的屬性字段中有索書號、建立日期,借出總數 (即從建立之日起共被借過幾次 ) 3個屬性,通過這 3個屬性 ,在借閱次數已知情況下,那么就可以設計一種決策樹分類方法,如圖1所示。
圖1中的決策樹用關聯規則表示更容易理解:N類圖書,2003年入藏 →借出總數是 2 410次;…; H類圖書,2009年入藏 →借出總數是 2 600次。
決策樹方法伸縮性好,分類速度快,能夠轉換成容易理解的分類規則。在本例中,可以很快地將書目數據按設定條件分類,分析出文獻的利用率,及時補充短缺的文獻,剔除過時的文獻,為圖書館的采購決策提供支持。同時,利用決策樹通過對歷年借閱數據進行相關分析,相應增幅較大的圖書種類在上架時可根據預測趨勢預留架位;對借閱頻率較大且連續續借的書目,應以量化方式反饋給采編部門以加大采編力度。
3 結 語
數據挖掘在數據組織與分析和知識發現以及信息深層次挖掘等方面體現出整體優勢。隨著圖書館自動化程度的不斷提高,自動化管理系統每天都要產生大量的統計數據,如何從這些數據中挖掘出有用的圖書管理信息已成為一個亟待研究解決的重要課題。為此,本文詳細分析了決策樹和關聯規則的數據挖掘方法對圖書流通和圖書采編工作的決策支持作用,以期用于指導圖書館的各項工作,使圖書館的館藏資源得以進一步優化和利用,使管理水平和服務質量得到進一步提高。
主要參考文獻
[1] 王新筠. 數據挖掘技術在圖書館自動化管理系統中的應用[J]. 科技情報開發與經濟,2007(26).
[2] 黃蘭. 數據挖掘技術在圖書館工作中的應用[J]. 圖書館學研究,2005(7).
[3] 張應征,成新紅. 數據挖掘在高校圖書管理信息化中的應用[J]. 科技信息,2010(23).