〔摘 要〕針對如何科學制訂高校圖書館圖書采購計劃以提高圖書采購質量和效率的問題,分析了傳統圖書采購計劃制訂方法的不足,闡述了數據挖掘技術的內涵,提出了將數據挖掘技術用于高校圖書館圖書采購計劃制訂輔助決策的方法,探討了該方法的可行性,并詳細給出了數據挖掘技術應用于制訂高校圖書館圖書采購計劃的過程。
〔關鍵詞〕數據挖掘;圖書采購;高校圖書館
〔中圖分類號〕G250 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)07-0108-03
Research on Assistant Decision-making in Formulating University Library
Book Purchasing Plan Based on Data MiningChi Chunjia1 Mao Zhiyong2
(1.Library,Liaoning Technical University,Huludao 125105,China;
2.College of Business Administration,Liaoning Technical University,Huludao 125105,China)
〔Abstract〕To improve the book quality and increase the labor efficiency,the data mining technology has been introduced into book purchasing system to formulate a reasonable purchasing plan.After the deficiency analysis of the traditional book purchasing system and thorough investigating of the data mining technology,a new method of drawing up book purchasing plan based on the data mining technology has been brought forward.A detailed procedure of formulating a purchasing plan using this method has been introduced and the method has been proved to be helpful.
〔Key words〕data mining;book purchase;university library
隨著辦學規模的不斷擴大,國內各高校在校人數迅速增長,廣大師生對圖書館文獻信息服務的要求越來越高,高校圖書館面臨著巨大壓力,必須通過不斷加強建設才能滿足讀者需求。圖書采購是圖書館業務的一個關鍵環節,也是圖書館服務工作的基礎,如何有效使用有限的資金,制訂科學的采購計劃,合理添置讀者真正需要的圖書,提高圖書資料的利用效率,是圖書采購工作面臨的主要問題,這對于館藏資源體系的建設完善起著決定性的作用,在很大程度上決定著圖書館整體服務水平,會直接影響到讀者服務工作的效果和圖書館任務的完成。然而,在制訂采購計劃時,傳統的方法卻存在諸多缺陷,已不能很好滿足采購工作的需要,因而迫切需要一種更加高效、科學的方法進行該項工作。
1 傳統圖書采購計劃制訂方法的分析
1.1 傳統的圖書采購計劃制訂主要采用的方法
1.1.1 專家法
這是一種最為常見的方法。通常做法是圖書采購部門邀請各個學科的專家,請專家在書目信息列表上選擇出他們認為有價值、能反映學科前沿問題、突出學科重點的圖書,然后再結合經費情況、館藏圖書的學科專業分布、發展趨勢、現有藏書量以及學校的學科發展規劃情況、圖書流通信息等進行調整,最終確定采購計劃。專家法的優點是發揮了專家熟悉本領域圖書資料的長處,專家根據其對本專業發展需要、學科發展趨勢、同行圖書作者、圖書內容的了解,保證了圖書采購的專業水準,尤其是保證反映本學科最新發展成就和趨勢的圖書能夠入選。
1.1.2 經驗法
此種方法是指在制訂采購計劃時,主要依據圖書采購人員的經驗,根據其對館藏資源的了解和對圖書需求的判斷來決定圖書采購目錄和數量,制訂采購計劃。這種做法的優點是管理人員長期從事本職工作,對圖書館的現實有充分的了解,工作效率較高。
1.2 兩種方法的不足與缺陷
1.2.1 計劃制訂容易受到主觀因素影響
在圖書采購過程中,盡管采購人員或專家專業學識水平較高、業務能力較強,但不可避免地會帶有一定的主觀性和個人喜好,從而很容易導致計劃失去客觀性。
1.2.2 計劃制訂容易缺乏全面性
在影響計劃制訂結果的諸多因素中,由于缺乏有效的技術,讀者的真實需求情況對于采購計劃的制訂者往往是難于準確把握的,這就極易導致計劃制訂缺乏全面性,最終花費了大量資金購置的圖書卻并不能很好地滿足讀者的實際需求。
2 數據挖掘概述
數據挖掘(Data Mining)又稱為數據庫中的知識發現(Knowledge Discovery in Database,KDD),是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程。數據挖掘相對于傳統的數據分析(如信息查詢、報表分析)而言,其本質區別是數據挖掘使用的是基于發現的方法,運用模式匹配和其它算法決定數據之間的重要聯系,其任務是從數據中發現模式。數據挖掘主要致力于知識的自動發現,是知識發現研究在數據庫系統中的延伸。數據挖掘在沒有明確假設的前提下去挖掘信息、發現知識,不僅能對過去的數據進行查詢和遍歷,并且能夠對將來的趨勢和行為進行預測并自動探測以前未發現的模式,從而很好地支持人們的決策。被挖掘出來的信息具有先未知性、有效性和實用性3個特征,能夠用于信息管理、查詢處理、決策支持、過程控制以及許多其它應用。目前,數據挖掘的主要功能有:
(1)分類:按照數據對象的屬性、特征,建立不同的組類來描述數據。
(2)聚類:識別出數據對象內在的規則,按照這些規則把對象分成若干類。與分類不同的是,聚類沒有預先定義數據對象,而是由數據對象決定。
(3)關聯規則和序列發現:關聯分析是揭示數據間沒有直接表示的相互關系,而關聯規則是解釋并識別這些數據關聯的模式。與關聯不同,序列是一種縱向的聯系,用于發現并確定數據對象之間與時間相關的序列模式。
(4)預測:把握數據對象發展的規律,對未來的數據狀態趨勢做出預見。
(5)偏差的檢測:數據庫中總有一些數據對象是少數的、極端的或特例的,對他們進行描述并揭示內在的原因。
數據挖掘的技術和算法主要有統計方法(包括點估計、基于匯總的模型、貝葉斯定理、假設檢驗、回歸和相關)、相似性度量、決策樹、模糊邏輯、神經網絡和遺傳算法等。而在實際的數據挖掘應用中,所使用的數據挖掘功能和技術、算法往往不止一種,經常是綜合運用的。
3 數據挖掘在制訂高校圖書館圖書采購計劃中的應用
3.1 數據挖掘在制訂圖書采購計劃中應用的可行性
目前,數據挖掘在經過多年的發展之后已經形成相對成熟的技術體系,特別是在數據挖掘設計、數據抽取以及聯機分析處理技術等方面都取得了令人滿意的進展,為數據挖掘的應用奠定了技術基礎。數據挖掘技術在電信、制造、零售、金融等領域已得到了廣泛的應用,并取得了巨大的回報。由于我國各高校圖書館系統經過多年的自動化建設,已具備相當的物質條件和人才儲備,并積累了大量業務數據,可以為數據挖掘技術應用于圖書采購奠定一定的物質基礎。利用數據挖掘技術,圖書采購人員可以非常方便地通過對圖書館自動化系統所積累的數據進行處理,分析出文獻的利用情況,從而準確把握讀者實際需求,可以很好地克服了傳統方法中對讀者需求把握不準確的不足。此外由于數據挖掘結果可以為采購文獻提供科學合理的各種分析報告及預測信息,從而將人員的主觀因素的影響降到最低,可以最大程度提升決策的科學性、準確性和全面性。因此,在圖書采購中應用數據挖掘技術,為圖書采購計劃輔助決策是完全可行的。
3.2 數據挖掘在制訂高校圖書館圖書采購計劃中應用的過程數據挖掘在制訂圖書采購計劃中的應用過程如圖1所示,包括收集原始數據、數據預處理、數據挖掘、結果分析和制訂采購計劃5個步驟。

3.2.1 收集原始數據
收集原始數據的目的是為后期的數據挖掘提供數據源。在實際應用中,收集的原始數據主要包括圖書館自動化系統數據庫里的采訪、編目、典藏、流通等的業務數據。收集的業務數據信息主要包括以下內容:
(1)讀者信息數據:主要包括讀者證件號、姓名、性別、專業、班級、院系、讀者類型、聯系方式等。
(2)流通借閱數據:主要包括借閱記錄號、書名、索書號、讀者證件號、借閱時間、歸還時間等。這部分信息是利用數據挖掘技術獲取圖書館文獻利用狀況的關鍵,通過對它們的統計、歸類、分析有助于了解書刊的使用情況并對讀者需求進行挖掘和預測分析。
(3)文獻檢索記錄:其主要內容包括讀者證件號、檢索字段、檢索時間等。這部分數據能很好地反映檢索者的需求和借閱傾向,非常有助于對讀者需求的挖掘。
(4)館藏圖書數據:主要包括書名、索書號、館藏位置、作者、出版社、出版日期、購入日期等。
3.2.2 數據預處理
由于原始數據是從圖書館自動化系統數據庫導出,一般都會存在大量的含有噪聲、不完整甚至是不一致的數據。因此,必須對數據挖掘所涉及的數據對象進行預處理,以提高數據挖掘效率和所獲模式知識質量。
按照數據挖掘理論,數據預處理主要包括:數據清洗、數據集成、數據轉換和數據消減。數據清洗主要是對原始數據填補遺漏數據、消除異常數據、平滑噪聲數據,以糾正不一致的數據。數據集成是將來自多個數據源的數據,結合在一起并形成一個統一數據集合。數據轉換是將數據轉換或歸并以構成適合數據挖掘的形式。數據消減用于將數據集合進行精簡,精簡結果數據集保持原有的數據集的完整性,但挖掘效率更高,且挖掘出的結果與使用原數據集的結果基本相同。
具體地,在對3.2.1中收集到的原始數據集合進行數據預處理的過程中,首先是對收集到的數據檢查完整性及數一致性、去除噪聲、刪除無效數據、填補丟失的域、去除空白數據域、考慮時間順序和數據變化,如果發現原始數據記錄中某些屬性值為空,如讀者類型或專業等,可以對其進行遺漏處理。發現某些數據值出現不一致或隨機錯誤時,可以通過手工或其他方式加以糾正。根據挖掘需求,可將部分屬性取值進行泛化處理,如將年齡屬性可泛化映射成:青年、中年、老年,專業可泛化為:文、理、工、管、法等。由于分析單一讀者的需求意義并不大,讀者類型可分為本科生、研究生、教師、教輔等類別,分析不同類型讀者的需求特征會更有意義。為了數據挖掘的需要,還可以進行屬性構造,即根據已有屬性集來構造新的屬性,如構造“外借次數”屬性,其值可通過“借書日期”、“還書日期”導出。構造“借出時間”屬性,其值可由“借書日期”、“還書日期”方便地導出。對某些數據可以進行統計、匯總處理來構造新屬性,如可以累計各類圖書的總冊數來反映不同類圖書在館藏中的比例關系。為找到數據的特征,可用維變換或轉換方法減少無效變量的數目,可刪除一些與挖掘任務無關的屬性,比如證件號、姓名、聯系方式等。通過一系列的數據預處理工作,可以為下一步的數據挖掘過程提供良好的數據基礎,做好前期準備。
3.2.3 數據挖掘
這一過程建立在經過數據預處理之后的數據集合之上,數據集合中有大量的數據,蘊藏著一些潛在的規則和知識,可以利用關聯分析、聚類分析等各種分析方法加以發現。通過對讀者信息與圖書借閱信息之間的聯系進行關聯性分析,可以了解某類讀者和某類圖書之間的關聯度。挖掘文獻頻繁借閱和檢索以及續借圖書情況,可得出哪些類別圖書讀者比較感興趣。通過對借閱者借書信息的聚類分析,可分析出不同年齡段的人的借閱傾向。通過對還書時間的分析,了解讀者對所借書的態度等等,還可以得出在不同時期流通較活躍的圖書分類等等。
3.2.4 結果分析和制訂采購計劃
利用數據挖掘技術,可以獲得讀者借閱、檢索頻率較高的圖書信息,或缺書比例較大的圖書以及讀者借閱傾向、關注重點等信息,有助于科學分析各類文獻的利用率和需求情況,為采購文獻提供科學合理的各種分析報告及預測信息,從而指導采購人員對文獻種類進行科學地篩選,制訂科學的采購計劃,合理地確定各種文獻所需的復本量,及時補充短缺的文獻,剔除過時的文獻,從而保障圖書館信息資源體系的科學性和合理性。
4 結 語
綜上所述,把數據挖掘技術用于高校圖書館圖書采購計劃的制訂,是挖掘高校圖書館信息技術應用潛力、提高管理水平和讀者服務水平的有益探索,必將有效地改進圖書采購工作水平,使高校圖書館更好地服務于全校師生。
參考文獻
[1]資蕓,李一鵬.基于數據倉庫的高校圖書館圖書采訪決策系統研究[J].新世紀圖書館,2006,(4):12-14.
[2]金建旺,施國生.基于數據倉庫的圖書館采購決策研究[J].浙江理工大學學報,2008,(2):191-194.
[3]蘇新寧.數據倉庫和數據挖掘[M].北京:清華大學出版社,2006.
[4]彭木根.數據倉庫技術與實現[M].北京:電子工業出版社,2002.
[5]張存祿,等.數據挖掘在圖書采購中的應用[J].情報科學,2004,(5):284-286.
[6]龔宇花,刑耐生.數據挖掘技術在高校數字化圖書館中的應用[J].電腦知識與技術,2008,(7):1547-1548,1557.
[7]郭佳慧.數據挖掘技術在數字圖書館中的實現[J].農業圖書情報學刊,2008,(9):36-38.
[8]朱明.數據挖掘[M].合肥:中國科學技術大學出版社,2002.
[9]Jiawei Han,Micheline Kamber.Data Mining:Concepts and techniques.Morgan Kaufmann Publishers,Inc.2001.