基于數(shù)據(jù)挖掘的圖書(shū)部署決策系統(tǒng)設(shè)計(jì)

2010-05-04 02:48:14劉承真

圖書(shū)館學(xué)刊 2010年8期

劉承真

（臨沂報(bào)業(yè)集團(tuán)，山東臨沂 276004）

1 引言

隨著高等教育事業(yè)的發(fā)展，各大高校出現(xiàn)多校區(qū)辦學(xué)的局面，各種教育資源的共享成為高?；A(chǔ)建設(shè)的重要工作，其中圖書(shū)資源優(yōu)化配置是研究應(yīng)用的一個(gè)關(guān)鍵問(wèn)題。目前各高校都在使用圖書(shū)管理系統(tǒng)，每天能產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù)和表單，合理分析這些海量數(shù)據(jù)對(duì)圖書(shū)館的采購(gòu)、館藏、咨詢等業(yè)務(wù)都有指導(dǎo)作用[1，2]。

由于當(dāng)前圖書(shū)管理系統(tǒng)無(wú)法發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的知識(shí)，對(duì)讀者的需求信息不能預(yù)測(cè)，因此無(wú)法對(duì)多校區(qū)的圖書(shū)館藏結(jié)構(gòu)和館間分布進(jìn)行合理優(yōu)化。筆者主要是應(yīng)用數(shù)據(jù)挖掘技術(shù)分析圖書(shū)館管理系統(tǒng)中的數(shù)據(jù)，尋找讀者的需求信息，然后提供給圖書(shū)館部署管理系統(tǒng)作為決策的依據(jù)。主要貢獻(xiàn)是合理地分析歷史數(shù)據(jù)，應(yīng)用數(shù)據(jù)挖掘中的重要算法開(kāi)發(fā)了可實(shí)際運(yùn)行的決策支持系統(tǒng)，該系統(tǒng)對(duì)每批新書(shū)上架都能提供較合理的指導(dǎo)依據(jù)。這對(duì)優(yōu)化配置多校區(qū)的圖書(shū)資源產(chǎn)生了較大收益。

2 圖書(shū)部署決策系統(tǒng)設(shè)計(jì)

2.1 系統(tǒng)體系結(jié)構(gòu)介紹

圖書(shū)部署決策系統(tǒng)主要模塊如圖1所示。讀者庫(kù)是指最原始的數(shù)據(jù)集合，包括讀者信息、借閱日志及書(shū)目信息。除此之外還要包括校區(qū)劃分及院系的信息。該數(shù)據(jù)庫(kù)主要從圖書(shū)自動(dòng)化管理系統(tǒng)中導(dǎo)入，本系統(tǒng)中應(yīng)用Oracle9.0。預(yù)處理模塊對(duì)原始數(shù)據(jù)集進(jìn)行處理。主要任務(wù)是刪除冗余數(shù)據(jù)，簡(jiǎn)化數(shù)據(jù)表中的屬性，合并數(shù)據(jù)表。數(shù)據(jù)挖掘模塊的主要任務(wù)就是利用相應(yīng)的挖掘算法尋找未知知識(shí)，對(duì)隱藏在海量數(shù)據(jù)中的讀者需求信息進(jìn)行捕獲，為更好地部署圖書(shū)資源提供支撐。該模塊采用面向?qū)ο蟮脑O(shè)計(jì)思想，盡量降低系統(tǒng)的控制耦合度，便于對(duì)算法的更新維護(hù)。核心管理模塊的任務(wù)是對(duì)其他子模塊發(fā)出控制命令，如圖1虛線所示。比如啟動(dòng)預(yù)處理模塊讀取原始數(shù)據(jù)；調(diào)用數(shù)據(jù)挖掘模塊發(fā)現(xiàn)未知讀者需求信息等。圖書(shū)部署策略創(chuàng)建模塊利用數(shù)據(jù)挖掘提供的規(guī)則和已有的先驗(yàn)知識(shí)對(duì)圖書(shū)的上架及館藏的調(diào)整提出相應(yīng)的決策支持。目前系統(tǒng)主要提供了兩種常用的決策支持應(yīng)用。首先是新書(shū)上架功能，當(dāng)購(gòu)入新書(shū)后，只需根據(jù)圖書(shū)的種類便能提供在哪個(gè)校區(qū)上架及上架數(shù)量；其次是定期對(duì)借閱頻繁的圖書(shū)進(jìn)行一次調(diào)整，逐漸優(yōu)化館藏圖書(shū)結(jié)構(gòu)來(lái)解決大學(xué)生跨校區(qū)借閱的現(xiàn)象。

2.2 數(shù)據(jù)收集

高校圖書(shū)館信息系統(tǒng)只是普通的信息管理系統(tǒng)，并沒(méi)有智能決策功能，該系統(tǒng)每日都將產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)。其中包括讀者基本信息、書(shū)目信息和流通信息。筆者在此以山東臨沂師范學(xué)院圖書(shū)自動(dòng)化系統(tǒng)為例。讀者基本信息取自讀者表，讀者借書(shū)記錄來(lái)自流通日志表。利用讀者條碼信息對(duì)以上各表數(shù)據(jù)進(jìn)行合并。讀者借閱歷史數(shù)據(jù)庫(kù)為R={D1，D2，…，Dn}。其中Di記錄了讀者對(duì)圖書(shū)的借閱信息，Di={IDi，S1，S2，…，Sm}，IDi為讀者條碼標(biāo)識(shí)，Si（1<=i<=m）記錄了讀者的借閱信息。Si中包括讀者類別、所屬單位、圖書(shū)條碼、館藏地、圖書(shū)類別等。

2.3 數(shù)據(jù)預(yù)處理

對(duì)于原始的數(shù)據(jù)首先進(jìn)行冗余數(shù)據(jù)和無(wú)效數(shù)據(jù)的刪除。因?yàn)樯婕暗淖x者表和流通日志數(shù)據(jù)結(jié)構(gòu)比較龐大，有47個(gè)相關(guān)屬性。根據(jù)數(shù)據(jù)規(guī)約與概化原則刪除不相關(guān)或冗余屬性。比如刪除讀者姓名、聯(lián)系電話等屬性；對(duì)于辦證時(shí)間和證件有效期則概念化為讀者類型；對(duì)于書(shū)目信息刪除出版時(shí)間、出版社等無(wú)關(guān)屬性，只保留類別、價(jià)格、所屬校區(qū)等相關(guān)屬性。

數(shù)據(jù)預(yù)處理要解決的另一個(gè)問(wèn)題是增加讀者所屬校區(qū)的信息。高校圖書(shū)管理系統(tǒng)中因?yàn)椴捎媒y(tǒng)一的數(shù)據(jù)庫(kù)系統(tǒng)，所以并未在流通記錄中體現(xiàn)讀者來(lái)自哪個(gè)校區(qū)。現(xiàn)實(shí)中存在跨校區(qū)借閱的現(xiàn)象，為了將這種信息保存到數(shù)據(jù)庫(kù)中，根據(jù)讀者所屬的單位添加讀者所屬校區(qū)這個(gè)屬性。根據(jù)高校院系與校區(qū)的對(duì)應(yīng)關(guān)系對(duì)全部讀者借書(shū)記錄進(jìn)行自動(dòng)追加，有利于數(shù)據(jù)挖掘的準(zhǔn)確性，便于對(duì)圖書(shū)部署作出正確決策。

2.4 數(shù)據(jù)挖掘分析

在該系統(tǒng)中主要應(yīng)用兩種基本的數(shù)據(jù)挖掘技術(shù)。對(duì)于新書(shū)分配相應(yīng)校區(qū)及上架數(shù)量比例的任務(wù)使用決策樹(shù)方法[3]。決策樹(shù)方法是分類發(fā)現(xiàn)算法中最常用的一種方法，適合探索式知識(shí)發(fā)現(xiàn)。首先對(duì)數(shù)據(jù)進(jìn)行處理，利用歸納算法生成可讀的規(guī)則和決策樹(shù)，然后利用這些規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)[4]。在此要對(duì)典型的決策樹(shù)分類算法做一些調(diào)整來(lái)解決新書(shū)上架比例的問(wèn)題。

例如新近一批美術(shù)類圖書(shū)，位于東校區(qū)美術(shù)學(xué)院的大部分學(xué)生需要借閱這些專業(yè)性強(qiáng)的圖書(shū)。而位于主校區(qū)的信息學(xué)院動(dòng)漫專業(yè)的學(xué)生也有相應(yīng)的需求，如果將此類圖書(shū)全部放入東校區(qū)，必然出現(xiàn)小批量動(dòng)漫專業(yè)的大學(xué)生跨校區(qū)借閱現(xiàn)象，導(dǎo)致圖書(shū)資源共享效果差。如果只是簡(jiǎn)單將該批圖書(shū)平分投放在主校區(qū)和東校區(qū)，必然出現(xiàn)東校區(qū)圖書(shū)借閱緊張而主校區(qū)空閑的狀態(tài)。為解決這個(gè)問(wèn)題，對(duì)每本圖書(shū)必須分配適當(dāng)?shù)母北敬娣庞诓煌^(qū)的圖書(shū)館中。技術(shù)上使用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的支持度S=（x?y）=T（X∪Y）/。 T（X∪Y）數(shù)據(jù)集中包括X∪Y的事務(wù)數(shù)；T表示數(shù)據(jù)集中的事務(wù)總數(shù)。將決策樹(shù)進(jìn)行廣度優(yōu)先搜索，對(duì)每個(gè)葉子節(jié)點(diǎn)，求出從根節(jié)點(diǎn)到該葉子節(jié)點(diǎn)的路徑。該路徑上所有節(jié)點(diǎn)的劃分條件并為一類，為每個(gè)節(jié)點(diǎn)創(chuàng)建IF…Then的分類規(guī)則。然后對(duì)每條分類規(guī)則增加支持度，例如為解決上面的實(shí)際問(wèn)題，創(chuàng)建了一條分類規(guī)則。Rule1：IF美術(shù)類圖書(shū)Then東校區(qū)，Suppor（t Rule1）=0.63。那么如果一本圖書(shū)購(gòu)進(jìn)10個(gè)副本，則向東校區(qū)發(fā)放7本，其余發(fā)放于主校區(qū)。具體修改后的決策樹(shù)算法如下：

算法1

①創(chuàng)建一棵空樹(shù)及訓(xùn)練樣本屬性表；

②若訓(xùn)練數(shù)據(jù)集T中的所有元素都屬于同一類，則創(chuàng)建節(jié)點(diǎn)T，并終止該算法；

③選擇訓(xùn)練樣本屬性表中館藏地點(diǎn)屬性A作為結(jié)果屬性，再根據(jù)隨機(jī)策略從樣本表中選擇測(cè)試屬性B；

④如果B的取值為V1，V2，…，Vm，則根據(jù)B的取值不同，將T劃分為m個(gè)子集T1，T2，…，Tm；

⑤從訓(xùn)練樣本屬性表中刪除屬性B；

⑥調(diào)整②，對(duì)每個(gè)子集遞歸調(diào)用；

⑦生成決策樹(shù)DT；

⑧對(duì)DT進(jìn)行廣度優(yōu)先搜索；

⑨為每個(gè)葉子節(jié)點(diǎn)求出根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑；

⑩歸并此路徑上的劃分條件，生成一條規(guī)則Ri；

?循環(huán)執(zhí)行⑨～⑩，直到處理完全部葉子節(jié)點(diǎn)。

另外一個(gè)需要用數(shù)據(jù)挖掘解決的問(wèn)題是對(duì)專業(yè)性不強(qiáng)的圖書(shū)部署問(wèn)題。比如說(shuō)應(yīng)試類圖書(shū)，考研、公務(wù)員考試、公共英語(yǔ)、公共計(jì)算機(jī)考試等。對(duì)于該問(wèn)題按照校區(qū)進(jìn)行聚類，類間差別盡可能大，類內(nèi)差別盡可能小。因?yàn)樾^(qū)的劃分每學(xué)年要進(jìn)行調(diào)整，因此與分類模式不同，聚類前并不知道劃分為幾類和什么樣的類，屬于無(wú)導(dǎo)師學(xué)習(xí)。

①根據(jù)校區(qū)取定C=5及終止條件δ；初始化聚類中心V0；逐步迭代；

②對(duì)于V1，修正U1；

④用一個(gè)矩陣比較Vl與Vl+1，對(duì)于取定的ε>0，若Vl+1-Vl≤ε，則停止迭代，否則l=l+1，轉(zhuǎn)②。

2.5 圖書(shū)部署模塊

圖書(shū)部署模塊主要是根據(jù)數(shù)據(jù)挖掘模塊提供的分類規(guī)則對(duì)圖書(shū)進(jìn)行分類，將其調(diào)整到分校區(qū)的館藏中。其算法如下：

①讀取要分類的圖書(shū)信息及分類規(guī)則庫(kù)；

②根據(jù)分類圖書(shū)中的測(cè)試屬性遍歷規(guī)則庫(kù)；

③如果存在對(duì)應(yīng)規(guī)則，則提取該規(guī)則；

④如果存在多條規(guī)則，進(jìn)行規(guī)則合并；

⑤計(jì)算規(guī)則的支持度后，執(zhí)行該規(guī)則；

⑥輸出部署決策知識(shí)。

對(duì)于不具有明顯分類標(biāo)準(zhǔn)的圖書(shū)或者是綜合類圖書(shū)則根據(jù)算法2按校區(qū)進(jìn)行聚類分析，得出相應(yīng)的部署決策信息。

3 系統(tǒng)實(shí)施效果評(píng)估

該系統(tǒng)運(yùn)行后，首先對(duì)借閱量前5000次的圖書(shū)進(jìn)行了館藏調(diào)整。為了驗(yàn)證該系統(tǒng)的有效性，設(shè)計(jì)了如下驗(yàn)證方案：選擇借閱量排名前500名的圖書(shū)，統(tǒng)計(jì)歷史數(shù)據(jù)庫(kù)中每本圖書(shū)的月借閱次數(shù)，然后將其平均值定義為借閱率。即借閱率=借閱次數(shù)/月 500。首先統(tǒng)計(jì)2008年歷史數(shù)據(jù)庫(kù)中未使用該系統(tǒng)前的圖書(shū)借閱率信息，如圖2所標(biāo)定的歷史借閱率。然后統(tǒng)計(jì)2009年一年時(shí)間里這些圖書(shū)的借閱率，如圖2所示的當(dāng)前借閱率。

通過(guò)圖2可以發(fā)現(xiàn)當(dāng)前借閱率比歷史借閱率有了較大提高，因此可證明啟用圖書(shū)部署系統(tǒng)后優(yōu)化了圖書(shū)資源。圖2中3月、4月、5月、6月、9月、10月、11月均為學(xué)期的主要學(xué)習(xí)階段，借閱率提高比較明顯；而1月、2月、7月、8月、12月均為學(xué)期的考試階段和寒暑假前后，借閱率提高不明顯。這種現(xiàn)象與實(shí)際情況吻合，因?yàn)榭荚嚽按髮W(xué)生對(duì)于需要的圖書(shū)無(wú)論在哪個(gè)校區(qū)都設(shè)法去借閱，而寒暑假前后大學(xué)生有充足的時(shí)間去各校區(qū)借閱圖書(shū)。

4 結(jié)語(yǔ)

現(xiàn)代圖書(shū)管理系統(tǒng)每天都會(huì)產(chǎn)生海量信息數(shù)據(jù)，這些數(shù)據(jù)日積月累成為了數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的寶貴資源。應(yīng)當(dāng)積極地利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)讀者的潛在需求，用于指導(dǎo)圖書(shū)館的采購(gòu)、館藏和信息咨詢等業(yè)務(wù)工作。筆者重點(diǎn)研究了圖書(shū)的按校區(qū)分類、聚類問(wèn)題，通過(guò)開(kāi)發(fā)新的決策支持系統(tǒng)來(lái)調(diào)整高校各校區(qū)的圖書(shū)部署問(wèn)題。經(jīng)過(guò)實(shí)踐驗(yàn)證取得了較好的效果，提高了大學(xué)生對(duì)圖書(shū)資源的利用率，優(yōu)化了學(xué)校教育資源。由于該系統(tǒng)采用面向?qū)ο笏枷朐O(shè)計(jì)，各算法模塊間呈松耦合狀態(tài)，因此具有較好的可擴(kuò)展性。下一步的應(yīng)用是通過(guò)讀者對(duì)某類圖書(shū)的借閱數(shù)據(jù)及文獻(xiàn)的查詢數(shù)據(jù)預(yù)測(cè)圖書(shū)采購(gòu)，對(duì)圖書(shū)采購(gòu)的投入產(chǎn)出進(jìn)行優(yōu)化。

[1] 魏育輝，潘潔.圖書(shū)流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J].現(xiàn)代情報(bào)，2005（11）：108-110.

[2] 司徒浩臻.數(shù)據(jù)挖掘技術(shù)在圖書(shū)館信息服務(wù)中的應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù)，2005（10）：15-18.

[3]Han Jiawei，KamberMicheline.數(shù)據(jù)挖掘——概念與技術(shù)[M].范明，孟小峰譯.北京：機(jī)械工業(yè)出版社，2007.

[4] 馬秀紅，宋建社，董晟飛.數(shù)據(jù)挖掘中決策樹(shù)的探討[J].計(jì)算機(jī)工程與應(yīng)用，2004（1）：185，214.

[5] 范九倫，裴繼紅，謝維信.聚類有效性函數(shù)：熵公式[J].模糊系統(tǒng)與數(shù)學(xué)，1998（3）.

[6] 姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海：上海交通大學(xué)，2008.

[7] 孫學(xué)剛，陳群秀，馬亮.基于主題的Web文檔聚類研究[J].中文信息學(xué)報(bào)，2003（3）：12-16.