劉承真
(臨沂報(bào)業(yè)集團(tuán),山東 臨沂 276004)
隨著高等教育事業(yè)的發(fā)展,各大高校出現(xiàn)多校區(qū)辦學(xué)的局面,各種教育資源的共享成為高?;A(chǔ)建設(shè)的重要工作,其中圖書(shū)資源優(yōu)化配置是研究應(yīng)用的一個(gè)關(guān)鍵問(wèn)題。目前各高校都在使用圖書(shū)管理系統(tǒng),每天能產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù)和表單,合理分析這些海量數(shù)據(jù)對(duì)圖書(shū)館的采購(gòu)、館藏、咨詢等業(yè)務(wù)都有指導(dǎo)作用[1,2]。
由于當(dāng)前圖書(shū)管理系統(tǒng)無(wú)法發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的知識(shí),對(duì)讀者的需求信息不能預(yù)測(cè),因此無(wú)法對(duì)多校區(qū)的圖書(shū)館藏結(jié)構(gòu)和館間分布進(jìn)行合理優(yōu)化。筆者主要是應(yīng)用數(shù)據(jù)挖掘技術(shù)分析圖書(shū)館管理系統(tǒng)中的數(shù)據(jù),尋找讀者的需求信息,然后提供給圖書(shū)館部署管理系統(tǒng)作為決策的依據(jù)。主要貢獻(xiàn)是合理地分析歷史數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘中的重要算法開(kāi)發(fā)了可實(shí)際運(yùn)行的決策支持系統(tǒng),該系統(tǒng)對(duì)每批新書(shū)上架都能提供較合理的指導(dǎo)依據(jù)。這對(duì)優(yōu)化配置多校區(qū)的圖書(shū)資源產(chǎn)生了較大收益。

圖書(shū)部署決策系統(tǒng)主要模塊如圖1所示。讀者庫(kù)是指最原始的數(shù)據(jù)集合,包括讀者信息、借閱日志及書(shū)目信息。除此之外還要包括校區(qū)劃分及院系的信息。該數(shù)據(jù)庫(kù)主要從圖書(shū)自動(dòng)化管理系統(tǒng)中導(dǎo)入,本系統(tǒng)中應(yīng)用Oracle9.0。預(yù)處理模塊對(duì)原始數(shù)據(jù)集進(jìn)行處理。主要任務(wù)是刪除冗余數(shù)據(jù),簡(jiǎn)化數(shù)據(jù)表中的屬性,合并數(shù)據(jù)表。數(shù)據(jù)挖掘模塊的主要任務(wù)就是利用相應(yīng)的挖掘算法尋找未知知識(shí),對(duì)隱藏在海量數(shù)據(jù)中的讀者需求信息進(jìn)行捕獲,為更好地部署圖書(shū)資源提供支撐。該模塊采用面向?qū)ο蟮脑O(shè)計(jì)思想,盡量降低系統(tǒng)的控制耦合度,便于對(duì)算法的更新維護(hù)。核心管理模塊的任務(wù)是對(duì)其他子模塊發(fā)出控制命令,如圖1虛線所示。比如啟動(dòng)預(yù)處理模塊讀取原始數(shù)據(jù);調(diào)用數(shù)據(jù)挖掘模塊發(fā)現(xiàn)未知讀者需求信息等。圖書(shū)部署策略創(chuàng)建模塊利用數(shù)據(jù)挖掘提供的規(guī)則和已有的先驗(yàn)知識(shí)對(duì)圖書(shū)的上架及館藏的調(diào)整提出相應(yīng)的決策支持。目前系統(tǒng)主要提供了兩種常用的決策支持應(yīng)用。首先是新書(shū)上架功能,當(dāng)購(gòu)入新書(shū)后,只需根據(jù)圖書(shū)的種類便能提供在哪個(gè)校區(qū)上架及上架數(shù)量;其次是定期對(duì)借閱頻繁的圖書(shū)進(jìn)行一次調(diào)整,逐漸優(yōu)化館藏圖書(shū)結(jié)構(gòu)來(lái)解決大學(xué)生跨校區(qū)借閱的現(xiàn)象。
高校圖書(shū)館信息系統(tǒng)只是普通的信息管理系統(tǒng),并沒(méi)有智能決策功能,該系統(tǒng)每日都將產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)。其中包括讀者基本信息、書(shū)目信息和流通信息。筆者在此以山東臨沂師范學(xué)院圖書(shū)自動(dòng)化系統(tǒng)為例。讀者基本信息取自讀者表,讀者借書(shū)記錄來(lái)自流通日志表。利用讀者條碼信息對(duì)以上各表數(shù)據(jù)進(jìn)行合并。讀者借閱歷史數(shù)據(jù)庫(kù)為R={D1,D2,…,Dn}。其中Di記錄了讀者對(duì)圖書(shū)的借閱信息,Di={IDi,S1,S2,…,Sm},IDi為讀者條碼標(biāo)識(shí),Si(1<=i<=m)記錄了讀者的借閱信息。Si中包括讀者類別、所屬單位、圖書(shū)條碼、館藏地、圖書(shū)類別等。
對(duì)于原始的數(shù)據(jù)首先進(jìn)行冗余數(shù)據(jù)和無(wú)效數(shù)據(jù)的刪除。因?yàn)樯婕暗淖x者表和流通日志數(shù)據(jù)結(jié)構(gòu)比較龐大,有47個(gè)相關(guān)屬性。根據(jù)數(shù)據(jù)規(guī)約與概化原則刪除不相關(guān)或冗余屬性。比如刪除讀者姓名、聯(lián)系電話等屬性;對(duì)于辦證時(shí)間和證件有效期則概念化為讀者類型;對(duì)于書(shū)目信息刪除出版時(shí)間、出版社等無(wú)關(guān)屬性,只保留類別、價(jià)格、所屬校區(qū)等相關(guān)屬性。
數(shù)據(jù)預(yù)處理要解決的另一個(gè)問(wèn)題是增加讀者所屬校區(qū)的信息。高校圖書(shū)管理系統(tǒng)中因?yàn)椴捎媒y(tǒng)一的數(shù)據(jù)庫(kù)系統(tǒng),所以并未在流通記錄中體現(xiàn)讀者來(lái)自哪個(gè)校區(qū)。現(xiàn)實(shí)中存在跨校區(qū)借閱的現(xiàn)象,為了將這種信息保存到數(shù)據(jù)庫(kù)中,根據(jù)讀者所屬的單位添加讀者所屬校區(qū)這個(gè)屬性。根據(jù)高校院系與校區(qū)的對(duì)應(yīng)關(guān)系對(duì)全部讀者借書(shū)記錄進(jìn)行自動(dòng)追加,有利于數(shù)據(jù)挖掘的準(zhǔn)確性,便于對(duì)圖書(shū)部署作出正確決策。
在該系統(tǒng)中主要應(yīng)用兩種基本的數(shù)據(jù)挖掘技術(shù)。對(duì)于新書(shū)分配相應(yīng)校區(qū)及上架數(shù)量比例的任務(wù)使用決策樹(shù)方法[3]。決策樹(shù)方法是分類發(fā)現(xiàn)算法中最常用的一種方法,適合探索式知識(shí)發(fā)現(xiàn)。首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹(shù),然后利用這些規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)[4]。在此要對(duì)典型的決策樹(shù)分類算法做一些調(diào)整來(lái)解決新書(shū)上架比例的問(wèn)題。
例如新近一批美術(shù)類圖書(shū),位于東校區(qū)美術(shù)學(xué)院的大部分學(xué)生需要借閱這些專業(yè)性強(qiáng)的圖書(shū)。而位于主校區(qū)的信息學(xué)院動(dòng)漫專業(yè)的學(xué)生也有相應(yīng)的需求,如果將此類圖書(shū)全部放入東校區(qū),必然出現(xiàn)小批量動(dòng)漫專業(yè)的大學(xué)生跨校區(qū)借閱現(xiàn)象,導(dǎo)致圖書(shū)資源共享效果差。如果只是簡(jiǎn)單將該批圖書(shū)平分投放在主校區(qū)和東校區(qū),必然出現(xiàn)東校區(qū)圖書(shū)借閱緊張而主校區(qū)空閑的狀態(tài)。為解決這個(gè)問(wèn)題,對(duì)每本圖書(shū)必須分配適當(dāng)?shù)母北敬娣庞诓煌^(qū)的圖書(shū)館中。技術(shù)上使用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的支持度S=(x?y)=T(X∪Y)/。 T(X∪Y)數(shù)據(jù)集中包括X∪Y的事務(wù)數(shù);T表示數(shù)據(jù)集中的事務(wù)總數(shù)。將決策樹(shù)進(jìn)行廣度優(yōu)先搜索,對(duì)每個(gè)葉子節(jié)點(diǎn),求出從根節(jié)點(diǎn)到該葉子節(jié)點(diǎn)的路徑。該路徑上所有節(jié)點(diǎn)的劃分條件并為一類,為每個(gè)節(jié)點(diǎn)創(chuàng)建IF…Then的分類規(guī)則。然后對(duì)每條分類規(guī)則增加支持度,例如為解決上面的實(shí)際問(wèn)題,創(chuàng)建了一條分類規(guī)則。Rule1:IF美術(shù)類圖書(shū)Then東校區(qū),Suppor(t Rule1)=0.63。那么如果一本圖書(shū)購(gòu)進(jìn)10個(gè)副本,則向東校區(qū)發(fā)放7本,其余發(fā)放于主校區(qū)。具體修改后的決策樹(shù)算法如下:
算法1
①創(chuàng)建一棵空樹(shù)及訓(xùn)練樣本屬性表;
②若訓(xùn)練數(shù)據(jù)集T中的所有元素都屬于同一類,則創(chuàng)建節(jié)點(diǎn)T,并終止該算法;
③選擇訓(xùn)練樣本屬性表中館藏地點(diǎn)屬性A作為結(jié)果屬性,再根據(jù)隨機(jī)策略從樣本表中選擇測(cè)試屬性B;
④如果B的取值為V1,V2,…,Vm,則根據(jù)B的取值不同,將T劃分為m個(gè)子集T1,T2,…,Tm;
⑤從訓(xùn)練樣本屬性表中刪除屬性B;
⑥調(diào)整②,對(duì)每個(gè)子集遞歸調(diào)用;
⑦生成決策樹(shù)DT;
⑧對(duì)DT進(jìn)行廣度優(yōu)先搜索;
⑨為每個(gè)葉子節(jié)點(diǎn)求出根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑;
⑩歸并此路徑上的劃分條件,生成一條規(guī)則Ri;
?循環(huán)執(zhí)行⑨~⑩,直到處理完全部葉子節(jié)點(diǎn)。
另外一個(gè)需要用數(shù)據(jù)挖掘解決的問(wèn)題是對(duì)專業(yè)性不強(qiáng)的圖書(shū)部署問(wèn)題。比如說(shuō)應(yīng)試類圖書(shū),考研、公務(wù)員考試、公共英語(yǔ)、公共計(jì)算機(jī)考試等。對(duì)于該問(wèn)題按照校區(qū)進(jìn)行聚類,類間差別盡可能大,類內(nèi)差別盡可能小。因?yàn)樾^(qū)的劃分每學(xué)年要進(jìn)行調(diào)整,因此與分類模式不同,聚類前并不知道劃分為幾類和什么樣的類,屬于無(wú)導(dǎo)師學(xué)習(xí)。

①根據(jù)校區(qū)取定C=5及終止條件δ;初始化聚類中心V0;逐步迭代;
②對(duì)于V1,修正U1;

④用一個(gè)矩陣比較Vl與Vl+1,對(duì)于取定的ε>0,若Vl+1-Vl≤ε,則停止迭代,否則l=l+1,轉(zhuǎn)②。
圖書(shū)部署模塊主要是根據(jù)數(shù)據(jù)挖掘模塊提供的分類規(guī)則對(duì)圖書(shū)進(jìn)行分類,將其調(diào)整到分校區(qū)的館藏中。其算法如下:
①讀取要分類的圖書(shū)信息及分類規(guī)則庫(kù);
②根據(jù)分類圖書(shū)中的測(cè)試屬性遍歷規(guī)則庫(kù);
③如果存在對(duì)應(yīng)規(guī)則,則提取該規(guī)則;
④如果存在多條規(guī)則,進(jìn)行規(guī)則合并;
⑤計(jì)算規(guī)則的支持度后,執(zhí)行該規(guī)則;
⑥輸出部署決策知識(shí)。
對(duì)于不具有明顯分類標(biāo)準(zhǔn)的圖書(shū)或者是綜合類圖書(shū)則根據(jù)算法2按校區(qū)進(jìn)行聚類分析,得出相應(yīng)的部署決策信息。
該系統(tǒng)運(yùn)行后,首先對(duì)借閱量前5000次的圖書(shū)進(jìn)行了館藏調(diào)整。為了驗(yàn)證該系統(tǒng)的有效性,設(shè)計(jì)了如下驗(yàn)證方案:選擇借閱量排名前500名的圖書(shū),統(tǒng)計(jì)歷史數(shù)據(jù)庫(kù)中每本圖書(shū)的月借閱次數(shù),然后將其平均值定義為借閱率。即借閱率=借閱次數(shù)/月 500。首先統(tǒng)計(jì)2008年歷史數(shù)據(jù)庫(kù)中未使用該系統(tǒng)前的圖書(shū)借閱率信息,如圖2所標(biāo)定的歷史借閱率。然后統(tǒng)計(jì)2009年一年時(shí)間里這些圖書(shū)的借閱率,如圖2所示的當(dāng)前借閱率。

通過(guò)圖2可以發(fā)現(xiàn)當(dāng)前借閱率比歷史借閱率有了較大提高,因此可證明啟用圖書(shū)部署系統(tǒng)后優(yōu)化了圖書(shū)資源。圖2中3月、4月、5月、6月、9月、10月、11月均為學(xué)期的主要學(xué)習(xí)階段,借閱率提高比較明顯;而1月、2月、7月、8月、12月均為學(xué)期的考試階段和寒暑假前后,借閱率提高不明顯。這種現(xiàn)象與實(shí)際情況吻合,因?yàn)榭荚嚽按髮W(xué)生對(duì)于需要的圖書(shū)無(wú)論在哪個(gè)校區(qū)都設(shè)法去借閱,而寒暑假前后大學(xué)生有充足的時(shí)間去各校區(qū)借閱圖書(shū)。
現(xiàn)代圖書(shū)管理系統(tǒng)每天都會(huì)產(chǎn)生海量信息數(shù)據(jù),這些數(shù)據(jù)日積月累成為了數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的寶貴資源。應(yīng)當(dāng)積極地利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)讀者的潛在需求,用于指導(dǎo)圖書(shū)館的采購(gòu)、館藏和信息咨詢等業(yè)務(wù)工作。筆者重點(diǎn)研究了圖書(shū)的按校區(qū)分類、聚類問(wèn)題,通過(guò)開(kāi)發(fā)新的決策支持系統(tǒng)來(lái)調(diào)整高校各校區(qū)的圖書(shū)部署問(wèn)題。經(jīng)過(guò)實(shí)踐驗(yàn)證取得了較好的效果,提高了大學(xué)生對(duì)圖書(shū)資源的利用率,優(yōu)化了學(xué)校教育資源。由于該系統(tǒng)采用面向?qū)ο笏枷朐O(shè)計(jì),各算法模塊間呈松耦合狀態(tài),因此具有較好的可擴(kuò)展性。下一步的應(yīng)用是通過(guò)讀者對(duì)某類圖書(shū)的借閱數(shù)據(jù)及文獻(xiàn)的查詢數(shù)據(jù)預(yù)測(cè)圖書(shū)采購(gòu),對(duì)圖書(shū)采購(gòu)的投入產(chǎn)出進(jìn)行優(yōu)化。
[1] 魏育輝,潘潔.圖書(shū)流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J].現(xiàn)代情報(bào),2005(11):108-110.
[2] 司徒浩臻.數(shù)據(jù)挖掘技術(shù)在圖書(shū)館信息服務(wù)中的應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2005(10):15-18.
[3]Han Jiawei,KamberMicheline.數(shù)據(jù)挖掘——概念與技術(shù)[M].范明,孟小峰譯.北京:機(jī)械工業(yè)出版社,2007.
[4] 馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹(shù)的探討[J].計(jì)算機(jī)工程與應(yīng)用,2004(1):185,214.
[5] 范九倫,裴繼紅,謝維信.聚類有效性函數(shù):熵公式[J].模糊系統(tǒng)與數(shù)學(xué),1998(3).
[6] 姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海:上海交通大學(xué),2008.
[7] 孫學(xué)剛,陳群秀,馬亮.基于主題的Web文檔聚類研究[J].中文信息學(xué)報(bào),2003(3):12-16.