999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的圖書(shū)部署決策系統(tǒng)設(shè)計(jì)

2010-05-04 02:48:14劉承真
圖書(shū)館學(xué)刊 2010年8期
關(guān)鍵詞:數(shù)據(jù)挖掘規(guī)則信息

劉承真

(臨沂報(bào)業(yè)集團(tuán),山東 臨沂 276004)

1 引言

隨著高等教育事業(yè)的發(fā)展,各大高校出現(xiàn)多校區(qū)辦學(xué)的局面,各種教育資源的共享成為高?;A(chǔ)建設(shè)的重要工作,其中圖書(shū)資源優(yōu)化配置是研究應(yīng)用的一個(gè)關(guān)鍵問(wèn)題。目前各高校都在使用圖書(shū)管理系統(tǒng),每天能產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù)和表單,合理分析這些海量數(shù)據(jù)對(duì)圖書(shū)館的采購(gòu)、館藏、咨詢等業(yè)務(wù)都有指導(dǎo)作用[1,2]。

由于當(dāng)前圖書(shū)管理系統(tǒng)無(wú)法發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的知識(shí),對(duì)讀者的需求信息不能預(yù)測(cè),因此無(wú)法對(duì)多校區(qū)的圖書(shū)館藏結(jié)構(gòu)和館間分布進(jìn)行合理優(yōu)化。筆者主要是應(yīng)用數(shù)據(jù)挖掘技術(shù)分析圖書(shū)館管理系統(tǒng)中的數(shù)據(jù),尋找讀者的需求信息,然后提供給圖書(shū)館部署管理系統(tǒng)作為決策的依據(jù)。主要貢獻(xiàn)是合理地分析歷史數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘中的重要算法開(kāi)發(fā)了可實(shí)際運(yùn)行的決策支持系統(tǒng),該系統(tǒng)對(duì)每批新書(shū)上架都能提供較合理的指導(dǎo)依據(jù)。這對(duì)優(yōu)化配置多校區(qū)的圖書(shū)資源產(chǎn)生了較大收益。

2 圖書(shū)部署決策系統(tǒng)設(shè)計(jì)

2.1 系統(tǒng)體系結(jié)構(gòu)介紹

圖書(shū)部署決策系統(tǒng)主要模塊如圖1所示。讀者庫(kù)是指最原始的數(shù)據(jù)集合,包括讀者信息、借閱日志及書(shū)目信息。除此之外還要包括校區(qū)劃分及院系的信息。該數(shù)據(jù)庫(kù)主要從圖書(shū)自動(dòng)化管理系統(tǒng)中導(dǎo)入,本系統(tǒng)中應(yīng)用Oracle9.0。預(yù)處理模塊對(duì)原始數(shù)據(jù)集進(jìn)行處理。主要任務(wù)是刪除冗余數(shù)據(jù),簡(jiǎn)化數(shù)據(jù)表中的屬性,合并數(shù)據(jù)表。數(shù)據(jù)挖掘模塊的主要任務(wù)就是利用相應(yīng)的挖掘算法尋找未知知識(shí),對(duì)隱藏在海量數(shù)據(jù)中的讀者需求信息進(jìn)行捕獲,為更好地部署圖書(shū)資源提供支撐。該模塊采用面向?qū)ο蟮脑O(shè)計(jì)思想,盡量降低系統(tǒng)的控制耦合度,便于對(duì)算法的更新維護(hù)。核心管理模塊的任務(wù)是對(duì)其他子模塊發(fā)出控制命令,如圖1虛線所示。比如啟動(dòng)預(yù)處理模塊讀取原始數(shù)據(jù);調(diào)用數(shù)據(jù)挖掘模塊發(fā)現(xiàn)未知讀者需求信息等。圖書(shū)部署策略創(chuàng)建模塊利用數(shù)據(jù)挖掘提供的規(guī)則和已有的先驗(yàn)知識(shí)對(duì)圖書(shū)的上架及館藏的調(diào)整提出相應(yīng)的決策支持。目前系統(tǒng)主要提供了兩種常用的決策支持應(yīng)用。首先是新書(shū)上架功能,當(dāng)購(gòu)入新書(shū)后,只需根據(jù)圖書(shū)的種類便能提供在哪個(gè)校區(qū)上架及上架數(shù)量;其次是定期對(duì)借閱頻繁的圖書(shū)進(jìn)行一次調(diào)整,逐漸優(yōu)化館藏圖書(shū)結(jié)構(gòu)來(lái)解決大學(xué)生跨校區(qū)借閱的現(xiàn)象。

2.2 數(shù)據(jù)收集

高校圖書(shū)館信息系統(tǒng)只是普通的信息管理系統(tǒng),并沒(méi)有智能決策功能,該系統(tǒng)每日都將產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)。其中包括讀者基本信息、書(shū)目信息和流通信息。筆者在此以山東臨沂師范學(xué)院圖書(shū)自動(dòng)化系統(tǒng)為例。讀者基本信息取自讀者表,讀者借書(shū)記錄來(lái)自流通日志表。利用讀者條碼信息對(duì)以上各表數(shù)據(jù)進(jìn)行合并。讀者借閱歷史數(shù)據(jù)庫(kù)為R={D1,D2,…,Dn}。其中Di記錄了讀者對(duì)圖書(shū)的借閱信息,Di={IDi,S1,S2,…,Sm},IDi為讀者條碼標(biāo)識(shí),Si(1<=i<=m)記錄了讀者的借閱信息。Si中包括讀者類別、所屬單位、圖書(shū)條碼、館藏地、圖書(shū)類別等。

2.3 數(shù)據(jù)預(yù)處理

對(duì)于原始的數(shù)據(jù)首先進(jìn)行冗余數(shù)據(jù)和無(wú)效數(shù)據(jù)的刪除。因?yàn)樯婕暗淖x者表和流通日志數(shù)據(jù)結(jié)構(gòu)比較龐大,有47個(gè)相關(guān)屬性。根據(jù)數(shù)據(jù)規(guī)約與概化原則刪除不相關(guān)或冗余屬性。比如刪除讀者姓名、聯(lián)系電話等屬性;對(duì)于辦證時(shí)間和證件有效期則概念化為讀者類型;對(duì)于書(shū)目信息刪除出版時(shí)間、出版社等無(wú)關(guān)屬性,只保留類別、價(jià)格、所屬校區(qū)等相關(guān)屬性。

數(shù)據(jù)預(yù)處理要解決的另一個(gè)問(wèn)題是增加讀者所屬校區(qū)的信息。高校圖書(shū)管理系統(tǒng)中因?yàn)椴捎媒y(tǒng)一的數(shù)據(jù)庫(kù)系統(tǒng),所以并未在流通記錄中體現(xiàn)讀者來(lái)自哪個(gè)校區(qū)。現(xiàn)實(shí)中存在跨校區(qū)借閱的現(xiàn)象,為了將這種信息保存到數(shù)據(jù)庫(kù)中,根據(jù)讀者所屬的單位添加讀者所屬校區(qū)這個(gè)屬性。根據(jù)高校院系與校區(qū)的對(duì)應(yīng)關(guān)系對(duì)全部讀者借書(shū)記錄進(jìn)行自動(dòng)追加,有利于數(shù)據(jù)挖掘的準(zhǔn)確性,便于對(duì)圖書(shū)部署作出正確決策。

2.4 數(shù)據(jù)挖掘分析

在該系統(tǒng)中主要應(yīng)用兩種基本的數(shù)據(jù)挖掘技術(shù)。對(duì)于新書(shū)分配相應(yīng)校區(qū)及上架數(shù)量比例的任務(wù)使用決策樹(shù)方法[3]。決策樹(shù)方法是分類發(fā)現(xiàn)算法中最常用的一種方法,適合探索式知識(shí)發(fā)現(xiàn)。首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹(shù),然后利用這些規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)[4]。在此要對(duì)典型的決策樹(shù)分類算法做一些調(diào)整來(lái)解決新書(shū)上架比例的問(wèn)題。

例如新近一批美術(shù)類圖書(shū),位于東校區(qū)美術(shù)學(xué)院的大部分學(xué)生需要借閱這些專業(yè)性強(qiáng)的圖書(shū)。而位于主校區(qū)的信息學(xué)院動(dòng)漫專業(yè)的學(xué)生也有相應(yīng)的需求,如果將此類圖書(shū)全部放入東校區(qū),必然出現(xiàn)小批量動(dòng)漫專業(yè)的大學(xué)生跨校區(qū)借閱現(xiàn)象,導(dǎo)致圖書(shū)資源共享效果差。如果只是簡(jiǎn)單將該批圖書(shū)平分投放在主校區(qū)和東校區(qū),必然出現(xiàn)東校區(qū)圖書(shū)借閱緊張而主校區(qū)空閑的狀態(tài)。為解決這個(gè)問(wèn)題,對(duì)每本圖書(shū)必須分配適當(dāng)?shù)母北敬娣庞诓煌^(qū)的圖書(shū)館中。技術(shù)上使用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的支持度S=(x?y)=T(X∪Y)/。 T(X∪Y)數(shù)據(jù)集中包括X∪Y的事務(wù)數(shù);T表示數(shù)據(jù)集中的事務(wù)總數(shù)。將決策樹(shù)進(jìn)行廣度優(yōu)先搜索,對(duì)每個(gè)葉子節(jié)點(diǎn),求出從根節(jié)點(diǎn)到該葉子節(jié)點(diǎn)的路徑。該路徑上所有節(jié)點(diǎn)的劃分條件并為一類,為每個(gè)節(jié)點(diǎn)創(chuàng)建IF…Then的分類規(guī)則。然后對(duì)每條分類規(guī)則增加支持度,例如為解決上面的實(shí)際問(wèn)題,創(chuàng)建了一條分類規(guī)則。Rule1:IF美術(shù)類圖書(shū)Then東校區(qū),Suppor(t Rule1)=0.63。那么如果一本圖書(shū)購(gòu)進(jìn)10個(gè)副本,則向東校區(qū)發(fā)放7本,其余發(fā)放于主校區(qū)。具體修改后的決策樹(shù)算法如下:

算法1

①創(chuàng)建一棵空樹(shù)及訓(xùn)練樣本屬性表;

②若訓(xùn)練數(shù)據(jù)集T中的所有元素都屬于同一類,則創(chuàng)建節(jié)點(diǎn)T,并終止該算法;

③選擇訓(xùn)練樣本屬性表中館藏地點(diǎn)屬性A作為結(jié)果屬性,再根據(jù)隨機(jī)策略從樣本表中選擇測(cè)試屬性B;

④如果B的取值為V1,V2,…,Vm,則根據(jù)B的取值不同,將T劃分為m個(gè)子集T1,T2,…,Tm;

⑤從訓(xùn)練樣本屬性表中刪除屬性B;

⑥調(diào)整②,對(duì)每個(gè)子集遞歸調(diào)用;

⑦生成決策樹(shù)DT;

⑧對(duì)DT進(jìn)行廣度優(yōu)先搜索;

⑨為每個(gè)葉子節(jié)點(diǎn)求出根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑;

⑩歸并此路徑上的劃分條件,生成一條規(guī)則Ri;

?循環(huán)執(zhí)行⑨~⑩,直到處理完全部葉子節(jié)點(diǎn)。

另外一個(gè)需要用數(shù)據(jù)挖掘解決的問(wèn)題是對(duì)專業(yè)性不強(qiáng)的圖書(shū)部署問(wèn)題。比如說(shuō)應(yīng)試類圖書(shū),考研、公務(wù)員考試、公共英語(yǔ)、公共計(jì)算機(jī)考試等。對(duì)于該問(wèn)題按照校區(qū)進(jìn)行聚類,類間差別盡可能大,類內(nèi)差別盡可能小。因?yàn)樾^(qū)的劃分每學(xué)年要進(jìn)行調(diào)整,因此與分類模式不同,聚類前并不知道劃分為幾類和什么樣的類,屬于無(wú)導(dǎo)師學(xué)習(xí)。

①根據(jù)校區(qū)取定C=5及終止條件δ;初始化聚類中心V0;逐步迭代;

②對(duì)于V1,修正U1;

④用一個(gè)矩陣比較Vl與Vl+1,對(duì)于取定的ε>0,若Vl+1-Vl≤ε,則停止迭代,否則l=l+1,轉(zhuǎn)②。

2.5 圖書(shū)部署模塊

圖書(shū)部署模塊主要是根據(jù)數(shù)據(jù)挖掘模塊提供的分類規(guī)則對(duì)圖書(shū)進(jìn)行分類,將其調(diào)整到分校區(qū)的館藏中。其算法如下:

①讀取要分類的圖書(shū)信息及分類規(guī)則庫(kù);

②根據(jù)分類圖書(shū)中的測(cè)試屬性遍歷規(guī)則庫(kù);

③如果存在對(duì)應(yīng)規(guī)則,則提取該規(guī)則;

④如果存在多條規(guī)則,進(jìn)行規(guī)則合并;

⑤計(jì)算規(guī)則的支持度后,執(zhí)行該規(guī)則;

⑥輸出部署決策知識(shí)。

對(duì)于不具有明顯分類標(biāo)準(zhǔn)的圖書(shū)或者是綜合類圖書(shū)則根據(jù)算法2按校區(qū)進(jìn)行聚類分析,得出相應(yīng)的部署決策信息。

3 系統(tǒng)實(shí)施效果評(píng)估

該系統(tǒng)運(yùn)行后,首先對(duì)借閱量前5000次的圖書(shū)進(jìn)行了館藏調(diào)整。為了驗(yàn)證該系統(tǒng)的有效性,設(shè)計(jì)了如下驗(yàn)證方案:選擇借閱量排名前500名的圖書(shū),統(tǒng)計(jì)歷史數(shù)據(jù)庫(kù)中每本圖書(shū)的月借閱次數(shù),然后將其平均值定義為借閱率。即借閱率=借閱次數(shù)/月 500。首先統(tǒng)計(jì)2008年歷史數(shù)據(jù)庫(kù)中未使用該系統(tǒng)前的圖書(shū)借閱率信息,如圖2所標(biāo)定的歷史借閱率。然后統(tǒng)計(jì)2009年一年時(shí)間里這些圖書(shū)的借閱率,如圖2所示的當(dāng)前借閱率。

通過(guò)圖2可以發(fā)現(xiàn)當(dāng)前借閱率比歷史借閱率有了較大提高,因此可證明啟用圖書(shū)部署系統(tǒng)后優(yōu)化了圖書(shū)資源。圖2中3月、4月、5月、6月、9月、10月、11月均為學(xué)期的主要學(xué)習(xí)階段,借閱率提高比較明顯;而1月、2月、7月、8月、12月均為學(xué)期的考試階段和寒暑假前后,借閱率提高不明顯。這種現(xiàn)象與實(shí)際情況吻合,因?yàn)榭荚嚽按髮W(xué)生對(duì)于需要的圖書(shū)無(wú)論在哪個(gè)校區(qū)都設(shè)法去借閱,而寒暑假前后大學(xué)生有充足的時(shí)間去各校區(qū)借閱圖書(shū)。

4 結(jié)語(yǔ)

現(xiàn)代圖書(shū)管理系統(tǒng)每天都會(huì)產(chǎn)生海量信息數(shù)據(jù),這些數(shù)據(jù)日積月累成為了數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的寶貴資源。應(yīng)當(dāng)積極地利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)讀者的潛在需求,用于指導(dǎo)圖書(shū)館的采購(gòu)、館藏和信息咨詢等業(yè)務(wù)工作。筆者重點(diǎn)研究了圖書(shū)的按校區(qū)分類、聚類問(wèn)題,通過(guò)開(kāi)發(fā)新的決策支持系統(tǒng)來(lái)調(diào)整高校各校區(qū)的圖書(shū)部署問(wèn)題。經(jīng)過(guò)實(shí)踐驗(yàn)證取得了較好的效果,提高了大學(xué)生對(duì)圖書(shū)資源的利用率,優(yōu)化了學(xué)校教育資源。由于該系統(tǒng)采用面向?qū)ο笏枷朐O(shè)計(jì),各算法模塊間呈松耦合狀態(tài),因此具有較好的可擴(kuò)展性。下一步的應(yīng)用是通過(guò)讀者對(duì)某類圖書(shū)的借閱數(shù)據(jù)及文獻(xiàn)的查詢數(shù)據(jù)預(yù)測(cè)圖書(shū)采購(gòu),對(duì)圖書(shū)采購(gòu)的投入產(chǎn)出進(jìn)行優(yōu)化。

[1] 魏育輝,潘潔.圖書(shū)流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J].現(xiàn)代情報(bào),2005(11):108-110.

[2] 司徒浩臻.數(shù)據(jù)挖掘技術(shù)在圖書(shū)館信息服務(wù)中的應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2005(10):15-18.

[3]Han Jiawei,KamberMicheline.數(shù)據(jù)挖掘——概念與技術(shù)[M].范明,孟小峰譯.北京:機(jī)械工業(yè)出版社,2007.

[4] 馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹(shù)的探討[J].計(jì)算機(jī)工程與應(yīng)用,2004(1):185,214.

[5] 范九倫,裴繼紅,謝維信.聚類有效性函數(shù):熵公式[J].模糊系統(tǒng)與數(shù)學(xué),1998(3).

[6] 姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海:上海交通大學(xué),2008.

[7] 孫學(xué)剛,陳群秀,馬亮.基于主題的Web文檔聚類研究[J].中文信息學(xué)報(bào),2003(3):12-16.

猜你喜歡
數(shù)據(jù)挖掘規(guī)則信息
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 国产毛片高清一级国语 | 国产黄色免费看| 国产人成在线视频| 2021精品国产自在现线看| 成人夜夜嗨| 无码网站免费观看| 正在播放久久| 国产精品手机视频| 尤物在线观看乱码| 色老头综合网| 色屁屁一区二区三区视频国产| 亚洲成人在线网| 国产亚洲视频中文字幕视频| 波多野结衣久久精品| 欧美国产精品不卡在线观看 | 91青青草视频| 潮喷在线无码白浆| 波多野吉衣一区二区三区av| 国产系列在线| 国产国拍精品视频免费看| 91精品国产自产91精品资源| 国产aaaaa一级毛片| 亚洲美女视频一区| 久久女人网| 国产区人妖精品人妖精品视频| 一区二区三区高清视频国产女人| 成人国产精品2021| 国产啪在线91| 国产欧美精品一区二区| 久久久噜噜噜久久中文字幕色伊伊 | 午夜不卡视频| 四虎影视8848永久精品| 伊人久热这里只有精品视频99| 国产亚洲日韩av在线| 亚洲国产精品无码AV| 国产产在线精品亚洲aavv| 免费无码AV片在线观看国产| 欧美亚洲网| 国产精品成人第一区| 在线免费观看AV| 狠狠v日韩v欧美v| 在线观看亚洲国产| 高清乱码精品福利在线视频| 青青国产视频| 国产欧美日韩另类| 好久久免费视频高清| 国产福利一区二区在线观看| 五月婷婷综合网| 免费高清自慰一区二区三区| 国产微拍一区| 澳门av无码| 99在线观看国产| 成年人免费国产视频| 最新国产麻豆aⅴ精品无| 国产精品妖精视频| 亚洲侵犯无码网址在线观看| 喷潮白浆直流在线播放| 欧美亚洲香蕉| 伊人成人在线| 国产精品55夜色66夜色| 日韩无码真实干出血视频| 国产精品黄色片| 天天色天天操综合网| 青青草原国产免费av观看| 免费三A级毛片视频| 五月六月伊人狠狠丁香网| 亚洲福利视频一区二区| 久热re国产手机在线观看| 十八禁美女裸体网站| 久久亚洲精少妇毛片午夜无码 | 国产精品免费入口视频| 亚洲高清免费在线观看| 91麻豆精品视频| 国产十八禁在线观看免费| 一级成人a做片免费| 亚洲乱码精品久久久久..| WWW丫丫国产成人精品| 中文字幕人成乱码熟女免费| 免费毛片a| 伊人精品视频免费在线| 99国产精品国产高清一区二区| 成人国产精品一级毛片天堂 |