〔摘 要〕本文給出一種高校圖書館智能分析應(yīng)用數(shù)據(jù)挖掘的思路和模式,以江蘇廣播電視大學(xué)圖書館為實(shí)例,詳細(xì)分析了讀者關(guān)聯(lián)挖掘#65380;圖書動(dòng)態(tài)聚類分析#65380;讀者特征細(xì)分挖掘在圖書管理中的具體應(yīng)用,經(jīng)實(shí)施表明,數(shù)據(jù)挖掘的結(jié)果合理,可以幫助圖書館的決策者進(jìn)行優(yōu)化管理#65377;
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;智能分析;聚類分析;決策樹
〔中圖分類號(hào)〕G250.73 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)08-0185-03
Application of Data Mining on the Intelligent Analysis for University LibrariesSun Lei1 Sun Qingsu2
(1.Library,Jiangsu Radio and Television University,Nanjing 210036,China;
2.Nanjing Jilun Software Technology Corp,Nanjing 210061,China)
〔Abstract〕This paper provided an idea and a model of using data mining on the intelligent analysis for university libraries.Taking Jiangsu radio and television university library as an example,the readers related analysis of mining,cluster analysis of dynamic books,the detailed mining based on readers features in the library were carried out.Practical calculations showed that the results of such data mining were reasonable.It may help the decision-makers to optimize the managements of libraries.
〔Key words〕data mining;association rule;intelligent analysis;cluster analysis;decision tree
近年來,高校圖書館發(fā)展得很快,每天都產(chǎn)生大量的數(shù)據(jù),怎樣利用這些有價(jià)值的信息為圖書館的管理服務(wù),使得圖書館的業(yè)務(wù)工作有科學(xué)依據(jù)是非常重要的#65377;數(shù)據(jù)挖掘技術(shù)具有海量數(shù)據(jù)處理功能和專家系統(tǒng)的知識(shí)發(fā)現(xiàn)功能,可以為高校圖書館提供智能分析,數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了清潔#65380;一致的基礎(chǔ)數(shù)據(jù),本文主要就數(shù)據(jù)挖掘在建立高校圖書館智能分析的應(yīng)用進(jìn)行研究#65377;
1 高校圖書館分析系統(tǒng)結(jié)構(gòu)的建立
本文的工作是以建立高校圖書館智能分析系統(tǒng)為背景展開的,智能分析系統(tǒng)是建立在圖書館多年積累的數(shù)據(jù)基礎(chǔ)上,為適應(yīng)高校圖書館發(fā)展的需求而進(jìn)行科學(xué)決策的系統(tǒng),系統(tǒng)主要包括數(shù)據(jù)倉庫#65380;數(shù)據(jù)挖掘模塊,基于“數(shù)據(jù)倉庫+數(shù)據(jù)挖掘”高校圖書館智能分析系統(tǒng)解決方案如圖1[1],數(shù)據(jù)倉庫是將數(shù)據(jù)庫中的數(shù)據(jù)按需求進(jìn)行組織,以數(shù)據(jù)倉庫的形式進(jìn)行存儲(chǔ),數(shù)據(jù)挖掘從數(shù)據(jù)倉庫中挖掘出有用的信息和知識(shí)#65377;本系統(tǒng)利用了數(shù)據(jù)挖掘的方法和技術(shù)從數(shù)據(jù)倉庫中挖掘出高校圖書館的隱藏的信息,圖書館相關(guān)管理決策者可以利用這些信息來指導(dǎo)和幫助決策,從而達(dá)到改善高校圖書館的管理模式,提高效率的目的#65377;
2 數(shù)據(jù)挖掘目標(biāo)的確定
為提高高校圖書館的綜合管理能力,圖書館相關(guān)業(yè)務(wù)部門對(duì)數(shù)據(jù)統(tǒng)計(jì)和分析的需求日益增加,圖書館希望通過對(duì)歷史數(shù)據(jù)的分析發(fā)現(xiàn)出圖書借閱潛在規(guī)律,深度挖掘圖書館已有的讀者資源,從而進(jìn)一步做好讀者服務(wù)和資源建設(shè)工作#65377;經(jīng)過分析整理,發(fā)現(xiàn)出高校圖書館智能分析數(shù)據(jù)挖掘模塊三個(gè)方面的需求:(1)讀者的關(guān)聯(lián)挖掘:根據(jù)讀者每次在圖書館借閱記錄來分析圖書與讀者之間的關(guān)聯(lián)度;(2)圖書動(dòng)態(tài)聚類分析:根據(jù)圖書的固有屬性,自動(dòng)的將受到讀者歡迎圖書挖掘出來,推薦給讀者;(3)讀者特征細(xì)分挖掘:針對(duì)讀者在圖書館的借閱記錄和讀者的基本信息,對(duì)讀者的基本特征進(jìn)行細(xì)分#65377;
3 數(shù)據(jù)挖掘各功能模塊的分析
3.1 讀者關(guān)聯(lián)挖掘的分析
讀者關(guān)聯(lián)挖掘是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,系統(tǒng)采用Apriori算法[2],以江蘇廣播電視大學(xué)圖書館為實(shí)例,有文秘專業(yè)07屆20名學(xué)生的5天借閱清單如表1#65377;表1 讀者借閱清單
記錄號(hào)借書清單1文化教育教類#65380;文學(xué)類#65380;語言文字類2歷史類#65380;文化教育類#65380;藝術(shù)類3經(jīng)濟(jì)類#65380;文化教育類#65380;歷史類4數(shù)理類#65380;文學(xué)類#65380;歷史類#65380;語言文字類5文學(xué)類#65380;歷史類#65380;計(jì)算機(jī)類
在此得到語言文字類的支持度是40%#65380;文學(xué)類60%#65380;計(jì)算機(jī)類20%#65380;數(shù)理類20%#65380;哲學(xué)類20%#65380;歷史類60%#65380;文化教育類40%,設(shè)定最小支持度是40%,產(chǎn)生項(xiàng)目集C2,如表2#65377;表2 項(xiàng)目2項(xiàng)集C2
項(xiàng)目集合支持度(%)語言文字類#65380;文學(xué)類40語言文字類#65380;歷史類20語言文字類#65380;文化教育類20文學(xué)類#65380;歷史類40文學(xué)類#65380;文化教育類0歷史類#65380;文化教育類20
剔除小于40%的支持度,根據(jù)Apriori算法,產(chǎn)生最終頻集(語言文字類#65380;文學(xué)類#65380;歷史類),由最終頻集,得到以下規(guī)則:
Confidence語言文字類文字類#65380;歷史類=40%/40%=100%
以上結(jié)果表明借閱語言文字類圖書與借閱文學(xué)類#65380;歷史類圖書存在強(qiáng)關(guān)聯(lián),圖書館管理員應(yīng)該對(duì)館藏布局進(jìn)行相應(yīng)的調(diào)整,以方便讀者借閱#65377;
3.2圖書動(dòng)態(tài)聚類分析
聚類分析是研究樣品或指標(biāo)分類的多元統(tǒng)計(jì)方法,聚類分析在圖書館中有著廣泛的用途,如圖書推薦系統(tǒng)采用聚類推薦技術(shù),根據(jù)用戶與系統(tǒng)的交互記錄,形成相關(guān)書籍的推薦#65377;由于現(xiàn)在圖書館書籍?dāng)?shù)量巨大,如果盲目的尋找某本書的近鄰會(huì)降低系統(tǒng)的效率#65377;因此系統(tǒng)采用系統(tǒng)聚類的最短距離法,先對(duì)所有的書籍進(jìn)行聚類,然后在該書所屬聚類中按照與該書相似度大小對(duì)該類的其他書籍進(jìn)行排序,這樣就為瀏覽該書詳細(xì)信息的用戶形成了相關(guān)書籍的推薦,本系統(tǒng)采用了系統(tǒng)聚類法中最短距離法實(shí)施聚類#65377;
3.2.1 系統(tǒng)聚類最短距離法簡(jiǎn)介[3]
用dij表示樣品xi與xj之間的距離,Dij表示類Gi與Gj之間的距離,聚類算法是把兩個(gè)類之間的距離定義為一個(gè)類的所有個(gè)體與另一個(gè)類的所有個(gè)體之間的距離,類Gp與類Gq之間的距離Dpq定義為Dpq=mindij,xi∈Gp,xi∈Gq
最短距離法聚類的步驟如下:
(1)計(jì)算樣品間的距離,得一距離矩陣D(0),這時(shí)每個(gè)樣品自成一類,顯然Dpq=dpq#65377;
(2)尋找D(0)的非主對(duì)角線上的最小元素,設(shè)Dpq,將Gp與Gq合并成一新類,記Gr={Gp,Gq}#65377;
(3)計(jì)算新類與其它類的距離
(4)對(duì)D(1)重復(fù)施行對(duì)于D(0)的步驟得D(2),由D(2)按同樣的步驟計(jì)算得D(3)…直到所有樣品都成一類為止#65377;
3.2.2 數(shù)據(jù)準(zhǔn)備
以江蘇廣播電視大學(xué)超星電子圖書館為實(shí)例,詳細(xì)說明系統(tǒng)聚類最短距離法的應(yīng)用,江蘇廣播電視大學(xué)超星數(shù)字圖書館2008年3月份數(shù)學(xué)類#65380;文學(xué)類#65380;經(jīng)濟(jì)類#65380;計(jì)算機(jī)類#65380;歷史類的下載次數(shù)如表3#65377;表3 江蘇廣播電視大學(xué)超星數(shù)字圖書館2008年3月份下載次數(shù)表
(2)找出D0中非主對(duì)角線最小元素為334,則將G1與G2并成一個(gè)新類,記為G6={數(shù)學(xué)類#65380;計(jì)算機(jī)類}并為一類#65377;
(3)計(jì)算G6與其他三類的距離,按公式Di6=min{Di1,Di2}將D0的前兩列取較小元素,得D1#65377;
(4)找出D1中非主對(duì)角線為480,對(duì)應(yīng)類合并G7={歷史類#65380;語言類}
根據(jù)上述的聚類過程得到聚類結(jié)果如圖3#65377;
3.3 讀者特征細(xì)分挖掘的分析
讀者特征細(xì)分模塊目的是分析讀者的特征,考慮到對(duì)于要判斷特征需要測(cè)試連續(xù)值屬性,并且可能需要對(duì)屬性進(jìn)行多分支分割,ID3算法是一種基于信息增益的典型的自上而下決策歸納算法,本系統(tǒng)讀者特征挖掘采用決策樹算法,以江蘇廣播電視大學(xué)為實(shí)例,詳細(xì)分析決策樹方法的實(shí)現(xiàn)#65377;
3.3.1 ID3算法簡(jiǎn)介
ID3算法是一種著名的判定樹歸納算法,在樹的每個(gè)節(jié)點(diǎn)上,使用具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性,該屬性使得對(duì)結(jié)果劃分中的樣本分類所需的信息量最小,并確保找到一棵簡(jiǎn)單的樹#65377;給定訓(xùn)練集S,定義信息熵I(p,n)=-p/(p+n)log2 p/(p+n)-n/(p+n)log2 p/(p+n),式中:p=正例個(gè)數(shù),n=反例個(gè)數(shù),設(shè)訓(xùn)練集S有p個(gè)正例,n個(gè)反例,屬性A取值為A1到Ar,把S分為S1到Sr r個(gè)子集,設(shè)Si有pi個(gè)正例,ni個(gè)反例,定義以A為根的期望信息熵為E(A)=∑ri=1[pi+ni/p+nI(pi,ni)],A的信息增益為:gain(A)=I(p,n)-E(A)[4]#65377;
算法計(jì)算每個(gè)屬性的信息增益,具有最高信息增益的屬性被選作給定集合的測(cè)試屬性.創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記,對(duì)屬性的每個(gè)值創(chuàng)建分枝,并據(jù)此劃分樣本#65377;
3.3.2 確定業(yè)務(wù)對(duì)象
對(duì)高校圖書館來說,很希望發(fā)現(xiàn)學(xué)生綜合成績(jī)與借閱專業(yè)圖書#65380;英語圖書#65380;文學(xué)圖書的關(guān)系,為此選定數(shù)據(jù)模型:學(xué)生情況數(shù)據(jù)庫,含學(xué)號(hào)#65380;性別#65380;所借專業(yè)圖書情況#65380;所借英語圖書情況#65380;所借計(jì)算機(jī)方面圖書#65380;所借文學(xué)圖書情況#65380;平均成績(jī)#65380;名次等字段#65377;
3.3.3 數(shù)據(jù)準(zhǔn)備
對(duì)上述學(xué)生情況數(shù)據(jù)庫進(jìn)行量化#65380;轉(zhuǎn)換#65380;清理#65380;集成等處理工作,得到相應(yīng)的數(shù)據(jù)倉庫(如表4),以方便下一步數(shù)據(jù)挖掘的工作#65377;表4 江蘇廣播電視大學(xué)某班級(jí)借閱圖書情況表
學(xué)號(hào)字段值為1~50;性別字段值:男或女;英語圖書字段定義為:0.5表示借8本及8本以下英語圖書,1表示8本以上圖書,0表示沒有借英語圖書;專業(yè)圖書表示為:0.5表示6本及6本以下專業(yè)圖書,1表示6本以上專業(yè)圖書,0表示沒有借專業(yè)書;文學(xué)圖書表示為:0表示沒有借文學(xué)圖書,0.5表示借6本及6本以下文學(xué)圖書#65377;
3.3.4 挖掘過程
在這一階段應(yīng)用ID3建立相應(yīng)的一棵樹,需先確定正例個(gè)數(shù)p和反例個(gè)數(shù)n[5]#65377;現(xiàn)將前15名成績(jī)好的學(xué)生為正例,后35名成績(jī)不好的學(xué)生為反例,即p=15,n=35
3.3.5 結(jié)果分析
根據(jù)圖4決策樹,通過分析可以得到如下結(jié)論:
(1)不借專業(yè)書,不借英語書的學(xué)生成績(jī)不好#65377;
(2)專業(yè)書與學(xué)生成績(jī)影響最大,學(xué)生成績(jī)與文學(xué)圖書關(guān)系不大#65377;
(3)借專業(yè)書多英語書多的學(xué)生成績(jī)好#65377;
圖4圖書分析決策樹
4 小 結(jié)
本文詳細(xì)分析了讀者關(guān)聯(lián)挖掘#65380;圖書聚類分析#65380;讀者細(xì)分特征挖掘模塊在高校圖書館的應(yīng)用,其中讀者關(guān)聯(lián)挖掘采用了Apriori算法,圖書聚類分析采用了系統(tǒng)聚類最短距離算法#65380;讀者細(xì)分特征挖掘采用了I(xiàn)D3算法,并以江蘇廣播電視大學(xué)圖書館為實(shí)例進(jìn)行分析,經(jīng)實(shí)施表明數(shù)據(jù)挖掘的結(jié)果是可行的,是可以幫助高校圖書館決策部門進(jìn)行優(yōu)化管理,今后進(jìn)一步的工作是進(jìn)一步提高挖掘軟件和算法的通用性,對(duì)增量數(shù)據(jù)挖掘和分布式數(shù)據(jù)挖掘作進(jìn)一步的研究#65377;
參考文獻(xiàn)
[1]Mallach Efrem G.決策支持與數(shù)據(jù)倉庫系統(tǒng)[M].北京:電子工業(yè)出版社,2001,(2).
[2]陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2006.
[3]戴明強(qiáng),李衛(wèi)軍,楊鵬飛.數(shù)學(xué)模型及其應(yīng)用[M].北京:科學(xué)出版社,2007,(1):238-245.
[4]陶靈姣,孫繼銀,李智,等.遠(yuǎn)程教育考試成績(jī)分析決策樹的構(gòu)造方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(4):976-979.
[5]欒麗華,吉根林.決策樹分類技術(shù)研究[J].計(jì)算機(jī)工程,2004,(9):94-96.