



[摘要] 通過SAS/EM數據挖掘工具對高校圖書館積累大量的讀者圖書借閱數據進行關聯規則挖掘,發現圖書借閱數據間的關聯關系,并將這些隱藏在數據背后的重要信息形成知識。以此指導以下兩方面的工作:①圖書借閱工作,為讀者提供個性化服務,提高圖書資源的利用率;②圖書采購工作,加強圖書采購的目的性,優化圖書資源結構。
[關鍵詞] 關聯規則 圖書借閱數據 SAS/EM 數據挖掘
隨著數據庫技術的迅速發展以及數據庫管理系統在圖書館的廣泛應用,圖書館積累了大量的讀者圖書借閱歷史數據。這些數據背后隱藏著許多重要的信息,但是圖書館的圖書管理系統無法發現這些數據中存在的關系和規則,無法預測讀者的信息需求,缺乏挖掘數據背后隱藏知識的手段,很難幫助讀者找到所需要的信息資源。本文通過SAS/EM(SAS enterprise miner)數據挖掘工具對圖書借閱數據進行相關的關聯數據挖掘,發現讀者的圖書借閱數據間的關聯關系,并將這些隱藏在數據背后的重要信息形成知識,以指導圖書館的借閱和采購工作。
1 SAS/EM數據挖掘工具
美國SAS研究所于1976年推出的大型國際統計分析系統SAS(statisticalanalysissystem)是一個用來整理數據、對數據進行統計分析和打印報告的大型組合式軟件包。1985年SAS研究所推出微機版,此后該軟件一直在不斷更新版本,本次數據挖掘采用SAS 9.1.3版本。
SAS對數據進行關聯規則分析是通過SAS/EM模塊中的Association節點實現的。SAS/EM是一個界面圖形化、由菜單驅動的、對用戶非常友好且功能強大的SAS數據挖掘集成軟件。
SAS/EM采用Apriori算法,利用k項集來探索k+1項集,再根據按照目標數據的性質、特點而設定的最小支持度(min_sup)和最小可信度(min_conf)產生規則。所以,利用SAS/EM進行關聯規則分析的關鍵就是確定三個參數,即產生規則的項集最大數目(items)、最小支持度和最小可信度[1]。
在SAS/EM關聯規則分析結果中包含滿足要求的所有規則(rules)以及每條規則的支持度(support(%))、可信度(confidence(%))、作用度(lift,可信度與期望可信度的比值)等一些信息。在分析結果中,每條規則的支持度表示同時滿足規則前件和規則后件的例數占總例數的比例,每條規則的可信度表示在所有滿足規則前件的例數中滿足規則后件所占的比例。
利用SAS/EM模塊中的Association 節點對圖書借閱數據進行相關的關聯數據挖掘,希望通過SAS數據挖掘模式來發現、認識圖書借閱數據間的相關性,提高圖書資源的利用率,為讀者提供一定的個性化服務。
2 SAS/EM圖書借閱數據關聯規則數據挖掘過程
2.1 圖書借閱數據的獲取及數據預處理
數據挖掘的實現是以大容量數據庫為前提的。因此數據的可靠性、完整性、有效性就顯得至關重要,這是數據挖掘成功的最基本保障[2]。數據準備是否做好也將影響到數據挖掘的效率、準確度以及最終模式的有效性[3]。這些數據一般存儲在數據庫系統中,是長期積累的結果,往往不適合直接在這些數據上面進行知識挖掘,需要做數據準備工作。數據準備一般包括數據的選擇、凈化、推測、轉換(離散值數據與連續值數據之間的相互轉換、數據值的分組分類、數據項之間的計算組合等)、數據縮減(減少數據量),減少數據冗余、噪聲等因素對數據挖掘項目的影響。數據預處理是提高挖掘效率的重要步驟之一,大約占到整個數據挖掘過程的60%—80%時間[4]。
2.1.1 圖書借閱數據的獲取 進行圖書借閱數據關聯規則數據挖掘所使用的數據來自湖南師范大學圖書館圖書管理系統ILASII系統數據庫,取2006年10月至2007年10月共12個月的湖南師范大學商學院2006級研究生的借閱數據共2 112條。筆者將從圖書管理系統中導出的數據以文本方式保存后導入到SQL Server 2000中,通過SQL查詢語句進行數據轉換、合并、篩選,去除圖書館業務數據中與數據挖掘不相關的冗余項,保存與數據挖掘相關的如操作日期、讀者證號、索取號、文獻條碼號等重要屬性,如表1所示。
2.1.2 圖書借閱數據預處理對于圖書借閱數據挖掘來說,讀者借閱歷史基本數據中只有讀者證號、索取號數據對圖書借閱數據挖掘有用,因此在對所獲得的數據進行關聯規則挖掘之前,需要利用SQL語言對讀者證號、索書號數據進行預處理。
將SQL Server 提取的數據以文本方式保存并取名為JYZHSQH52,然后導入Excel表以JYZHSQH52.xsl保存到讀者借閱數據預處理文件夾中。運用SQL對讀者證號、索書號數據進行預處理,SQL程序如下:
建表Sheet1$:
CREATE TABLE [master].[dbo].[Sheet1$] ([suoqu] varchar (255) NULL, [reader_no] bigint NULL)
由于在SAS/ EM數據挖掘工具中只能夠使用事務格式數據進行關聯規則數據挖掘,因此利用SQL語言對讀者證號、索書號數據進行預處理。SQL程序如下:
Select 讀者證號,索取號 from sheet1$
Order by 讀者證號
運行后得到預處理后的讀者證號、索書號數據表,如表2所示。
由此形成的預處理后的讀者證號、索書號數據就可以運用SAS/EM進行關聯規則數據挖掘了。
2.2 SAS圖書借閱數據關聯規則挖掘
只有將經過預處理的圖書借閱數據導入SAS的數據庫,才能進行有關的關聯規則挖掘,從而得到關聯規則挖掘結果。進入SAS系統后,導入JYZHSQH52.xsl,保存到sheet1$中。程序如下:
Proc import out=work.jyzhsqh52
datefile= \"E:\\碩士論文.數據\\讀者數據挖掘\\圖書借閱數據預處理結果
zzhsqh.xls\"
dbms=excel replace;
sheet=\"Sheet1$\";
getnames=yes;
mixed=no;
scantext=yes;
usedate=yes;
scantime=yes;
run;
在SAS中,因為要經常使用圖書借閱數據,為了避免重復導入數據的步驟,就要選擇SASUSER作為永久性的Library(庫),建立Member(成員名稱)為JYZHSQH52的文件夾以存放將要進行數據挖掘的數據。并在C盤中建立名稱為JYZHSQH52.sas的文件夾,以保存可以在SAS系統運行的相關數據,供在以后的相關數據挖掘過程中重復調用。最后將在SAS系統中建立名稱為SASUSER.JYZHSQH52的數據庫。打開SASUSER.JYZHSQH52數據庫,可以看到一個由讀者證號和索取號組成的表,如圖1所示。
2.3 SAS/EM關聯規則數據挖掘結果分析
運用SAS/EM模塊的Association節點對圖書借閱數據進行關聯規則數據挖掘的過程是:在SASUSER.JYZHSQH52數據庫建立后,要對數據集中的索取號進行抽樣,抽樣方式為聚類并指定聚類數為13,運行后生成66個樣本數據;進行關聯規則分析前,要在General中的Analysis mode中選擇Association為分析模式,Minimum Transaction Frequency to Support Associations是要設置規則最小支持度(有三種方法),在此特別指定10%為最小支持度;Maximum number of items in an association設置一條關聯規則中包含的最大項數,特別指定規則的最大項數為4;Minimum confidence for rule generation 是要設置規則的最小置信度,特別指定規則的最小置信度為10%。最后,對樣本數據進行關聯規則分析并獲得關聯規則28條,如圖2所示。
對于運用SAS/EM數據挖掘工具對圖書借閱數據進行關聯規則數據挖掘所產生的規則,可以看到按照預先設定的最大項集數為4時Relations所包括的2個數據間關系、3個數據間關系及4個數據間關系。從分析結果中的第1條規則來看,F279.241是管理類書籍,規則的前項,F127是人力資源方面的書籍,規則的后項,其支持度為10.53%、置信度為100%,其意義為借閱管理類方面書籍的學生100%會借閱人力資源管理方面的書籍。從產生的規則來看,只有那些支持度≥10%和置信度≥60%的規則才具有實際意義,對于那些支持度和置信度不符合數據挖掘要求的規則要刪除掉。
3 結束語
運用SAS/EM數據挖掘工具對圖書借閱數據進行挖掘所得到的規則,與圖書借閱的實際情況比較相近,說明關聯挖掘結果是有效的。因此,所形成的知識對圖書館管理工作起到以下指導作用:
#61548;對于圖書借閱工作來說,可以提供圖書個性化借閱服務,提高圖書資源的利用率。如學生借閱了管理類方面的書籍,就可以向他推薦人力資源方面的書籍,因為從關聯規則挖掘的結果來看這兩類書的關聯性很強。
#61548;對于圖書采購工作來說,可以加強圖書采購的目的性,優化圖書資源結構。如管理類的圖書和人力資源類的圖書的關聯性很強,因此定購管理類的圖書數量要和人力資源類的圖書相匹配。
參考文獻:
[1] 段鯤,武建虎,賀佳.關聯規則在小樣本臨床資料中的應用.深圳中西醫結合雜志,2007(2):91-94.
[2] 朱靜.成功實施數據挖掘的因素分析.[2010-10-20].http://portal.vsharing.com/ShowArticle.aspx?id=471027.
[3] 賴娟.數據挖掘技術及其應用分析.現代商貿工業,2009(14):283-284.
[4] 和春慧.數據倉庫中數據預處理的研究與算法實現[學位論文].吉林:吉林大學,2004.
[作者簡介] 歐陽烽,男,1972年生,館員,碩士,發表論文10篇。