999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SAS/EM的圖書借閱數據關聯規則數據挖掘

2011-01-01 00:00:00歐陽烽
知識管理論壇 2011年6期

[摘要] 通過SAS/EM數據挖掘工具對高校圖書館積累大量的讀者圖書借閱數據進行關聯規則挖掘,發現圖書借閱數據間的關聯關系,并將這些隱藏在數據背后的重要信息形成知識。以此指導以下兩方面的工作:①圖書借閱工作,為讀者提供個性化服務,提高圖書資源的利用率;②圖書采購工作,加強圖書采購的目的性,優化圖書資源結構。

[關鍵詞] 關聯規則 圖書借閱數據 SAS/EM 數據挖掘

隨著數據庫技術的迅速發展以及數據庫管理系統在圖書館的廣泛應用,圖書館積累了大量的讀者圖書借閱歷史數據。這些數據背后隱藏著許多重要的信息,但是圖書館的圖書管理系統無法發現這些數據中存在的關系和規則,無法預測讀者的信息需求,缺乏挖掘數據背后隱藏知識的手段,很難幫助讀者找到所需要的信息資源。本文通過SAS/EM(SAS enterprise miner)數據挖掘工具對圖書借閱數據進行相關的關聯數據挖掘,發現讀者的圖書借閱數據間的關聯關系,并將這些隱藏在數據背后的重要信息形成知識,以指導圖書館的借閱和采購工作。

1 SAS/EM數據挖掘工具

美國SAS研究所于1976年推出的大型國際統計分析系統SAS(statisticalanalysissystem)是一個用來整理數據、對數據進行統計分析和打印報告的大型組合式軟件包。1985年SAS研究所推出微機版,此后該軟件一直在不斷更新版本,本次數據挖掘采用SAS 9.1.3版本。

SAS對數據進行關聯規則分析是通過SAS/EM模塊中的Association節點實現的。SAS/EM是一個界面圖形化、由菜單驅動的、對用戶非常友好且功能強大的SAS數據挖掘集成軟件。

SAS/EM采用Apriori算法,利用k項集來探索k+1項集,再根據按照目標數據的性質、特點而設定的最小支持度(min_sup)和最小可信度(min_conf)產生規則。所以,利用SAS/EM進行關聯規則分析的關鍵就是確定三個參數,即產生規則的項集最大數目(items)、最小支持度和最小可信度[1]。

在SAS/EM關聯規則分析結果中包含滿足要求的所有規則(rules)以及每條規則的支持度(support(%))、可信度(confidence(%))、作用度(lift,可信度與期望可信度的比值)等一些信息。在分析結果中,每條規則的支持度表示同時滿足規則前件和規則后件的例數占總例數的比例,每條規則的可信度表示在所有滿足規則前件的例數中滿足規則后件所占的比例。

利用SAS/EM模塊中的Association 節點對圖書借閱數據進行相關的關聯數據挖掘,希望通過SAS數據挖掘模式來發現、認識圖書借閱數據間的相關性,提高圖書資源的利用率,為讀者提供一定的個性化服務。

2 SAS/EM圖書借閱數據關聯規則數據挖掘過程

2.1 圖書借閱數據的獲取及數據預處理

數據挖掘的實現是以大容量數據庫為前提的。因此數據的可靠性、完整性、有效性就顯得至關重要,這是數據挖掘成功的最基本保障[2]。數據準備是否做好也將影響到數據挖掘的效率、準確度以及最終模式的有效性[3]。這些數據一般存儲在數據庫系統中,是長期積累的結果,往往不適合直接在這些數據上面進行知識挖掘,需要做數據準備工作。數據準備一般包括數據的選擇、凈化、推測、轉換(離散值數據與連續值數據之間的相互轉換、數據值的分組分類、數據項之間的計算組合等)、數據縮減(減少數據量),減少數據冗余、噪聲等因素對數據挖掘項目的影響。數據預處理是提高挖掘效率的重要步驟之一,大約占到整個數據挖掘過程的60%—80%時間[4]。

2.1.1 圖書借閱數據的獲取 進行圖書借閱數據關聯規則數據挖掘所使用的數據來自湖南師范大學圖書館圖書管理系統ILASII系統數據庫,取2006年10月至2007年10月共12個月的湖南師范大學商學院2006級研究生的借閱數據共2 112條。筆者將從圖書管理系統中導出的數據以文本方式保存后導入到SQL Server 2000中,通過SQL查詢語句進行數據轉換、合并、篩選,去除圖書館業務數據中與數據挖掘不相關的冗余項,保存與數據挖掘相關的如操作日期、讀者證號、索取號、文獻條碼號等重要屬性,如表1所示。

2.1.2 圖書借閱數據預處理對于圖書借閱數據挖掘來說,讀者借閱歷史基本數據中只有讀者證號、索取號數據對圖書借閱數據挖掘有用,因此在對所獲得的數據進行關聯規則挖掘之前,需要利用SQL語言對讀者證號、索書號數據進行預處理。

將SQL Server 提取的數據以文本方式保存并取名為JYZHSQH52,然后導入Excel表以JYZHSQH52.xsl保存到讀者借閱數據預處理文件夾中。運用SQL對讀者證號、索書號數據進行預處理,SQL程序如下:

建表Sheet1$:

CREATE TABLE [master].[dbo].[Sheet1$] ([suoqu] varchar (255) NULL, [reader_no] bigint NULL)

由于在SAS/ EM數據挖掘工具中只能夠使用事務格式數據進行關聯規則數據挖掘,因此利用SQL語言對讀者證號、索書號數據進行預處理。SQL程序如下:

Select 讀者證號,索取號 from sheet1$

Order by 讀者證號

運行后得到預處理后的讀者證號、索書號數據表,如表2所示。

由此形成的預處理后的讀者證號、索書號數據就可以運用SAS/EM進行關聯規則數據挖掘了。

2.2 SAS圖書借閱數據關聯規則挖掘

只有將經過預處理的圖書借閱數據導入SAS的數據庫,才能進行有關的關聯規則挖掘,從而得到關聯規則挖掘結果。進入SAS系統后,導入JYZHSQH52.xsl,保存到sheet1$中。程序如下:

Proc import out=work.jyzhsqh52

datefile= \"E:\\碩士論文.數據\\讀者數據挖掘\\圖書借閱數據預處理結果

zzhsqh.xls\"

dbms=excel replace;

sheet=\"Sheet1$\";

getnames=yes;

mixed=no;

scantext=yes;

usedate=yes;

scantime=yes;

run;

在SAS中,因為要經常使用圖書借閱數據,為了避免重復導入數據的步驟,就要選擇SASUSER作為永久性的Library(庫),建立Member(成員名稱)為JYZHSQH52的文件夾以存放將要進行數據挖掘的數據。并在C盤中建立名稱為JYZHSQH52.sas的文件夾,以保存可以在SAS系統運行的相關數據,供在以后的相關數據挖掘過程中重復調用。最后將在SAS系統中建立名稱為SASUSER.JYZHSQH52的數據庫。打開SASUSER.JYZHSQH52數據庫,可以看到一個由讀者證號和索取號組成的表,如圖1所示。

2.3 SAS/EM關聯規則數據挖掘結果分析

運用SAS/EM模塊的Association節點對圖書借閱數據進行關聯規則數據挖掘的過程是:在SASUSER.JYZHSQH52數據庫建立后,要對數據集中的索取號進行抽樣,抽樣方式為聚類并指定聚類數為13,運行后生成66個樣本數據;進行關聯規則分析前,要在General中的Analysis mode中選擇Association為分析模式,Minimum Transaction Frequency to Support Associations是要設置規則最小支持度(有三種方法),在此特別指定10%為最小支持度;Maximum number of items in an association設置一條關聯規則中包含的最大項數,特別指定規則的最大項數為4;Minimum confidence for rule generation 是要設置規則的最小置信度,特別指定規則的最小置信度為10%。最后,對樣本數據進行關聯規則分析并獲得關聯規則28條,如圖2所示。

對于運用SAS/EM數據挖掘工具對圖書借閱數據進行關聯規則數據挖掘所產生的規則,可以看到按照預先設定的最大項集數為4時Relations所包括的2個數據間關系、3個數據間關系及4個數據間關系。從分析結果中的第1條規則來看,F279.241是管理類書籍,規則的前項,F127是人力資源方面的書籍,規則的后項,其支持度為10.53%、置信度為100%,其意義為借閱管理類方面書籍的學生100%會借閱人力資源管理方面的書籍。從產生的規則來看,只有那些支持度≥10%和置信度≥60%的規則才具有實際意義,對于那些支持度和置信度不符合數據挖掘要求的規則要刪除掉。

3 結束語

運用SAS/EM數據挖掘工具對圖書借閱數據進行挖掘所得到的規則,與圖書借閱的實際情況比較相近,說明關聯挖掘結果是有效的。因此,所形成的知識對圖書館管理工作起到以下指導作用:

#61548;對于圖書借閱工作來說,可以提供圖書個性化借閱服務,提高圖書資源的利用率。如學生借閱了管理類方面的書籍,就可以向他推薦人力資源方面的書籍,因為從關聯規則挖掘的結果來看這兩類書的關聯性很強。

#61548;對于圖書采購工作來說,可以加強圖書采購的目的性,優化圖書資源結構。如管理類的圖書和人力資源類的圖書的關聯性很強,因此定購管理類的圖書數量要和人力資源類的圖書相匹配。

參考文獻:

[1] 段鯤,武建虎,賀佳.關聯規則在小樣本臨床資料中的應用.深圳中西醫結合雜志,2007(2):91-94.

[2] 朱靜.成功實施數據挖掘的因素分析.[2010-10-20].http://portal.vsharing.com/ShowArticle.aspx?id=471027.

[3] 賴娟.數據挖掘技術及其應用分析.現代商貿工業,2009(14):283-284.

[4] 和春慧.數據倉庫中數據預處理的研究與算法實現[學位論文].吉林:吉林大學,2004.

[作者簡介] 歐陽烽,男,1972年生,館員,碩士,發表論文10篇。

主站蜘蛛池模板: 亚欧美国产综合| 国产毛片高清一级国语| 免费国产无遮挡又黄又爽| 精品国产女同疯狂摩擦2| 精品久久久无码专区中文字幕| 国产午夜精品一区二区三| 日韩免费毛片视频| 久久公开视频| 国产欧美日韩专区发布| 久久公开视频| 久青草网站| 无码一区二区三区视频在线播放| 亚洲中文字幕在线观看| 狠狠色丁香婷婷| 亚洲有无码中文网| 亚洲综合精品香蕉久久网| 天天色天天综合| 无码中文字幕精品推荐| h视频在线播放| 日韩午夜福利在线观看| 亚洲天堂区| 国产免费久久精品99re丫丫一| 成人一级黄色毛片| 一级毛片在线免费看| 99爱视频精品免视看| 亚洲欧州色色免费AV| 天堂亚洲网| 国产精品区网红主播在线观看| 亚洲国产综合精品一区| 真人高潮娇喘嗯啊在线观看| 久久国产精品麻豆系列| 亚洲精品无码高潮喷水A| 亚洲人妖在线| 亚洲综合激情另类专区| 欧美一级视频免费| 欧美天天干| 成年人国产视频| 伊人久久影视| 国产麻豆永久视频| 欧美一级高清免费a| 国产精品九九视频| 国产成人精品午夜视频'| 日本在线免费网站| 在线观看国产小视频| 亚洲综合专区| 免费中文字幕一级毛片| 日本人真淫视频一区二区三区| 特级毛片8级毛片免费观看| 国产精品一区二区在线播放| 欧美亚洲另类在线观看| 中文字幕1区2区| 国产青青草视频| 中文字幕无码制服中字| 精品国产一区二区三区在线观看| 欧美性久久久久| 国内精品久久久久久久久久影视| 99精品视频播放| 亚洲精品国产自在现线最新| 国产99欧美精品久久精品久久| 蜜芽一区二区国产精品| 国产精品视频a| 二级毛片免费观看全程| 国产在线拍偷自揄观看视频网站| 国产靠逼视频| 在线观看国产精品日本不卡网| 免费99精品国产自在现线| 欧美啪啪网| 在线视频亚洲欧美| 亚洲无线观看| 成人第一页| 国产成人AV大片大片在线播放 | 日韩在线播放中文字幕| 亚洲热线99精品视频| 欧美一级99在线观看国产| 色综合国产| 久久精品人人做人人爽| 亚洲男人天堂2020| 四虎永久在线| 婷婷激情五月网| 久久久噜噜噜久久中文字幕色伊伊 | 无码电影在线观看| 亚洲国产成人自拍|