999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SAS/EM的圖書借閱數據關聯規則數據挖掘

2011-01-01 00:00:00歐陽烽
知識管理論壇 2011年6期

[摘要] 通過SAS/EM數據挖掘工具對高校圖書館積累大量的讀者圖書借閱數據進行關聯規則挖掘,發現圖書借閱數據間的關聯關系,并將這些隱藏在數據背后的重要信息形成知識。以此指導以下兩方面的工作:①圖書借閱工作,為讀者提供個性化服務,提高圖書資源的利用率;②圖書采購工作,加強圖書采購的目的性,優化圖書資源結構。

[關鍵詞] 關聯規則 圖書借閱數據 SAS/EM 數據挖掘

隨著數據庫技術的迅速發展以及數據庫管理系統在圖書館的廣泛應用,圖書館積累了大量的讀者圖書借閱歷史數據。這些數據背后隱藏著許多重要的信息,但是圖書館的圖書管理系統無法發現這些數據中存在的關系和規則,無法預測讀者的信息需求,缺乏挖掘數據背后隱藏知識的手段,很難幫助讀者找到所需要的信息資源。本文通過SAS/EM(SAS enterprise miner)數據挖掘工具對圖書借閱數據進行相關的關聯數據挖掘,發現讀者的圖書借閱數據間的關聯關系,并將這些隱藏在數據背后的重要信息形成知識,以指導圖書館的借閱和采購工作。

1 SAS/EM數據挖掘工具

美國SAS研究所于1976年推出的大型國際統計分析系統SAS(statisticalanalysissystem)是一個用來整理數據、對數據進行統計分析和打印報告的大型組合式軟件包。1985年SAS研究所推出微機版,此后該軟件一直在不斷更新版本,本次數據挖掘采用SAS 9.1.3版本。

SAS對數據進行關聯規則分析是通過SAS/EM模塊中的Association節點實現的。SAS/EM是一個界面圖形化、由菜單驅動的、對用戶非常友好且功能強大的SAS數據挖掘集成軟件。

SAS/EM采用Apriori算法,利用k項集來探索k+1項集,再根據按照目標數據的性質、特點而設定的最小支持度(min_sup)和最小可信度(min_conf)產生規則。所以,利用SAS/EM進行關聯規則分析的關鍵就是確定三個參數,即產生規則的項集最大數目(items)、最小支持度和最小可信度[1]。

在SAS/EM關聯規則分析結果中包含滿足要求的所有規則(rules)以及每條規則的支持度(support(%))、可信度(confidence(%))、作用度(lift,可信度與期望可信度的比值)等一些信息。在分析結果中,每條規則的支持度表示同時滿足規則前件和規則后件的例數占總例數的比例,每條規則的可信度表示在所有滿足規則前件的例數中滿足規則后件所占的比例。

利用SAS/EM模塊中的Association 節點對圖書借閱數據進行相關的關聯數據挖掘,希望通過SAS數據挖掘模式來發現、認識圖書借閱數據間的相關性,提高圖書資源的利用率,為讀者提供一定的個性化服務。

2 SAS/EM圖書借閱數據關聯規則數據挖掘過程

2.1 圖書借閱數據的獲取及數據預處理

數據挖掘的實現是以大容量數據庫為前提的。因此數據的可靠性、完整性、有效性就顯得至關重要,這是數據挖掘成功的最基本保障[2]。數據準備是否做好也將影響到數據挖掘的效率、準確度以及最終模式的有效性[3]。這些數據一般存儲在數據庫系統中,是長期積累的結果,往往不適合直接在這些數據上面進行知識挖掘,需要做數據準備工作。數據準備一般包括數據的選擇、凈化、推測、轉換(離散值數據與連續值數據之間的相互轉換、數據值的分組分類、數據項之間的計算組合等)、數據縮減(減少數據量),減少數據冗余、噪聲等因素對數據挖掘項目的影響。數據預處理是提高挖掘效率的重要步驟之一,大約占到整個數據挖掘過程的60%—80%時間[4]。

2.1.1 圖書借閱數據的獲取 進行圖書借閱數據關聯規則數據挖掘所使用的數據來自湖南師范大學圖書館圖書管理系統ILASII系統數據庫,取2006年10月至2007年10月共12個月的湖南師范大學商學院2006級研究生的借閱數據共2 112條。筆者將從圖書管理系統中導出的數據以文本方式保存后導入到SQL Server 2000中,通過SQL查詢語句進行數據轉換、合并、篩選,去除圖書館業務數據中與數據挖掘不相關的冗余項,保存與數據挖掘相關的如操作日期、讀者證號、索取號、文獻條碼號等重要屬性,如表1所示。

2.1.2 圖書借閱數據預處理對于圖書借閱數據挖掘來說,讀者借閱歷史基本數據中只有讀者證號、索取號數據對圖書借閱數據挖掘有用,因此在對所獲得的數據進行關聯規則挖掘之前,需要利用SQL語言對讀者證號、索書號數據進行預處理。

將SQL Server 提取的數據以文本方式保存并取名為JYZHSQH52,然后導入Excel表以JYZHSQH52.xsl保存到讀者借閱數據預處理文件夾中。運用SQL對讀者證號、索書號數據進行預處理,SQL程序如下:

建表Sheet1$:

CREATE TABLE [master].[dbo].[Sheet1$] ([suoqu] varchar (255) NULL, [reader_no] bigint NULL)

由于在SAS/ EM數據挖掘工具中只能夠使用事務格式數據進行關聯規則數據挖掘,因此利用SQL語言對讀者證號、索書號數據進行預處理。SQL程序如下:

Select 讀者證號,索取號 from sheet1$

Order by 讀者證號

運行后得到預處理后的讀者證號、索書號數據表,如表2所示。

由此形成的預處理后的讀者證號、索書號數據就可以運用SAS/EM進行關聯規則數據挖掘了。

2.2 SAS圖書借閱數據關聯規則挖掘

只有將經過預處理的圖書借閱數據導入SAS的數據庫,才能進行有關的關聯規則挖掘,從而得到關聯規則挖掘結果。進入SAS系統后,導入JYZHSQH52.xsl,保存到sheet1$中。程序如下:

Proc import out=work.jyzhsqh52

datefile= \"E:\\碩士論文.數據\\讀者數據挖掘\\圖書借閱數據預處理結果

zzhsqh.xls\"

dbms=excel replace;

sheet=\"Sheet1$\";

getnames=yes;

mixed=no;

scantext=yes;

usedate=yes;

scantime=yes;

run;

在SAS中,因為要經常使用圖書借閱數據,為了避免重復導入數據的步驟,就要選擇SASUSER作為永久性的Library(庫),建立Member(成員名稱)為JYZHSQH52的文件夾以存放將要進行數據挖掘的數據。并在C盤中建立名稱為JYZHSQH52.sas的文件夾,以保存可以在SAS系統運行的相關數據,供在以后的相關數據挖掘過程中重復調用。最后將在SAS系統中建立名稱為SASUSER.JYZHSQH52的數據庫。打開SASUSER.JYZHSQH52數據庫,可以看到一個由讀者證號和索取號組成的表,如圖1所示。

2.3 SAS/EM關聯規則數據挖掘結果分析

運用SAS/EM模塊的Association節點對圖書借閱數據進行關聯規則數據挖掘的過程是:在SASUSER.JYZHSQH52數據庫建立后,要對數據集中的索取號進行抽樣,抽樣方式為聚類并指定聚類數為13,運行后生成66個樣本數據;進行關聯規則分析前,要在General中的Analysis mode中選擇Association為分析模式,Minimum Transaction Frequency to Support Associations是要設置規則最小支持度(有三種方法),在此特別指定10%為最小支持度;Maximum number of items in an association設置一條關聯規則中包含的最大項數,特別指定規則的最大項數為4;Minimum confidence for rule generation 是要設置規則的最小置信度,特別指定規則的最小置信度為10%。最后,對樣本數據進行關聯規則分析并獲得關聯規則28條,如圖2所示。

對于運用SAS/EM數據挖掘工具對圖書借閱數據進行關聯規則數據挖掘所產生的規則,可以看到按照預先設定的最大項集數為4時Relations所包括的2個數據間關系、3個數據間關系及4個數據間關系。從分析結果中的第1條規則來看,F279.241是管理類書籍,規則的前項,F127是人力資源方面的書籍,規則的后項,其支持度為10.53%、置信度為100%,其意義為借閱管理類方面書籍的學生100%會借閱人力資源管理方面的書籍。從產生的規則來看,只有那些支持度≥10%和置信度≥60%的規則才具有實際意義,對于那些支持度和置信度不符合數據挖掘要求的規則要刪除掉。

3 結束語

運用SAS/EM數據挖掘工具對圖書借閱數據進行挖掘所得到的規則,與圖書借閱的實際情況比較相近,說明關聯挖掘結果是有效的。因此,所形成的知識對圖書館管理工作起到以下指導作用:

#61548;對于圖書借閱工作來說,可以提供圖書個性化借閱服務,提高圖書資源的利用率。如學生借閱了管理類方面的書籍,就可以向他推薦人力資源方面的書籍,因為從關聯規則挖掘的結果來看這兩類書的關聯性很強。

#61548;對于圖書采購工作來說,可以加強圖書采購的目的性,優化圖書資源結構。如管理類的圖書和人力資源類的圖書的關聯性很強,因此定購管理類的圖書數量要和人力資源類的圖書相匹配。

參考文獻:

[1] 段鯤,武建虎,賀佳.關聯規則在小樣本臨床資料中的應用.深圳中西醫結合雜志,2007(2):91-94.

[2] 朱靜.成功實施數據挖掘的因素分析.[2010-10-20].http://portal.vsharing.com/ShowArticle.aspx?id=471027.

[3] 賴娟.數據挖掘技術及其應用分析.現代商貿工業,2009(14):283-284.

[4] 和春慧.數據倉庫中數據預處理的研究與算法實現[學位論文].吉林:吉林大學,2004.

[作者簡介] 歐陽烽,男,1972年生,館員,碩士,發表論文10篇。

主站蜘蛛池模板: 日韩免费毛片| 又大又硬又爽免费视频| 亚洲女人在线| 久久毛片网| 91无码人妻精品一区| 欧美综合成人| 中文字幕亚洲精品2页| 黄色网站在线观看无码| 996免费视频国产在线播放| 成人av专区精品无码国产 | 免费人成视频在线观看网站| 亚洲精品无码AⅤ片青青在线观看| 国模视频一区二区| 国产人妖视频一区在线观看| 午夜无码一区二区三区在线app| 91色在线观看| 国产精品亚洲一区二区三区在线观看 | 超碰色了色| 人妻丰满熟妇αv无码| 国产精品欧美日本韩免费一区二区三区不卡 | 日韩无码视频网站| 亚洲码一区二区三区| 国产成人综合日韩精品无码不卡| 欧洲熟妇精品视频| 亚洲swag精品自拍一区| 欧美成人精品一级在线观看| 99久视频| h网站在线播放| 久久综合国产乱子免费| 日韩国产综合精选| 免费一级无码在线网站| 亚洲色图欧美| 青青热久麻豆精品视频在线观看| 国产精品亚洲va在线观看| 国产成人综合网| 综合天天色| 亚洲欧美自拍中文| 狠狠干综合| 亚洲欧美日本国产综合在线| 日韩不卡高清视频| 国产亚洲精品va在线| 999精品免费视频| 国产幂在线无码精品| 亚洲国产日韩在线成人蜜芽 | 青青操视频免费观看| 一级香蕉人体视频| 伊大人香蕉久久网欧美| 中文字幕久久波多野结衣| 国产97视频在线观看| 欧美日韩一区二区三区在线视频| 欧美另类视频一区二区三区| 欧洲免费精品视频在线| 精品国产成人国产在线| 免费在线视频a| 国产在线一区二区视频| 欧美一区二区三区欧美日韩亚洲| 欧洲精品视频在线观看| 伊人久久福利中文字幕| 亚洲视频黄| 玖玖免费视频在线观看| 国产美女一级毛片| 永久在线播放| 免费在线国产一区二区三区精品| 亚洲开心婷婷中文字幕| 久久精品国产999大香线焦| 伊人久久久久久久久久| 动漫精品啪啪一区二区三区| 一级黄色网站在线免费看| 日本人妻丰满熟妇区| 99久久人妻精品免费二区| 成人国产三级在线播放| 久久人搡人人玩人妻精品一| 欧美激情二区三区| 在线国产毛片手机小视频| 秋霞国产在线| 亚洲欧美日韩中文字幕在线一区| 欧美激情福利| 国产尤物jk自慰制服喷水| 免费国产小视频在线观看| 国产爽爽视频| 久久77777| 亚洲成人黄色在线观看|