999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據倉庫的圖書借閱數據挖掘

2009-04-29 00:00:00譚立云丁智斌玉嘉鄧
現代情報 2009年12期

〔摘 要〕本文通過構建圖書借閱的數據倉庫,建立了多維圖書借閱數據集,使用數據挖掘中的決策樹算法,對目標數據進行了分析,并從中得到了一些有關讀者借閱圖書的規則,可使圖書館了解讀者借閱圖書的特定取向,使得其在圖書添加、圖書擺放上更加合理,從而為讀者提供方便,同時使圖書館對學校教學的輔助功能得到更加有效的發揮。

〔關鍵詞〕高校圖書館;數據倉庫;數據挖掘;決策樹

〔中圖分類號〕G250.7 〔文獻標識碼〕C 〔文章編號〕1008-0821(2009)12-0120-03

Data Mining of Borrowing Books Based on Data WarehouseTan Liyun Ding Zhibin Yu Jiadeng

(Department of Basic Courses,North China Institute of Science and Technology,Yanjiao 065201,China)

〔Abstract〕This article has established a multi-dimensional data sets borrow books by Constructing the data warehouse of books borrowed,the use of data mining in the decision tree algorithm,the objective data for analysis and get on the law of readers borrow books,readers borrow books to understand the specific orientation,making add in the books,the books placed on a more rational,more scientific,to provide readers with a convenient,while teaching the school library to function more effectively support the play.

〔Keywords〕university library;data warehouse;data mining;decision tree

1 數據倉庫數據庫(Data Base,DB)是按照一定的組織方式長期存儲在計算機存儲器中、可共享的相互關聯的數據集合。數據倉庫[4-5]來源于數據庫,但又不同于數據庫,是一個面向主題的、集成的、非易失的、隨時間變化的數據集合,是一個特殊的數據庫。數據庫中數據是高度結構化的,更適合于聯機事務處理(OLTP),數據倉庫中的數據相對比較簡單,適合于聯機分析處理(OLAP)。在數據庫設計方面,由于傳統的數據庫操作次數非常多,要求存取的頻率高,響應時間短,采用的主要是實體-關系圖(E-R圖);而數據倉庫主要是基于星型模式或者是雪花模式。下面是傳統的事務處理型數據庫與數據倉庫的簡單對比表。表1 傳統的事務處理型數據庫與數據倉庫對比表

對比項目傳統的事務處理型數據庫數據倉庫數據內容當前值歷史的、存檔的數據數據目標面向具體的、細節的事務管理決策分析應用,提供決策支持數據特性動態變化靜態、不能直接更新,只能定時添加操作頻率高相對較低數據訪問量每個事務訪問量較少有的事務可能要訪問大量數據記錄響應時間很短,以微秒或者秒為單位計量單位不固定(秒、分、小時、天等)數據倉庫的體系結構包括前臺和后臺兩大部分內容。后臺主要是負責分析型應用數據的準備工作,完成從數據源向數據倉庫的數據轉換,這些工作一般稱為數據預處理。而前臺是面向數據倉庫的最終用戶,也就是決策分析人員。前臺操作需要安裝一些分析型應用工具,以協助決策分析人員進行數據分析和結果分析,比如報表生成器、OLAP工具、數據挖掘工具等,對于結果的分析可以以分析報告、報表、圖形等可視化的形式提供給決策分析人員。數據倉庫簡單體系結構圖1所示:圖1 數據倉庫體系結構

2 基于數據倉庫的數據挖掘數據倉庫更利于進行數據挖掘:(1)數據倉庫大大降低了進行數據挖掘的障礙。數據倉庫不但為數據挖掘提供了更好的、更廣泛的數據源,而且還提供了很好的決策支持平臺。(2)在商業上,從企業的角度來講,數據倉庫集成了企業內各個部門的全面的、綜合的數據,由于數據挖掘面對的是全局的知識發現,所以,基于數據倉庫的數據挖掘可以更好的滿足高層戰略決策的要求。(3)數據倉庫是面向決策支持的,所以其對查詢的強大支持使數據挖掘效率更高,挖掘過程可以做到實時交互,使決策者的思維保持連續,有可能發現更深入、更有價值的知識。雖然數據倉庫和數據挖掘關系緊密,但是它們之間還是有區別的,簡單來說,數據倉庫是一種數據存儲和數據組織技術,負責提供數據源。而數據挖掘則是一種數據分析技術,主要是針對數據倉庫軸的數據進行分析。基于數據倉庫的數據挖掘技術在金融、保險、電信、大型超市等積累有大量數據信息的行業有著廣泛的應用。在大學圖書館中,隨著館藏圖書數量的增加,讀者借閱量越來越多,積累在服務器上數據庫中的數據信息量隨著時間而急劇增加,采用基于數據倉庫的數據挖掘技術對這些積累的大量數據進行研究分析,考察讀者借閱信息,分析讀者借閱圖書的規律,找出隱含在這些數據中的知識信息,并最終運用數據挖掘的成果來提升圖書館管理與服務等方面的水平。基于數據倉庫的數據挖掘的具體過程如下:(1)建立數據倉庫:完成了數據清洗、數據變換和數據集成。(2)確定數據挖掘的目標:根據用戶的要求,確定發現何種類型的知識。(3)確定數據挖掘算法:根據目標所確定的任務,選取合適的數據挖掘算法。(4)進行數據挖掘:運用所選算法,從數據庫中提取出用戶所需要的知識,如規則等。(5)模式解釋及評價:對發現的模式進行合理性解釋,并對所發現的知識進行評價。

3 數據挖掘的結果和分析本文所采用的數據均來自華北科技學院圖書館的數據庫中的原始資料,原始數據包括3個表:流通日志表、讀者庫表以及書目庫表。讀者庫有15 000余條記錄,其屬性包括:讀者條碼、借書證號、讀者級別、級別代碼和單位等23個屬性;書目庫表有大約160 000條記錄,其屬性包括:主鍵碼、題名、庫鍵碼、索書號等26個屬性;流通日志表是最大的一張表,記錄了圖書館自1999年引進管理系統以來的所有借還書記錄,本文所選取數據為2004-2008年4年間所有借閱記錄,共計700多萬條,其屬性主要有:主鍵碼、處理時間、讀者條碼、條形碼、登入號、操作類型等11屬性。首先利用流通日志表、讀者庫表以及書目庫表建立數據倉庫,流通日志表原來有11個屬性,刪除不必要的屬性后得到5個屬性的流通日志表,對其它兩個表做同樣的處理,得到3個處理后的新表,對新表再進行合并成總表,總表含讀者條形碼、讀者級別、單位、書籍條形碼等8個不同屬性,見圖2。對總表中的數據再次進行預處理,刪除冗余值,以保證數據的一致性,最后得到適合數據挖掘的數據倉庫。

圖2 總表屬性集我們的目的是挖掘文科類書籍與理科類書籍之間的關系,因此在總表基礎上,再建兩個新表分別代表哲學思想和社會科學類圖書與自然科學和綜合類圖書。根據分析方案,對圖書館的圖書借閱數據進行數據挖掘分析采用的是決策樹模型,使用的挖掘工具是Analysis Services分析服務器。通過一系列的技術手段后,得到了圖3所示的一個決策樹挖掘模型。圖3 挖掘模型瀏覽

這里顯示的是讀者的分布,從顏色的深淺可以看出數據分布的密度大小。從上面的決策樹中,可以得到如下信息:在415 421條借閱第一類圖書的記錄中,從讀者級別來說,顯然,是學生占了最多數;從各個單位來看,其數據分布又有一定的特點。可以在文科和理工科的專業之間挖掘出借第一類書籍與借第二類書籍之間的關系,我們把挖掘的結果匯總在表2中。表2 各教學單位學生借閱圖書對比

專 業借第一類書的

可能性(%)借第二類書的

可能性(%)二者偏離度

(%)體育部0.510.080.43安全學院8.389.00-0.62環境工程系6.577.29-0.72基礎部1.933.28-1.35建筑工程系10.4414.16-3.72機電工程系9.0713.26-4.19外語系8.042.685.36計算機系6.0911.49-5.4電子信息工程系1116.49-5.49管理系19.4612.337.13文法系16.037.338.7從上表可以得到這樣的結論:文科專業(外語系、文法系)或者偏文科專業(管理系)的讀者比理工科專業(安全學院、環境工程系、基礎部、建筑工程系、機電工程系、計算機系、電子信息工程系)的讀者更“忠誠”于自己的專業。另外,從上面還可以得到其它信息。文法系和外語系是地地道道的文科單位,尤其是外語系,可以說是很少借閱理工科的讀物了。管理系作為不文不理的單位,其讀者卻表現出很強的文科求知欲,與此類似的是安全學院,作為惟一的二級學院,其專業的特殊性使得該院的讀者文理通吃,基本上保持了文理平衡。從挖掘得到的信息來看,理工科專業的讀者比文科的讀者更愿意接觸自己專業以外的知識。針對以上得到的信息,在圖書管理中可以適當調整圖書位置的擺放。由于在圖書館中,位于二樓的是社會科學閱覽書庫,位于三樓的是自然科學閱覽書庫,因此,可以在二樓的社會科學閱覽書庫也擺放適量的理工科圖書,而在三樓的自然科學閱覽書庫也擺放數量適當的文科類書籍,這樣不但讓讀者在學習本專業知識的同時,還可以了解其它專業的知識,而且,有時可以免去讀者樓上樓下來回的跑動。

4 結 論本文先簡單介紹了數據倉庫技術,利用SQL Sserver2005自帶數據挖掘工具對從我院圖書館取得的流通日志表、讀者庫、書目庫,進行表的合并,數據的預處理,建立了數據倉庫,在此基礎上選取決策樹算法進行了數據挖掘,得出了讀者借閱哲學思想和社會科學類圖書與借閱自然科學和綜合類圖書之間的關系,這樣既可以了解各系讀者的特點和愛好,掌握一般借閱規律,從而可以為圖書館的管理提供更好、更高效的服務方式。當然利用我們的模型還挖掘許多其他有趣的關系,在此不再陳述。

參考文獻

[1]于光,李文峰.數據挖掘技術在圖書館用戶管理中的應用[J].圖書情報工作,2005,(1):100-103.

[2]朱根義.國內圖書館數據挖掘研究[J].現代情報,2009,(1):128-133.

[3]董云鵬.數據挖掘技術在圖書館中的應用[J].現代情報,2006,(11):131-132.

[4]William H.Inmon.數據倉庫(原書第四版)[M].王志海,等譯.北京:機械工業出版社,2007.

[5](美)Claude Seidman.SQL Server 2000數據挖掘技術指南[M].劉藝,王魯軍,蔣丹丹,等譯.北京:機械工業出版社,2002.

主站蜘蛛池模板: 亚洲最新网址| 国产一级做美女做受视频| 欧美日韩亚洲国产| 日韩国产欧美精品在线| 福利一区三区| 欧美日本激情| 视频一本大道香蕉久在线播放| 免费观看成人久久网免费观看| 亚洲性视频网站| 国产精品偷伦视频免费观看国产| 亚洲人成影视在线观看| 亚洲成a人片在线观看88| 亚洲美女一区二区三区| 天天操精品| 精品無碼一區在線觀看 | 国产成人综合久久精品下载| 亚洲一区毛片| 美女毛片在线| 99ri精品视频在线观看播放| 欧美综合一区二区三区| 国产精品白浆在线播放| 久久人妻xunleige无码| 欧美亚洲网| 亚洲精品无码不卡在线播放| 综1合AV在线播放| 免费人成在线观看成人片| 日韩精品亚洲人旧成在线| 国产丝袜丝视频在线观看| 欧美精品1区| 91久久性奴调教国产免费| 国产精品欧美激情| 国产无人区一区二区三区| 小蝌蚪亚洲精品国产| 精品小视频在线观看| 久久精品视频亚洲| 人妻中文久热无码丝袜| 亚洲无码高清一区| 小说区 亚洲 自拍 另类| 成人综合久久综合| 国产成人精品男人的天堂下载| 无码乱人伦一区二区亚洲一| 国产日韩精品欧美一区灰| av大片在线无码免费| 毛片网站在线播放| 日韩欧美国产三级| 日本黄色a视频| 亚洲a级在线观看| 精品国产自| 中国成人在线视频| 久久久波多野结衣av一区二区| 97av视频在线观看| 欧美日本中文| 欧美日韩国产成人在线观看| 成人国产精品视频频| 国产欧美性爱网| 欧美五月婷婷| 日本在线免费网站| 中文字幕色在线| 国产精品久久精品| 国产精品久久久久无码网站| hezyo加勒比一区二区三区| 国产精品久久久久婷婷五月| 国产精品手机在线观看你懂的| 992tv国产人成在线观看| 日韩精品免费一线在线观看| 亚洲AV电影不卡在线观看| 岛国精品一区免费视频在线观看| 国产亚洲欧美日韩在线一区二区三区| 永久成人无码激情视频免费| 久久午夜夜伦鲁鲁片不卡| 一本大道视频精品人妻| 天天干天天色综合网| 亚洲成a人在线观看| 无码高潮喷水在线观看| 国产欧美精品专区一区二区| 无码久看视频| 久久精品无码国产一区二区三区| 国产欧美专区在线观看| 亚洲精品视频免费| 四虎永久免费地址在线网站| 国产免费a级片| 久久亚洲国产最新网站|