999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據預處理:數字圖書館的“清洗機”

2013-09-12 04:12:36聶飛霞
圖書館界 2013年4期
關鍵詞:數據挖掘圖書館信息

聶飛霞,付 敏

(西北大學圖書館,陜西 西安 710127)

隨著網絡化的發展以及數字圖書館的崛起,圖書館也開始走入了數字化時代。圖書館現有的自動化管理系統中存儲著大量的書目數據、讀者流通借還數據、書目檢索記錄、Web訪問記錄等。但目前圖書館所應用的信息化管理系統只有簡單的統計分析功能,無法預測讀者的需求以及圖書的借閱趨勢。數據挖掘技術的應用,使圖書館自動化信息系統中的數據得到了整理與預測,使龐雜的數據成為有用的知識。而數據預處理技術是根據數據挖掘的需求,將現有的已知數據進行清洗轉換匯總等操作。由于數據源的龐大與雜亂,預處理前得數據常常被人稱為“臟數據”,這就使得數據預處理工作成為數據挖掘前期重要的步驟。只有對預處理過的數據進行數據挖掘,數據挖掘工作才會科學有效。

1 數據提取

數據預處理的前期工作是對所需要的數據進行提取。圖書館信息系統中存在著大量的讀者信息、圖書信息、讀者借還數據、圖書借還數據、讀者檢索數據等,因此數據提取工作也是相對較為繁瑣的。下面給出所提取數據的重要字段結構表(本文所提取的數據是西北大學圖書館ILAS系統中的部分數據)。

讀者信息表主要包括讀者姓名、讀者證號(區別讀者的唯一標志)、性別、院系、部門等。讀者信息表結構如表1所示。

表1 讀者信息表結構

圖書信息表記錄了館藏圖書的題名、分類號、索取號、ISBN號、條碼(區別圖書的唯一標志)等。圖書信息表結構如表2所示。

表2 圖書信息表結構

借還信息表主要記錄了借閱和歸還兩個過程的讀者以及圖書信息,包括讀者姓名、讀者證號、圖書題名、圖書條碼、還書時間等。借還信息表結構如表3所示。

表3 借還信息表結構

2 數據預處理

數據源的獲取、數據獲取和信息集成等相關研究為數據預處理提供了基礎。根據數據挖掘的需求,將相關的多源數據集成融合后,需要進行多種數據預處理操作。數據預處理的主要流程包括數據清理、數據集成和融合、數據變換、數據規約以及在數據挖掘結果的評價計劃基礎上進行的二次預處理的精煉。數據預處理的基本流程如圖1所示。

2.1 數據清理

數據清理工作是數據挖掘準備工作中最耗時耗力的工作,但也是最重要的工作。最初獲得的原始數據往往是夾雜著很多錯誤的、有噪聲的、空白的、缺失的或者冗余的數據。數據清理工作就是將這一部分數據加以處理。

圖1 數據預處理基本流程圖

在圖書館信息系統中獲得的數據源,主要需要做的工作是刪除錯誤值、補充空缺的信息以及修改部分不吻合的值。本次從圖書館信息系統中共獲得借閱數據6798條,圖書數據6704條,讀者數據621條。其中借閱數據中有借閱失敗的冗余數據以及與數據挖掘工作無關的屬性值,而讀者數據中有讀者名稱空缺專業名稱錯誤等信息都需要進行處理。表4是某一時間段西北大學圖書館圖書借閱原始信息表dbo.BorrowHistory中的數據。

表4 讀者原始借還信息表

如表4所示,該原始數據記錄了某一時間段讀者的借閱信息,其中szMemo屬性列記錄了借閱失敗的信息,我們可以通過編寫SQL語句對bResult屬性值為False的行進行刪除。同時,可以刪除我們數據挖掘工作不需要的屬性列,如對bBooking列與szRead列進行刪除。得到讀者借還信息表如表5所示。

表5 讀者借還信息表

2.2 數據融合與變換

本文所用到的讀者信息與讀者借還信息是分別處于兩個數據表中的單獨數據,我們需要利用SQL語言將這兩個表進行融合與變換。文中表5為數據清理后的讀者借還信息表,表6為數據清理后的讀者信息表,將讀者信息表中的讀者姓名即Reader-Name屬性列與讀者單位Company屬性列增加到讀者借還信息表中,得到加了 ReaderName屬性與Company屬性的讀者借還信息表,如表7所示。

表6 讀者信息表

表7 加了ReaderName屬性與Company屬性的讀者借還信息表

續表7

2.3 數據規約

一般數據庫中的數據表都很龐大,為了節約運算時間,我們需要對其進行規約。規約以后的數值將比原值小很多,但卻保持了原值的完整性。規約技術使得數據挖掘更加有效可行。利用圖書信息表、讀者信息表、借還信息表清理融合后得到表7所示的讀者借還信息表。該讀者借還信息表所記錄的讀者借閱記錄中,圖書的屬性有條碼號、書名以及索取號。其中條碼號為識別圖書的唯一標志,也就是說每本圖書的條碼號都是唯一的。而書名和索取號則可能相同,索取號由于記錄得比較詳細不利于數據挖掘的運算,我們把圖書的索取號即szBookIndex屬性進行規約。將圖書按中圖法的22個大類進行劃分,得到增加了新屬性szCategory的讀者借還信息表,如表8所示。

表8 規約后的讀者借還信息表

3 結語

數據挖掘技術近幾年已經開始應用于數字圖書館,利用數據挖掘方法中的聚類分析可以將讀者按閱讀興趣、借閱次數等進行分類。利用數據挖掘方法中的關聯規則可以為讀者提供個性化的推薦服務,如將讀者可能喜歡的圖書進行推薦,或者將可能流行的書推薦給采購人員。以上所說的數據挖掘技術的應用都離不開對數據的預處理。因此數據的預處理工作既是數據挖掘工作的基礎,也是數據挖掘工作中相對重要的步驟。數據預處理是數據挖掘工作科學有效的基礎。

[1]Han Jiawei,Kamber Micheline.數據挖掘:概念與技術[M].北京:高等教育出版社,2001.

[2]謝邦昌.數據挖掘Clementine應用實務[M].北京:機械工業出版社,2008.

[3]Tan Pang - Ning,Steinbach Michael,Kumar Vipin.數據挖掘導論:完整版[M].北京:人民郵電出版社,2011.

[4]高建煌.個性化推薦系統技術與應用[D].中國科學技術大學計算機應用技術,2010.

猜你喜歡
數據挖掘圖書館信息
探討人工智能與數據挖掘發展趨勢
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書館
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
去圖書館
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 乱系列中文字幕在线视频| 毛片在线播放网址| 在线观看国产网址你懂的| 国产日韩精品欧美一区灰| 亚洲手机在线| 一级高清毛片免费a级高清毛片| 女人18毛片一级毛片在线 | 无码国内精品人妻少妇蜜桃视频| 亚洲精选无码久久久| 亚洲无码熟妇人妻AV在线| 美女无遮挡被啪啪到高潮免费| 国产高潮流白浆视频| 69免费在线视频| 日韩精品一区二区三区大桥未久| 在线播放国产一区| 午夜不卡视频| 亚洲,国产,日韩,综合一区| 美女被操黄色视频网站| 国产成人在线无码免费视频| 国产精品黄色片| 国产一级α片| 久久semm亚洲国产| 露脸一二三区国语对白| 日韩欧美国产中文| 666精品国产精品亚洲| 国产午夜福利亚洲第一| 国产精品天干天干在线观看| 男女性午夜福利网站| 亚洲妓女综合网995久久| 91精品国产自产在线老师啪l| 国产永久无码观看在线| 久青草网站| 欧美成人看片一区二区三区| 91麻豆精品国产高清在线| 亚洲无码视频一区二区三区| 性色生活片在线观看| 三上悠亚在线精品二区| 午夜视频免费一区二区在线看| 国产激爽大片在线播放| 亚洲aaa视频| 91精品视频在线播放| 日韩精品无码免费专网站| 久久99国产综合精品1| 国产一国产一有一级毛片视频| 国产素人在线| 亚洲天堂网在线播放| 无码中字出轨中文人妻中文中| 亚洲欧美日韩精品专区| 青青操视频在线| 国产欧美日韩资源在线观看 | 亚洲中文在线看视频一区| 国产成人三级在线观看视频| 日韩欧美91| 国产视频 第一页| 国产亚洲精| 亚洲成人黄色网址| 蜜芽一区二区国产精品| 久久国产精品麻豆系列| 99精品国产自在现线观看| 四虎影视库国产精品一区| 亚洲天堂久久| 午夜老司机永久免费看片| 国产精品蜜芽在线观看| 国产农村妇女精品一二区| 在线精品视频成人网| WWW丫丫国产成人精品| 日本午夜在线视频| 中文字幕天无码久久精品视频免费| 日韩成人在线网站| 亚洲第一区欧美国产综合| 97视频免费在线观看| 成人在线观看一区| 亚洲美女一级毛片| 丁香五月婷婷激情基地| 国产原创自拍不卡第一页| 日韩高清中文字幕| 国产精品视频白浆免费视频| 一本二本三本不卡无码| 中文字幕色站| 91在线免费公开视频| 国产日本视频91| 久久香蕉国产线看精品|