999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據預處理:數字圖書館的“清洗機”

2013-09-12 04:12:36聶飛霞
圖書館界 2013年4期
關鍵詞:數據挖掘圖書館信息

聶飛霞,付 敏

(西北大學圖書館,陜西 西安 710127)

隨著網絡化的發展以及數字圖書館的崛起,圖書館也開始走入了數字化時代。圖書館現有的自動化管理系統中存儲著大量的書目數據、讀者流通借還數據、書目檢索記錄、Web訪問記錄等。但目前圖書館所應用的信息化管理系統只有簡單的統計分析功能,無法預測讀者的需求以及圖書的借閱趨勢。數據挖掘技術的應用,使圖書館自動化信息系統中的數據得到了整理與預測,使龐雜的數據成為有用的知識。而數據預處理技術是根據數據挖掘的需求,將現有的已知數據進行清洗轉換匯總等操作。由于數據源的龐大與雜亂,預處理前得數據常常被人稱為“臟數據”,這就使得數據預處理工作成為數據挖掘前期重要的步驟。只有對預處理過的數據進行數據挖掘,數據挖掘工作才會科學有效。

1 數據提取

數據預處理的前期工作是對所需要的數據進行提取。圖書館信息系統中存在著大量的讀者信息、圖書信息、讀者借還數據、圖書借還數據、讀者檢索數據等,因此數據提取工作也是相對較為繁瑣的。下面給出所提取數據的重要字段結構表(本文所提取的數據是西北大學圖書館ILAS系統中的部分數據)。

讀者信息表主要包括讀者姓名、讀者證號(區別讀者的唯一標志)、性別、院系、部門等。讀者信息表結構如表1所示。

表1 讀者信息表結構

圖書信息表記錄了館藏圖書的題名、分類號、索取號、ISBN號、條碼(區別圖書的唯一標志)等。圖書信息表結構如表2所示。

表2 圖書信息表結構

借還信息表主要記錄了借閱和歸還兩個過程的讀者以及圖書信息,包括讀者姓名、讀者證號、圖書題名、圖書條碼、還書時間等。借還信息表結構如表3所示。

表3 借還信息表結構

2 數據預處理

數據源的獲取、數據獲取和信息集成等相關研究為數據預處理提供了基礎。根據數據挖掘的需求,將相關的多源數據集成融合后,需要進行多種數據預處理操作。數據預處理的主要流程包括數據清理、數據集成和融合、數據變換、數據規約以及在數據挖掘結果的評價計劃基礎上進行的二次預處理的精煉。數據預處理的基本流程如圖1所示。

2.1 數據清理

數據清理工作是數據挖掘準備工作中最耗時耗力的工作,但也是最重要的工作。最初獲得的原始數據往往是夾雜著很多錯誤的、有噪聲的、空白的、缺失的或者冗余的數據。數據清理工作就是將這一部分數據加以處理。

圖1 數據預處理基本流程圖

在圖書館信息系統中獲得的數據源,主要需要做的工作是刪除錯誤值、補充空缺的信息以及修改部分不吻合的值。本次從圖書館信息系統中共獲得借閱數據6798條,圖書數據6704條,讀者數據621條。其中借閱數據中有借閱失敗的冗余數據以及與數據挖掘工作無關的屬性值,而讀者數據中有讀者名稱空缺專業名稱錯誤等信息都需要進行處理。表4是某一時間段西北大學圖書館圖書借閱原始信息表dbo.BorrowHistory中的數據。

表4 讀者原始借還信息表

如表4所示,該原始數據記錄了某一時間段讀者的借閱信息,其中szMemo屬性列記錄了借閱失敗的信息,我們可以通過編寫SQL語句對bResult屬性值為False的行進行刪除。同時,可以刪除我們數據挖掘工作不需要的屬性列,如對bBooking列與szRead列進行刪除。得到讀者借還信息表如表5所示。

表5 讀者借還信息表

2.2 數據融合與變換

本文所用到的讀者信息與讀者借還信息是分別處于兩個數據表中的單獨數據,我們需要利用SQL語言將這兩個表進行融合與變換。文中表5為數據清理后的讀者借還信息表,表6為數據清理后的讀者信息表,將讀者信息表中的讀者姓名即Reader-Name屬性列與讀者單位Company屬性列增加到讀者借還信息表中,得到加了 ReaderName屬性與Company屬性的讀者借還信息表,如表7所示。

表6 讀者信息表

表7 加了ReaderName屬性與Company屬性的讀者借還信息表

續表7

2.3 數據規約

一般數據庫中的數據表都很龐大,為了節約運算時間,我們需要對其進行規約。規約以后的數值將比原值小很多,但卻保持了原值的完整性。規約技術使得數據挖掘更加有效可行。利用圖書信息表、讀者信息表、借還信息表清理融合后得到表7所示的讀者借還信息表。該讀者借還信息表所記錄的讀者借閱記錄中,圖書的屬性有條碼號、書名以及索取號。其中條碼號為識別圖書的唯一標志,也就是說每本圖書的條碼號都是唯一的。而書名和索取號則可能相同,索取號由于記錄得比較詳細不利于數據挖掘的運算,我們把圖書的索取號即szBookIndex屬性進行規約。將圖書按中圖法的22個大類進行劃分,得到增加了新屬性szCategory的讀者借還信息表,如表8所示。

表8 規約后的讀者借還信息表

3 結語

數據挖掘技術近幾年已經開始應用于數字圖書館,利用數據挖掘方法中的聚類分析可以將讀者按閱讀興趣、借閱次數等進行分類。利用數據挖掘方法中的關聯規則可以為讀者提供個性化的推薦服務,如將讀者可能喜歡的圖書進行推薦,或者將可能流行的書推薦給采購人員。以上所說的數據挖掘技術的應用都離不開對數據的預處理。因此數據的預處理工作既是數據挖掘工作的基礎,也是數據挖掘工作中相對重要的步驟。數據預處理是數據挖掘工作科學有效的基礎。

[1]Han Jiawei,Kamber Micheline.數據挖掘:概念與技術[M].北京:高等教育出版社,2001.

[2]謝邦昌.數據挖掘Clementine應用實務[M].北京:機械工業出版社,2008.

[3]Tan Pang - Ning,Steinbach Michael,Kumar Vipin.數據挖掘導論:完整版[M].北京:人民郵電出版社,2011.

[4]高建煌.個性化推薦系統技術與應用[D].中國科學技術大學計算機應用技術,2010.

猜你喜歡
數據挖掘圖書館信息
探討人工智能與數據挖掘發展趨勢
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書館
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
去圖書館
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国产在线小视频| 国产在线自乱拍播放| 亚洲日韩久久综合中文字幕| 91色综合综合热五月激情| 嫩草影院在线观看精品视频| 东京热高清无码精品| 不卡午夜视频| 又猛又黄又爽无遮挡的视频网站 | 国产毛片一区| 狠狠ⅴ日韩v欧美v天堂| 亚洲精品午夜天堂网页| 99精品欧美一区| 国产91麻豆免费观看| 精品无码人妻一区二区| 欧美乱妇高清无乱码免费| 亚洲日韩国产精品综合在线观看| 亚洲人精品亚洲人成在线| 就去吻亚洲精品国产欧美| 伊人久久大线影院首页| 亚洲日韩高清在线亚洲专区| a毛片基地免费大全| 97视频精品全国在线观看| 久久精品丝袜| 香蕉视频国产精品人| 91区国产福利在线观看午夜| 免费A∨中文乱码专区| 国产精品永久在线| 伊人成人在线| 欧美综合一区二区三区| 国产欧美日韩综合在线第一| 蜜桃视频一区二区| 久久大香伊蕉在人线观看热2| 伊伊人成亚洲综合人网7777| 乱人伦视频中文字幕在线| 国产丝袜无码一区二区视频| 国产AV无码专区亚洲精品网站| 亚洲乱码精品久久久久..| 国内精品小视频在线| 久久久久无码精品| 亚洲三级片在线看| 99精品在线看| 久久人午夜亚洲精品无码区| 99在线视频网站| 国产成年无码AⅤ片在线| 国产日本视频91| 蜜桃臀无码内射一区二区三区| 免费国产一级 片内射老| 国产黄色视频综合| 国内精品一区二区在线观看| 一级毛片免费观看不卡视频| 亚洲精品无码成人片在线观看| 成年人福利视频| 日韩欧美中文字幕在线韩免费| 欧美黄网在线| 中文毛片无遮挡播放免费| 久久福利网| 精品少妇人妻一区二区| 欧美福利在线观看| 欧洲高清无码在线| 一区二区三区成人| 国产三级韩国三级理| 久热re国产手机在线观看| 99re热精品视频国产免费| 伊伊人成亚洲综合人网7777| 成人在线观看一区| 国产成人免费视频精品一区二区 | 小13箩利洗澡无码视频免费网站| 色偷偷综合网| 成人在线亚洲| 日本爱爱精品一区二区| 亚洲天堂成人| 国产精品亚洲а∨天堂免下载| 欧美亚洲国产精品第一页| 小说 亚洲 无码 精品| 九九久久99精品| 午夜精品区| 色综合婷婷| 久久99精品国产麻豆宅宅| 国产白浆在线| 无码日韩精品91超碰| 欧美一级特黄aaaaaa在线看片| 亚洲日韩在线满18点击进入|