999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘技術的高校圖書館用戶行為模式應用研究*
——以南京工業大學為例

2017-01-04 06:07:57呂丹丹
圖書館研究 2016年6期
關鍵詞:數據挖掘關聯圖書館

呂 遠,呂丹丹

(1.南京工業大學信息服務部,江蘇南京211800;2.南京工業大學教學事務部,江蘇南京211800)

基于數據挖掘技術的高校圖書館用戶行為模式應用研究*
——以南京工業大學為例

呂 遠1,呂丹丹2

(1.南京工業大學信息服務部,江蘇南京211800;2.南京工業大學教學事務部,江蘇南京211800)

數據挖掘技術在眾多行業領域已得到廣泛應用,圖書館行業也在積極探索利用大數據分析加強和提高自身業務和服務水平?;跀祿诰蛩惴ê痛髷祿治觯敿毞治隽舜髮W生在校期間在圖書館的借閱行為模式,并得到了一系列模型結果。這些結果可為圖書館為師生提供有針對性的個性化服務提供相應的決策支持,加快圖書館服務方式由被動服務向以用戶需求驅動的主動服務方式的轉變。

數據挖掘;圖書館;數據清洗;關聯分析;分類分析

“大數據”的概念最早由全球最有影響力的咨詢公司麥肯錫提出,經過幾十年的發展,大數據理論體系已相當完備,現已成功廣泛應用于商業領域當中。

由于知識傳播與利用形式不斷變化,各種新技術機制在知識創造、組織、傳播和應用中扮演著越來越重要的角色[1],使得傳統的知識服務體系難以滿足新形勢下的各種新需求。當下的知識服務不局限于圖書館自身的基礎服務體系,更包括結構化和非結構化的海量數據的深度分析、競爭力分析、創新力分析、預測性分析等高附加值服務,為服務用戶提供有價值的決策支持和智慧服務。

筆者基于大數據技術充分挖掘學生在校期間在圖書館的借閱行為模式,得到了一系列結論模型。這些結果可以為圖書館提供更加量化的數據支撐和決策支持,實現圖書館知識服務模式和管理方式的轉變。

1 數據倉庫與數據挖掘技術介紹

1.1 數據倉庫

數據倉庫(Data Warehouse)一詞首先由IBM公司研究員Barry Devlin和Paul Murphy于1988年提出,目的為解決企業的集成問題。1992年,目前公認的數據倉庫之父Bill Inmon對數據倉庫做了如下定義:數據倉庫就是面向主題的、集成的、穩定的、不同時間的數據集合,用以支持經營管理中的決策制訂過程[2]。自此,整個社會真正拉開了數據倉庫得以大規模應用的序幕。數據倉庫的構架如圖1所示。

圖1 數據倉庫構架圖

1.2 數據挖掘

數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數據挖掘技術可以分為預言(Predication)和描述(Description)兩大類。具體包括關聯分析、序列模式、分類、聚集、異常檢測等技術,它們分別從不同的角度對數據進行挖掘。下面簡單介紹本文中用到的數據挖掘技術:

(1)關聯分析。關聯分析作為一種無監督機器學習方法(Unsupervised Learning),是數據挖掘中最常用的方法之一。它的核心在于發現存在于大量數據集中的關聯性或相關性,從而揭示出一個事物中某些屬性同時出現的規律和模式。關聯分析的嚴格定義如下[3]:

令為一個文字符組成的集合,每個文字符號代表一個項目,由一個或一個以上的項目組成的集合稱為項目集。令數據庫D是由一群交易T所組成的集合,每個T為一個項目集,代表交易記錄,TI,每個交易記錄有一個唯一的編碼,稱為TID。如果Xl且XT,則定義T包含X。以圖書館的應用來看,每一本書就是一個交易項目,一個讀者在一段時間內來圖書館借閱館藏圖書的集合就是一筆交易。

關聯規則挖掘最終希望找出數據庫D中所有支持度和置信度大于最小支持度和最小置信度的規則,其中最小支持度與最小置信度的閾值可由使用者設定。

(2)分類分析。分類分析是一種有監督機器學習方法(Supervised Learning)。它通過對已知類別訓練集的分析,為每個類別建立分類分析模型,然后用這個分類分析模型對數據庫中的其他記錄進行分類,以此預測新數據的類別,描述重要數據類的特征或預測未來的數據趨勢。

分類分析的輸入集是一組記錄集合和幾種類別的標記。每一條記錄包含若干條屬性(attribute),組成一個特征向量。訓練集的每條記錄還有一個特定的類標簽(類標簽)與之對應。該類標簽是系統的輸入,通常是以往的一些經驗數據。一個具體樣本的形式可為樣本向量在這里Vi表示字段值,C表示類別。常用的分類算法有決策樹算法、貝葉斯網絡、神經網絡算法、遺傳算法等。

2 圖書館讀者行為模式數據挖掘

2.1 確立數據挖掘的主題和目標

本文以南京工業大學2012級本科生為研究對象,分兩個維度分別對讀者在圖書館的借閱行為進行數據挖掘:分析四年期間(2012~2016年)讀者在圖書館的使用情況;運用關聯分析算法和分類算法對讀者的行為模式進行進一步挖掘。

2.2 建立數據倉庫

南京工業大學圖書館的匯文管理系統是基于Oracle(以下簡稱SQL)數據庫系統,其中有很多數據表。本研究需要從其歷史借閱記錄表、圖書MARC表、讀者基本信息表、讀者證件表中利用SQL語句導出需要的屬性列,并且經過進一步的清洗、合并、整理、格式轉換,以備使用。

原始讀者表中有846 845條數據,MARC表中604 896條數據,證件表中140 093條數據,借閱表中有625 473條數據。借助于VBA程序和SQL語句,進行以下數據清洗操作:將研究對象限定為2012年至2016年在校本科生;將借閱時間限定在2012年9月1日之后;為便于以時間特性為指標進行數據挖掘,將借閱時間拆分為年、月、日、分、周5個屬性列;由于原始數據中學院屬性列的值非常不統一,有的是專業名,有的是班級名,因此需對學院屬性列進行重新填充值;為便于以圖書類別為指標進行數據挖掘,將索書號拆分為大類(索書號首位)和小類(索書號前兩位)兩個部分;為后續關聯分析方便,將讀者7天之內的借閱行為視為一次“購物籃”行為,即認為讀者在這7天之內的借閱行為具有連續性,并且在借閱記錄表中增加最常用索書號小類屬性列(共183個圖書小類,選取出現頻率大于100以上的小類,共76個);對臟數據做進一步清洗整理,包括空值、空格、重復記錄、特殊字符等。

之后,將數據導出至Navicat和Spss中,得到下面三類數據:館藏圖書表bookinfo(共計520 131條數據);借閱記錄表lendhist(共計165 287條數據);讀者基本信息表readerinfo(共計6 318條數據)。

2.3 數據挖掘并分析結果

基于之前建立的數據倉庫,利用Spss和Clementine軟件[4-5],分別從兩個維度對圖書館讀者的行為習慣進行挖掘,并找出相關數據之間的聯系。

2.3.1 圖書館使用情況數據分析

根據讀者的特性,分別以性別、學院、年級為指標,借助于直方圖或餅狀圖進行大方向的分析,了解讀者行為上的大致趨勢,并且可以根據需要加上圖書大類和小類的指標,對不同專業讀者、學院的借閱喜好做進一步的分析。

數據顯示,男生更偏向借閱的前三類圖書依次為T、O、I,女生則更偏向借閱I、T、O。根據中圖法,T代表工業技術類圖書、O代表數理科學和化學類、I代表文學類。這說明女生更偏向借閱一些文藝類圖書,而男生則對理工科圖書更感興趣,圖書館在采購相關圖書的時候可以在這幾大類圖書上適當傾斜。

各年借閱量數據顯示,2013年圖書借閱量最大,而這一年正好是大一下學期到大二上學期這一段時間,2016年最少,也就是大四下學期這段時間。針對大一上學期、大二下學期和大三的同學,圖書館可多組織一些推廣活動,采取積極有效的措施吸引他們前來借閱,增加這一類用戶群的使用黏度。

分別以月、周、小時為時間指標進行分析,可以看出,讀者在3月和9月借閱量最大,這跟剛剛開學有關。另外,臨近考試周期間借閱量也有較大增長。一周之內,前三天的借閱量最大,占到一周總借閱量的幾乎一半的比例。而在一天的時間段里,20點、17點、16點這三個時間段借閱量最大。圖書館可以根據這些數據,合理調配人員,優化資源配置,降低人力成本。

各個學院由于專業不同,對各個圖書大類的需求存在很大差別,如建筑學院對T類圖書需求最大,外語學院對H類圖書需求最大,法學院對D類圖書需求最大。另外學生從大一到大四,對O類圖書的需求逐漸減少,而對T類圖書的需求則逐漸增多。從月份和圖書大類關系可以看出T類圖書三月份需求最大,而八月份所有圖書的需求量都是最小的。圖書館可以根據這些挖掘出的信息對不同學院不同專業的學生和老師提供個性化服務,提高學生自主學習的學習效率。

2.3.2 讀者行為模式分析

基于之前建立的數據倉庫,運用分類算法和關聯分析算法,挖掘數據中隱藏的信息,這些信息有些是明顯的,但更多則是很容易被決策者忽略的現象,這些現象可為決策者提供重要的參考依據。筆者利用的分析工具是Spss Modeler(Clementine)。

(1)分類分析。決策樹算法是分類分析算法中的一種,數據流如圖2所示。筆者將利用該算法對性別、大類和月份之間的關系進行挖掘。將借閱歷史記錄導入Spss Modeler中之后,在建模選項卡下選擇C5.0(即C&R Tree)模型建模,[Fields]中輸入[Target]為[大類],[Inputs]為[月份]、[性別],執行后如圖3所示(Viewer顯示):

圖2 決策樹算法數據流圖示

圖3 決策樹圖示

可以看出男生在圖書館更傾向于借閱T類圖書,而女生的借閱行為在不同月份有明顯差別,在暑假剛開學的一個月和學年的下學期期間更傾向于借閱I類圖書,其他時間段則更可能借閱T類圖書。這可能與剛開學期間沒有考試壓力,學生有時間借閱課外書以擴充知識面有關。

(2)關聯分析。關聯分析數據流如4圖示。筆者利用Apriori關聯分析算法對讀者借閱的圖書小類進行分析,找出與讀者借閱圖書關聯最緊密的圖書小類。通過這樣的挖掘,可以實現圖書的自動化推薦,也可以找出讀者對圖書類別喜好的傾向。

圖4 關聯分析數據流圖示

首先從Spss導入借閱圖書歷史數據,然后在Spss Modeler中建立相關模型。在Type節點中設置角色時,可不必設置目標字段,只需在“Apriori建?!惫濣c設置“后項”即可。另外需在過濾節點中將與關聯分析關系不大的字段過濾掉,如id、 cert_id、dept、location等字段。為在建模節點中設置后項字段時更具針對性,有必要再添加一個網絡節點,提前直觀地了解一下不同圖書小類之間關聯程度。

執行網絡節點,得到結果如圖5所示:

圖5 關聯分析執行結果之Web網狀圖示

在圖5中,線的粗細和顏色的深淺代表聯系的強弱,可以明顯地看到I2與I5、I2與B8、I2與H3有著非常強的關聯。

在建模選項卡下選擇“Apriori模型”節點,添加到數據流中。

設置該模型的最低條件支持度為5%,最小規則置信度為10%,執行結果如圖6所示:

圖6 關聯分析執行結果圖示1

設置該模型的最低條件支持度為5%,最小規則置信度為17%,執行結果如圖7所示:

圖7 關聯分析執行結果圖示2

設置該模型的最低條件支持度為5%,最小規則置信度為25%,執行結果如圖8所示:

圖8 關聯分析執行結果圖示3

根據中圖法,I2代表中國文學類,H3代表常用外國語類,I5代表各國文學,B8代表思維科學、邏輯學和美學。由上面執行結果可以看出,在借閱了I2類別圖書的情況下,會有26.525%的讀者借閱I5類圖書,18.56%的讀者借閱B8類圖書,16.836%的讀者借閱H3類圖書。這幾個類別的圖書都偏向于文科類圖書。同樣的過程,還可以分析其他類別圖書的關聯性,例如TP類別等。

2.4 應用知識

以上數據挖掘的結論可以作為圖書館開展服務的一個依據,在借書率較高的時間段,按需分配較多的人力資源,以緩解高峰借閱時間的人力不足,在借書率較低的時間段,可以適當減少值班人員,節約人力成本。

另外,在圖書館館藏布局方面,可將關聯度比較高的圖書大類排在一起,提升用戶體驗度,增加圖書的流通效率。

圖書館還可以依據以上分析結果,對不同專業、不同年級和不同學院的學生提供個性化服務,為他們推薦最相關的圖書;并且針對借閱量較低的年級和學院,可適當多開展一些推廣服務,一方面增加圖書館的服務品質,同時可以增加用戶對圖書館的使用黏度。

3 總結和進一步思考

對讀者在圖書館的行為模式進行數據挖掘的過程中,還有一些需要改進和注意的地方:

(1)本課題基于讀者的借閱歷史記錄、讀者個人信息、MARC信息建立的數據倉庫,實際上還有一部分用戶對圖書館的使用僅僅是查詢文獻信息,可能并沒有真正借閱書籍。因此為更精確地獲取讀者行為模式,還應加入讀者在圖書館各個閱覽室(包括電子和期刊閱覽室)的登記信息、OPAC系統的查詢日志記錄等。

(2)由于高校學生對互聯網依賴度較高,圖書館主頁是大部分用戶對圖書館資源使用的第一入口,因此可通過對圖書館主頁服務器的日志和各個欄目下的點擊量進行數據分析,獲取用戶對圖書館電子資源的使用情況。

(3)本課題數據倉庫建立的過程較為曲折,很大程度上是由于匯文管理系統的限制和圖書館新生信息錄入時操作不規范造成,包括從匯文導出海量數據時出現的各種bug、新生基本信息中學院信息的缺失等,這些問題需要人工處理,工作量較大,同時也帶來了一定的數據誤差。

毫無疑問,數據挖掘技術在未來的時間必然是圖書情報領域應用的主流技術之一,為圖書館知識服務方式的轉變提供了新的思路,更是向數字化云圖書館轉變的一個強力助推器。盡管其也存在著一些亟待解決的問題,但隨著市場和信息技術的發展進步,這些爭議和難題都將得到清晰的解決方案。大數據技術在圖書情報界的應用發展還需要業界人員的共同努力。

[1]張曉林.研究圖書館2020:嵌入式協作化知識實驗室[J].中國圖書館學報,2012(1):11-20.

[2]INMON W H.Building the Data Warehouse,3rd Edition[M]. Indianapolis:John Wiley&Sons,Inc,2002.

[3]AGRAWAL R,IMIELINSKI T,SWAMI A.Mining association rules between sets of items in large databases[J].Acm Sigmod Record,1993(2):207-216.

[4]蕭文龍.實戰SPSS統計學[M].北京:中國水利水電出版社,2015.

[5]王國平,郭偉宸,汪若君.IBM SPSS Modeler數據與文本挖掘實戰[M].北京:清華大學出版社,2014.

(編發:王域鋮)

Research and Application of University Library User’s Behavior Model Based on the Data Mining Techniques:A Case Study of Nanjing Tech University Library

LV Yuan1,LV Dan-dan2
(1.Dept.of Information Service,Nanjing Tech University,Nanjing 211800,China; 2.Dept.of Teaching Affairs,Nanjing Tech University,Nanjing 211800,China)

Data mining techniques are widely used in many industry areas and the library industry also actively explores the application of big data analyses to strengthen its own business.Based on the data mining techniques,this paper analyzes the behavior model of undergraduate students during the four years in the library and makes a series of results.These conclusions can offer corresponding knowledge and decision supporting for library to provide personalized service to teachers and students,and accelerate the transformation from passive service mode to user needs driven active service mode.

data mining;library;data cleaning;relational analysis;classification analysis

G250

G250

2095-5197(2016)06-0108-05

呂遠(1988-),男,助理館員,碩士,研究方向:web開發、大數據技術;呂丹丹(1985-),女,助理研究員,碩士,研究方向:教育信息化、數據庫。

2016-10-21

*本文系南京工業大學圖書館研究基金項目(項目編號:NJTECHLIB201508)、南京工業大學宣傳部黨建與思想政治教育課題項目(項目編號:SZ20160316)成果。

猜你喜歡
數據挖掘關聯圖書館
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
探討人工智能與數據挖掘發展趨勢
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
奇趣搭配
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
飛躍圖書館
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
去圖書館
主站蜘蛛池模板: 毛片大全免费观看| 国产福利2021最新在线观看| jizz国产视频| 欧美一级黄片一区2区| 最新国产精品鲁鲁免费视频| 亚洲色偷偷偷鲁综合| 国产极品美女在线播放| 狠狠色综合网| 国产精品嫩草影院视频| 精品在线免费播放| 亚洲精品麻豆| 久久性妇女精品免费| 亚洲第一成年网| 日韩欧美中文字幕一本| 国产成人调教在线视频| 午夜限制老子影院888| 亚洲最新地址| 久久婷婷六月| 亚洲天堂网在线视频| 国产成人精品第一区二区| 亚洲精品桃花岛av在线| 伊人AV天堂| 无码久看视频| 欧美成人A视频| 亚洲精品成人福利在线电影| 国产视频你懂得| 国产办公室秘书无码精品| 99久久亚洲精品影院| 欧美一级大片在线观看| 国产精品视频白浆免费视频| 国产交换配偶在线视频| 无码中文字幕精品推荐| 福利一区三区| 欧美国产日本高清不卡| 国产一区二区人大臿蕉香蕉| 毛片免费在线| v天堂中文在线| 国产精品视频999| 国产精品欧美亚洲韩国日本不卡| 97se亚洲| 中文无码日韩精品| 成人免费黄色小视频| 国产簧片免费在线播放| 在线欧美日韩| 色婷婷狠狠干| 亚洲日韩精品综合在线一区二区| 丁香婷婷久久| 免费在线观看av| 永久毛片在线播| 97国产精品视频自在拍| 亚洲AV免费一区二区三区| 久久亚洲国产一区二区| 国产精品99在线观看| 国产视频a| 2022精品国偷自产免费观看| 免费看的一级毛片| 亚洲欧美成人综合| 91久久国产成人免费观看| 久久精品无码国产一区二区三区| 亚洲欧美一区二区三区图片 | 999国内精品久久免费视频| 尤物精品国产福利网站| 亚洲大学生视频在线播放 | 性色一区| 成人国产精品视频频| 久久青草免费91线频观看不卡| 久久国产热| 精品人妻AV区| 中文字幕在线看| 国产爽妇精品| 亚洲精品福利网站| www.av男人.com| 秋霞午夜国产精品成人片| 国内精品一区二区在线观看| 久久综合成人| 亚洲人成色77777在线观看| 国产三级精品三级在线观看| 蜜桃视频一区二区| 欧美精品色视频| 久久黄色毛片| 制服丝袜 91视频| 曰韩人妻一区二区三区|