林曉霞 劉敏 楊曉東
摘要:高校圖書館數據日益增加,為了更好地利用海量圖書館數據,加強圖書館自身建設、滿足讀者需求,基于山東科技大學圖書館數據,利用FP-Growth算法進行學科間關聯分析、借閱圖書分布分析、借閱量分析及圖書流通量分析,并提出相應對策。結果表明,基于FP-Growth算法對圖書館數據進行關聯分析,可以及時發現隱藏的規則和信息,為圖書館建設提供決策支持,提高圖書利用率,更好地滿足讀者需求。
關鍵詞:
關聯規則;FP-Growth算法;高校圖書館;流通量
DOIDOI:10.11907/rjdk.181994
中圖分類號:TP391
文獻標識碼:A 文章編號文章編號:1672-7800(2018)008-0198-04
英文摘要Abstract:With the increasing number of data in university libraries, in order to make better use of the huge data to strengthen the library construction and meet the needs of readers. Based on multi-dimensional data of Shandong University of Science and Technology library, this paper uses the FP-Growth algorithm to conduct the association analysisbetween the disciplines, borrowing book distribution analysis, borrowing volume analysis and book circulation analysis, and proposes corresponding countermeasures. The results show that the correlation analysis of library data can discover existing rules and information in time, provide decision support for library construction, increase the utilization rate of books and better meet readers' needs.
英文關鍵詞Key Words:association rules;FP-Growth algorithm;university library;liquidity
0 引言
隨著信息化的高速發展,高校圖書館資源日益增多,讀者需求不斷提高。目前,國內外高校圖書館為了加強自身建設,更好地滿足讀者需求、輔助教學科研,采用關聯規則技術對圖書館數據進行分析。關聯分析技術能夠反映讀者需求及目前圖書館存在的問題,從海量數據中挖掘隱含的規則和信息[1-4]。
國外較早把關聯分析技術應用于圖書館數據分析。如庫伯[5]對加州大學數字圖書館使用記錄進行分析,掌握了讀者行為差異;Kovacevic 等[6]對讀者搜索歷史進行分析,提出高校圖書館個性化推薦服務。Ahmad[7]通過對圖書館事務日志數據分析,挖掘了影響讀者行為的因素。國內2004年以來開始將關聯分析應用于高校圖書館如徐淑琴[8]在對圖書館數據分析的基礎上,明確了讀者閱讀傾向,并提出了相應的采購策略;侯蕾[9]通過對山東大學醫學圖書館圖書借閱數據進行統計分析,掌握了讀者閱讀趨向,提高了讀者服務質量;李宏運[10]基于FP-Growth算法對棗莊學院圖書館管理系統進行分析,提出了優化館藏的建議。以上研究雖然一定程度上改善了圖書館建設,但目前還沒有較全面的研究。
本文將關聯規則技術與高校圖書館建設工作結合,運用FP-Growth算法從多維角度分析圖書館數據,通過發現學科間的規則、圖書分布分析、借閱量分析、流通量分析等,為圖書館工作人員提供決策建議,更好地發揮高校圖書館在高校中的作用,滿足讀者需求。
1 FP-Growth算法
FP-Growth算法是一種關聯規則算法[11-14],2000年由Han等學者提出,與其它關聯分析算法相比,該算法具有多種優點,目前被廣泛地運用于多個領域。
1.1 相關概念
頻繁項集:如果項集的支持度超過用戶給定的最小支持度閾值,則稱該項集是頻繁項集[16-17]。項目個數為k,則該項集為k-項集。
關聯規則由支持度和置信度共同約束,支持度和置信度越高,關聯規則越強。
1.2 算法步驟
FP-Growth算法主要有兩個步驟:
(1)構造頻繁模式樹(Frequency Pattern-Tree, FP-Tree),掃描數據庫D,計算每一項支持度。如果該項支持度大于設定的最小支持度,則把該項作為頻繁項保留在數據庫中,并且按支持度大小順序排列,再分別讀取每一條事務并映射到 FP-tree的路徑上,如此重復,直到數據庫中的每條事務都在FP-Tree上形成完整路徑,FP-Tree即構造完成。為了方便遍歷FP-Tree,創建項頭表。
(2)挖掘FP-Tree中所有頻繁項集。該操作是算法核心。在挖掘FP-tree 時,按照葉子結點到根結點的順序搜索FP-tree,并且依次為結點創建條件模式基,根據創建的條件模式基構建條件模式樹,挖掘頻繁模式,進而得到頻繁項集。
FP-Growth算法步驟如圖1所示。
1.3 FP-Growth算法優點
(1)與其它關聯規則技術相比,FP-Growth算法通過FP-tree 數據結構對原始數據進行壓縮,只需掃描原始數據庫兩遍,運行效率較高。
(2)不需要產生候選集,減少了產生和測試候選集需要的時間。
(3)FP-Growth算法性能比較穩定,即使最小支持度降低,所需時間也不會發生突變性增加,而且該算法對于不同長度的規則有很好的適應性。
(4)與其它關聯規則算法相比,FP-Growth算法在硬件的開銷小于其它的算法。
本文根據具體情況設定支持度和置信度,得到滿足最小支持度和最小置信度的規則,即得到的定性定量信息對圖書館建設工作給予一定的數據支持,使高校圖書館加強自身建設,更好地服務于高校教學科研工作和讀者。
2 基于FP-Growth算法的高校圖書館數據分析及對策
本文選取山東科技大學圖書館的借閱數據,將數據范圍尺度定位于7 197 名學生的借閱記錄,數據時間跨度為2012年9月-2017 年7月,共100 986條借閱記錄,涉及283 568本圖書。校圖書館數據包括讀者信息表、借閱記錄表、圖書信息表,本文基于讀者維、圖書維、借閱維3個維度挖掘隱含的規則和信息。
中圖分類法是我國圖書館普遍采用的分類法[18-20],共5個基本部類、22個大類,每大類分別用一個大寫字母表示,根據圖書不同屬性,每大類下又分成若干類。本文只保留分類號的第一位,進行22類圖書中存在的隱含關系的關聯分析。
將讀者信息表、借閱記錄表、圖書信息表進行處理。讀者信息表的專業和學院信息對關聯分析非常重要,因此對單位進行空值檢測,填充空缺值。剔除借閱記錄表中對分析無用、冗余的數據,刪除異常值,簡化數據表以提高運算速度。同時檢測圖書信息表中的中圖分類號,填充空缺值。根據需要,將各表進行數據集成,再從多方面對山東科技大學圖書館數據進行關聯分析。
2.1 學科關聯分析
關聯分析需要設置最小支持度和最小置信度,經反復測試,設置最小支持度為30%,最小置信度為80%,獲得圖書間的關聯規則,部分規則如表1所示。
從表1可以看出,各圖書類之間有隱含的關聯關系,如在置信度最高的一條規則中:[A,H]→[G]的支持度為67.8%,借閱A(馬克思主義)與H(語言)的同時還借閱G(文化)類圖書,置信度為95.5%,即A(馬克思主義)與H(語言)、G(文化)三類學科中存在很強的關聯關系。[T]→[G]的支持度為14.1%,即借閱T(工業)的讀者還會借閱G(文化),說明該類學科間也存在關聯關系。
教研部門可據此找到學科下一步發展方向。同時,圖書館管理人員可以把關聯性強的圖書放在同一區域或同一書架上,既方便圖書館工作人員對圖書進行管理,又可方便讀者借閱。
2.2 被借閱圖書分布分析
對借閱記錄數據表進行關聯分析,統計各類圖書被借閱次數,關聯分析結果如圖2所示。
由圖2可以看出,T類書籍借閱最多,借閱次數高達25 367次,其次是I類、F類,此三類是讀者頻繁借閱的圖書種類。最少借閱的是V類、U類、S類,被借閱次數非常少。可以發現目前高校圖書館存在圖書借閱嚴重不勻的問題。學生借書具有專業性,基本上以借閱專業類圖書為主,所以圖書借閱種類與本校區專業也有一定關系,本校區有信息系、經管系、文法系,因此T類、I類、F類圖書借閱較多。
在圖書采購時,圖書館應與本校專業相結合,綜合各專業教學計劃,精準定位預購置的圖書,加大T、I、F三類圖書采購比重。除了本專業課程必備書籍外,學生還借閱大量和考試相關的資料,比如計算機等級考試、四六級英語考試、會計考試、司法考試等,因此圖書館還可適當增加此類資料的采購。
2.3 借閱量分析
借閱量能夠反映圖書館的作用,對山東科技大學2013-2016年的圖書借閱量進行統計分析,分析結果如圖3所示。
根據分析結果可以看出, 2013年借閱量達到24 758冊,2014年借閱量為22 754冊,2015年為19 083冊,2016年的借閱量僅14 441冊,2016年紙質圖書的借閱量只有2013年的58%,圖書借閱量呈逐年下降趨勢。
為提高圖書館紙質文獻借閱率和讀者閱讀興趣,高校圖書館應積極采取措施,改善服務水平,提升讀者滿意度,增強讀者到館借閱文獻的意愿,改善借閱量逐年下降的現狀。
2.4 圖書流通量分析
圖書館館藏中存在很多未被借閱的圖書,造成嚴重資源浪費。未被借閱圖書比例如圖4所示。
由圖4可以發現很多圖書未被借閱,其中,T、F、I類未被借閱的書最多,資源浪費非常嚴重。由于技術更新換代較快,入藏圖書由于陳舊過時或利用率低等原因失去了使用價值。比如,T類圖書技術更新換代很快,圖書很容易過時,導致該類圖書利用率極低,所以該類圖書資源浪費最嚴重。
圖書館要與時俱進,及時補充新書、更新圖書、及時剔除老、舊、殘及過時書籍。相對于文科類圖書,如I(文學)類,往往具有很大的收藏價值,不易過時,可以在館藏中加以保留。
3 結語
本文以讀者借閱記錄、圖書信息、讀者信息等多維數據為基礎,利用FP-Growth算法發現隱含的關聯規則,找出目前圖書館存在的隱含問題,并提出相應對策,對加強建設圖書館,滿足讀者需求具有重要意義。但在圖書挖掘時,只精確到一級類目,沒有細分圖書分類,在后續的研究工作中將進一步提高挖掘精度,更精確地為高校圖書館分析隱含的的問題,提出更切實可行的建議。
參考文獻:
[1] 崔妍,包志強.關聯規則挖掘綜述[J].計算機應用研究,2016,33(2):330-334.
[2] 張璽.數據挖掘中關聯規則算法的研究與改進[D].北京:北京郵電大學, 2015.
[3] 陳淑英,徐劍英,劉玉魏,等.關聯規則應用下的高校圖書館圖書推薦服務[J].圖書館論壇,2018,38(2):97-102.
[4] SAHOO J, KUMAR DAS A, GOSWAMI A. An efficient approach for mining association rules from high utility itemsets[J]. Expert Systems With Applications, 2015,42(13):5754-5778.
[5] COOPER M D. Usage patterns of a web-based library catalog[J]. Journal of the American Society for Information Science and Technology, 2001,52(2):137-148.
[6] KOVACEVIC A. Using data mining to improve digital library services[J]. Electronic Library, 2010,28(6):829-843.
[7] AHMAD P, BROGAN M.The E-book power user in academic and research libraries: deep log analysis and user customisation[J]. Australian Academic & Research Libraries, 2014,45(1):35-47.
[8] 徐淑琴.基于讀者閱讀傾向的高校中文圖書利用統計與分析——以寧夏師范學院圖書館為例[J].圖書館理論與實踐,2014(10):26-28.
[9] 侯蕾.基于借閱數據分析的讀者閱讀傾向及服務對策[J].圖書館學刊,2012,34(12):90-92.
[10] 李宏運.關聯規則挖掘在圖書館管理中的應用[D].上海:華東師范大學,2009.
[11] ZENG Y ,YIN S Q,LIU J Y,Research of improved FP-growth algorithm in association rules mining[J]. Scientific Programming, 2015,3:9-16.
[12] 婁書青.并行FP-growth關聯規則算法研究[D].長沙:電子科技大學,2016.
[13] 厙向陽,張玲.基于Hadoop的FP-Growth關聯規則并行改進算法[J].計算機應用研究,2018,35(1):109-112.
[14] WANG C H,LI Z,YU X. Using fuzzy FP-Growth for mining association rules[C].2017 International Conference on Organizational Innovation, 2017:1-5.
[15] 雷雪麗.FP-growth數據挖掘算法的研究[D].西安:西安理工大學,2016.
[16] 姜云龍. 基于數據挖掘的高校大學生讀者閱讀趨向研究[D].長春:東北師范大學,2016.
[17] 章志剛,吉根林.一種基于FP-Growth的頻繁項目集并行挖掘算法[J].計算機工程與應用,2014,50(2):103-106.
[18] 孫毅芳.基于數據挖掘的圖書館推薦系統的設計與實現[D].濟南:山東大學,2017.
[19] 石雨晴.基于中圖-專業分類映射的高校圖書館圖書推薦方法的研究與實現[D].沈陽:遼寧大學,2017.
[20] 夏興通.我國圖書營銷分類法行業標準的編制與實施研究[D].武漢:武漢大學,2010.
(責任編輯:江 艷)