曹 流,韋 相,王 晶
(1.中國石油大學地球科學學院大數據研究所,北京 102200;2.紅河學院工學院,云南蒙自 661199)
聚類分析是通過計算樣本的距離并按照某種標準將樣本劃分成若干不相交的子集。大多數的聚類算法都需要事先確定聚類數。然而,目前常用的一些聚類有效性指標都存在著一定缺陷,對圖書館用戶進行聚類研究時應使用何種聚類指標、如何確定最佳聚類數也尚無確切方法。
文章引用聚類有效性指標——G A 指標(Generalization Ability),該指標可以對當前聚類結果的泛化能力進行評價來判斷聚類結果的優劣,計算流程如圖1所示[1]。借用GA指數計算結果來確定圖書館用戶最佳聚類數是一種可行的有效方法,計算過程及結果如圖2所示。

圖1 GA指標計算流程圖
由圖2可知,圖書館借閱用戶聚類時的最佳聚類數為3。采用基于歐式距離的K-means聚類,以借閱次數為聚類中心,將借閱用戶分為了三類(惰性用戶、一般用戶、活躍用戶),如表1所示。

表1 用戶聚類示意表

圖2 不同K值下的GA指數圖
分析發現,對于惰性用戶,在大學四年里總共借書5.425 本,每年平均借書約1.35 本;對于一般用戶,四年共借書31.41 本,每年平均借書約8 本;而對于活躍用戶,四年共借書115.441 本,每年平均借書約28.86 本。
經過分析,不同類別用戶數量的分布情況和分類比例可以看出,惰性用戶占多數,達到42%,活躍用戶占比最少,占21%,三類用戶占比約是4:4:2,符合二八定律。
綜上所述,圖書館管理層可根據圖書館用戶活躍程度的差異,分析這三類用戶不同的個性化閱讀需求,提出相應的個性化策略,提高圖書館藏利用率。例如,每當購進新書時,可以通過信息推送的方式將新到圖書推薦給圖書館的活躍用戶以提升館藏利用率;又或者,針對圖書館活躍用戶的個性化需求,以信息推送、問卷調查等形式與活躍群體保持聯系,獲取不同方面的信息反饋以改進圖書館服務、圖書購買計劃等。
關聯規則是指支持度和置信度分別滿足給定閾值的規則。支持度是指同時包含A和B的事務占所有事務的比例;置信度表示包含A的事務中同時包含B事務的比例,即同時包含A和B的事務占包含A事務的比例。
該算法用于超市訂單分析時,能夠確定顧客在一次購物中可能一起購買的商品,挖掘不同商品之間的聯系、顧客購買行為之間的關聯。因此可以認為關聯規則能夠分析圖書館被借閱圖書之間的關聯性[2],引導圖書擺放、圖書購置等工作,提高圖書借用率。
依照中國圖書分類號,設定支持度閾值為0.05對表2所示項集進行第一次篩選。

表2 一元項集支持度
由表2得到一元頻繁項集結果:['T','G','K','O','B','H','I']。
再對一元項集進行排列組合,得到二元項集,如表3所示:

表3 二元項集支持度
再設定二元項集支持度閾值為0.05,對表4項集進行篩選,得到二元頻繁項集,形成了關聯規則:[['T','H'],['T','I'],['G','H'],['G','I'],['K','B'],['K','H'],['K','I'],['O','H'],['O','I'],['B','K'],['B','H'],['B','I'],['H','T'],['H','G'],['H','K'],['H','O'],['H','B'],['H','I'],['I','T'],['I','G'],['I','K'],['I','O'],['I','B'],['I','H']]。

表4 二元項集置信度
根據中國圖書分類號,T表示工業技術類,H表示語言文字類,I表示文學,關聯規則['T','H']表示借閱了工業技術類書籍的用戶,很大程度上也會借閱語言文字類書籍;關聯規則['T','I']則表示借閱了工業技術類書籍的用戶,很大程度上也會借閱文學類書籍。
綜上所述,借助關聯規則可以引導圖書館的圖書排放、圖書購置等工作,提高圖書館的工作效率。例如,將工業技術類書籍和語言文學類書籍擺放在同一借閱區域;或是在用戶使用自助借閱系統、電子借閱系統借閱工業技術類書籍時,自動推薦語言文學類書籍以提高其他圖書的借閱率。
讀者喜歡借閱哪類圖書,受到什么因素的影響,一直是圖書館和出版社關注的焦點。通過對紅河學院圖書館2004年到2018年,共14年所有圖書借閱次數進行統計,獲取歷年理工類和文史類最受歡迎(被借閱次數最多)的20本書,并對這類圖書進行文本分析。因表格較多,且得到的是一些共性的規律,因而主要對2004年、2006年、2008年、2010年、2012年、2014年、2016年和2018年的統計數據進行分析。這里以2004年為例:

表5 2004年理工和文史類借閱次數前二十名圖書
通過對2004年的借閱數據進行分析發現,對于理工類而言,學生借閱最多的數學類書籍,占20本理工類書籍的65%、其他的是物理類、計算機類和化學類相關專業平臺必修課的參考書籍;對于文史類而言,借閱的書籍主要分為2類:(1)英語考試和寫作類的書籍,分別是排名第1的《大學英語三級考試指導與練習》和排名第3的《大學英語四級考試90分突破詞匯必備》,以及排名第10的《應用文寫作范例大全》;(2)任課教師推薦的經典小說,比如排名第2的《塵埃落定》、排名第7的《茶花女》、排名第16的《巴黎圣母院》、排名第17《鋼鐵是怎樣煉成的》和排名第19的《外國短篇小說百年精華》。對于2006年、2008年、2010年、2012年、2014年、2016年和2018年的數據統計和分析結果,詳見與補充材料。
結合所有分析結果可知:該校在2006年時的借閱書籍還以網絡小說為主,而從2008年開始經典名著的借閱次數便開始逐步上升。從2010年開始,國內外名著的借閱次數排名開始全面占優且一直持續到2018年。同時,從2014開始逐漸有了與教師行業相關的圖書借閱記錄。結合實際情況,十一五期間是我國圖書館轉型發展的重要時期,業界和學界都積極響應了國家政策,大力推動我國圖書館的發展、讓圖書走進各級各類學校,從紅河學院圖書館的借閱記錄發展變化中也可見一斑。此外,也可以看出國家“多讀書,讀經典”的號召取得了不錯的效果,讀者的閱讀素養在隨時間變化不斷提高。
圖書館和出版社可以借助該項研究,結合第1章的用戶聚類結果分析不同用戶群體的需求方向,擴大出版書籍的受眾面,并在出版策略上更加積極的向國家政策靠攏。也可以結合第2章的關聯規則算法分析高頻借閱書籍的關聯書籍,仔細考究高頻借閱書籍與其關聯書籍的擺放,提高其他書籍的借閱率。
時間序列分析研究一組真實數據在長期變化過程中存在的統計規律,通過揭示該規律來了解所要研究的動態系統,得出預測模型,解決實際問題或提高決策水平[3]。
通過一系列的數據處理和檢驗后,使用ARMA模型[4]對未來借閱趨勢進行預測,如下所示,圖6上圖是2005—2018年原始借閱數據趨勢圖;圖6下圖藍線表示2016年—2018年原始借閱數據趨勢圖,紅線為預測值,不難看出除陡然上升的特殊數值外,其他預測值與實際值擬合較為準確。
由圖3可以發現紙質書籍借閱量在2007年至2009年間達到頂峰,隨后開始大致保持下跌趨勢,直至2016年迅速回升,隨后再次下跌。主要原因如下:

圖3 借閱趨勢預測模型圖
(1)紅河學院在2016年新建圖書館,隨后借閱量陡然上升,從中可以看出一個良好、舒適的學習環境,有利于提高學生學習積極性和自覺性。
(2)而從總體趨勢不難看出,紙質圖書的借閱逐年降低。通過了解發現,電子圖書因其便捷的獲取方式,逐漸成為同學們快速獲取信息的方式,因此對紙質圖書的借閱帶來了不可避免的沖擊,導致學生紙質圖書的借閱逐年降低。
綜上所述,圖書館可以借助時間序列相關分析提高電子書籍的館藏占比,結合第1章與第2章的研究內容將電子書籍以信息推送的方式推薦給活躍用戶群體,提高圖書借閱率;或者合理安排服務人員配置,在借閱高峰來臨前安排好人員配置、清潔打掃和圖書回收整理等工作,以便在人流高峰時間提供更為優質的服務。度過高峰后便可以減少人員配置、降低清潔頻率等,降低人力成本和日常開支。
對文章內容總結如下:
(1)通過基于GA指標的聚類分析算法得到了圖書館用戶的最佳聚類數為3,以借書量1.35本、8本、28.86本為聚類中心將借閱用戶分為了惰性、一般、活躍三類,可以結合關聯規則、文本分析等算法對圖書館用戶進行詳細畫像以支撐其他研究或圖書館決策;
(2)通過關聯規則算法得到了被借閱圖書之間的關聯性,例如借閱了工業技術類書籍的用戶,很大程度上也會借閱語言文字類書籍,該項研究可以引導圖書館的圖書排放、圖書購置等工作,提高圖書館的工作效率;或是在用戶使用自助借閱系統、電子借閱系統借閱工業技術類書籍時,自動推薦語言文學類書籍以提高其他圖書的借閱率;
(3)通過統計和文本分析發現了專業區別、教師引導及政策導向對學生圖書借閱存在關鍵作用。可以借助該項研究,結合用戶聚類結果分析不同用戶群體的需求方向,擴大出版書籍的受眾面,并在出版策略上更加積極的向國家政策靠攏。也可以結合關聯規則算法分析高頻借閱書籍的關聯書籍,仔細考究高頻借閱書籍與其關聯書籍的擺放,提高其他書籍的借閱率;
(4)通過時間序列算法分析了該校圖書館2007年至2019年的借閱趨勢變化,發現電子圖書對紙質圖書的沖擊導致紙質圖書借閱量呈現總體下降的趨勢以及閱讀環境對圖書借閱量有著一定影響,并給出了借閱趨勢變化預測和提高電子書籍館藏占比的建議。該算法可以與聚類分析和關聯規則的研究內容相結合,將電子書籍以信息推送的方式推薦給活躍用戶群體,提高圖書借閱率;或者合理安排服務人員配置,在借閱高峰來臨前安排好人員配置、清潔打掃和圖書回收整理等工作,以便在人流高峰時間提供更為優質的服務。度過高峰后便可以減少人員配置、降低清潔頻率等,降低人力成本和日常開支。
以上四個結論有助于圖書館管理層或出版社從用戶群體、用戶需求、時間緯度等不同角度針對不同用戶個性化需求,提出相應的個性化服務策略;也可以結合多個算法給予圖書館及出版社決策層以大數據支撐,準確提出圖書刊印、購買計劃,從而提高圖書館藏利用率和工作效率。