徐杰
摘要:對用戶數據進行挖掘可以優化圖書館文獻采訪,利用用戶借閱數據可以指導采購資金分配,利用用戶檢索數據可以獲知讀者需求文獻,利用用戶預約數據可以補充館藏文獻。基于用戶數據挖掘的圖書館文獻采訪決策模式有3種,分別為應用決策樹的分類分析、應用數據群組的聚類分析和應用數據挖掘的關聯分析,來指導圖書館文獻采訪決策。提出基于用戶數據挖掘的圖書館文獻采訪決策模式實現思路為,采用點面結合方式、定位文獻采訪方向,應用數據挖掘技術、輸出文獻采訪重點,多維度挖掘用戶數據、提高文獻采訪有效性。
關鍵詞:讀者用戶;數據挖掘;公共圖書館;文獻采訪;決策模式
DOI: 10.3969/j.issn.2095-5707.2018.02.007
中圖分類號:G253 文獻標識碼:A 文章編號:2095-5707(2018)02-0028-04
Abstract: Mining user data can optimize literature acquisition of libraries. Using user lending data can guide the allocation of procurement funds. Using user search data can retrieve reader-required literature. Using user booking data can supplement the collection of literature. Based on user data mining, there are three kinds of decision-making modes in literature acquisition of libraries: classification analysis of applied decision tree, the cluster analysis of applied data groups and the association analysis of applied data mining, ,which can guide the decision-making in literature acquisitioning of libraries. The realization ideas of decision-making modes of literature acquisition of libraries based on user data mining are using point-by-surface approach to position literature interview direction, applying data mining technology to output literature acquisition focus, and multi-dimensionally mining user data to improve the effectiveness of the literature acquisition.
Key words: reader users; data mining; public libraries; literature acquisition; decision modes
圖書館文獻采訪是公共圖書館館藏建設的首要內容,也是為廣大讀者用戶提供良好服務的資源基礎。圖書館文獻采訪,是指圖書館在綜合考慮已有的資金經費、讀者需求、館建性質等因素的前提下,不斷補充與完善館藏資源的過程。圖書館文獻采訪不僅包括紙質版的中外文圖書文獻與報刊資料,在數字信息化普及的當今,也包括數字資源和信息資源的采訪。公共圖書館文獻資源的采訪質量在很大程度上決定著圖書館的服務水平,直接影響著讀者的閱讀效果和公共圖書館的工作任務完成效
率,因此圖書館文獻采訪工作要最大化契合讀者用戶的閱讀需求,在圖書館進行文獻采訪工作之前,要對讀者用戶的數據進行挖掘,通過大數據分析方法得到讀者閱讀喜好的客觀數據,進而開展有針對性、有目的性的文獻采訪,在圖書經費有限的情況下,最大化滿足讀者用戶的閱讀要求[1]。
1 用戶數據挖掘在圖書館文獻采訪中的應用
對于圖書館而言,讀者用戶的數據可以分為三類:用戶借閱數據、用戶檢索數據和用戶預約數據,圖書館通過對這三類數據的跟蹤統計及挖掘分析,可以指導文獻采訪的資金分配、購買傾向、資源配置優化等工作。
1.1 利用用戶借閱數據指導采購資金分配
首先,圖書館可以利用管理系統集成的統計功能對讀者用戶的借閱數據進行跟蹤統計,再利用數據挖掘技術和分類聚類方法對收集到的數據進行分析,可以清晰地看出讀者用戶借閱各大類文獻資源的情況和趨勢變化,了解讀者用戶閱讀喜好與閱讀傾向,把握讀者對各大類別文獻資源的需求量,進而預測新一輪的圖書館文獻采訪工作的側重點,并將有限的經費有計劃地投入到各類文獻的采買預算中。對于借閱量較大的資源文獻,可以適當增加購買比例,對于零借閱量的圖書或資源,則可適當減少購買數量或停止采訪??傊?,以讀者借閱數據為基礎,合理分配采訪資金,可以有效避免圖書館采訪工作中出現的主觀性和片面性錯誤,有利于提高館藏資源利用效率。表1是安徽蚌埠禹會區圖書館近兩年來用戶借閱統計表[2],由表可知,利用用戶借閱數據指導采購資金的分配,有利于提高圖書館采訪工作的時效性,對優化圖書館文獻采訪工作具有重要作用。
1.2 利用用戶檢索數據獲知讀者需求文獻
基于用戶數據挖掘的內容還包括用戶在檢索文獻過程中產生的記錄數據,圖書館自動服務系統利用數據挖掘關聯技術,對讀者用戶的檢索數據進行全面捕捉、關聯、采集和整理,排除冗余的、無規律的隨機干擾性信息,整合成為具有一定規律性的用戶文獻檢索數據,并將讀者關注度較高的檢索關鍵詞和主題詞進行使用次數的降序排列,再從中分析出讀者用戶喜愛度較高的熱門文獻與圖書。圖書館經過挖掘用戶檢索數據獲知的熱門閱讀文獻和圖書可以看做是讀者用戶迫切需要的資源,是讀者閱讀需求的直觀體現[3],因此,基于用戶數據挖掘的檢索數據分析結果可以指導圖書館采訪決策方向,圖書館在用于文獻采訪工作有限的經費基礎上,優先采購讀者檢索頻率高、需求量大的資源文獻。
1.3 利用用戶預約數據補充館藏文獻
讀者用戶預約服務是指讀者借閱某種借出狀態或空缺狀態的圖書時,讀者可以選擇預約,當圖書處于在架狀態,預約讀者享有優先借閱的權利。一般來說,讀者預約借閱圖書的原因有二,一為館藏復本量不足,二為館藏文獻欠缺。用戶數據中的預約數據真實反映了讀者對某類圖書的閱讀需求,因此,圖書館對讀者預約數據進行統計,根據讀者預約次數,形成預約熱點的文獻書目表,增加預約頻率較高的文獻的復本量,并制定符合實際的采訪計劃,確定復本的采購數量,同時,通過監控用戶預約數據的實時變化,圖書館可以靈活調整文獻采訪措施,從而加強圖書館的文獻資源保障能力[4]。
2 基于用戶數據挖掘的圖書館文獻采訪決策模式
圖書館的文獻采訪系統是一種決策的過程,因此基于用戶數據挖掘的圖書館文獻采訪決策模式設計可以結合決策樹分類分析、數據群組聚類分析、數據挖掘關聯分析等決策模型。
2.1 用決策樹分類分析指導圖書館文獻采訪決策
決策樹是一種常用的數據分析方法,可以對數據進行精準的分類和趨勢預測。圖書館通過對用戶數據的收集,制作用戶數據的流程圖樹結構,每一個內部節點表示一個屬性的數據,分支則代表測試輸出,用戶數據的決策樹節點則代表數據類別[5]。以用戶借閱數據為例,圖書館使用決策樹方法將讀者借閱圖書的數據按照活躍程度進行分類,當圖書館需要新書文獻采訪時,則可以通過決策樹對新書文獻進行借閱程度的預測而得到采訪決策的結果。應用決策樹的分類分析指導文獻采訪,具有計算規則簡便、能夠同時處理不同類型數據的優勢。然而,由于讀者數據的多樣性和復雜性,在應用決策樹分類分析進行預測和指導文獻采訪時,容易出現計算錯誤增加和較難預測連續數據的缺點。
2.2 用數據群組聚類分析指導圖書館文獻采訪決策
在對用戶數據收集過程中,圖書館可以通過數據群組的方式首先對讀者數據進行聚類劃分,如借閱數據、檢索數據和預約數據,對聚類群組內的數據出現的頻段進行降次排序,得到熱門流通文獻圖書的結果。其次,綜合不同聚類數據群組,若干個群組交集的文獻圖書則為最受讀者歡迎或最熱門的文獻資源,進而采用數據關聯技術,定位與高頻率借閱圖書具有相似主題的資源,并作出下一階段的圖書館文獻采訪決策計劃。這種聚類分析指導下的圖書館文獻采訪具有較高精準性,可以將圖書館已有的借閱表、圖書表等數據考慮在內,增強了圖書館采訪計劃的全面性。此外,也兼顧到讀者檢索閱讀的個體性,即在聚類分析過程中,從群組的角度出發,設定了一定的數據取值,只有相關的同類數據才能更好地、更準確地衡量此維度的價值,因而應用群組聚類分析指導的圖書館文獻采訪決策對圖書館個性化服務也具有一定作用[6]。
2.3 用數據挖掘關聯分析指導圖書館文獻采訪決策
數據關聯是指對2個或2個以上的多個變量進行整合,發現取值之間的某種規律,進而關聯起來的一種數據處理手段。用戶數據被納入圖書館數據分析庫中,則可以對數據進行預測性組合,這種數據挖掘的關聯分析主要目的在于探尋讀者與圖書館文獻之間存在的潛在關系,例如在進行新書采訪或評估之前,可以把新書簡介發給部分讀者,收集這一部分的讀者反饋,篩選興趣度較高的讀者,再通過數據挖掘技術,發現與該類讀者存在隱藏關聯的B類讀者,將同樣的圖書文獻發送給B類讀者,獲取B類讀者興趣值,經過不斷地對用戶數據關聯分析,可以綜合評價采訪圖書的利用率和實際效用,從而知道圖書館做出合理的圖書文獻采訪決策。
3 基于用戶數據挖掘的圖書館文獻采訪決策模式實現思路
結合上述關于用戶數據與圖書館文獻采訪決策機制的分析,筆者從操作層面提出點面結合分析用戶數據,定位文獻采訪方向;應用數據挖掘技術,輸出文獻采訪重點;多維度挖掘用戶數據,提高文獻采訪有效性3個實現思路,以完善基于用戶數據挖掘的圖書館文獻采訪決策模式構建。
3.1 采用點面結合方式,定位文獻采訪方向
圖書館在文獻采訪決策過程中可以采用點面結合的方法對圖書文獻進行科學的篩選。在點的層面上,圖書館可以抽樣分析個體用戶數據,調取個體用戶一段時間內的借閱、檢索活動產生的數據,分析數據變化趨勢,掌握個體用戶的閱讀偏好與習慣。在面的層次上,圖書館則可以以群組或某一類讀者為研究對象,通過對用戶數據的分類分析,結合圖書館館藏圖書分布情況,對圖書的讀者需求進行排序,對讀者閱讀度較高的圖書歸類,再結合圖書館的采訪經費情況,篩選出急需購買的文獻優先采購。總之,圖書館在基于用戶數據挖掘進行文獻采訪決策時,可以采用點面結合的方式全面分析讀者的閱讀需求,將讀者的閱讀數據與圖書館的采訪機制有機地結合起來[7]。
3.2 應用數據挖掘技術,輸出文獻采訪重點
數據挖掘技術普遍應用于分析數據庫中的數據來解決實際問題,針對圖書館文獻采訪決策工作,圖書館可以按照數據挖掘的方式對用戶數據進行分析。具體來說,圖書館可以通過自動化管理系統獲取一段時間內的借閱數據、書目數據、檢索數據以及數據來源,分析各類數據中出現頻率較高的關鍵詞或主題等,產生量化的分析數據,然后再將圖書館文獻資源采訪的需求進行量化輸出,計算圖書文獻采訪權重系數,用此來表示下一階段圖書館采訪工作的重點,更精準地開展圖書采訪工作。
3.3 多維度挖掘用戶數據,提高文獻采訪有效性
圖書館可以根據個案調查對比的定性研究和大數據調查的定量研究兩方面入手,從多角度和多維度去分析用戶數據,深刻理解讀者的閱讀需求和潛在興趣點,形成可供圖書館文獻采訪決策使用的信息情報源,從而為優化圖書館文獻采訪工作提供科學依據。此外,圖書館可以結合本館館藏結構、特色資源等情況,合理分配有限的資金經費,綜合考慮用戶數據中的因子分析,廣泛將數學建模等科學方法融合到圖書館文獻采訪決策過程中,并以具體的圖書館為案例,在實踐中不斷完善基于用戶數據挖掘的圖書館文獻采訪決策模式的可行性與有效性,形成一套具有實際操作效用的圖書文獻采訪模式,并加以推廣和擴大宣傳[8]。
4 小結
用戶數據挖掘就是從大量的、不規律的、有噪聲的隨機數據中提取隱含其中的規律,這些規律為圖書館的文獻采訪決策工作提供潛在的、有用的信息指導。通過對用戶數據的挖掘計算,可以指導圖書館指導采購資金分配、使圖書館獲知讀者需求文獻以及及時補充館藏資源。隨著圖書館網絡化和信息化的發展,越來越多圖書館開通了網絡主頁,讀者可以自行登錄賬號進行借閱、預約等操作,因此,圖書館可以利用自動化管理系統對讀者操作痕跡進行記錄,儲存到用戶數據庫中。為了充分應用讀者用戶在流通借還、書目檢索、網絡訪問過程中產生的數據,圖書館在進行文獻采訪決策時,可以應用決策樹的分類分析方法、數據群組的聚類分析方法和數據挖掘的關聯分析方法對用戶數據有序篩選和排列,指導圖書館文獻采訪的方向與重點,為圖書館文獻采訪的資金分配和文獻配置提供科學的量化依據。
目前,我國公共圖書館在文獻采訪決策方面尚存在不足,只有從讀者需求出發,充分做好讀者閱讀意愿調查,才能夠真正做到“每位讀者都有書”和“每本書都有讀者”的統一。基于用戶數據挖掘的圖書館文獻采訪決策模式建設,既能夠充分滿足讀者的閱讀要求,又能夠在最大程度避免資源文獻的浪費與閑置,提高館藏利用率。因此,圖書館要在實踐中不斷豐富自身的文獻采訪決策模式構建思路,提高文獻采訪有效性,將成功的圖書館文獻采訪決策模式推廣出去。
參考文獻
[1] 時海燕.數據挖掘在公共圖書館管理工作中的作用分析[J].辦公室業務,2016(21):189-190.
[2] 尹斌.數據挖掘技術在圖書館創新服務中的應用探討[J].電子技術與軟件工程,2016(2):195.
[3] 袁芳.大數據環境下圖書館文獻資源建設模式的變革[J].圖書情報工作,2015,59(18):91-94.
[4] 張宏偉,史惠媛.數據挖掘在高校圖書館文獻采購決策中的應用——以黑龍江中醫藥大學圖書館為例[J].中國中醫藥圖書情報雜志,2016, 40(2):22-24.
[5] 李碩,石麗紅,呼忠權,等.序列模式挖掘技術在數字圖書館中的應用[J].農業圖書情報學刊,2015,27(7):40-43.
[6] 俞錦梅.數據挖掘在國內圖書館應用領域研究綜述[J].圖書與情報, 2015(2):137-141.
[7] 楊杰.大數據環境下的公共圖書館采訪策略[J].圖書館學刊, 2015(3):44-46.
[8] 趙研科.基于數據挖掘的高校圖書采訪決策系統設計與實現[D].長沙:湖南大學,2012.
(收稿日期:2017-11-03)
(修回日期:2017-11-17;編輯:魏民)