摘 要:圖書借閱量是評價圖書館服務的重要參考指標,而數據分析與智能計算可以得到圖書借閱量與入藏量的某種擬合關系。通過數據降維處理與人工智能訓練,可以量化這種擬合。最后,對圖書館員提出相應的改善措施,進而提高圖書的借閱量。
關鍵詞:圖書;借閱量;智能計算;數據分析
基金項目:陜西省教育廳專項科研計劃項目(編號:16JK1521)。
0 引言
高校圖書館的圖書借閱量是評價其服務的重要參考指標,如何更好地服務高校師生閱讀,提高圖書館文獻資源的使用量,是圖書館員需要思考的重要問題。因此研究圖書館圖書借閱量的統計數據,分析其發展變化規律,對于圖書借閱量的管理工作具有重要意義。
國內諸多學者對圖書借閱量開展大量研究工作。田梅采用支持向量機作為建模工具,利用混沌時間序列理論對圖書借閱流量行為進行建模[1]。張惠玲為精準獲取各類圖書的剔舊書齡,構建圖書平均借閱次數和書齡之間的回歸模型[2]。鄒梅利用神經網絡技術,通過分析影響圖書借閱量的幾大要素得到最可靠的邏輯表達式,進而預測下年度的借閱量[3]。鄧奇強等對依據文獻老化定律,利用TP類圖書的老化曲線方程預測其借閱量[4]。李靜利用Excel函數,闡述了回歸方程的計算方法及圖書館借閱量的預測趨勢曲線[5]。
在上述研究中,已有學者采用智能計算方法,如支持向量機、神經網絡技術等,但這些方法技術依然存在一些缺點,在輸入數據維度較高時,容易導致其計算網絡結構臃腫,造成訓練擬合欠缺[6]。而數據降維方法可以優選出與目標因素關聯度較高的影響因素,從而剔除影響較小的指標,達到簡化學習網絡結構的目的。因此,本文混合數據降維和智能方法探討圖書借閱量計算。
1 圖書借閱量
圖書借閱量是全校師生借閱圖書的總冊次數,影響其數值的因素有很多,最為直接的即為圖書館新入藏的圖書數量。新入藏的圖書數量是由文獻資源建設部門進行調研后展開訂購工作,其采購工作主要是按照中圖法的22個基本大類進行。由于每年采購圖書的數量種類不同,因此每年這22個大類的新入藏圖書量也有相應的變化,從而直接影響到該年的圖書借閱量。而通過歷年的數據分析其規律變化,可以獲取到圖書借閱量與這22個基本大類圖書入藏量的某種擬合關系。
2 研究步驟
為了獲取上述這種擬合關系,文章通過數據分析與智能計算進行探討。研究步驟主要包括下述幾個方面:數據預處理,獲取歷年的圖書入藏量與借閱量;數據降維,將圖書入藏量的22個數據盡可能保留其特征分布的情況下,減少數據輸入數量;智能方法訓練,主要采用人工神經網絡等方法對已有數據進行訓練擬合;測試,將訓練好的人工神經網絡進行測試,驗證其正確性。
2.1 數據降維
數據降維是指高維數據化為低維度數據的操作,常用的數據降維方法有2種,灰色關聯分析與主成分分析,分述如下:
(1)灰色關聯分析:根據因素之間發展趨勢的相似或相異程度來衡量因素間關聯程度的一種方法。其計算步驟包括:a.確定參考數列和比較數列;b.無量綱化處理;c.求灰色關聯系數;d.求關聯度,即關聯系數的平均值;e.關聯度排序。
(2) 主成分分析:一種線性輸入降維技術,它的目的是將高維數據投影到較低維空間,即求得一個k維特征的變換矩陣,這個變換矩陣可以將特征從高維降到低維。特征向量都是正交的,通過求取樣本矩陣的協方差矩陣,可以獲得協方差矩陣的特征向量,構成變換矩陣。
2.2 智能方法訓練
智能方法訓練主要是對人工神經網絡進行訓練,通過已知的輸入數據和輸出結果(圖書借閱量)對人工神經網絡進行學習。常用的人工神經網絡有BP神經網絡以及近年興起的深度學習,分述如下:
(1)BP神經網絡:多層前饋神經網絡,信號前向傳遞,誤差反向傳播。根據預測誤差調整網絡權值和閾值。拓撲結構一般為3層的神經元單位組成,其訓練步驟包括:a.網絡初始化;b.隱含層輸出計算;c.輸出層輸出計算;d.誤差計算;e.權值更新;f.閾值更新;g.判斷算法是否結束,若沒有結束,返回b。
(2)深度學習[7]:深度學習架構由多層非線性運算單元組成,每個較低層的輸出作為更高層的輸入,可以從大量輸入數據中學習有效的特征表示。深度學習具有許多優點:a.實現高變函數等復雜高維函數的表示;b.減少計算的復雜度;c.人類大腦皮層的最好模擬;d.在類似的不同任務中重復共享使用。典型的深度學習模型有卷積神經網絡、DBN和堆棧自編碼網絡。
2.3 測試
為了檢驗智能方法計算的準確性,需要對數據進行測試,與真實結果比對后才能確定智能計算的有效性。一般將數據分為3個部分:訓練集(60%),驗證集(20%)和測試集(20%),其中訓練集和驗證集的數據用于智能方法訓練種,然后用沒有參加訓練的測試集數據對訓練好的智能方法進行計算獲取輸出結果,以此評價智能計算方法的優劣。
在得到訓練好的有效智能計算方法后,可以通過輸入今年預定采購的圖書入藏量計算相應的圖書借閱量,不斷調整22個大類圖書的入藏數量,將得到不同的借閱量值。因此,也幫助圖書館員進行服務整改措施,最終達到提高圖書借閱量的目的。
3 結論
文章通過數據分析與智能計算闡述如何研究圖書借閱量與入藏量的擬合關系。通過數據降維處理與智能方法訓練,可以量化這種擬合。在得到訓練好的有效智能計算方法后,可以通過輸入預定采購的圖書入藏量計算圖書借閱量。不斷調整這些圖書入藏數量,將得到不同的借閱量值,進而對圖書館員如何提高圖書借閱量有一定啟示。
參考文獻
[1]田梅.基于混沌時間序列模型的圖書借閱流量預測研究[J].圖書館理論與實踐,2013(7):1-3,26.
[2]張惠玲.基于書齡分析的圖書剔舊實證研究[J].圖書館論壇,2013,33(4):126-129.
[3]鄒梅.利用神經網絡技術預測圖書借閱量[J].蘭臺世界,2013(20):135-136.
[4]鄧奇強,熊燕,郭鋒.文獻老化在圖書館書目挖掘中的應用研究[J].圖書情報工作,2013,57(6):91-96.
[5]李靜.Excel函數圖表功能在文獻統計預測中的應用[J].內蒙古科技與經濟,2017(1):97-99.
[6]史峰,王小川,郁磊,等.MATLAB神經網絡30個案例分析[M].北京:北京航空航天大學出版社,2010:11-20.
[7]劉建偉,劉媛,羅雄麟.深度學習研究進展[J].計算機應用研究,2014,31(7):1921-1928.
作者簡介
馬微(1988-),男,漢族,陜西銅川人,碩士,助理館員,研究方向:數據分析,圖書情報。endprint