魯 萍 張駿毅
1(西安建筑科技大學理學院 陜西 西安 710055)2(西安建筑科技大學圖書館 陜西 西安 710055)
基于讀者借閱相關信息的決策資源建設方案作為圖書館一種新型資源建設模式近年來成為研究熱點。將讀者的閱讀需求量化成一定指標,并以此確定購入的文獻[1]。其中讀者的借閱記錄是體現讀者需求的一個重要因素,也是影響未來資源建設策略的關鍵指標。通過對已掌握數據的分析,建立一套行之有效的預測機制,從而對讀者未來的閱讀需求做一個科學合理的預判。研究基于已有的借閱記錄預測未來的借閱情況,可以為資源建設提供合理參考[2]。目前的研究多限于粗線條的框架,對細節研究較少,如具體的預測算法以及影響因素分析等[3]。本文基于數據特征分析,建立了不同周期模式下的預測機制,分別探討BP神經網絡模型和GM(1,1)模型的應用,對比分析后得到關于預測機制的合理建議。
通過對館藏流通規律的分析,利用三年前入藏圖書的借閱記錄作為分析樣本,在此基礎上建立圖書采購模型最為合理[4]。以西安建筑科技大學圖書館2013年-2015年的讀者借閱數據為樣本數據進行研究分析。按照中圖分類號對圖書各個分類數據進行整理,因數據龐雜本文僅以TU類(建筑科學)為例。除去2月和8月的寒暑假期,一年的有效借閱數據為10個月。以月為單位對讀者借閱人次的數據進行統計如圖1所示,上下浮動變化較大,明顯是非單調變化。以學期為單位統計讀者借閱人次如圖2所示,大體呈線性變化。

圖1 TU類按月讀者借閱人次統計

圖2 TU類按學期讀者借閱人次統計
BP神經網絡模型和灰色系統模型均可用于研究數據規律并進行預測。BP神經網絡模型適用于呈現非線性的大量數據的預測和分析,而灰色系統模型適用于數據量小,趨近于線性變化的波動較小的數據[5]。結合上述讀者借閱數據分析,在不同時間跨度上進行預測可以選用不同的模型。以月為單位進行預測選用BP神經網絡模型,以學期為單位用灰色系統模型。
BP神經網絡是一種具有多層感知器的前饋網絡,網絡含有輸入和輸出結點以及一層或者多層隱含結點,采用誤差反向傳播的學習訓練算法調整連接權。BP神經網絡的訓練過程:選擇一組訓練樣本,樣本中包含輸入信息和期望的輸出結果;從訓練樣本中取一個樣本,把樣本中的輸入信息輸入到網絡模型中;分別計算經神經元處理后的各層結點的輸出值,計算網絡的實際輸出與期望輸出的誤差;如果誤差達到要求,則退出,否則繼續執行下一步。從輸出層反向計算到第一個隱層,按照能使誤差減小的原則調整網絡中各神經元的連接權值和閾值,對訓練樣本集中的每個樣本都執行前兩步的操作,直到對整個訓練樣本集的誤差達到要求為止[6]。
本次選取2013年1月到2015年 12月建筑科學(TU)的30組數據作為訓練樣本。其中,前25組數據用于BP神經網絡學習訓練,后5組數據用于預測誤差分析。設置最大訓練次數為5 000次。
Step1輸入訓練樣本。
輸入樣本P=[1,2,…,30],其中1,2,…,30分別表示2013年1月到2015年12月對應的時間序列。需要對神經網絡的輸入輸出數據進行歸一化處理。
Step2創建初始的神經網絡。
設置神經網絡的訓練參數,設置最大步長、神經網絡的學習率以及誤差指標。
Step3進行神經網絡訓練,并對訓練好的網絡進行誤差檢驗。
Step4進行仿真預測。
產生輸入數據,對輸入數據做歸一化處理,進行數據預測。本次計劃預測未來1年內的10個數據,便于2種預測模型進行誤差對比。
基于神經網絡模型進行預測,得到2016年1~12月的10組數據。以1月為例,如圖3所示。

圖3 基于BP神經網絡模型的預測結果
對每類數據進行誤差分析,用2016年中有效的10個月數據進行數值計算,利用預測值和真實值計算平均誤差,定義誤差公式如下:
(1)
式中:aik表示第i類圖書第k個月借閱人次;gik表示第i類圖書第k個月的累計借閱人次的預測數據,其中k=1,2,…,N分別表示2016年N個月;εi定義為第i類圖書的平均預測誤差。
依據式(1),計算得到各類圖書的平均誤差值如圖4所示。對比原數據和仿真數據可以看出平均相對誤差幾乎都在合理范圍之內(<10%),說明預測效果比較理想。利用該模型可以合理預測出未來一年每月的讀者借閱人次。預測數據可以為決策模型的建立提供可靠的基礎數據。

圖4 BP神經網絡模型預測平均相對誤差
灰色預測模型常用于少量數據、短期內的預測。對讀者借閱人次按照中圖分類法以學期為單位進行劃分,得到每一類6個數據,去除了假期的影響,同時避免存在孤點影響數據的整體預測效果[7]。由于預測分組較多,無法對每一組數據進行一一說明,本次預測以TU類數據為例,構建基于GM(1,1)的借閱預測模型。
Step1檢驗數列的非負性。對原始數據X進行累加處理,得到單調的序列數列S。
由TU類原始數據得到S=[2 7057 48 654 70 672 93 537 113 873 135 647]。
Step2檢驗數列S是否滿足準光滑性。對累加數列S依照式(2)做光滑性檢測,求出滿足準光滑條件的最小k。
(2)
其中:X原始數據列;S是累加數據列。
在對S做光滑性檢測得到:ρ(k=2)=0.79,ρ(k=3)=0.45,ρ(k=4)=0.32。顯然,當k等于3時ρ(k)<0.5,所以當k>2時,準光滑條件滿足。
Step3作緊鄰均值計算,生成新的數列Z:
(3)
將數列S代入并做緊鄰均值生成,得到數列Z=[37 860,59 660,82 100,103 710,124 760]。

(4)
(5)

通過2013年到2015年的讀者借閱數據建立的灰色預測模型得到2016年的按中圖分類號劃分的每學期數據如圖5所示。

圖5 基于GM(1,1)模型的預測結果
使用2013年到2015年按學期劃分的數據建立灰色系統預測模型。計算出2015年兩個學期讀者人次預測結果,對依照中圖分類的每類數據進行綜合誤差分析,利用預測值和真實值計算整體誤差,定義誤差公式:
(5)
其中:bi表示第i類圖書2016年1月到6月的累計借閱人次;gi表示第i類圖書2016年1月到6月的累計借閱人次的預測數據;μ為各類圖書的平均權值預測誤差;N表示圖書種類數。
用西安建筑科技大學2016年1月到6月的數據進行計算得到結果μ=0.077 9,說明預測合理。圖6顯示了對每一類圖書的平均相對誤均在10%左右,預測效果相對比較滿意,可以作為決策模型的一個依據。

圖6 GM(1,1)模型預測結果的平均相對誤差
對BP神經網絡預測模型和GM(1,1)預測模型的預測結果進行分析。首先需要統一度量標準,將BP神經網絡算法中按月時間周期轉換為按學期的時間周期,再與GM(1,1)模型誤差進行橫向對比[8]。具體步驟如下:
Step1利用BP神經網絡得到按月的每一類擬合值之后,將擬合值按著每學期的時間序列進行累加,得到BP神經網絡的按學期的擬合值,對其進行相對誤差計算[9]。
Step2利用灰色系統得到按每學期劃分的時間序列的擬合值,對擬合值進行相對誤差計算。
Step3對轉換成相同時間序列的相對誤差進行橫向比較。
由圖7對比兩種預測模型得出的結果后,發現這兩個結果之間的相對誤差都在5%左右,從而更加驗證了使用兩種預測模型的合理性和正確性。

圖7 兩種方法誤差比較
通過重新分割數據,選取部分數據作為預測方法的訓練數據用于建立模型,選取剩余數據作為樣本真實值,分別計算未來3組數據、2組數據以及1組數據的預測誤差。由表1和表2數據可知。對未來1組數據,BP神經網絡預測算法誤差小于GM(1,1)預測誤差,即預測的準確性更高。對未來第2組數據,GM(1,1)的預測誤差小于BP神經網絡算法,但是二者的誤差都較大,已經不適用于進一步使用。未來第3組數據誤差非常大。由此可知,BP神經網絡算法和GM(1,1)算法都可以用于預測未來一學期的各類圖書借閱人次,BP神經網絡算法整體誤差低于GM(1,1)算法。用待預測學期之前臨近的數據可以提高預測的準確性。

表1 BP神經網絡算法預測誤差
基于讀者信息的圖書館資源建設策略需要對已有數據進行分析,使用合理的預測方法對資源需求進行預測。本文對圖書館近三年的讀者借閱數據進行分析,依據數據以月為周期和以學期為周期的不同規律,分別使用了BP神經網絡模型和GM(1,1)模型對讀者借閱人次進行預測。對每種方法分析了結果誤差,最后進行綜合對比分析,給出了關于兩種預測方法的使用的合理化建議,用于指導未來一學期的建設計劃。根據實際需求,還可以進一步改進算法,使預測結果更加準確合理。在資源的多樣性預測方面可進一步討論,為圖書館的資源建設綜合策略提供有力的支持[10]。