陳越華
摘 要: 由于高校圖書館圖書借閱流量具有一定的非線性特性,傳統的回歸分析、灰色模型等方法難以處理這種非線性時間序列問題,影響了預測精度。為了提高預測精確度,提出粒子群優化RBF神經網絡的圖書借閱流量預測模型。該方法以圖書館圖書借閱流量歷史數據進行RBF神經網絡建模,采用粒子群算法對RBF神經網絡參數進行優化,最后建立了圖書借閱流量動態響應模型。預測結果表明該模型預測結果合理,精度較高,為圖書館提高工作效率和服務質量提供了參考依據。
關鍵詞: 圖書借閱; 流量; 神經網絡; 粒子群優化
中圖分類號: TN911.1?34 文獻標識碼: A 文章編號: 1004?373X(2017)19?0115?04
Application of neural network in books borrowing flow forecasting for university library
CHEN Yuehua
(Library of Guangxi Teachers Education University, Nanning 530001, China)
Abstract: Since the university library borrowing traffic has a certain nonlinear characteristic, the traditional regression analysis, grey model and other methods are hard to deal with the nonlinear time series problem, which affects the prediction accuracy. In order to improve the prediction accuracy, a books borrowing flow prediction model based on RBF neural network optimized with particle swarm is proposed. The historical data of books borrowing traffic is used to model the RBF neural network. The particle swarm optimization algorithm is adopted to optimize the parameters of RBF neural network. The dynamic response model of books borrowing flow was established. The prediction results show that the model has reasonable prediction results and high prediction accuracy, which provides a reference for the improvement of working efficiency and service quality in library.
Keywords: books borrowing; flow; neural network; particle swarm optimization
0 引 言
高校圖書館在高校中扮演著很重要的角色,是高校的第二課堂,其主體職能就是為在校教師和學生學習研究提供資料查詢與書本借閱[1]。高校圖書的借閱流量反映在校的師生人數的規模、館藏資源的數量和質量、種類、需求之間的變化情況,圖書館借閱流量反映了圖書館紙質文獻與電子文獻的利用情況[2]。進行圖書借閱流量預測可以指導圖書館進行合理的人員和設備配置與資源建設,已引起圖書館管理和科研工作者的密切關注[3]。
圖書借閱流量受到師生人數、不同時間、館藏數量與質量、學校的學術氛圍等多種因素的影響,具有一定的周期性與規律性,對借閱流量進行準確預測,可以對圖書館進行科學、高效的管理和監控[4]。目前國內對圖書借閱流量預測研究多是運用回歸分析和灰色模型,這種基于線性時間序列的建模方法自身存在固有的缺陷,由于圖書館借閱流量受到多種因素的影響,是一個復雜的非線性動力學過程,線性預測模型不能很好地揭示其內在運行規律,因此影響了其預測精度[5]。神經網絡魯棒性很強,有著強大的非線性逼近能力,在非線性時間預測領域得到了廣泛的應用[6]。神經網絡有很多種,其中用得較多的有BP神經網絡與RBF神經網絡,RBF神經網絡結構簡單,非線性逼近能力強,運算速度快,應用極為廣泛[7]。但是RBF神經網絡在進行非線性預測時,網絡輸出權重、隱單元中心和寬度等參數直接影響預測精度。為了更精確地預測高校圖書館圖書借閱流量,在研究中利用粒子群優化算法(Particle Swarm Optimization,PSO)具有很強的并行處理能力,可以有效避免神經網絡陷入早熟收斂,從而搜索到最優的RBF神經網絡參數[8]。
針對傳統線性方法在進行高校圖書館圖書借閱流量預測中的不足,提出粒子群算法優化RBF神經網絡的高校圖書館圖書借閱流量預測方法(PSO?RBFNN)。結果表明,PSO?RBFNN提高了圖書館圖書借閱流量預測精度,可以及時把握圖書借閱流量的動態變化,對圖書館工作人員與設備配備動態管理、確定館藏資源建設的重點和方向,提高工作效率和服務質量提供了參考依據。
1 粒子群優化神經網絡
1.1 神經網絡
RBF神經網絡具有網絡規模小、學習速度快等優點,可以依據具體的問題來確定網絡的拓撲結構,通常包括輸入層、隱含層和輸出層,其學習速度和學習能力要優于應用最為廣泛的BP神經網絡[9]。RBF神經網絡輸入層由輸入數據的維數決定,通過輸入層使網絡與外界進行聯系;隱含層節點的基函數為高斯核函數,把輸入數據從輸入空間變換到隱含層空間;輸出層節點是簡單的線性函數,對輸入模式做出響應。網絡模型拓撲結構如圖1所示。
設RBF神經網絡有[n]個輸入節點、[m]個隱層節點和p(p通常等于1)個輸出節點,隱層節點是RBF函數。
RBF神經網絡的映射關系由如下兩部分組成:
(1) 從輸入層到隱含層的非線性變換:
[hi=exp-x-ci2σ2i, i=1,2,…,m] (1)
式中:[x]表示[n]維輸入向量;[ci]表示第[i]個RBF神經網絡隱節點的變換中心;[σi]表示RBF神經網絡隱節點非線性變換單元的寬度。
(2) 從隱含層到輸入層的線性合并:
[f(x)=j=1mhi(x)ωi] (2)
式中:[m]表示隱含層節點;[ωi]表示第[i]個隱節點與輸出節點的連接權重。
1.2 RBF神經網絡映射機理
在RBF神經網絡中,隱含層將輸入數據從輸入空間利用一種固定不變的非線性變換映射到一個新的高維特征空間內。隱節點的變換中心[ci]通常表現為一種局部敏感性,僅僅只對中心附近的輸入數據敏感,而非線性變換單元的寬度[σi]決定了數據減小的快慢,[σi]越小,則數據減小的速度越快,反之,[σi]越大,則減小的速度越緩慢,非線性變換單元的輸出需通過輸出層的權值[ωi]進行調整,從而得到期望輸出。由此可以看出,利用RBF神經網絡預測高校圖書館圖書借閱流量,預測的精度與網絡的輸出權重[ωi,]隱節點的變換中心[ci]及隱節點非線性變換單元的寬度[σi]的取值有著直接的關系,因此,要尋找出最優的[ωi,][ci,][σi]等參數。
在RBF神經網絡中,對于訓練樣本,通常取均方誤差[E]來評價神經網絡的性能。
[E=12i=1Nyi-f(xi)2] (3)
式中:[N]表示預測數據的個數;[yi]表示原始數據;[f(xi)]表示預測值。
從上述分析可知,指標[E]是關于[ωi,][ci,][σi]的函數,RBF神經網絡訓練就是針對訓練樣本,使誤差[E]趨于最小。
1.3 粒子群算法
在PSO中,將每一個個體視為高維特征空間的一個粒子,粒子們通過對最優粒子極值Pbest和全局極值Gbest進行跟蹤,不斷地進行迭代變換,最終找到自身的最優解。每一次迭代中,粒子均根據下列公式來更新自己的速度和位置:
[vid(i+1)=ω×vid(i)+c1×rand( )×Pbest-xid(i)+c2×rand( )×Gbest-xid(i)] (4)
[xid(i+1)=xid(i)+vid(i+1)] (5)
[ω=ωmax-(ωmax-ωmin)×NNmax] (6)
式中參數的意義具體見文獻[10]。
1.4 PSO優化RBF神經網絡參數過程
利用PSO優化RBF神經網絡輸出權重[ωi],隱節點的變換中心[ci]及隱節點非線性變換單元的寬度[σi,]具體步驟如下:
(1) 將RBF神經網絡的參數[ωi,][ci]和[σi] 組合成一個粒子,并初始化粒子群;
(2) 將經過初始化的粒子群反編碼成RBF神經網絡參數,并對神經網絡進行訓練,得到均方誤差[E;]
(3) 根據[E]對每個粒子的位置進行評價,并更新[ωi,][ci]和[σi;]
(4) 判斷均方誤差[E]是否最小,如果沒有達到最小值,則返回步聚(3),繼續進行迭代;如果誤差[E]達到最小值,則表明找到最優參數,結束網絡訓練,建立最優的RBF神經網絡模型。
PSO優化RBF神經網絡參數的具體流程如圖2所示。
2 PSO?RBF神經網絡的圖書借閱流量預測
利用粒子群算法對RBF神經網絡進行參數尋優,獲得更高的高校圖書館圖書借閱流量預測精度,PSO?RBF神經網絡的高校圖書館圖書借閱流量預測流程如下:
(1) 以天為單位提取圖書館的圖書借閱流量,計算模型的定階指數,得到滯后階數為7,這就意味著可以用前7天的圖書借閱流量來預測第8天的圖書借閱流量。
(2) 將采集的高校圖書館圖書借閱流量的相關原始數據隨機分成訓練集和測試集,利用訓練集對PSO?RBF神經網絡進行訓練,建立預測模型,利用測試集對建立的預測模型進行驗證。
(3) 原始數據歸一化處理。為了提高PSO?RBF神經網絡模型的運算速度和預測精度,對采集到的原始數據進行歸一化處理,處理公式如下:
[x′i=xi-xminxmax-xmin] (7)
式中:[xmin]和[xmax]分別表示指標的最小值和最大值。
(4) 采用訓練集對RBF神經網絡進行訓練,在學習過程中采用PSO進行RBF神經網絡參數尋優。
(5) 用訓練后的PSO?RBF神經網絡模型對高校圖書館圖書借閱流量測試集進行預測,得到預測結果。
3 仿真試驗
3.1 數據來源
以某高校圖書館圖書借閱流量進行試驗,從流通日志監測系統終端提取原始數據,收集到的原始數據時間區間為2014年1月1日—2015年12月31日的實測圖書借閱流量。剔除了節假日,收集到的有效數據為610個,原始數據見圖3。
3.2 PSO?RBF神經網絡圖書借閱流量預測
對收集到的610個原始數據進行歸一化處理,然后將經過處理后的數據分為訓練集與測試集,前500個數據作為PSO?RBF神經網絡的訓練集,對模型進行訓練,利用PSO算法尋找出最優的RBF神經網絡參數,然后利用后110個數據對模型的預測性能進行檢測。為了考察PSO?RBF神經網絡圖書借閱流量預測模型的優劣,同時采用RBF神經網絡、線性回歸分析進行對比實驗,以RMSE和MAPE作為圖書預測模型的評價指標,RMSE和MAPE分別定義如下:
[RMSE=1ni=1nyi-yi2] (8)
[MAPE=1ni=1nyi-yiyi×100%] (9)
式中:[yi]為收集到的圖書流量值;[yi]為圖書流量預測值;[n]為預測樣本總數。對于A模型與B模型,如果RMSE和MAPE均較小,則說明A模型的預測性能更好,預測精度更高。
3.3 結果與分析
分別利用PSO?RBF神經網絡、RBF神經網絡和線性回歸分析對圖書館圖書借閱流量進行預測,各模型的預測結果見圖4。
從圖4可知,PSO?RBF神經網絡的預測結果與原始數據相差不大,而線性回歸分析所獲得的預測結果與原始數據之間存在較大的差距。為了避免主觀觀察的主觀性,各模型的RMSE和MAPE值如表1所示。
由表1可知,線性回歸模型的圖書流量預測精度不高,主要是由于線性回歸模型不能很好地捕捉出圖書借閱流量數據的非線性特征;RBF神經網絡精度同樣不高,主要是由于RBF神經網絡在訓練時泛化能力較差,容易陷入局部極小值,難以找到全局最優值;PSO?RBF神經網絡相對于對比模型,預測精度最高,這是由于PSO能夠找到RBF神經網絡的最優參數,從而提高預測精度。
4 結 論
高校圖書館圖書借閱流量具有非線性特征,同時受到寒暑假、節假日等影響,還具有一定的周期性與混沌特性,用傳統的線性模型進行預測,難以取得令人滿意的預測精度,為了提高圖書借閱流量預測精度,利用非線性能力強的RBF神經網絡進行圖書借閱流量預測,可以充分捕捉到圖書借閱流量時間序列數據中的非線性特征。同時,針對RBF神經網絡在訓練時容易陷入局部極小值、難以找到最優參數的缺陷,利用尋優能力強的粒子群算法對RBF神經網絡進行參數尋優,找到網絡的最優參數,從而獲得了令人滿意的高校圖書館圖書借閱流量的預測精度。
但是圖書借閱量亦受到高校的學習氛圍、寒暑假、節假日等因素的影響,本文在研究中沒有考慮到這些因素,這是下一步重點關注的研究方向。
參考文獻
[1] 王家勝,牟肖光.基于時間序列高校圖書館借閱流量分布統計分析[J].農業圖書情報學刊,2011,23(4):72?75.
[2] 吳紅艷.圖書借閱流量行為季節預測模型[J].圖書情報工作,2007,51(11):98?101.
[3] 王靜,李丕仕.基于Lyapunov指數的高校圖書館圖書借閱流量混沌預測[J].現代情報,2009,29(9):7?10.
[4] 段瑋弘.基于灰色?馬爾柯夫模型的圖書借閱行為流量預測研究[J].魯東大學學報(自然科學版),2011,27(3):207?212.
[5] 田梅.基于混沌時間序列模型的圖書借閱流量預測研究[J].圖書館理論與實踐,2013(7):1?4.
[6] 王剛剛,廖慶,徐玉蕊,等.改進型粒子群優化算法的BP神經網絡全息圖壓縮[J].吉林大學學報(信息科學版),2016,34(1):147?151.
[7] 李瑞,張悟移.基于RBF神經網絡的物流業能源需求預測[J].資源科學,2016,38(3):450?460.
[8] 姜建國,田旻,王向前,等.采用擾動加速因子的自適應粒子群優化算法[J].西安電子科技大學學報(自然科學版),2012,39(4):74?80.
[9] 趙宏偉,李圣普.基于粒子群算法和RBF神經網絡的云計算資源調度方法研究[J].計算機科學,2016,43(3):113?118.
[10] 胥小波,鄭康鋒,李丹.新的混沌粒子群優化算法[J].通信學報,2012,33(1):24?30.