〔摘 要〕運用混沌理論對高校圖書館圖書借閱流量數據時間序列進行相空間重構,分析得出高校圖書館圖書借閱行為的演化具有明顯的混沌特征。針對圖書借閱流量在不同時間粒度各時期中的波動特點,構建了基于最大Lyapunov指數的高校圖書館圖書借閱流量混沌預測模型。通過對中國礦業大學圖書館圖書借閱流量的驗證表明,混沌預測模型的預測結果較為合理。
〔關鍵詞〕高校圖書館;圖書借閱流量;混沌預測;Lyapunov指數
〔中圖分類號〕G252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)09-0007-04
Chaotic Forecasting of Borrow Tr affic Series
Based on Lyapunov Exponent in University LibraryWang Jing Li Pishi
(Library,China University of Mining and Technology,Xuzhou 221116,China)
〔Abstract〕Based on the chaos theory,the phase space of the university library borrow traffic time series data was restructured.The conclusion that university libr ary borrow traffic time series data has chaotic property was deduced.According t o the annual fluctuation characteristic of readers’ borrow demand,a forecastingmodel on the time series with chaotic characteristics was performed.Test result s for using this algorithm to forecast the short term readers’ borrow demand ofthe china university of mining and technology of library were reported,and show ed that the proposed algorithm could attain reasonable performance.
〔Key words〕university library;library borrow traffic;chaotic forecasting;lyapunov exponent
定量研究和預測高校圖書館圖書借閱流量,對優化館藏、合理布置借閱空間、實現圖書借閱服務的科學管理、提高圖書利用率具有重要意義[1]。在此,我們運用基于混沌特征指數——Lyapunov指數研究圖書借閱流量時間序列的混沌特性及短期預測,以求對高校圖書館圖書借閱量進行定量研究和預測。
1 圖書借閱流量混沌特性的識別
1.1 混沌與Lyapunov指數
混沌現象是非線性動力系統中常見的現象,識別一個系統是否為混沌系統,主要有3種方法:Lyapunov指數的檢驗、分形維數的評價及Kolmogorov功率譜分析。其中,Lyapunov指數用來表征系統內部相鄰點間輻散的平均速率,正的Lyapunov指數值衡量兩個相鄰軌道的平均指數分離程度,而負的Lyapunov指數則衡量兩個相鄰軌道的平均指數靠攏程度。如果一個離散非線性系統是耗散的,那么正的Lyapunov指數則是系統混沌的一個度量指標[2]。在此,鑒于Lyapunov指數明顯的物理意義,我們通過計算高校圖書館圖書借閱流量時間序列的最大Lyapunov指數來識別圖書借閱流量的混沌特性。
1.2 相空間重構
相空間重構技術是計算時間序列Lyapunov指數的必要前提,時間序列研究混沌特性始于Packard等提出的相空間重構理論[3]。對于決定系統長期演化的任一變量的時間演化,均包含了系統所有變量長期演化的信息。因此,我們可以通過高校圖書館圖書借閱行為長期演化的一個單變量——圖書借閱流量時間序列來研究高校圖書館圖書借閱的混沌行為。
對于圖書借閱流量時間序列,根據Takens嵌入定理[4],設獲得圖書借閱時間序列為:x1,x2,…,xN可以構建一個m維相空間,選定嵌入維數m和時滯參數τ,則圖書借閱時間序列的重構相空間為:
Yi(t)=(x(ti),x(ti+τ),x(ti+2τ),…,x(ti+(m-1)τ))∈RM,i=1,2,…,M(1)
其中,Yi(t)是相空間中的點,M=N-(m-1)τ。在相空間重構技術中,關聯維數是描述奇怪吸引子幾何特征的重要參數,其大小可以從一個側面反映圖書借閱行為內在的復雜性程度,計算關聯維數一般采用Grassberger和Procaccia在1983年提出的算法,通常稱為G-P算法[5]。運用該算法將取得的圖書借閱流量時間序列在m維(m≥2)相空間重構,任意給定一個數r,把距離小于r的點對數占總點對數M(M-1)/2的比例記作Cm(r):
Cm(r)=2M(M-1)∑1ijMHr-Xi-Xj,r>0(2)
式中H(x)為Heaviside階躍函數。這樣,可由lnCm(r)與lnr關系曲線中線性部分斜率,給出關聯維數的估計值。當不斷增大嵌入維數m時,此斜率不再隨m的增大而發生改變,這時維數達到飽和,稱m為飽和嵌入維數,相應的斜率即關聯維數D2。
1.3 最大Lyapunov指數
在由圖書借閱流量時間序列所重構的相空間中,Lyapunov指數是量化其初始閉軌道的指數發散和收斂的混沌量,它從整體上反映了高校圖書館圖書借閱流量時間序列的混沌量水平。在實際問題中,往往不需要計算所有的Lyapunov指數,只要最大Lyapunov指數大于0就可以確定混沌的存在[6]。因此,最大Lyapunov指數是確定和度量圖書借閱流量時間序列混沌特性的重要參數。目前用于計算最大Lyapunov指數的方法有定義法、Wolf法、Jacobian法、P-范數法和小數據量法等[1,7]。其中,小數據量法有對小數據組可靠、計算量不大、相對容易操作等優點。在此,我們采用小數據量法計算圖書借閱流量時間序列最大Lyapunov指數。
2009年9月第29卷第9期現?代?情?報Journal of Modern InformationSep.,2009Vol.29 No.92009年9月第29卷第9期基于Lyapunov指數的高校圖書館圖書借閱流量混沌預測Sep.,2009Vol.29 No.92 構建高校圖書館圖書借閱流量時間序列預測模型
最大Lyapunov指數不僅可以作為高校圖書館圖書借閱流量時間序列混沌性的判定依據,還可以根據它建立高校圖書館圖書借閱流量混沌時間序列的預測模型。由于系統中任一分量的演化是由與之相互作用的其它分量所決定,這些相關分量的信息就隱藏在任一分量的發展過程中,因此僅從某一分量的一批時間序列數據中就能提取和會付出系統原來的規律,這種規律是高維空間下的一種軌跡[8]。在圖書借閱流量時間序列重構相空間中,假設我們已知xn,要預測xn+1,則預測具體步驟如下:
(1)對圖書借閱流量時間序列x(ti)(i=1,2,…,N)進行快速傅立葉變換(FFT),計算時間延遲τ和平均周期P;
(2)用C-C方法[4]和G-P方法確定時間延遲τ和最小嵌入維數m;
(3)根據最小嵌入維數m和時間延遲τ重構相空間,得到:
Yi(t)=(x(ti),x(ti+τ),x(ti+2τ),…,x(ti+(m-1)τ))∈Rm(3)
其中,i=1,2,…,M,M=N-(m-1)τ
(4)尋找相空間中每個點Yj的最近鄰點Y,并限制短暫分離,即:
dj(0)=minYj-Y,j->P(4)
(5)對相空間中每個點Yj,計算出該鄰點對應的i個離散時間步的距離dj(i)。對每個i,求出所有j的lndj(i)平均y(i),即:
y(i)=1qΔt∑qj=1lndj(i)(5)
其中,Δt是樣本周期,q是非零dj(i)的數目,用最小二乘法作回歸直線,該直線的斜率即最大Lyapunov指數λ1。
(6)設相點YM為預測的中心點,相空間中YM的最近的鄰點為Yk,最大Lyapunov指數為λ1,即:
dM(0)=minYM-Y=YM-Yk
YM-YM+1=Yk-Yk+1eλ1(6)
其中點YM+1只有最后一個分量x(tn+1)未知,故x(tn+1)是可預報的。式(5)就是基于最大Lyapunov指數法的圖書借閱流量預測模型,式中使YM+1-Yk+1最小的x(tn+1)就是圖書借閱流量時間序列的預測值,將x(tn+1)加入到原時間序列的最后得到新的時間序列,重復步驟(5)、(6)可以進行多步預測。
3 圖書借閱流量時間序列預測的實例分析
3.1 數據獲取
我們以中國礦業大學圖書館借閱量數據為研究分析依據,從流通日志監測系統終端提取數據區間為2007年1月1日到12月31日的實測圖書借閱流量時間序列{x1,x2,…,xN}時間粒度以天為間隔單位,剔除節假日圖書借閱量為空的數據后,共301組數據,通過剔點等數據處理后的結果如圖1所示。圖1 2007年圖書借閱流量時間序列
同時,我們還研究了時間粒度以小時為單位的圖書借閱流量時間序列,具體以2007年3月中國礦業大學圖書館圖書流通量為例,共372組數據,通過剔點等數據處理后的結果如圖2所示。圖2 2007年3月圖書借閱流量時間序列
3.2 混沌特性判定
識別圖書借閱流量時間序列的混沌特性需要判斷其最大Lyapunov指數是否大于零。根據小數據量計算方法,需要先計算最小嵌入維數m和時間延遲τ。
對于時間間隔為天的粗時間粒度時間序列如圖1,運用G-P方法將一維時間序列化為m維相空間,取m從2~20進行計算,根據圖3(a)中lnC(r)-lnr曲線,可以看到曲線隨著r的增加趨于飽和,當m增加到一定程度,曲線變化逐漸減小。當直線部分的斜率隨著嵌入維數的增加不再變化時,此時的斜率就是關聯維數D2。圖3 用G-P方法計算最小嵌入維數
通過圖書借閱流量時間序列相空間重構分析,由圖3(b)可以得到,此系統吸引子的維數趨于穩定,相應的飽和嵌入維數m為16,關聯維數D2=7.28。依據小數據量計算方法,得到最大Lyapunov指數=0.00034897,因而確定該圖書借閱流量時間序列存在混沌現象,這也說明讀者借閱圖書行為變化過程非常復雜,存在非線性過程。
按照混沌動力學理論,Lyapunov指數λ1的倒數Tm=1/λ1表示混沌系統確定性預測的時間上界,即最長預報時間[2,9]。按照上述方法計算該系統最大Lyapunov指數=0.00034897,從而Tm=1/λ1=2 865.6天,即7.9年。它告訴我們,利用上述圖書借閱流量時間序列進行預測,在精度一定的情況下,預測最大時間長度大約在8年左右。
對于時間間隔為小時的細時間粒度時間序列如圖2,運用G-P方法將一維時間序列化為m維相空間,以1為間隔,取m從2~20進行計算,根據圖4(a)中lnC(r)-lnr曲線,同樣可以看到曲線隨著r的增加趨于飽和。
通過圖書借閱流量時間序列相空間重構分析,由圖4(b)可以得到,此系統吸引子的維數趨于穩定,相應的飽和嵌入維數m為18,關聯維數D2=4.85。依據小數據量計算方法,得到最大Lyapunov指數=0.00055178,因而確定該圖書借閱流量時間序列存在混沌現象。按最長預報時間方法可以計算得出,該系統Tm=1/λ1=1 812.3小時,即75.5天。
根據混沌理論,Lyapunov指數大小反映序列在一定時間尺度上的混沌程度[3,10]。由此可以判斷,以小時為間隔的借閱流量時間序列的混沌程度要大于以天為間隔的全年圖4 用G-P方法計算最小嵌入維數
借閱流量序列。同時由于取樣間隔不同,以小時為間隔的序列最大預測時間尺度為75.5天,要小于以天為間隔的序列的預測時間尺度8年。
3.3 圖書借閱流量時間序列的預測
我們采用MATLAB語言編寫相關程序[11],對高校圖書館圖書借閱流量時間序列進行相空間重構,建立最大Lyapunov指數預測模型,以2008年11月30日到12月15日期間圖書借閱流量作為樣本,對預測模型進行驗證,計算結果如圖5所示,其預測誤差曲線如圖6所示。圖5 最大Lyapunov指數預測法對圖書借閱流量的預測結果
圖6 圖書借閱流量時間序列預測誤差曲線
實踐表明,采用最大Lyapunov指數預測算法能夠較準確地實現對圖書借閱流量的短期預測,16天檢驗樣本的預測誤差一般在10%以內,從而實現高校圖書館對圖書借閱量的定量研究和預測,為圖書借閱服務的科學管理提供依據。
參考文獻
[1]李丕仕,黃賢樹.中文圖書入藏量和借閱量關系的定性探討[J].情報雜志,1993,(3):42-43.
[2]呂金虎,陸君安,等.混沌時間序列分析及其應用[M].武漢:武漢大學出版社,2000:57-71,106-108.
[3]王東生,曹磊.混沌、分形及其應用[M].合肥:中國科學技術大學出版社,1995:385-389.
[4]F.Takens.Determing strang attractors in turbulence[J].Lecture notes in Math,1981,(898):361-381.
[5]P.Grassberger and L.Procaccia.Measuring the strangeness of strange attractors[J].Physica D,1983,9:189-208.
[6]劉洪,李必強.基于混沌吸引子的時間序列預測[J].系統工程與電子技術,1997,(2):23-28.
[7]Rosenstein M T,Collins J J,De luca C J.A practical method for calculating largest Lyapunov exponents from small data sets[J].Physica D,1993,(65):117-134.
[8]呂金虎,占勇,陸君安.電力系統短期負荷預測的非線性混沌改進模型[J].中國電機工程學報,2000,20(12):80-83.
[9]C.J.Cellucci and A.M.Albano,P.E.Rapp,R.A.Pittenger and R.C.Josiassen,Detecting noise in a time series[J].Chaos,1997,7(3):414-421.
[10]Zuo-bing Wu,Remark on metric analysis of reconstructed dynamics from chaotic time series[J].Physica D,1995,85:485-495.
[11]張錚,楊文平,石博強,等.MATLAB程序設計與實例應用[M].北京:中國鐵道出版社,2003.2009年9月第29卷第9期現?代?情?報Journal of Modern InformationSep.,2009Vol.29 No.92009年9月第29卷第9期論現代大學圖書館的功能與實現機制Sep.,2009Vol.29 No.9
收稿日期:2009-03-25
作者簡介:傅耕石(1961-),男,政治學博士,研究方向:圖書館的現代化管理,發表論文數篇。