●田 梅 a,b(新鄉醫學院 a.管理學院; b.衛生信息資源研究中心,河南 新鄉 453003)
目前國內對圖書借閱流量行為預測的研究,多集中在利用統計學理論和平穩時間序列模型進行建模。姜炳蔚等利用回歸分析的方法建立圖書流通量與時間的回歸方程,并計算出預測范圍;[1]吳紅艷[2]利用A R I M A時間序列理論和神經網絡理論為基礎預測圖書借閱流量,提出了處理具有周期性時間序列問題的季節性神經網絡模型。此外,傳統的圖書借閱量的預測方法還包括灰色模型預測法、線性回歸法等。但這些方法都存在著自身固有的缺陷。由于圖書借閱預報本質是一個復雜的非線性動力學過程,其內部運行關系很難確定,呈現非平穩動態隨機變化特性,因此,傳統的時間序列預測模型、線性回歸都難以解決閱讀流量行為的非線性問題,無法解決流量增長的某些不穩定變化對模型預測效果的影響。而利用神經網絡建模,又容易陷入局部極小值問題,所得到的模型無法提供良好的推廣能力。
本文以混沌時間序列理論和支持向量機為基礎,提出了處理非線性圖書借閱流量問題的混沌時間序列預測模型。該模型根據圖書借閱流量行為的非平穩時間序列的數據特點,分別求得時間序列的嵌入維數和時延,從而建立了單步預測模型。利用該模型對新鄉醫學院圖書館流通部每月的圖書借閱流量進行監測預報,結果表明,該模型運行高效,與常規的神經網絡模型相比,預測精度有所提高。
支持向量機是建立在統計學習理論基礎上的一種學習算法,以解決小樣本學習問題為目標。與已有的機器學習算法相比,它尋求模型的復雜性和學習能力之間的最佳折衷,以獲得有限樣本信息下的最優推廣能力,避免了過學習現象;它所構建的優化目標函數是一個嚴格的凸二次型規劃,從而保證了全局唯一解。通過引入核函數,將原始空間中線性不可分樣本通過非線性函數映射到高維特征空間,實現線性可分。同時,通過將高維特征空間中的內積運算轉化為低維原始空間的核函數計算,有效解決了高維數據學習中的“維數災難”問題,計算量幾乎不受樣本維數影響,從而實現了良好的高維處理能力。由于支持向量機在解決非線性及高維模式識別問題中表現出特有的優勢,因此成為目前的研究熱點,在文本自動分類、圖像檢索、數據融合、信號處理、時間序列預測等領域得到了廣泛應用。
以ε-支持向量回歸為例。它的核心思路是把超平面控制在ε管道內,由ε值控制管道的寬度并決定支持向量回歸的誤差要求,同時管道盡可能平坦。根據統計學理論,決策函數的計算轉換成如下的最優化問題:[3]

構造Lagrange乘子方程轉換到對偶問題:

可以得出決策函數為:

混沌時間序列在現實生活中隨處可見,比如電力載荷、金融、股票價格、大氣、水文數據等。通常計算出某時間序列的最大Lyapunov指數,即可確定其是否具有混沌特性。使用SVM可以對混沌時間序列進行預測,預測的重點在于確定時間序列的嵌入維數和時延,從而構建能夠反映原時間序列數據所蘊含動力系統本質的狀態空間,從而達到較高精度的預測效果。
理論上,時間序列本身已包含了參與此動力系統的全部變量的有關信息,通過考察采樣得到的樣本,將它在某些固定時間延遲點上的觀測量看成新的坐標,以擴展成一個高維空間,即重構的狀態空間。根據重構的混沌時間序列輸入向量和輸出向量進行學習, 時刻支持向量機的一步預測模型為:[4]


本文中采用的圖書流通量數據,來自于新鄉醫學院圖書館信息管理數據庫系統的流通子系統。這些數據是圖書館藏書量、服務效率在某個側面的反映,通過這些數據可以分析出讀者需求與傾向、閱讀效果等活動規律,可為提高圖書館流通系統的管理水平提供科學依據。但是,與大多數的圖書管理系統功能類似,這套系統可以利用后臺數據庫對圖書館的各種數據進行記錄和管理,只能做基本的統計分析,無法對數據進行深層次的挖掘。因此,我們應用上述混沌預測模型對我院圖書館圖書流通量行為中TP類圖書在2003年1月至2010年12月間的流通量進行建模和預報。之所以選擇中圖法分類目錄中TP類圖書流通數據作為研究對象,是由于TP類圖書為計算機與信息類圖書,由于其應用的廣泛性,較能代表醫學專業學生的業余愛好和需求,可以作為學生綜合素質的變化依據,因此有重要的參考意義。同時,從2003年到2010年,我院招生人數大幅攀升,目前已達兩萬余人,藏書量也有較快提高,人數的激增以及醫學類就業形式的變化帶來了圖書流通量行為的巨大變化。論文分析使用的圖書借閱流量時間序列如圖1所示。

圖1 圖書借閱流量時間序列
利用混沌時間序列分析與預測工具箱[5]計算得到上述數據的最大L y a p u n o v指數,為0.0163,說明該時間序列具有混沌性質,因此可利用上述混沌模型對該數據進行預測。首先選取2003年1月到2009年12月共84個月份的流通數據作為訓練數據,2010年12個月份的數據作為測試樣本。由于數據長度有限,未另外安排檢測集。預測的步驟為:(1)歸一化;(2)狀態空間延遲重構;(3)支持向量機學習與預測;(4)數據處理與誤差分析。
首先需要對數據進行歸一化處理。歸一化方式為:,使每一因子的數據都落入[0,1]區間。其次,由于混沌系統具有短期可預測性,因此可以按照式(1)的方式,通過引入延遲時間和嵌入維數,把一維時間序列改造成多維狀態空間,以盡可能充分的提取原系統蘊藏的信息。嵌入維數m的選取成為關鍵。本文選擇,延遲時間設為1,構建訓練樣本為。采用RBF核,使用Libsvm庫[6]來做學習和預測。具體做法為,利用前84個訓練數據重構得到80組訓練樣本,作為Libsvm的訓練樣本,利用Libsvm自帶的網格法選取最優參數,其中以五折交叉驗證作為評判標準,訓練得到SVM模型,對第85個數據(即2010年1月份數據)進行預測,然后利用該預測值重新訓練SVM模型,預測接下來的一個月份數據(類似于滑動窗口向后移動一位),依次遞推直至完成。為衡量預測模型的精確性,采用相對誤差:[4]

圖2 網格法中不同參數對應的交叉驗證值

圖3 2010年圖書借閱流量一步預測實際值與預測值的比較(相對誤差err=0.0869)

圖4 84個月份(2003.1~2009.12)數據的訓練誤差
由圖3可知,利用基于支持向量機的混沌時間序列模型可較好地對2010年的流通數據進行預測,相對預測誤差為8.69%。這表明本文所用方法是有效的,基本符合真實規律。同時,由圖4可知,本文所用方法對建模所有的2003年至2009年間流通數據也達到了較好的擬合效果,只有一個月份的數據預測值達到59.06%,絕大部分月份的相對誤差都低于20%。這充分表明本文所建立的混沌時間序列支持向量機模型是精確的,而且在嵌入維數沒有經過嚴格篩選的情況下也能取得滿意的預測效果。據分析,最主要的原因是支持向量機將人工重構的相空間進一步通過核函數映射到高維特征空間,從而克服非線性因素的干擾,并提取輸入樣本中包含的系統信息,從而帶來良好的對未知數據的推廣能力。
嵌入維數m對預測效果的影響較大?;趫D2所得到的最優支持向量機參數,改變m,預測效果的變化如圖5所示??梢杂^察到在嵌入維數小于5時,相對誤差隨著嵌入維數的增大而減小,這表明狀態空間重構可以更好地表達時間序列內部的信息。在嵌入維數為5,6,7,8時,相對誤差變化很小,而繼續增加嵌入維數反而會導致相對誤差有所上升。本文實驗選擇嵌入維數為5。這也契合了學生借閱行為的周期性,即寒暑假的借閱量往往會出現突變。

圖5 圖書借閱流量時間序列的嵌入維數與相對誤差的關系
采用量化方法研究圖書館服務與管理工作是當前圖書館學研究的趨勢之一,有利于合理調配圖書館的人力物力,提高服務質量。圖書借閱流量預測的意義在于,有助于對讀者群體的需求進行評估,形成一定季節期限內的需求預測,在控制圖書采編、藏書質量以及反饋服務質量上起重要作用。圖書借閱流量行為具有明顯的非線性非平穩的特性,因此采用傳統的時間序列分析方法難以取得滿意效果。本文采用支持向量機作為建模工具,引入了混沌時間序列預測模型,通過對圖書借閱流量時間序列的分析和建模,從預測結果可以看出該模型具有較好的預測效果。筆者認為,任一時刻的借閱量數據的變化信息都隱含在與之相關的其他時刻的數據中?;谶@種認識,本文所提方法的本質在于利用混沌時間序列的理論解釋了圖書借閱流量時間序列的變化,核心是利用狀態空間重構提取了時間序列的內在信息,并建立了單步支持向量機預測模型。這種預測方法不會丟失時間序列中重要的周期信息(混沌的確定性),同時也充分考慮了借閱行為的突變性(混沌的長期不可預測性),從而避免了常規預報步數多、預報誤差大的缺點。但由于分析中使用的借閱流量數據樣本較少,在建立預測模型時無法充分表達圖書借閱行為的信息。此外,外界因素的影響也應當加入到預測模型中。這些都是下一步工作中需要考慮的問題。
[1]姜炳蔚,任玉杰.回歸分析在圖書流通中的應用[J].職大學報(自然科學版),2003(4):6-7.
[2]吳紅艷.圖書借閱流量行為季節預測模型[J].圖書情報工作,2007,51(11):98-101.
[3]V N Vapnik.The nature of statistical learning theory[M].New York:Springer Verlag,1995..
[4]崔萬照,等.混沌時間序列的支持向量機預測[J].物理學報,2004,53(10):3303-3309.
[5]陸振波.混沌時間序列分析與預測工具箱[EB/OL].[2011-08-04]. http://luzhenbo.88uu.com.cn/.
[6]CC Change,CJ Lin.LIBSVM:a library for supportvector machine[EB/OL].[2011-08-04].http://www.csie.ntu.edu.tw/cjlin/libsvm.