陳桂菊



摘 要:高校圖書館圖書借閱流量受到多種因素的綜合作用,具有十分強烈的隨機性,而當前高校圖書館圖書借閱流量預測方法無法準確描述隨機性變化特點,使得高校圖書館圖書借閱流量預測誤差大,結果可信度低。為了提高高校圖書館圖書借閱流量預測精度,提出了基于數據挖掘的高校圖書館圖書借閱流量預測方法。首先對高校圖書館圖書借閱流量的國內外研究時展進行分析,找到引起高校圖書館圖書借閱流量預測誤差大的原因,然后采用混沌理論對高校圖書館圖書借閱流量歷史數據進行分析,并采用數據挖掘技術對高校圖書館圖書借閱流量變化特性進行擬合,建立高校圖書館圖書借閱流量預測模型,最后采用實例對高校圖書館圖書借閱流量預測效果進行了測試。結果表明,高校圖書館圖書借閱流量預測精度超過95%,遠遠高于高校圖書館管理要求的85%,而且高校圖書館圖書借閱流量建模效率得到了大幅度改善。
關鍵詞: 高校圖書館; 借閱流量數據; 組合優化技術; 數據挖掘; 混沌理論
中圖分類號: TP 391
文獻標志碼: A
Abstract: The book lending flow of a university library is affected by many factors, and it has a very strong stochastic characteristic. However, the current prediction method of book lending flow of university library cannot accurately describe the stochastic characteristic, which makes the prediction error of book lending flow of university library large and the result credibility low. In order to improve the prediction of book lending flow of university library precision, this paper puts forward a prediction method based on data mining. Firstly, this paper analyzes the research progress at home and abroad on the book lending flow of university library, finds out the reasons that cause the large error in the prediction of the book lending flow of university library, then uses chaos theory to analyze the historical data of the book lending flow, uses data mining technology to fit the changing characteristics of the book lending flow, and establishes the book lending flow of university library. The prediction model of librarys book lending flow is established. Finally, the prediction effect of librarys book lending flow is tested by an example. The results show that the prediction accuracy of the method is more than 95%, which is much higher than 85% of the requirements of university library management. Moreover, the modeling efficiency of library lending flow in university library has been greatly improved.
Key words: university library; borrowing flow data; combinatorial optimization technology; data mining; chaos theory
0 引言
隨著高校不斷的發展,高校的各項指標都得到了大幅度提升,圖書館的藏書數量也來越大,給圖書館管理帶來一定的挑戰[1-3]。圖書館借流量可以描述大學生使用圖書館藏書頻率,這樣可以幫助圖書館管理人員采購書籍提供幫助,國此如何提高高校圖書館圖書借閱流量預測精度具有十分重要意義[4-6]。
高校圖書館圖書借閱流量受到學生學習習慣、學習時間、愛好以及其它因素的影響,是一種具有隨機性變化比較強的時間序列數據,而且具有一定的混沌性[7]。當前高校圖書館圖書借閱流量預測研究可以劃分為兩個階段:第一個階段為線性建模方法,主要有:差分自回歸移動平均方法、多元線性回歸方法等,它們認為高校圖書館圖書借閱流量是一種固定增長或者下降的變化態勢,然后對高校圖書館圖書借閱流量預測模型的參數進行估計,從而實現高校圖書館圖書借閱流量預測,由于高校圖書館圖書借閱流量不只是一種變化態勢,尤其對于現代高校圖書館,其預測誤差比較大[8-9];第二個階段為非線性建模方法,主要有:模糊算法、神經網絡、支持向量機等高校圖書館圖書借閱流量預測方法,它們從非線性角度出發,對高校圖書館圖書借閱流量變化態勢進行跟蹤,高校圖書館圖書借閱流量預測精度要高于線性建模方法。在實際應用中,高校圖書館圖書借閱流量復雜多變,單一的模型無法對其變化特性進行全面描述,因此高校圖書館圖書借閱流量預測效果有待進一步改善[10-11]。
針對當前高校圖書館圖書借閱流量預測誤差大,可信度低缺陷,提出了基于數據挖掘的高校圖書館圖書借閱流量預測方法,并通過具體高校圖書館圖書借閱流量預測實例分析了本文方法的優越性。
1 數據挖掘技術
1.1 極限學習機算法
2 基于數據挖掘的高校圖書館圖書借閱流量預測方法的具體設計
2.1 高校圖書館圖書借閱流量數據的預處理
高校圖書館圖書借閱流量歷史數據{x(t),t=1,2,…,n}是一個一維數據,因此無法直接進行建模,需要將其變一個多維數據,結合高校圖書館圖書借閱流量的隨機和混沌性變化特性,因此本文采用混沌理論的相空間重算法將原始高校圖書館圖書借閱流量歷史數據變為一個多維數據,如式(12)。
對式(12)進行分析可以發現,重構后的高校圖書館圖書借閱流量數據與原始高校圖書館圖書借閱流量數據具有同樣的變化軌跡,但是重構后的高校圖書館圖書借閱流量數據更加有利于建模和預測。
2.2 高校圖書館圖書借閱流量預測方法的工作步驟
(1) 通過高校圖書館管理系統統計高校圖書館圖書借閱流量的歷史數據,對于缺失的數據通過一定的規則進行補。
(2) 采用混沌分析算法對高校圖書館圖書借閱流量的延遲時間和嵌入維數進行確定。
(3) 根據延遲時間和嵌入維數對高校圖書館圖書借閱流量歷史數據進行重構,從而到一個多維的高校圖書館圖書借閱流量歷史數據。
(4) 根據一定的比例將高校圖書館圖書借閱流量歷史數據劃分為兩部分:訓練樣本集和測試樣本集,訓練樣本集用于訓練極限學習機或者最小二乘支持向量機,找到它們的最優參數,從而建立相應的高校圖書館圖書借閱流量預測模型。測試樣本主要對高校圖書館圖書借閱流量預測模型的可行性進行分析。
(5) 對極限學習機的相關參數進行初始化,極限學習機對高校圖書館圖書借閱流量的訓練樣本集進行學習,建立基于極限學習機的高校圖書館圖書借閱流量預測模型,并對高校圖書館圖書借閱流量的測試集進行預測,并輸出相應的預測結果。
(6) 對最小二乘支持向量的相關參數進行初始化,最小二乘支持向量對高校圖書館圖書借閱流量的訓練樣本集進行學習,建立基于最小二乘支持向量的高校圖書館圖書借閱流量預測模型,并對高校圖書館圖書借閱流量的測試集進行預測,并輸出相應的預測結果。
(7) 確定極限學習機和最小二乘支持向量的權值,并對它們的高校圖書館圖書借閱流量預測結果進行組合,從而得到最終的高校圖書館圖書借閱流量預測結果。
綜合上述可知,基于數據挖掘的高校圖書館圖書借閱流量預預測流程,如圖1所示。
3 仿真實驗
3.1 數據來源
為了測試基于數據挖掘技術的高校圖書館圖書借閱流量預測效果,采用一個高校圖書館圖書借閱流量歷史數據作為應用實例,共得到300個數據,如圖2所示。
從圖2可以發現,該高校圖書館圖書借閱流量歷史數據的變化比較復雜,為了使數據挖掘技術的高校圖書館圖書借閱流量預測結果更具說服力,選擇單一的極限學習機高校圖書館借閱預測模型和最小二乘支持向量機的高校圖書館借閱預測模型進行對照實驗。
3.2 確定延遲時間和嵌入維數
采用混沌分析算法對圖2的高校圖書館圖書借閱流量數據進行處理,得到最優延遲時間為:6,最優嵌入維數為7,如圖3所示。
這樣根據此結果得到一個多維的高校圖書館圖書借閱流量數據。
3.3 高校圖書館圖書借閱流量預測準確性分析
統計3種高校圖書館圖書借閱流量預測值和實際值之間的偏差,結果如圖4所示。
對圖4進行分析可以得到如下結論。
(1) 極限學習機和支持向量機的高校圖書館圖書借閱流量預測偏差比較大,而且變動的范圍也很大,出現了許多不穩定的高校圖書館圖書借閱流量預測點,這是因為高校圖書館圖書借閱流量變化復雜,單一模型只能對一個變化特點進行建模,無法全面描述高校圖書館圖書借閱流量變化特點。
(2) 本文模型的高校圖書館圖書借閱流量預測偏差小,而且變化相當平穩,沒有太大的起伏,這表明本文模型的高校圖書館圖書借閱流量預測結果比較穩定,而且高校圖書館圖書借閱流量預測精度更高,這是因為本文方法從兩個方向對高校圖書館圖書借閱流量變化特性進行擬合,能夠降低高校圖書館圖書借閱流量預測誤差,克服了單一模型的局限性。
3.4 高校圖書館圖書借閱流量預測的建模效率分析
由于高校的學生數量不斷增加,使得高校圖書館圖書借閱頻率不斷上升,這樣校圖書館圖書借閱流量建模效率直接影響校圖書館管理效率,采用高校圖書館圖書借閱流量預測的建模時間分析建模效率,為了體現實驗結果的公平性,每一種方法均進行5次仿真實驗,高校圖書館圖書借閱流量預測的建模時間,如表1所示。
從表1可以知道,最小二乘支持向量機的高校圖書館圖書借閱流量預測建模時間最長,其次為極限學習機,最短為本文方法,這是因為本文首先采用混沌分析算法對高校圖書館圖書借閱流量數據進行處理了,有利于后續的高校圖書館圖書借閱流量建模訓練,而對比方法均沒有采用混沌分析算法對數據進行處理,而是直接進行建模和預測,因此本文方法改善了高校圖書館圖書借閱流量建模效率。
5 總結
高校圖書館圖書借閱流量受到多種因素的綜合作用,具有十分強烈的隨機性變化特性,而當前高校圖書館圖書借閱流量預測方法無法準確描述隨機性變化特點,使得高校圖書館圖書借閱流量預測誤差大,結果可信度低,為了提高高校圖書館圖書借閱流量預測精度,提出了基于數據挖掘的高校圖書館圖書借閱流量預測方法。首先采用混沌理論對高校圖書館圖書借閱流量歷史數據進行分析,然后采用極限學習機和最二乘支持向量機分別對高校圖書館圖書借閱流量進行建模和預測,最后對極限學習機和最二乘支持向量機的高校圖書館圖書借閱流量預測結果進行組合,測試結果表明,本文方法的高校圖書館圖書借閱流量預測精度高,建模效率得到了大幅度改善,具有十分廣泛的應用前景。
參考文獻
[1] 雷崇鴿.網絡新媒體環境下高校圖書館提高圖書借閱量的策略分析——以西安電子科技大學圖書館為例[J].教育現代化,2019,6(23):193-194.
[2] 宋楚平.一種改進的協同過濾方法在高校圖書館圖書推薦中的應用[J].圖書情報工作,2016,60(24):86-91.
[3] 山潔,陳淑英,李新民.基于網絡和節點屬性模型的大學生閱讀傾向分析[J].情報探索,2016(12):57-61.
[4] 牛秀.基于多參數指數平滑的圖書借閱量預測[J].科技情報開發與經濟,2011,21(28):50-51.
[5] 于曦.基于Unicorn和SPSS的圖書借閱量周期性分析及預測[J].山東圖書館學刊,2011(1):52-56.
[6] 陳明.一元線性回歸模型預測圖書借閱量[J].大學教育,2016,21(5):111-112.
[7] 嚴慧英,朱輝. 閱讀推廣對高校圖書館借閱量影響的實證分析[J]. 圖書館研究與工作, 2016, 7(2):40-44.
[8] 汪玉杰,劉智立. 基于BP神經網絡對圖書借閱量的預測研究[J].科技創新與應用, 2013, 36(5):25-26.
[9] 鄒梅.利用神經網絡技術預測圖書借閱量[J].蘭臺世界,2013(20):135-136.
[10] 張囡,張永梅.基于灰色神經網絡的圖書館圖書借閱量預測[J].情報探索, 2013,12(3):133-135.
[11] 劉素兵,劉海明,苗佳晶,等.圖書借閱量的灰色回歸組合模型研究[J].云南民族大學學報(自然科學版),2010,19(3):170-172.
(收稿日期: 2019.08.27)