999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于量子遺傳SVM的公共圖書館每日讀者流通人次預測模型

2019-01-02 09:01:18鄭戍嘉
軟件 2019年12期

摘 ?要: 本文以量子遺傳SVM為核心,構建數學模型,對公共圖書館每日讀者流通人次(借還書人次)進行預測。模型以上海市嘉定區圖書館為數據實例,考察各種影響因素后,以若干量化特征數據為輸入,每日讀者流通人次為輸出目標,在此基礎之上成功地訓練并獲取了預測模型。實驗表明,在全程貼近實際目標預測系統構建的指導思想下(適用、穩定、準確),此方法建立的相應短期預測系統取得了較好的預測效果,系統的應用將有效地提升圖書館智慧服務的層級。

關鍵詞: 量子遺傳算法;SVM;公共圖書館;智慧服務;每日讀者流通人次;量化特征

中圖分類號: TP181;G251.5 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.12.042

本文著錄格式:鄭戍嘉. 基于量子遺傳SVM的公共圖書館每日讀者流通人次預測模型[J]. 軟件,2019,40(12):188194

Prediction System of “Public Library Daily Readers Throughput”

Based on Quantum Genetic SVM

ZHENG Shu-jia

(Jiading District Library of Shanghai, Shanghai 201800, China)

【Abstract】: Based on the Quantum Genetic SVM, this paper constructs mathematical models to predict “public library daily readers throughput”, i.e. the amount of daily library users who borrow/return books. The model is taking Jiading District Library of Shanghai as data source. After investigating and analyzing various potential influencing factors, the model takes several quantitative characteristic data as input and sets “public library daily throughput” as target output, on the basis of which the prediction model is trained and successfully obtained. Experiments show that the corresponding short-term forecasting system established by this method has achieved good forecasting results under the guidance of the construction of the forecasting system which is close to the actual target (applicable, stable and accurate). The application of the system will effectively improve the level of library intelligent service.

【Key words】: Quantum genetic algorithm; SVM; Public library; Intelligent service; Daily readers throughput; Quantitative characteristics

0 ?引言

公共圖書館的每日讀者流通人次(借還書人次),是一個極有業務參考價值的指標式數據,它是在多種復雜因素共同作用下產生的。

目前國內對圖書館流通人次(冊次)時間序列的預測,粒度多集中在月度、學期的時間跨度上,而預測每日流通人次的嘗試,則較為少見,有個別文獻使用基于某型神經網絡的算法模型對高校圖書

館的每日流通人次進行了成功的短期預測,但對公共圖書館的每日流通人次的高精度預測模型則未曾見諸公開發表。

高校圖書館與公共圖書館流通人次的時間序列模型,雖看則相似,但實際存在著很大的不同。這主要是因為,兩者在流通模式、讀者特征、借閱行為模式、服務內容、交通方式乃至天氣因素影響等方面存在著較大差異,簡單地套用模型將會導致不甚理想的結果。

公共圖書館流通人次時間序列,相對于高校圖書館而言,其影響因素更復雜多變、隨機性更強,因而預測難度更大,在建立預測模型時,就不能單單以模型精度為唯一追求目標,造成預測精度偽高(模型實際應用時效果變差)或魯棒性差的問題,而應以適用、穩定、準確的指導思想,恰當地構建可實際應用的模型。在這里,對于隨機性相對較強的小樣本時間序列而言,大規模的深度神經網絡固然不適用,輕型神經網絡的穩定性又較差(即使采用了PSO等優化算法),因此神經網絡算法不能說是一個最佳的選擇。經對比,本文最終采用量子遺傳SVM作為模型的核心算法,并著重關注了天氣因素對每日流通人次的影響。

本文的核心是關于如何在全程貼近實際目標預測系統構建的指導思想下,建立一個基于量子遺傳SVM的數學模型,對公共圖書館的每日讀者流通人次進行短期預測。文章將以上海市嘉定區圖書館為例,對公共圖書館讀者流通人次的影響因素進行探討,引入天氣因素對讀者到館影響,隨之選擇若干因素的量化特征為模型輸入,以預測日(未來三日內)的讀者流通人次為輸出目標并進行模型訓練,嘗試獲取實用的高精度的預測模型。

選取影響因素,一是要與預測目標關聯性強且注意本模型短期預測的目的;二是一定要保證能夠量化并能獲得真實、有效且足夠數量的數據。本文最終選擇的表征因素為:每日讀者流通人次數據、天氣(最高氣溫、最低氣溫、降水量)、雙休日標志。所對應的模型原始數據見下一節數據準備。

2.2 ?數據準備

本實驗所使用的嘉定區圖書館每日讀者流通人次(借還書人次)數據,由上海市中心圖書館相關系統平臺獲取,去除了節日前后等特殊時間段的數據。歷史天氣(最高氣溫、最低氣溫、降水量)數據,由某氣象記錄網站獲取。

經數據檢驗、清洗后,得到了近3年內共840組每日數據,分為12個字段,先將T+1預測日(明日)的讀者流通人次為模型訓練、預測的目標:

① 預測日的雙休日標志

② 預測日的最高氣溫

③ 預測日的最低氣溫

④ 預測日開放時間段的降水量

⑤-? 預測日前1日到前7日的流通人次

? 預測日的讀者流通人次

值得指出的是,本實驗的目標序列極大值點呈周期性分布,占比較小而與均值之間的相對距離卻較大,因此在模型測試集的檢驗過程中,測試數據數量不宜太少,這樣才能更貼近長期預測的真實效果,否則將可能出現預測精度偽高(預測模型精度高、實際預測系統精度低)的情況。同時,如能確保較多組的跨季的測試集數據,則可以檢驗某些中

長期(季節)因素少量變化后預測模型的適應能力,若日后構建實際應用的預測系統,模型中長期的預測穩定性是至關重要的。為此,本文選用數據集的前740組作SVM模型訓練用,而(近期的)后100組作為模型測試數據。

2.3 ?數據歸一化

因數據集中存在奇異樣本數據,為消除其量綱影響,使計算結果能較好地回歸,必須進行歸一 ? 化操作。數據集進行歸一化操作的數值范圍限定 ? 為[1,3]。圖1為每日讀者流通人次數據的歸一化 ?圖形。

圖1 ?每日讀者流通人次數據歸一化后圖像

Fig.1 ?Normalized image of daily reader circulation data

2.4 ?特征選擇

本文采用遞歸特征消除[7][8](RFE:Recursive Feature Elimination)來對數據集的特征進行重要性的排序。方法如下:首先選定一個算法,以此算法訓練模型,去掉得分最小的特征,再用剩余的特征再訓練模型,如此重復,最終給出特征重要性的排序。

根據經驗,相對于特征數,本實驗的數據組數足夠多而質量較好,則無須經過正則化處理也可獲得很好的RFE穩定性,只是可能要注意關聯特征的問題。

經過RFE計算,得到數據集11個特征變量重要性的排序(從大到小),見表1。

如表1所示,影響流通人次的各項因素中,預測日的氣溫狀況、當日是否為雙休日是兩個主要因素,而當日最低氣溫的影響比最高氣溫更大。因為存在著周期性因素,7天前的讀者流通人次數據是一個很重要的參考指標。預測日之前1到6天的讀者流通人次數據的重要性則較低。而預測日開放時間段降水量的影響最小,這表明至少對嘉定區圖書館而言,一般情況下,開放日是否下雨對讀者會否到圖書館來借還書的影響性不大。

表1 ?數據集特征的重要性排序

Tab.1 ?Sorting the importance of data set features

RFE排序 特征

1 預測日7天前的流通人次

2 預測日的最低氣溫

3 預測日的雙休日標志

4 預測日的最高氣溫

5 預測日2天前的流通人次

6 預測日1天前的流通人次

7 預測日6天前的流通人次

8 預測日4天前的流通人次

9 預測日3天前的流通人次

10 預測日5天前的流通人次

11 預測日開放時間段的降水量

在之后進一步的模型運算中,嘗試對特征消減后的預測效果進行了多次分段實際檢驗,發現去除預測日之前1到6天的流通人次及降水量的特征會使預測效果略有下降,而保留所有11項特征時,預測效果更佳,對此判斷在這7個次要特征中,存在某種形態的隱變量對模型發生輕微作用(可能隱含某些中長期影響模式)。引入這7個特征,并不損傷或可增加模型的魯棒性,故此最終決定在模型的數據集中保留所有11項特征。

2.5 ?量子遺傳算法(QGA)對SVM超參數的尋優

QGA[9-10]的具體算法如下:

(1)生成包含一定數量個體的初始種群,每個個體有一串染色體,染色體的表達采用量子位的方式。

(2)種群采用概率幅的形式繁衍下一代(染色體),并用評價函數保留最優個體,如滿足停止條件則停止計算,否則采用量子旋轉門對種群進行更新后循環這一步。

量子遺傳算法的參數選擇:

本實驗在經驗參數附近、對數據集進行了多種分段,在此基礎上又進行了多次計算,以排除小概率的早熟或停滯現象及確定最佳參數。

最終選定的QGA參數為:最大遺傳代數:200,種群大小:160,單個變量的二進制長 [40 40]。

采用以上參數構造的QGA模型的進化過程見圖2。

QGA為SVM的超參數C、g尋優的最終計算結果如下:

最優解C = 0.99658,g = 0.11421

2.6 ?SVM模型訓練及測試

將QGA超參數尋優獲取到的最優C、g數值代入SVM算法,使用訓練集740組數據進行訓練后,擬合情況如圖3。

圖2 ?進化曲線

Fig.2 ?Evolution curve

圖3 ?SVM訓練集擬合圖形

Fig.3 ?SVM training set fitting graphics

之后,使用訓練得到的SVM模型進行測試集100組數據的實際檢驗。

測試集的預測效果如圖4和圖5。

模型訓練集、測試集總的回歸計算檢驗結果如表2。

可以看到,此次基于量子遺傳SVM模型的預測實驗,在實際影響因素復雜、目標數據波動幅度較大、測試時間序列較長的情況下,仍獲得了較好的預測效果。如圖5所示,81%的預測點的百分 ? ?比誤差在15%以內。此次實驗測試集數據的預測 ? 準確率(1-MAPE)為90.44%,平方相關系數R為96.07%。

圖4 ?測試集回歸驗證圖形

Fig.4 ?Test set regression verification graphics

圖5 ?測試集預測結果的百分比誤差

Fig.5 ?Percentage error of test set prediction results

表2 ?訓練集與測試集的擬合結果

Tab.2 ?Fitting results of training set and test set

平均絕對百分誤差 MAPE(%) 平方相關系

數R(%)

訓練集 9.25 95.47

測試集 9.56 96.07

以上是對T+1預測日(明日)的讀者流通人次建模的預測結果。之后重新以相似方法建模,對預測日為T+2(后天)、T+3(大后天)的讀者流通人次進行預測(此時,預測日的前一至二日的讀者流通人次為未知數,而預測日的天氣狀況視為已知)。實驗結果表明,訓練后得到的模型,預測準確率并未明顯降低,均接近90%,見表3,顯示采用此方法建構的預測模型適應性較強,預測效果較為穩定。

表3 ?三日預測效果對照表

Tab.3 ?Contrast table of three-day prediction effect

平均絕對百分

誤差MAPE(%) 平方相關系

數R(%)

T+1 訓練集 9.25 95.47

測試集 9.56 96.07

T+2 訓練集 9.08 95.74

測試集 10.08 95.86

T+3 訓練集 9.40 95.63

測試集 10.16 95.65

3 ?結語

本文在全程貼近實際目標預測系統構建的指導思想下(適用、穩定、準確),以量子遺傳SVM算法為核心,構建數學模型,對公共圖書館的每日讀者流通人次進行短期預測,獲得了較好的預測效果。

模型的數據實例來源于上海市嘉定區圖書館。建模步驟如下:首先對影響嘉定區圖書館每日讀者流通人次的因素進行分析和篩選,而后采集、量化、清洗選定的因素數據,獲得近3年內840組可用數據(包含11個特征字段),劃分為訓練集和測試集。接著將所獲數據集進行歸一化操作,使用RFE進行特征選擇,而后使用量子遺傳算法(QGA)對支持向量機(SVM)的超參數C、g進行尋優。模型以預測日(三日內)的讀者流通人次作為訓練目標,使用訓練集數據進行SVM模型訓練,訓練完成后,加載此SVM模型對測試集數據進行了預測效果的檢驗。結果表明,采用此方法建立的模型,預測未來三日內讀者流通人次,其總體預測準確率可達90%左右,有著較好的預測效果。

從模型選擇、影響因素分析、數據采集、特征篩選到預測效果的評價,本文從始至終保持貼近實際預測系統的構建。如預測模型所使用特征數據,均為可獲取或提前獲知的數據:讀者流通人次的歷史數據一般可由相關流通系統的數據庫獲取、預測日的天氣數據(最高氣溫、最低氣溫、降雨量)可從天氣預報中獲取。節假日等特殊時間段的預測雖然不在本文論及范圍之內,但可以本模型預測數據為基準,輔以傳統統計學方法,分析、考量其變動,便可進一步對特殊時間段的流通人次進行自動化預測。

一個全自動的、穩定且高精度的以機器學習算法為核心的每日讀者流通人次短期預測系統的建立,將有效地提升圖書館智慧服務的層級,是人工智能深入參與到圖書館智慧服務中去的一個典型的范例。

參考文獻

[1]張學工. 關于統計學習理論與支持向量機[J]. 自動化學報, 2000, 26(1): 32-42.

[2]祁亨年. 支持向量機及其應用研究綜述[J]. 計算機工程, 2004, 30(10): 6-9.

[3]丁世飛, 齊丙娟, 譚紅艷. 支持向量機理論與算法研究綜述[J]. 電子科技大學學報, 2011, 40(1): 1-10.

[4]馮振華, 楊潔明. SVM回歸的參數選擇探討[J]. 機械工程與自動化, 2007, (3): 17-18, 22.

[5]潘妍, 孫立民, 馬曉燕. 一種支持向量機的動態自適應加權算法[J]. 煙臺大學學報(自然科學與工程版), 2009, 22(4): 282-285

[6]費巍, 徐軍. 公共圖書館讀者流量影響因素研究[J]. 山東圖書館學刊, 2012, (2): 56-58, 64.

[7]游偉, 李樹濤, 譚明奎. 基于SVM-RFE-SFS的基因選擇方法[J]. 中國生物醫學工程學報, 2010, 29(1): 93-99.

[8]吳紅霞, 吳悅, 劉宗田, 等. 基于Relief和SVM-RFE的組合式SNP特征選擇[J]. 計算機應用研究, 2012, 29(6): 2074- 2077.

[9]葛繼科, 邱玉輝, 吳春明, 等. 遺傳算法研究綜述[J]. 計算機應用研究, 2008, 25(10): 2911-2916.

[10]梁昌勇, 柏樺, 蔡美菊, 等. 量子遺傳算法研究進展[J]. 計算機應用研究, 2012, 29(7): 2401-2405.

主站蜘蛛池模板: 亚洲制服丝袜第一页| 亚洲永久视频| 国产国拍精品视频免费看| 大陆精大陆国产国语精品1024| 亚洲综合极品香蕉久久网| 99中文字幕亚洲一区二区| 国产美女在线免费观看| 日本亚洲最大的色成网站www| 国产成人高清亚洲一区久久| 国产 日韩 欧美 第二页| 精品免费在线视频| 一级不卡毛片| 成人午夜视频网站| 五月天久久综合国产一区二区| 亚洲国产精品国自产拍A| 在线视频精品一区| 欧美国产日本高清不卡| 欧美另类视频一区二区三区| 天天色综合4| 国产在线精品网址你懂的| 97国产成人无码精品久久久| 亚洲欧美不卡| 米奇精品一区二区三区| 91网在线| 91成人在线观看视频| 亚洲色图在线观看| 免费aa毛片| 婷婷五月在线视频| 日本福利视频网站| 久久国产高潮流白浆免费观看| 免费在线国产一区二区三区精品| 成人欧美在线观看| 综合五月天网| 久久无码av三级| 国产一区二区三区在线观看免费| 日本一区中文字幕最新在线| 亚洲天堂视频在线播放| 亚洲一区二区黄色| 青青草原国产av福利网站| 久久综合色88| 久久综合色天堂av| 福利视频一区| 亚洲三级片在线看| 污污网站在线观看| 精品国产成人a在线观看| 亚洲第一视频免费在线| 国产swag在线观看| 午夜成人在线视频| 久久这里只精品国产99热8| 欧美国产中文| 黄色网址手机国内免费在线观看| 亚亚洲乱码一二三四区| 国产精品丝袜视频| 欧美国产日韩在线观看| 精品人妻无码中字系列| 免费观看三级毛片| 久久www视频| 18禁色诱爆乳网站| 国产杨幂丝袜av在线播放| 久久精品66| 久久亚洲国产一区二区| 免费看的一级毛片| 专干老肥熟女视频网站| 99久久精品视香蕉蕉| 国内精品视频在线| 97久久免费视频| 国产网友愉拍精品视频| 真人免费一级毛片一区二区| av在线人妻熟妇| 亚洲午夜片| 国产一级精品毛片基地| 久久精品电影| 国产成人凹凸视频在线| 熟妇丰满人妻| 久久青草免费91线频观看不卡| 激情综合网激情综合| 久久精品人妻中文系列| 日本欧美视频在线观看| 久热精品免费| 成人国产精品一级毛片天堂 | 日韩福利视频导航| v天堂中文在线|