999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

變窗口神經網絡集成預測模型

2008-12-31 00:00:00
計算機應用研究 2008年8期

摘 要:針對時間序列問題,提出了一個變窗口神經網絡集成預測模型。利用自相關分析方法挖掘時間序列本身蘊涵的變化特性,并利用這些變化特性構造差異度較大的個體神經網絡。變窗口集成預測模型在應用于時間序列預測的同時,還可以有效地對異常序列進行篩選和分離。將該模型應用于移動通信話務量的預測。實驗分析表明,該預測系統具有較高的預測精度,并能有效地對異常序列進行分離。

關鍵詞:神經網絡集成; 時間序列; 預測; 異常檢測

中圖分類號:TP389.1 文獻標志碼:A 文章編號:1001-3695(2008)08-2355-02

Neural networks ensemble based on variable-window model

YANG Pei1, TAN Qi2

(1. Research Institute of Computer Application, South China University of Technology, Guangzhou 510640, China; 2. School of Computer Science Engineering, South China Normal University, Guangzhou 510631, China)

Abstract:This paper propsoed a novel model, called variable-window neural network ensembles to improve the ability of gene-ralization. First it took use of the self-correlation analysis method to calculate the self-correlation coefficients of the time series. Then used the coefficients to construct all the individual neural networks of the ensemble. The forecasting model could also be used to detect the outliers among the time series data. Applied the model to forecast the telephone traffic. The experiments demonstrate the proposed model is accurate and effective in the forecasting of telephone traffic.

Key words:neural networks ensemble; time series; forecasting; outlier detection

國內外研究者已經提出了眾多時間序列預測的方法,如Box-Jenkins[1]法、神經網絡方法[2,3]、遺傳算法[4]和卡爾曼濾波法[5]等。這些方法在廣泛應用的同時,也表現出很多缺陷和局限性。以上方法在對復雜系統的建模時往往建立一個單一模型,通過復雜參數來表征模型特征。但是,單一模型的泛化能力往往較差,預測的魯棒性沒有保障,預測的精度不能滿足實際工程的要求。

集成學習能有效提高機器學習系統的泛化能力。1990年,Hansen等人[6]提出了一種開創性的方法,即神經網絡集成(neural network ensemble)。Krogh等人[7]通過理論分析得到如下神經網絡集成泛化誤差的計算公式E=E-A。神經網絡集成的差異度A是神經網絡集成中各個網絡相關程度的度量。若集成的各個網絡個體是相似的,則神經網絡集成的差異度A接近于0,此時其泛化誤差E接近于各神經網絡泛化誤差的加權平均E;若集成中各個網絡個體是相互獨立的,則集成的差異度A較大,其泛化誤差遠小于各神經網絡泛化誤差的加權平均E。因此,神經網絡集成構造方法的研究工作主要集中在如何增大集成中各個體學習器的差異度,如Bagging[8]、Boosting[9]等。

如何有效地度量和產生泛化能力強、差異大的個體學習器,仍然是集成學習的一個還沒有被很好地解決的問題[10]。為了增加所構造的神經網絡個體之間的差異度,針對時間序列問題,本文提出了一種基于變窗口的神經網絡集成模型。利用時間序列的自相關特性,構造出差異度較大的個體神經網絡,并將個體網絡進行集成。

1 變窗口神經網絡集成模型

所謂變窗口,是指集成中各個神經網絡個體的輸入和輸出窗口是各不相同的。如圖1所示,fi表示神經網絡個體;xip是神經網絡fi的輸入節點;p表示對應神經網絡fi的輸入層節點數,它根據自相關系數來確定;y表示集成輸出。變窗口體現了從不同角度和不同的尺度去分析問題的思想。需要指出的是,變窗口神經網絡集成模型主要是針對時間序列預測,因為在一個時間序列中,可以很自然地切分出不同的輸入和輸出窗口。

時間序列本身蘊涵了客觀世界及其變化的信息,表現著變化的動態過程。分析時間序列特性的最有效工具是自相關分析[11]。筆者利用自相關分析將時間序列預測與集成學習這兩個問題有機地結合起來。根據自相關系數來決定輸入和輸出窗口大小。

首先,計算時間序列的自相關系數。如果已獲得時間序列{yt}的n期觀測值y1,y2,…,yn,將它們視為來自{yt}的樣本,則將自相關系數表示為

rk=∑n-kl=1(yl-y)(yl+k-y)/∑nl=1(yl-y)2

其中:n為樣本個數;k為滯后期;y為樣本均值。自相關系數反映了時間序列的項與其后第k項之間線性關系的性質和強弱相關程度。

其次,對自相關系數進行排序。選擇前p個最大的自相關系數,構成一個自相關系數集合R={rk1,rk2,…,rkp}。通過以下兩種方式構造不同的輸入和輸出窗口:

a)n-i-l網絡結構。輸入窗口xw和輸出窗口yw滿足以下關系:

xw=a,ra∈R

yw=1

b)n-i-m網絡結構。

輸入窗口xw和輸出窗口yw滿足以下關系:

xw=a,ra∈R

yw=b,rb∈R

a≥b

組成神經網絡集成中的個體學習器采用BP神經網絡。在BP神經網絡中,輸入信息從輸入層經隱藏層傳到輸出層。如果輸出層沒有得到期望的輸出,則計算輸出層的誤差,然后將誤差進行反向傳播,利用梯度下降算法,修改各層神經元的權值,直至達到期望目標。

假設學習任務是利用n個神經網絡通過加權平均組成的集成對進行學習f:Rm→Rn。假設輸入x∈Rm按分布p(x)隨機抽取,個體學習器fi的輸出為fi(x),則集成在輸入x上的實際輸出為f(x)=∑ni=1wifi(x)。其中個體學習器fi的權值wi滿足

0≤wi≤1

∑ni=1wi=1

2 異常序列篩選

變窗口集成預測模型可以用于時間序列預測,同時,還可以有效地對異常序列進行篩選和分離。真實世界中的時間序列數據往往受到多種因素的影響。例如,通信話務量就受到各種節假日(如春節、國慶)的影響。節假日的話務量與平常的話務量的數據分布并不相同。

異常點(outlier)檢測有很多種方法。常規的異常值檢測是根據當前的觀測值是否超出預先設定的閾值而作出判定。該方法存在幾個問題:a)如何設定恰當的閾值是個難點;b)難以發現一些細微的流量異常行為;c)由于網絡中的流量在不同的時間有很大的差距,對不同的時間采用同一個閾值顯然過于粗糙。

筆者認為,異常點并不單純指某個觀測值超出預設的閾值,同時也包括某一段時間的數據分布不符合常規規律。因此,單純依靠閾值來判斷,并不能找出所有的異常點。但是,如果換一個角度,從神經網絡集成的預測誤差的角度出發,則很容易檢測出所有的異常點。原因在于,神經網絡能捕獲數據的基本分布規律,而異常序列并不符合基本規律,因此神經網絡對其的預測誤差很大。如果多個神經網絡對同一部分的數據樣本的預測誤差均很大,則可以判斷該部分數據樣本為異常序列。

設x為訓練樣本,Ei(x)為第i個神經網絡在x上的預測誤差,假設誤差閾值為β(0≤β≤1),令:

δ(Ei(x))=1if Ei(x)≥β

0else

集成時采用多數投票方式,如果多數的神經網絡對樣本x的預測誤差均超出閾值,則認為樣本x為異常樣本,即1/n∑ni=1δ(Ei(x))≥α。其中:n為集成中的個體神經網絡的個數;α(0.5≤α≤1)為比例閾值。

3 實驗分析

基于以上模型,筆者設計了一個通信話務預測系統。數據集是廣東某小區從2006年4月到2007年3月共一年的話務量數據。集成中各個神經網絡個體的參數設置如表1所示。

表1 神經網絡個體參數設置神經

網絡輸入

窗口輸出

窗口隱層

節點數神經

網絡輸入

窗口輸出

窗口隱層

節點數NN171[4,13]NN2141[5,14]NN3211[6,15]NN4281[7,16]NN577[4,13]NN6147[5,14]NN7217[6,15]NN8287[7,16]隱藏層單元數的選擇參考了文獻[12]中提到的方案:

h=x+y+a

其中:h是隱藏層單元數;x是輸入窗口;y是輸出窗口;常數a=1~10。

當網絡的訓練階段完成后,通過計算預測誤差,對該網絡的性能進行評價。采用平均絕對百分率誤差EMAP和均方根誤差ERMS這兩個指標來評價預測精度。交叉驗證是衡量一種學習方案使用在某一數據集上的誤差率的標準方法。本實驗采用10折交叉驗證。

部分預測結果如圖2、3所示。在圖2中,橫坐標是天,縱坐標是話務量。圖3是預測誤差。從圖3可以看出,前面大部分樣本的預測誤差都很小,平均絕對百分比誤差為4.32%,均方根誤差為5.63%。從曲線走勢來看,預測序列與實際話務序列的步調基本一致,數據也比較接近。但是,在第28天到34天這個區間內,預測誤差都很大,全部大于20%。查看原始數據,發現第28天到34天正好是國慶黃金周。從圖2的實際話務序列可以看出,該周的每天最大忙時話務量都比較低,數據分布也與平常不一樣,而神經網絡擬合的只是大部分數據的分布規律,對黃金周的預測誤差則比較大。因此,可以將黃金周等異常序列從中篩選和分離出來。與此同時,從圖3還可以看出,異常點并不一定是絕對值超過閾值的點,而是數據分布與常規數據分布不一致的點。

4 結束語

時間序列具有一定的規律性、突發性和偶然性。真實世界中時間序列數據更是受多重因素影響。例如,對于通信話務量,它不僅與本地區的經濟發展水平密切相關,而且受到市場競爭、資費調整、季節變動等因素的影響。尤其是用戶流動性大、業務突發性強,給話務的預測帶來很大的困難。

同時,時間序列本身也蘊涵著豐富的有規律的信息,這些都可以被加以利用。筆者通過自相關分析方法挖掘時間序列本身蘊涵的變化特性,并利用這些變化特性來構造不同的神經網絡個體。由于每個個體學習器的網絡結構各不相同,且蘊涵了不同尺度的序列信息,這樣構造出來的個體網絡具有較高的差異度。個體差異度的增大可以有效地提高預測系統的泛化能力。現場的調試結果表明,該預測模型能有效地對移動通信話務量進行預測。

參考文獻:

[1]SHAUN N, RUEY P. Combining artificial neural networks and statistics for stock-market forecasting[C]// Proc of ACM Conference on Computer Science. New York: ACM Press, 1993:257-264.

[2]CORTEZ P, RIO M, ROCHA M, et al. Internet traffic forecasting using neural networks[C]// Proc of International Joint Conference on Neural Networks. 2006: 2635-2642.

[3]LEE R S T. iJADE stock advisor: an intelligent agent based stock prediction system using hybrid RBF recurrent network[J]. IEEE Trans on Systems, Man, and Cybernetics, 2004, 34(3): 421-428.

[4]IBA H, SASAKI T. Using genetic programming to predict financial data[C]// Proc of IEEE Congress on Evolutionary Computation. Piscataway: IEEE Press,1999: 244-251.

[5]McGONIGAL D, IONESCU D. An outline for a Kalman filter and recursive parameter estimation approach applied to stock market forecasting[C]// Proc of IEEE Conference on Electrical and Computer Engineering. 1995: 1148-1151.

[6]HANSEN L K, SALAMEN P. Neural network ensembles[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1990, 12(10): 993-1001.

[7]KROGH A, VEDELSBY J. Neural network ensembles, cross validation, and active learning[C]// TESAURO G, TOURETZKY D S, LEEN T K. Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 1995: 231-238.

[8]BREIMAN L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140.

[9]SCHAPIRE R. The strength of weak learnability[J]. Machine Learning, 1990, 5(2): 197-227.

[10]KUNCHEVA L I, WHITAKER C J. Measures of diversity in classifier ensemble[J]. Machine Learning, 2003, 51(2): 181-207.

[11]何書元. 應用時間序列分析[M]. 北京: 北京大學出版社, 2003.

[12]靳蕃. 神經計算智能基礎原理方法[M]. 成都: 西南交通大學出版社, 2000.

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

主站蜘蛛池模板: 亚洲天堂视频在线免费观看| 91精品啪在线观看国产| a网站在线观看| 亚洲国产成人超福利久久精品| 日日拍夜夜操| 国产原创演绎剧情有字幕的| 狠狠综合久久久久综| 一级毛片高清| 青青草原国产av福利网站| 999国内精品久久免费视频| 欧美啪啪网| 国产精品第| 伊人丁香五月天久久综合| 国产毛片基地| 欧美色综合久久| 亚洲人免费视频| 国产精品三级av及在线观看| 免费高清a毛片| 成人在线不卡视频| lhav亚洲精品| 亚洲全网成人资源在线观看| 国产区免费精品视频| 一级毛片a女人刺激视频免费| 91日本在线观看亚洲精品| 老司国产精品视频91| 日本在线国产| 尤物视频一区| 91国语视频| 国产精品美女自慰喷水| 久久无码av三级| 国产在线八区| 亚洲精品人成网线在线| 亚洲国产成人麻豆精品| 中文字幕一区二区人妻电影| 欧美中文字幕第一页线路一| 亚国产欧美在线人成| 欧美一级高清片久久99| 国产免费一级精品视频| 国产综合日韩另类一区二区| 91小视频在线观看免费版高清| 久久成人18免费| 国产精品成人第一区| 专干老肥熟女视频网站| AV天堂资源福利在线观看| 国产在线日本| 亚洲成人动漫在线| 在线观看国产精品日本不卡网| 在线播放91| 四虎永久在线精品国产免费| 在线中文字幕网| 超碰aⅴ人人做人人爽欧美 | AⅤ色综合久久天堂AV色综合| 99这里精品| 亚洲一本大道在线| 欧美v在线| 91香蕉视频下载网站| 国产精品无码一二三视频| 欧美亚洲国产精品第一页| 国产一区免费在线观看| 美女被操91视频| 亚洲一区二区精品无码久久久| 国产精品太粉嫩高中在线观看| 国产精品99久久久久久董美香| 日韩一区精品视频一区二区| 无码精品福利一区二区三区| 人妻少妇久久久久久97人妻| 伊人久热这里只有精品视频99| 91破解版在线亚洲| 性欧美精品xxxx| 欧美高清国产| 亚洲区一区| 久久不卡国产精品无码| 日韩无码黄色| 又爽又大又光又色的午夜视频| 国产欧美日韩在线在线不卡视频| 一级一级一片免费| 伊人久久久大香线蕉综合直播| 激情综合图区| 亚洲国产午夜精华无码福利| 亚洲一区二区在线无码| 亚洲三级a| 婷婷午夜影院|