999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征選擇和神經網絡的鐵路貨運量預測

2018-09-20 08:23:54
物流技術 2018年9期
關鍵詞:鐵路模型

(華中科技大學 土木工程與力學學院,湖北 武漢 430074)

1 引言

鐵路貨運量是確定鐵路基礎設施建設規模、安排貨物運輸計劃的重要依據,是鐵路貨運市場體系的重要指標。貨運量預測的準確性對制定未來鐵路貨運發展戰略、貨運設施的投資和效益都有著重要的意義。鐵路貨運部門一直力圖及時、準確地對鐵路貨運量進行預測和分析。鐵路貨運體系是一個復雜系統,受社會、經濟、自然等多種因素的綜合影響,鐵路貨運量是一個非線性時間序列,這就導致了建立預測模型十分困難。

就整個交通預測問題而言,已經有了大量研究成果。大體可以把它們分為兩類[1-2]:一類是動力模型,包括時間序列模型、卡爾曼濾波模型、參數回歸模型、指數平滑模型等;另一類是統計模型,包括非參數回歸模型、KARIMA算法、基于小波理論的方法、基于多維分形的方法、譜分析法、狀態空間重構模型和神經網絡模型等。前者試圖在預測依據與預測對象之間建立明確的函數解析式關系,后者主要通過對數據的學習,發現預測依據與預測對象之間的多層嵌套的相關性,并不追求嚴格的數學形式和明確的物理意義,而更重視對預測對象的擬合效果。

無論采用何種預測模型,若僅僅依據被預測對象自身的時間序列數據進行預測,則預測精度達不到預期效果,畢竟單變量的時間序列提供的信息是有限的。考慮到多變量時間序列包含更豐富的預測對象所隸屬的系統相關信息,能重構出更為準確的相空間,引入除預測對象以外的其他指標構成多維時間序列,可體現預測對象受多種因素共同驅動的本質[3-5]。

有一些學者已經將多維時間序列用于交通預測,例如用于交通事故預測[6]、駕駛狀態檢測[7]、交通流狀態預測[8]以及短時交通流量預測[9]。其中,文獻[6-8]采用的是分段線性回歸的方法,與非線性預測仍有較大差異。文獻[9]采用了相空間重構方法,在理論上較為先進,但基于貝葉斯的相點融合在應用上十分繁瑣。

作為一種經典的統計學習模型,人工神經網絡可以任意逼近復雜函數,因此,它在時間序列的學習和預測中具有天然的優勢。正因如此,神經網絡在交通預測領域得到廣泛應用,例如,朱中[10]等人采用神經網絡實時預測交叉口的交通流量;譚滿春[11]等人將自回歸求和滑動平均與人工神經網絡組合模型用于短時交通流預測。這些研究屬于早期研究,受數據來源的限制,神經網絡所處理的是單個時間序列而不是多維時間序列。利用神經網絡對多維時間序列進行學習和預測可較為輕松地取得較好的效果[12]。一方面,神經網絡具有強大的特征提取與抽象能力,能夠整合多維信息,處理異構數據,捕捉變化動態,是分析多維數據的有力工具;另一方面,多維數據也可為神經網絡提供充足的訓練樣本。但是,如何明確神經網絡的結構和大小,以及如何克服數據中的矛盾和錯誤對神經網絡訓練和學習造成的干擾仍然未得到解決。

本文將基于神經網絡的時間序列預測分為兩個階段。第一階段,對輸入神經網絡的指標項進行特征選擇。首先,對指標項進行篩選,降低時間序列的維數,只保留與鐵路貨運量具有較強相關性的那些指標。然后,對所保留的指標項進行模糊聚類,以增強那些與除鐵路貨運量之外的其他指標高度相關的指標在神經網絡訓練和預測中的作用。第二階段,建立基于廣義回歸神經網絡(GRNN)的預測模型。經由廣州市的年報統計數據驗證,將特征選擇與基于GRNN的預測模型相結合,會大大提高預測精度。

2 特征選擇

2.1 指標篩選

神經網絡建模所需的信息完全由訓練樣本提供,這就決定了建模效果的好壞依賴于訓練樣本的數量和質量[13]。通常情況下多維時間序列具有較多特征指標,由于特征空間維數較大,使得多維時間序列預測存在“維數災難”的問題。因此選取對預測具有一定作用的特征指標是預測的前提和難點。特征選擇是指從原始特征集中選擇使某種評估標準最優的特征子集,是一種常見的降維方法,其目的是使選出的最優特征子集所構建的分類或回歸模型達到和特征選擇前近似甚至更好的預測精度。

本文首先對各項指標進行篩選,只保留與鐵路貨運量的線性相關性≥0.7的指標。大量經驗表明,相關性在0.7以上即是具有較強的相關性[14]。相關性的計算公式:

式中:r—相關性系數;y—鐵路貨運量;—鐵路貨運量均值;x—需要計算的指標;—需要計算指標的均值。

2.2 指標的模糊聚類

2.2.1 模糊聚類方法。大多數事物的屬性并不是完全確定的,它們在性態和類屬方面存在著亦此亦彼的模糊性。模糊聚類允許對元素的分類存在交叉性,即允許一個元素同時出現在多個類中。對指標進行模糊聚類,本質上是允許指標的相似性和差異性同時存在,以抵消指標之間的矛盾給訓練神經網絡帶來的干擾。多維時間序列中的矛盾很多,對指標進行聚類顯得尤為必要。

對隸屬度的計算方法有很多種,本文假定各指標之間的相關性就是隸屬度,相關系數越接近1則隸屬度越強。隸屬度(相關性)可作為對集合中的元素進行分類的標準[15]。設指標集合X={x1,x2,x3,x4,x5},根據X中各元素的相關性給出模糊相似關系R,由于模糊相似關系滿足自反性與對稱性,所以其對應的矩陣主對角線上全部為1,且具有對稱性。模糊相似矩陣如圖1所示。取截集水平λ=0.7,令圖1矩陣中大于等于λ的值變為1,小于λ的值變為0,如圖2所示。根據圖2中的矩陣所反映的相關關系,可將X中的元素分為{x1,x2}、{x1,x4}、{x2,x3}、{x2,x5}四類。

圖1 模糊相似矩陣

圖2 截集矩陣

2.2.2 模糊聚類步驟。與鐵路貨運量相關的若干個指標之間并不一定兩兩相關,所以把類中各指標必須兩兩相關作為分類的標準,以保證類中的指標較為緊湊。在進行模糊聚類時,搜索起點采用隨機選取,搜索方向使用前向搜索,即初始集合為空集S,隨機選取初始指標后按照一定的搜索順序從未包含在S的指標集中按照一定規則選取新的指標加入S構成一個類。搜索策略采用隨機搜索,即選擇特征的順序為隨機順序。停止準則是當所有特征都進行分類后則結束模糊聚類。聚類過程如下:

(1)從全部指標項中隨機選取一項作為初始類的第一個元素。

(2)把剩下的指標按照隨機順序依次與已有類中的每一個指標比較相關系數,若相關系數都≥λ則將該指標添加進這個類中,若不滿足則不對該指標進行分類。

(3)檢查是否所有指標都進行了分類,若是,則結束聚類;若否,則分別計算所有未分類指標與已分類指標的距離,即相關系數之和。選取距離最遠的未分類指標作為新類的第一個元素并且返回第(2)步。

由于聚類時挑選指標的順序存在隨機性,因此每次聚類結果不完全相同,但經過多次分類發現,每次分類的數量和類中的指標數量均較為穩定。

3 基于GRNN的時間序列預測模型

3.1 GRNN模型

鑒于政府統計部門所提供的年報數據含特征項數量較多而年份項數量較少,本文選用具有學習速率快、人為確定參數少特點的廣義回歸神經網絡(GRNN)建立學習和預測模型。GRNN收斂于樣本量積聚較多的優化回歸面,并且在樣本數據較少時,預測效果也較好。而另一種常見的神經網絡—BP神經網絡,在訓練時存在收斂速度慢和容易陷入局部極小的缺點。

廣義回歸神經網絡(GRNN)由四層構成,分別為輸入層、模式層、求和層和輸出層。當一個神經網絡模型“學習”得到輸入和輸出變量的關系之后,即可用于對給定輸入的預測。一個預測樣本個數為N、預測樣本輸入量維數為M、預測樣本輸出量維數為K的GRNN結構如圖3所示。

圖3 廣義回歸神經網絡結構圖

(1)輸入層。輸入層接收樣本的輸入,即預測年份的除鐵路貨運量以外的其他各項指標,將它們歸一化后通過線性函數直接傳遞給模式層。

(2)模式層。模式層中的神經元為徑向基神經元,其個數與訓練樣本數相同。模式層的本質是利用徑向基函數計算預測樣本與訓練向量之間的相似程度。它接受輸入層的輸出向量xn=[xn,1,xn,2…xn,M]T,然后計算輸入向量xn與該層訓練向量的歐氏距離‖dist‖,訓練向量為cj=[cj,1,cj,2…cj,M]T(其中j表示第j個神經元)。

式中:xn-第n個輸入樣本;cj-第j個徑向基神經元訓練向量。

最后,以輸入向量和訓練向量之間的距離‖‖dist作為自變量傳遞給該神經元的激活函數。徑向基神經元的激活函數采用徑向基函數,通常定義為空間任一點到某一中心之間的歐氏距離的單調函數,一般表達式為:

徑向基神經元中常用的徑向基函數是高斯函數,因此徑向基神經元的激活函數可表示為:

式中:xn-第n個輸入樣本;cj-第j個徑向基神經元訓練向量;σ-高斯函數的方差,即光滑因子。

則第n個輸入樣本的第j個神經元的輸出值即Pn,j=R(xn-cj)。其中σ由人為確定。

(3)求和層。求和層包括兩種類型神經元,其中一類為分母單元,另一類為分子單元。分母單元是對模式層的輸出進行算術求和,模式層各神經元與分母單元神經元的連接權值為1,其輸出為:

式中:Pnj-第n個輸入樣本的第j個神經元的輸出值。

分子單元是對所有模式層神經元的輸出進行加權求和,求和神經元的個數為預測樣本輸出向量的維數K,在本例中需要預測的只有鐵路貨運量即K=1。分子單元與模式層神經元的連接權重為訓練向量中當年的鐵路貨運量yj,即wj,k=yj。分子求和神經元的輸出為:

式中:Pn,j-第n個輸入樣本的第j個神經元的輸出值;wj,k-第k個分子單元與第j個模式層神經元的連接權重。

(4)輸出層。所謂輸出就是預測結果。輸出層中的神經元個數等于預測樣本中輸出向量的維數K,這里只有鐵路貨運量需要預測,所以K=1。神經元將求和層的分子單元輸出除以分母單元輸出,得輸出層神經元的鐵路貨運量輸出為:

式中:yn-第n個預測樣本的鐵路貨運量預測值;Sn-第n個預測樣本的分子單元輸出;STn-第n個預測樣本的分母單元輸出。

從廣義回歸神經網絡的結構可以看出,其實質就是能夠實現不同模式下的局部響應,從而達到全局逼近的訓練效果。因此廣義回歸神經網絡可進行模式識別下的預測。

3.2 模糊聚類對于GRNN的作用

需要指出,對指標進行模糊聚類與構建模糊神經網絡是兩種不同的技術方法。前者將具有較高相關性的指標歸為一類,旨在梳理數據空間本身的結構。后者將模糊規則引入神經網絡,使網絡的訓練過程具有模糊性。由于GRNN的實質是度量某個樣本與其他樣本之間的相似性,而樣本之間的相似性本來就不互相排斥,所以,GRNN等價于模糊神經網絡,沒有必要再通過模糊化來提高對訓練樣本的兼容性。

雖然GRNN具有等價于模糊神經網絡的功能,但樣本內部數據本身的矛盾,仍會影響GRNN的效果。相互矛盾的數據將對計算樣本之間的距離造成影響,而神經網絡的模糊化不能解決數據樣本本身的矛盾,可以通過對訓練樣本進行模糊聚類來解決這個問題。

聚類使導致矛盾的異常數據落入少數幾個類甚至是1個類中,降低了它們在訓練中出現的次數和影響,同時增加關聯性較強的數據出現的次數和影響。神經網絡的優勢是經驗風險最小化[14],聚類的本質是降低數據帶來的結構風險,恰好彌補了神經網絡固有的不足。

4 預測案例

4.1 數據預處理

廣州市1999至2015年的宏觀年報共統計了人口、產業、物價指數、投資、消費、運輸與郵電等方面的1 294項指標,為避免其中部分指標在部分年份缺失對神經網絡訓練效果的影響,只選用了缺失年份少于等于2年的906個指標。再按與鐵路貨運量線性相關性≥0.7的標準,最后保留92項指標。將兩兩之間線性相關性≥0.7的指標歸入一類,92項指標共被分為15個不同的類,每一類的元素個數從幾個到幾十個不等。為了描述方便,將1號指標設置為鐵路貨運量。

數據在輸入神經網絡前需要被歸一化處理,這里使用最大-最小標準化公式對每一數據項的時間序列進行歸一化處理:

式中:A-需要歸一化的指標;x-指標中的年份數據;x'-指標中歸一化后的年份數據。

在進行歸一化處理后,以廣州市1999-2009年11年間的數據作為11個訓練樣本,并以當年鐵路貨運量為目標,以2010-2015年6年間的數據作為預測樣本,預測相應年份的鐵路貨運量并計算誤差。

4.2 預測結果

為說明特征選擇的作用,分別將進行指標篩選和模糊聚類、進行指標篩選但不模糊聚類、未進行指標篩選但模糊聚類、未進行指標篩選和未模糊聚類四種不同的特征選擇方案的結果輸入GRNN網絡進行預測,預測結果如圖4所示,四種特征選擇方案所對應的預測誤差見表1。

表1 不同特征選擇方案對應的預測誤差

圖4 鐵路貨運量預測結果

當特征選擇手段既包括指標篩選又包括模糊聚類時,根據指標所分成的15個類共得到15個不同的預測結果,取平均值得到最后鐵路貨運量的預測結果。

當特征選擇不進行模糊聚類分析,直接將篩選過后留下的92項線性相關指標帶入神經網絡進行訓練時,神經網絡沒有給出有效的預測值。

當特征選擇對指標不進行篩選但進行模糊聚類時,906項指標共被分為154個不同的類,每一類的元素個數從1個到幾百個不等。由于此時數據樣本數量較少,但類的個數很多,進行預測時,對所有類取同一光滑因子σ將產生問題。較小的σ導致神經網絡擬合能力較好,但外推預測效果較差,較大的σ會使那些與鐵路貨運量之間存在簡單對應關系的類所產生的預測結果的精度不夠。因此,難以找到一個適合所有類的光滑因子σ。

當特征選擇未對指標進行篩選和未模糊聚類時,直接將906項數據項帶入神經網絡進行預測。訓練樣本數量較少且維數較大,存在數據錯誤和數據矛盾,神經網絡幾乎沒有預測效果。

由圖4和表1可以看出,采用既數據項篩選又模糊聚類的特征選擇方法能使神經網絡對鐵路貨運量進行有效的預測。

5 結論

鐵路貨運量是鐵路基礎設施投資建設、安排貨物運輸計劃的重要依據。本文首先簡述了傳統鐵路貨運量預測方法的不足以及多項指標構成多維時間序列對預測帶來的數據融合問題。然后介紹了在將數據輸入基于廣義回歸神經網絡的預測模型之前,采用數據篩選和模糊聚類相結合的特征選擇方法。指標篩選保證了指標與鐵路貨運量之間的相關性,指標聚類則增強了那些與其他指標高度相關的指標在神經網絡訓練和預測中的作用。

將廣州市1999至2009年的1 294項年報指標進行篩選和模糊聚類后,保留其中92項,并將它們分為15類,然后輸入廣義回歸神經網絡預測模型,對2010至2015年的鐵路貨運量進行預測,誤差在1.5%-8.2%之間。同時,本文從反面驗證了不進行數據篩選或不模糊聚類的特征選擇方法將使預測結果產生較大誤差,說明進行指標篩選和模糊聚類的特征選擇對于基于廣義回歸神經網絡的預測模型是非常必要的。

猜你喜歡
鐵路模型
鐵路是怎么發明的
一半模型
沿著中老鐵路一路向南
云南畫報(2021年12期)2021-03-08 00:50:54
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
鐵路通信線路維護體制改革探索與實踐
3D打印中的模型分割與打包
無人機在鐵路工程建設中的應用與思考
GSM-R在鐵路通信中的應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产视频入口| 免费国产高清视频| 日本午夜网站| 日本免费新一区视频| 午夜老司机永久免费看片| 国产91成人| 国产美女91呻吟求| 亚洲无码在线午夜电影| 伦精品一区二区三区视频| 99re热精品视频中文字幕不卡| 五月婷婷综合网| 国产成人夜色91| 亚洲AV无码久久精品色欲| 18禁高潮出水呻吟娇喘蜜芽| 国产乱人伦精品一区二区| 欧美成人二区| 萌白酱国产一区二区| 亚洲av无码片一区二区三区| 成AV人片一区二区三区久久| 五月天香蕉视频国产亚| 国产中文一区a级毛片视频| …亚洲 欧洲 另类 春色| 亚洲国产综合自在线另类| 欧美视频免费一区二区三区| 亚洲日韩精品无码专区| 一区二区在线视频免费观看| 国产三级视频网站| 久久黄色一级视频| 黄色福利在线| 香蕉伊思人视频| 欧美日韩一区二区在线免费观看| 亚洲一道AV无码午夜福利| 色窝窝免费一区二区三区| 欧美日韩v| 亚洲欧美日韩中文字幕在线一区| 国产在线观看人成激情视频| 国产性猛交XXXX免费看| 丁香婷婷在线视频| 狠狠色丁香婷婷综合| 经典三级久久| 亚洲无码日韩一区| 国产18在线播放| 激情爆乳一区二区| 欧美成人国产| 2021精品国产自在现线看| 亚洲天堂网站在线| 丁香六月综合网| 99这里只有精品免费视频| 99精品热视频这里只有精品7 | 99re精彩视频| 亚欧成人无码AV在线播放| 女人18一级毛片免费观看| 国产欧美综合在线观看第七页| 91在线无码精品秘九色APP| 小说区 亚洲 自拍 另类| 国产一区在线视频观看| 午夜国产小视频| 日韩a在线观看免费观看| 一本大道香蕉久中文在线播放| 国产精品自拍露脸视频| 国产男女XX00免费观看| a级毛片免费看| 日韩精品亚洲一区中文字幕| 国产黑丝视频在线观看| 制服丝袜国产精品| 91香蕉国产亚洲一二三区| 色噜噜狠狠色综合网图区| 亚洲中文字幕手机在线第一页| 看看一级毛片| 人人爽人人爽人人片| 欧美国产日本高清不卡| 99久久国产综合精品2020| 久久久久免费精品国产| 久久精品丝袜| 亚洲不卡av中文在线| 亚洲综合色婷婷| 国产一区二区三区免费观看| 精品乱码久久久久久久| 99伊人精品| 国内精自视频品线一二区| 亚洲天堂精品视频| 久久人妻xunleige无码|