張鹍鵬
(哈爾濱工業大學(深圳), 建筑學院, 廣東, 深圳 518000)
隨著網絡通信技術及計算機技術的發展與應用,居民對公共出行的體驗要求更高,特別是公交客流預測、到站預測等軟件服務項目為乘客提供了更為實時準確的公交線路信息,方便了乘客的同時提升了公共交通運行效率。近年,對公交客流預測問題已出現了許多相關文獻。Vishal等[1]提出了神經網絡與小波變換混合模型,以驗證模型預測的適應性。范光鵬等[2]利用LSTM神經網絡模型,結合卡爾曼濾波對公交到站時間進行預測。賈慶林[3]提出小波神經網絡模型,對公交客流量進行預測。邊冰等[4]將RBF神經網絡模型應用于公交到站時間預測,驗證了RBF模型的快速收斂性。文中利用RBF神經網絡模型的快速收斂性與準確性,將其應用于公交客流量預測中,檢驗結果表明RBF模型具有更高的預測經度。
RBF神經網絡結構如圖1所示。網絡結構可劃分為3層:輸入層、隱含層、輸出層[5]。其中,隱含層能夠依據輸入樣本自動調整網絡結構,并能夠局部逼近實際真值,通過樣本數據的訓練,對局部加權值進行調整,實現快速收斂。由于徑向基函數RBF能夠依據輸入樣本的不同對網絡結構自動生成和調整,局部逼近能力較強,實現與真實值的高度逼近,在樣本訓練過程中,僅需對局部權值進行調節即可實現網絡的快速運行和收斂,該特性使得RBF網絡模型具有較快的訓練收斂速度。另外,與BP網絡模型相比,RBF網絡模型對非線性特征提取能力更強,能夠更為準確地提取出客流的隱含特征,同時RBF網絡模型結構簡單,模型運算資源占用少,有利于在嵌入式設備中得到實現,更適合用于短時客流預測。

圖1 RBF神經網絡預測模型結構
選用高斯函數作為基函數,公式[6-7]為
(1)
其中,xk表示樣本數據,ci表示基函數的中心值,σ表示方差。
RBF網絡的輸出結果公式[8]為
(2)

RBF神經網絡中有幾個關鍵參數,其影響整個網絡的訓練速度與輸出結果,主要包括基函數中心值、方差值及隱含層輸出權重值。首先,采用K值聚類法計算基函數的中心值,生成h個聚類中心,聚類中心的初始值可以為任意值,可取h個樣本數據作為其初始化值。然后運算每個樣本與聚類中心之間的歐式距離,篩選出距離最小的樣本構成新的數據組[9]。對新構建的數據組計算均值,獲得一組新的聚類中心值,運算公式為:
(3)
其中,c為求取的聚類中心值,N表示樣本總容量,m表示第i組向量中的樣本元素數量,xij表示樣本。依照該流程進行循環迭代運算,直到計算所得的聚類中心值C收斂,即得到最終均值。
方差值的求取可采用以下簡化公式[10]:
(4)
式中,σi表示方差,cmax表示聚類中心的最大值,h表示樣本的總數量。
隱含層輸出權重值(即第二層連接至第三層的權值系數)的計算具有多種方案,這里采用最小二乘法進行計算,公式[11]為
(5)
通過對主要參數的原始,將神經網絡結構及參數配置到最優狀態,然后進行樣本數據的訓練。訓練流程如圖2所示。

圖2 RBF神經網絡訓練流程
首先對原始樣本進行數據預處理,對網絡主要參數進行初始化配置,然后輸出樣本數據,通過誤差計算與參數修正的循環迭代,當誤差的平方和小于設定的最小閾值時,則認為訓練已收斂,輸出最終所需的網絡預測模型,最后可另取樣本對預測模型進行驗證。訓練模型引入了數據的預處理和參數初始化,通過對中心值、方差值、權重值的初始估算,使初始值與模型參數真值相接近,與隨機選取初始值相比,降低訓練次數,提高訓練速度,降低模型算法復雜度。
影響公交客流量的因素種類較多,其中包括天氣、日期、季節、上班高峰時段等關鍵因素,需要借助公交IC卡刷卡記錄、線路和站點、氣象數據等多種數據類型,多種數據類型的結構及存儲方式存在差異,需要對數據進行一些預處理,以使其適應于預測模型的輸入,在進行樣本訓練前,需要對多源數據進行必要的預處理。
預測模型的數據來源主要有兩大部分,一部分是有公交公司提供的記錄數據,主要包括IC卡記錄數據、線路基本信息、站點分布信息等,另一部分為國家氣象共享平臺提供的數據,主要包括天氣溫度、濕度、風力、雨水量等氣象信息。首先,需要對原始數據進行預處理,篩選剔除其中包括的異常數據,濾除干擾數據對預測結果的影響,然后對多種數據進行融合,使得多種數據在時間和空間緯度上進行準確匹配[12-13]。通過數據的預處理,降低數據的缺失、錯誤、冗余等問題,提升數據質量,從而提高預測模型輸出結果的準確性。

圖3 多源數據預處理流程
多源數據預處理流程如圖3所示,選用雨水量、溫度、時間、站點作為預測模型的輸入元素,主要包括數據格式轉換、檢測、問題定位、修正及驗證幾個部分,首先根據模型需求對數據格式進行轉換,然后是對數據依次進行流程性篩查,篩選排查出缺失、冗余、錯誤及無用數據,對檢測結果進行評估,定位異常數據的原因及位置,對數據進行相應的修正,剔除異常及無用數據,對冗余多余數據進行合并、刪減等處理,最后對數進行驗證,保證各輸入元素在時間和空間上能夠準確對應。
以某路公交刷卡記錄數據為樣本數據,獲取連續300天的刷卡統計數據,每天統計數據的起始時間為早上6點至晚上9點,以20分鐘為單位對客流量統計值進行劃分,篩選掉無效統計,共獲得280天的有效統計樣本。將其中200個樣本數據作為訓練樣本數據,另外80個樣本作為預測測試樣本數據。
分別采用傳統的BP神經網絡模型和RBF神經網絡模型對樣本進行訓練,測試對比2種預測模型的性能。其中,BP神經網絡模型的隱含層具有16個神經元,學習概率為0.1,誤差最小閾值設置為0.001,通過1000次迭代運行達到收斂。RBF神經網絡模型的隱含層具有9個神經元,學習概率為0.01,誤差最小閾值設置為0.001,通過200次迭代運行即可實現收斂。2種預測模型的預測結果如圖4所示。

圖4 兩種預測模型測試結果
從預測結果中可以明顯看出與傳統BP網絡相比,RBF網絡的預測結果更接近真實值。從圖4可以看出誤差的分布,BP網絡的相對誤差值分布于0.15-0.4之間,而RBF網絡的相對誤差分布于-0.1-0.1之間,RBF網絡的預測誤差更小,而RBF網絡的訓練時間僅為BP網絡的20%左右,驗證了RBF預測模型的快速性和精確性。
為驗證RBF模型的訓練快速性,分別選用不同時間段的樣本對預測模型進行訓練,在不同時間段的樣本輸入條件下,統計模型收斂所花費的訓練次數,統計結果如表1所示。表中以1 h為單位,選取9點到14點的樣本,分別作為BP和RBF 2種模型的輸入樣本,統計2種模型在不同的樣本輸入下其訓練需要花費的迭代次數,由表1中可知,RBF模型具有更快的收斂速度。

表1 不同樣本輸入下模型訓練次數統計
由于公交客流量受到多種因素影響,很難對其直接建立數學模型,傳統的客流量預測方法很難實現精確預測,無法為乘客出行提供較為精準的交通引導服務。近年,神經網絡預測模型逐漸被應用到公交調度中,文中提出將RBF神經網絡模型應用到公交客流量預測,以雨水量、溫度、時間、站點作為預測模型的輸入,公交線路客流量為輸出,對比實驗結果驗證了其在公交客流預測中的快速收斂性和預測精確性。