謝小蘭+彭亞發


【摘要】根據東陽市公共自行車各站點間的自流動性的特點,借助于成熟的回歸分析方法,提出了迭代回歸模型。通過挖掘城市公共自行車系統中的原始數據,依據公共自行車需求與用地類型,居住人口和建筑面積等相關變量,利用多元回歸分析法確定統計數據與自行車投放預測量間近似的函數關系,再通過若干次迭代提高預測精度,以達到更準確的預測站點投放自行車的數量。迭代回歸模型不僅能夠有效預測并改善目前公共自行車站點的投放數量需求,同時能夠對初次設置公共自行車站點的城市提供投放依據,在滿足城市居民低碳出行需求的同時節約資源,具有一定的實用價值與現實意義。
【關鍵詞】數據挖掘;公共自行車;回歸模型
1引言
當前,城市大氣污染和交通擁堵問題日益嚴峻,汽車排放的尾氣已經成為影響城市空氣質量的最主要因素。而城市公共自行車能夠在很大程度上緩解這一問題,城市公共自行車系統作為大眾運輸的重要組成部分,在短程接駁、站間換乘以及休閑旅游中發揮著巨大的作用,因為在城市短距離的空間,騎自行車出行很顯然是一種低碳環保的方式。東陽市公共自行車系統服務項目自2014年11月第一期運營以來,受到市民的廣泛關注,據了解,東陽從一期公共自行車投入運營以來到目前,已辦理公共自行車租賃功能的公交IC卡1.2萬余張,自行車租用量累計40余萬人次。二期投入運營后,東陽市公共自行車租賃點累計達到135個,公共自行車投放累計達3000輛。但是,隨著市民對公共自行車的需求量不斷的增大,東陽市公共自行車系統在運行過程中逐漸出現站點規模等級化程度不高。站點的分布規模不成層次系統,出現有的站點利用率不高,閑置太多車輛,造成資源浪費,而有的站點租車換車緊張的現象;各站點內鎖樁數量的設置趨于經驗化,各站點投放公共自行車數量經驗化主要體現在投放模式比較單一粗放,沒有充分的考慮站點之間的不同所造成的不同需求。公共自行車投放數量的不科學造成部分站點內的自行車供不應求,而也有不少站點的自行車供大于求,達不到資源優化配置的效果,不能為城市人群提供更好的服務,因此,如何合理高效的優化城市公共自行車服務系統已成為當下亟待解決的問題。
因此,利用迭代回歸模型對東陽市公共自行車系統進行優化,可以依托于租賃點日常自行車借出情況的詳細統計數據,租賃點所在地區的土地利用情況,居民人口數量和建筑面積的數據,建立迭代多元回歸模型來求解租賃點自行車投放數量,通過迭代循環近似求解出租賃點公共自行車的投放量。迭代回歸模型在公共自行車系統優化中的應用研究,可以預測數據來源于東陽市公共自行車系統對站點每日不同時段的自行車租借人次與周轉率的準確統計,數據準確可靠,預測采用回歸分析法與迭代法相結合方法,逐步逼近實際需求,回歸分析法基于觀測數據與影響范圍內的土地利用建立適當的變量依賴關系,以分析數據內的關系,迭代法則保證了預測數據與實際需求的盡可能的接近,兩種方法的結合保障了預測方法的科學與精確,從而確保了模型較高的可靠性。
2東陽公共自行車數據再處理分析
數據挖掘需要處理大量的數據,這些數據都會存儲在公共自行車服務系統數據庫中,但這些原始的數據沒有經過預處理分析統計是不適合直接挖掘,需要對原始數據進行有針對性的篩選、轉換和消除一些冗余數據等,因為數據預處理工作是否到位直接影響著挖掘算法是否高效。
以東陽市公共自行車服務系統中提供的原始數據進行統計分析。首先應將數據表進行分別統計分析,統計公共自行車服務系統中每天所有站點的借車頻次和還車頻次,對有異常的數據,利用統計判別法給予剔除,并按累計的借車頻次和還車頻次分別給出排序,同時,統計分析出每次用車時長的分布情況。通過數據分析,結合繪制的圖形進行描述統計。統計借車頻次最高和還車頻次最高的站點,需根據相關數據進行逐一統計,并綜合統計數據統計每張借車卡累計借車次數,同時根據統計數據分析分布情況。另外,需要定義兩個站點之間的距離為從某一站點借車到另一站點還車所用的最短時長,由此,從數據中可以得到一些基本站點之間的距離,對于不能從數據中讀取的兩個站點間的距離可以應用算法進行求解。
公共自行車的原始數據都是數據挖掘技術的必要準備數據,數據的準確度將直接影響公共自行車服務系統優化模型的構建。對于公共自行車站點與鎖樁數量設置效果的評定,數據處理分析的準確度將對優化模型的構建產生直接的影響,因此對于關鍵數據要進行再處理和精確分析。假如某個站點的自行車利用率高,借車和還車的頻次相協調,那么這個站點設置的很成功,就要對這類數據進行分析保存。對一些站點自行車利用率不高,數據沒有明顯變化,那么可以取平均值為衡量標準,利用相關原始數據統計分析歸納最終可得到68個樣本,截取部分數據如表1所示。
表1公共自行車站點布置情況統計表(部分)
站點
ID主要
對象
性質區域對象的
經濟水平站點區
域類別住宅
距離商場區
距離附近
站點人流量站點
鎖樁
密度站點
設置
效果
等級Z001外地人低商場區近近少大不GOODZ003本地人高高級宅區較近近無大不MID3迭代模型的建立與回歸方法的求解
回歸分析法從被測變量和與它有關的解釋變量間的因果關系出發,通過建立回歸分析模型,預測對象未來發展的一種定量方法。通常處在一個系統中的各種變量可以有兩種關系即函數關系和相關關系。當事物之間具有確定關系時,則變量之間表現為某種函數關系。另外有些事物,比如租賃點投放自行車數量與土地利用類型,周邊一定范圍居住人口數量和有效建筑面積之間,雖然有著密切的聯系,但并不能準確的用某一函數關系式確定投放數量與三者間的關系,稱這類事物之間具有相關關系。
通過比較現有預測模型的缺陷,從而提出迭代回歸模型的有效性和可靠性。回歸分析法從被測變量和與它有關的解釋變量間的因果關系出發,通過建立回歸分析模型,預測對象未來發展的一種定量方法。通常處在一個系統中的各種變量可以有兩種關系即函數關系和相關關系。當事物之間具有確定關系時,則變量之間表現為某種函數關系。另外有些事物,比如站點投放自行車數量與土地利用類型,周邊一定范圍居住人口數量和有效建筑面積之間,雖然有著密切的聯系,但并不能準確的用某一函數關系式確定投放數量與三者間的關系,稱這類事物之間具有相關關系。迭代回歸模型的建模要立足金華市范圍內設置的所有自行車站點,每個站點的投放數量上必然存在供不應求與供大于求的情況,也必然存在一部分運作良好,供需平衡的站點。這些供需平衡的站點的自行車投放數量必然與周邊包括土地利用類型,居住人口數量和建筑面積等等條件相適應,即投放數量與周邊條件之間具有的這種確定的關系,投放數量是多種相關因素的函數,滿足一定的近似函數關系式。具體算法分析如下。
首先以屬性P進行假設,假設正例集的個數為x個,反例集的個數為y個,那P的信息量為Ix,y=-xx+ylog2xx+y-yx+ylog2yx+y,E(P)為EP=∑ki=1mi+nix+yEPi
其中EPi=-mimi+nilog2mimi+ni-nimi+nilog2nimi+ni。設r=mi-nimi+ni;則EPi=1+r2log21+r2+1-r2log21-r2=1+r2ln2ln(1+r)+1-r2ln2ln(1-r)-1。把ln(1+x)和ln(1-x)展開,則EPi=1+r2ln2∑∞n=1(-1)n-1rnn-1-r2ln2∑∞n=1rnn-1=…=1ln2∑∞n=1r2n2n(2n-1)-1
根據公式推出EPi=1ln2(r22+r412+r630+r856+…)-1代入上式計算出誤差在0.1以內并推出EP≈∑ki=1mi+nix+y[1-0.72*r2]。為了克服算法以非最優屬性作為新節點的缺點,在算法中設置一個權值J,設屬性P有a種值,則J=1/a。將屬性P的信息增益公式G(P)=I(x,y)-EP改為G′(P)=[I(x,y)-∑ki=1mi+nix+y(1-0.72*r2)]1a。
4總結
立足東陽市公共自行車各站點間的自流動性的特點,借助于數據挖掘技術中成熟的回歸分析方法,提出了迭代回歸模型。通過挖掘公共自行車系統中的原始數據,依據公共自行車需求與用地類型,居住人口和建筑面積等相關變量,利用多元回歸分析法確定統計數據與自行車投放預測量間近似的函數關系,再通過若干次迭代提高預測精度,以達到更準確的預測站點投放自行車的數量。迭代回歸模型不僅能夠有效預測并改善目前公共自行車站點的投放數量需求,同時能夠對初次設置公共自行車站點或增加站點的城市提供投放依據,在滿足金華市居民低碳出行需求的同時節約資源。
基金項目:
本文為2016浙江廣廈建設職業技術學院“應用數據挖掘技術優化東陽公共自行車系統研究”的研究成果,課題編號:16ZR011。