姚志剛,楊 杰,張晨光
(1.長安大學運輸工程學院,陜西西安 710064;2.長安大學經濟與管理學院,陜西西安 710064;3.同濟大學交通運輸工程學院,上海 200092)
隨著優先發展公共交通理念的深入貫徹落實,公共交通資源分配公平性越來越受到重視。部分學者將收入分配領域的不平等指數引入公共交通公平性研究中,定量測度公共交通服務的不平等程度,據此提出公共交通公平性改善措施[1-5]。公共交通公平性評價時,由于運輸活動非集計數據難以獲取,通常以交通小區為分組單元計算每個分組的公共交通供給指標和人口數量,從而計算不平等指數[6]。然而在實際數據收集過程中,由于人力、物力及統計誤差等限制因素,較難準確有效地獲取研究區域全部交通小區的公交資源、人口和社會經濟等數據,而且收集到的數據也可能存在極端值、污染值等,離散化的數據形式會直接影響公共交通公平性評價的可行性及其結果的準確性。隨著不同形式分布函數的出現,對有限的離散化數據進行分布函數擬合[7]成為公交資源數據獲取的一個重要途徑。通過對已收集的數據進行分布函數擬合,可從數據分布特征的角度出發,推斷研究范圍內每一個體所擁有的公共交通資源,從而更準確地進行公交資源分配公平性評價。
目前,國內外已有不少研究對分布函數的選取及其擬合效果進行了研究,并論證了分布函數對離散化數據擬合的有效性。在社會科學領域,分布函數已被廣泛用于研究收入分配、收入調整、反貧困政策等問題[7-9],其與統計性描述和空間可視化等手段形成互補[10],可以科學、直觀、準確地展示出資源占有水平與變化等特征。對于分布函數的擬合效果,陳建東等[7]通過擬合居民的收入分布發現四參數分布的擬合效果優于三參數分布,而三參數分布擬合效果優于兩參數分布。McDonald 等[11]也對不同數量參數的分布函數進行比較,發現四參數的廣義第二類Beta 分布(Generalized Beta of the Second Kind,GB2)與對數正態(Logarithmic Normal,Lognormal),對數Logistic(Fisk),韋伯(Weibull),伽瑪(Gamma)等常見兩參數分布以及與第二類Beta 分布(Beta of the Sec?ond Kind,B2),Singh-Maddala(SM)和Dagum 等三參數分布呈巢式結構,這些分布函數族適用于擬合組內人口占比與收入占比為已知的分組數據。在收入與分配領域的研究中,陳建東等[12]對比了Fisk,Pareto,Lognormal,Weibull 分布擬合的基尼系數,發現基于Fisk 分布的基尼系數擬合效果最佳。Sarabia 等[13]通過分析GB2,Lognormal 和Weibull 等分布函數的性質,推導得出Pietra 指數的顯式表達式,并將其應用于美國收入的分配公平性分析??梢钥闯?,目前國內外對于分布函數在公平性研究中的應用較多集中于收入分配領域,其他領域涉及較少。此外,在交通領域內,很少有研究對離散化的公共交通資源數據進行多種分布函數擬合,并通過系統地比較各分布函數的擬合優度來尋找契合公共交通資源數據的分布函數。以交通小區數據為基礎研究公共交通資源分布函數,不僅可獲得公共交通公平性評價所需的乘客個體數據特征[14],還可深入分析公共交通資源分配的時間、空間、群體差異及其變化特征等[15-17]。在調查數據有限和數據存在極端值和污染值等情況下,利用統計學中的分布函數擬合方法可以克服數據量不足、部分數據失真等問題,通過數據擬合來還原整體公共交通資源數據分布情況,進而測算不平等指數以反映公共交通資源分配的公平性狀況。
鑒于此,本文將采用公交可達性作為交通小區公交資源的度量指標,選取4 個兩參數分布函數(Lognormal,Fisk,Gamma 和Weibull)和4 個多參數分布函數(三參數包括SM,B2,Dagum,四參數為GB2)對浙江省海寧市公交資源數據進行擬合,并通過6 種統計量檢驗方法對上述分布函數的擬合效果進行比較,旨在找出最佳的公共交通資源數據擬合分布函數,為公共交通資源分配公平性評價及提升資源分配公平性提供決策依據。
公共交通的服務水平或資源分配狀況可通過公共交通服務供給指標[18-22]來衡量,其反映了一個交通小區內的公共交通服務水平,由線路條數、站點覆蓋范圍、班次頻率等因素共同決定,這些因素可綜合表述為公共交通可達性指標。Currie[18]的研究中采用公交站點可達性作為公共交通資源供給指標,該指標著眼于個人或區域與公共交通服務的距離,重點衡量某一區域(交通小區)內公共交通服務的覆蓋范圍,即各交通小區內所有公交站點所覆蓋的服務緩沖區范圍(通常為400m),再與公交班次頻率相結合,綜合計算得出公交站點服務供給指數。公交站點服務供給指數將交通小區公交可達性分為兩部分:一部分來源于交通小區內的站點,另一部分來源于交通小區外但其公交服務能覆蓋到該交通小區的站點,即交通小區外站點的覆蓋范圍與該交通小區相交。交通小區內站點可達性計算如式(1)所示、交通小區外站點可達性計算如式(2)所示[18,1]。
式(1)~式(2)中:站點j位于交通小區i內,站點k位于交通小區i外;Accij和Accik分別為站點j(j=1,2,…,N)和站點k(k=1,2,…,M)在交通小區i內的可達性;Sij和Sik分別為站點j和站點k在交通小區i內的覆蓋區面積(km2),其中半徑R=400m;Si為交通小區i的面積(km2);Hij和Hik分別為站點j和站點k的服務水平指標(每天到達站點j的公交車輛數目)。匯總交通小區i內部站點可達性和外部站點可達性,得到交通小區i內的總體公交可達性Acci,其計算公式如式(3)所示。
圖1 為交通小區內公交站點可達性的計算示例,其中站點1 和站點2 位于交通小區i內部,站點K 位于交通小區i外部??梢钥闯?,當站點位于交通小區外時,其在交通小區內的公交服務覆蓋范圍所占比重較小,因此交通小區的公交可達性主要來源于交通小區內部的公交站點。此外,考慮到相鄰較近站點的公交服務重疊區域占有更多公交資源,在計算公交可達性時將重疊的站點覆蓋區域面積進行累加。這種公交可達性的計算方法既考慮了交通小區受公交站點服務覆蓋范圍的影響,也考慮了公交服務本身的質量。但該方法也存在缺陷,其忽略了人口的空間分布,假設交通小區內居民的人口空間分布是均勻的。此外,該指標不考慮所提供公交服務的目的地。盡管如此,該方法仍可有效描述廣泛的公交供應水平且應用相對容易,其因計算簡便而成為實際應用中的一項選擇[23-24]。
圖1 可達性計算示例
由于每個交通小區的面積和人口不同,通常市區核心區域面積小而人流密度大,核心區域以外面積大而人流密度小。為客觀、合理地評價公共交通資源分布狀況,將交通小區的公交可達性指數除以交通小區人口數,得到交通小區的人均可達性,用來表示各交通小區內公交可達性的相對差異,即:
式(4)中:oi為交通小區i的人口數;為交通小區i人均公交可達性。
1.2.1 分布函數
選擇公交可達性表示交通小區內公共交通資源水平,則公共交通資源分布函數即為公交可達性分布函數。一般數據的分布情況較為復雜,但在社會公平性評價(如財富分布情況、收入分配情況、選票分布情況、醫療資源分布情況)中,Lognormal,Weibull,Gamma,B2,Fisk等分布函數的應用最為普遍。基于相關研究[11,25],本文從多種常用的分布函數中,選取了表1 所示的8 種實際擬合效果較好的分布函數(Cumulative Distribu?tion Function,CDF),其中兩參數分布函數4 個(Lognormal,Fisk,Gamma和Weibull)、多參數分布函數4 個(3 個三參數分布包括SM,Dagum,B2,四參數分布為GB2)。用概率密度函數(Probabili?ty Density Function,PDF)描述分布函數的隨機變量,PDF 中涉及的a,σ為規模參數,b,μ,p,q為形態參數,四參數GB2 與其他分布函數存在巢式結構關系。當p=1 時,GB2 即為SM,此時q影響右邊尾部的形狀,a影響兩邊尾部的形狀;當q=1 時,GB2 即為Dagum;當a=1 時,GB2 即為B2。
表1 公共交通資源分布函數
將公交可達性表示為隨機變量X,取值表示為x。假設X服從的分布函數為F(x),其含義為某地區的全體居民中可達性低于或等于x的居民所占的比例,即:
表1 中各分布函數的參數需通過擬合實際人均可達性和人口數據后得到。
1.2.2 擬合優度檢驗
擬合優度檢驗是通過比較實際分布函數統計量與理論分布函數計算值間的差異來判定分布函數對數據的擬合優度。選擇常用誤差平方和(Sum of Squares for Error,SSE),絕對誤差和(Sum of Absolute Error,SAE),卡方(Chi-squared,λ2)檢驗,KS(Kolmogorov-Smirnov)檢驗,CVM(Cramer-Von Mises) 檢驗和AD(Anderson-Dar?ling)檢驗共6個統計量,進行公共交通資源分布函數擬合優度檢驗。假設所有數據可以被分為s組,每組Ii=[)xi-1,xi,i=1,2,…,s,則第i組的估計頻率為:
各擬合優度檢驗統計量的計算公式如式(7)~式(12)所示[26-28]。
式(6)~式(12)中:ni為第i組的實際人口數;n為總人口;為分布函數參數向量;Fe(x)與F(x,)分別為實際分布函數和理論分布函數。原則上,這6 個統計量的計算結果越小表示擬合程度越好。
本文中的公交可達性數據來自浙江省海寧市。海寧市地處長江三角洲南翼的浙北地區,為浙江省轄縣級市,轄區水陸面積共863km2,2017年常住人口84.36 萬人,下轄4 個街道、8 個鎮、225個行政村(社區)。海寧市于2003年在全國率先開展了農村客運公交化改造,推進城鄉客運一體化發展。截至2017 年12 月,海寧市共有公交線路104 條、公交站點1 163 處、運營車輛487臺,年客運量3 468萬人次。
根據來源于海寧市交通運輸局的海寧市公交資源分布情況及相關數據,考慮到數據獲取與統計口徑等實際情況,按行政區劃將海寧市分為225個交通小區,其中4個交通小區尚未覆蓋公交線路和站點(無公交服務)。計算公交可達性時,選取221 個交通小區(市區內小區70 個,農村小區151 個)進行研究,其中人口合計83.42 萬人?;讷@取的公共交通系統數據資料,利用軟件ArcGIS10.5 建立矢量化公交線網數據庫,按式(1)~式(4)計算各交通小區的公交可達性,進而用于擬合分布函數和公平性評價。
根據以上各交通小區的公交可達性數據,使用R 語言進行極大似然估計(Maximum Likeli?hood Estimate,MLE)編程,對表1 中8 種分布函數進行參數擬合,得到表2 所示的參數估計值。依據表2 結果,按兩參數和多參數分別繪制分布函數的概率密度曲線,其中兩參數的如圖2(a)所示、多參數的如圖2(b)所示。可以看出,圖2中人均公交可達性直方圖呈正偏態分布,擬合分布函數的概率密度曲線與人均公交可達性直方圖越接近,表明擬合分布函數與實際數據越吻合。在圖2(a)中,當人均公交可達性值小于0.02 時,4 個兩參數擬合分布函數的概率密度曲線之間的差異較為明顯,其中Gamma 與Weibull 的概率密度曲線之間的差異相對較小,但都存在對實際數據分布特征低估的現象;Lognormal與Fisk的概率密度曲線與直方圖較為接近,但頂峰處對實際數據分布特征存在低估現象。在圖2(b)中,多參數分布的概率密度曲線比兩參數分布的概率密度曲線更貼近直方圖,且多參數分布概率密度曲線相互間相似。顯然,多參數分布具備更多形狀參數,能更好地捕捉數據的分布特征,故比兩參數分布擬合效果好。
表2 分布函數擬合參數值
圖2 分布函數數據擬合概率密度曲線
從圖2 中擬合分布函數的概率密度曲線與直方圖的一致性,能看出擬合分布函數與實際數據的吻合程度,但需對擬合優劣程度進行統計檢驗才能做出科學判斷。因此,用人均公交可達性實際累積概率與分布函數的理論累積概率繪制如圖3所示的P-P 圖,進行公共交通資源分布函數擬合優度比較。P-P 圖是根據變量的經驗分布函數對所指定的理論分布函數繪制的圖形,如果被檢驗的數據符合所指定的分布,則代表個案的點簇在正方形的對角線上。所以,通過P-P 圖可用于直觀地探索實際可達性數據與某個概率分布在統計上是否一致。
圖3 分布函數數據擬合P-P圖
與實際可達性數據的累積分布相比,圖3 中上半部分兩參數分布函數的擬合可達性累積分布均明顯偏移斜線,表明兩參數分布擬合可達性數據的效果欠佳。與斜線相比,Gamma 與Weibull偏移較大,Lognormal 與Fisk 偏移較小,這與圖2(a)中兩參數概率密度曲線所示結果一致。
圖3 下半部分多參數分布函數的擬合可達性累積分布均接近斜線,表明廣義Beta 分布簇下的分布函數擁有較強的可達性數據擬合能力。與三參數分布相比,GB2 明顯更接近斜線,表明GB2與實際可達性數據在統計上更加一致。
為更科學地判斷8 種分布函數的擬合優度,采用6 種統計量對8 種分布函數進行公共交通資源分布函數擬合優度檢驗,具體計算結果如表3所示。
表3 分布函數的擬合優度統計量計算結果
根據表3 所示的擬合優度檢驗結果,無論在何種檢驗標準下,GB2 擬合優度值都最小,表現最優。擬合優度檢驗大體上呈現參數越多、擬合能力越強的趨勢,但還需要更深入的分析。在一種檢驗標準下擬合較好的分布未必在其他檢驗標準下具備同樣的擬合效果(如表4所示)。Lognor?mal 在SSE 和SAE 下為兩參數分布中最優,但是在其他4 種檢驗中并未能保持這種優勢。同樣情況還反映在Gamma 和Fisk 上,Gamma 在卡方和KS 檢驗下為兩參數分布中最優,Fisk 在CVM 和AD 檢驗下為兩參數最優,但在其他檢驗中的擬合效果欠佳。而在三參數分布中,B2 除AD 檢驗弱于Dagum 外,在其他檢驗中都展現出最優的擬合效果。
表4 不同檢驗標準和不同參數個數下的最優分布
從統計量擬合優度計算結果來看,四參數分布函數的擬合效果優于三參數分布函數、三參數分布函數優于兩參數分布函數。兩參數分布的擬合優度排序依次為Fisk,Lognormal,Weibull 和Gamma;三參數分布的擬合優度排序依次為B2,Dagum和SM;四參數的GB2擬合優度統計量計算值最小,表明GB2的擬合效果最佳。
對公交可達性評數據分布特征認識不足,容易導致公交資源分配公平性的評價方法選取不當,進而使得研究結果存在爭議。本文采用公交可達性作為交通小區內公交資源的度量指標,以浙江省海寧市公交資源數據為例,選取4 個兩參數分布函數(Lognormal,Fisk,Gamma 和Weibull)和4 個多參數分布函數(三參數包括SM,B2,Da?gum,四參數為GB2)對海寧市公交可達性數據分布進行擬合,通過SSE,SAE,λ2,KS,CVM 和AD共6 種統計量檢驗各分布函數的擬合效果,得到公交資源數據分布擬合效果最佳的分布函數。通過對比8 種分布函數對公交可達性數據的擬合優度,發現各分布函數按擬合效果從優至劣排序為:GB2>B2>Dagum>SM>Fisk>Lognormal>Weibull>Gamma,即四參數分布函數的擬合效果優于三參數分布函數、三參數分布函數優于兩參數分布函數。8 種分布函數中,GB2 對公交可達性數據的擬合效果最佳,這一結論可為結合實際數據分布特征選取公共交通公平性評價方法提供理論依據,同時也可為公共交通資源的合理分配提供決策參考。
限于數據采集的復雜性,本文僅從公交站點緩沖區覆蓋范圍的角度評估交通小區的公交可達性,存在一定的局限性,下一步研究可考慮基于步行網絡計算更為準確的公交可達性,即衡量通過實際路網步行到達站點的公交可達性,而非站點緩沖區覆蓋范圍的公交可達性。此外,因受時間與費用等成本因素制約,本文僅選擇浙江省海寧市一個區域采集數據,使得公交可達性數據分布特征的普遍性、所選分布函數適用性等尚存不足,后續研究可選擇多個地區進行對比分析,以得出更科學、更具實踐推廣價值的結論。