何鴻杰 陳先龍 馬小毅
(廣州市交通規劃研究院有限公司,510030,廣州∥第一作者,工程師)
由于城市軌道交通線網建設成本高昂,且線網建成后基本不存在調整的可能性,因此在實施建設前,需根據城市的社會經濟發展狀況和已建成的城市軌道交通系統現狀,分析城市定位和城市軌道交通發展特征,進而判斷城市軌道交通建設的迫切性和合理規模。對此,可充分利用既有通車城市的狀況來預判待建設城市軌道交通線路的合理規模和開通后客流狀況。
目前同城市定位和分類有關的研究方向主要有:基于城市職能和基于城市表現對城市進行分類,分別依據城市自身社會經濟功能和社會經濟屬性水平對城市進行分類[1-2]。現狀城市分類研究的主要對象集中在單獨省份、城市群和社會經濟聯系較強城市集群,對不同省份單獨城市分類的相關研究有限[3-5]。分類選用指標主要集中在社會經濟數據,如常住人口、地區生產總值及三產產值等宏觀數據[6]。常用的量化分類方法主要包括回歸分析、聚類分析及神經網絡等方法[7]。
綜上,針對基于城市軌道交通相關指標和城市特征關系的城市分類方法、提供規劃建設參照對象和參考值方法缺失的問題,本文建立一種二維城市分類模型,分別從城市總體特征和城市軌道交通發展特征兩個維度對城市進行分類,并計算分數,進而對分類中的城市進行排序;基于分類結果,還可使用多元線性回歸建立參照系,為未開通城市軌道交通線路的城市(以下簡稱“未通車城市”)提供預測和參考依據。
兩種維度指已開通城市軌道交通線路的城市(以下簡稱“已通車城市”)的總體特征(以下簡稱 “總體特征”)和城市軌道交通發展特征(以下簡稱“發展特征”)。總體特征是指包含社會經濟發展水平和城市軌道交通運營狀況在內的,某一時間節點的城市綜合狀態;發展特征指在一段時期內的城市軌道交通發展趨勢。
二維城市分類模型的結構框架如圖1所示。由圖1可見,二維城市分類模型包含總體特征分類子模型和發展特征分類子模型。設j為年份編號,J表示研究時期內年份總數,g表示總體特征分類編號,b表示發展特征分類編號,根據兩種子模型的輸入指標,對多個已通車城市進行分類,獲得如圖2所示的分類結果。由圖2可見,在研究時期內,g會逐年變化,而b在該時期內不變。
圖2 某城市研究時期內不同時間點獲得的兩種分類特征
該模型的目標是根據給定的社會經濟發展水平指標(以下簡稱“社會經濟指標”)與城市軌道交通運營指標(以下簡稱“城軌指標”),對城市進行分類,并賦予總體特征。該模型的主要處理流程包括特征信息提取、聚類分析和分類分數計算。
該模型的目標是根據城軌指標,分析不同城市的客流和運營發展趨勢,構造差異度函數,完成分類并賦予發展特征。該模型的主要處理流程包括特征信息提取、構造差異度矩陣、聚類分析和分類分數計算。
總體特征分類子模型和發展特征分類子模型完成分類和分類分數計算后,還需采用多元線性回歸方法,基于分類結果建立主要城軌指標(因變量)和社會經濟指標(自變量)的關系式,為未通車城市提供預測參考。第一個子模型的因變量選取基于載荷矩陣和主因子方差貢獻率,第二個子模型的因變量選取基于權重均值,兩者自變量的選取均基于多元線性回歸的擬合優度。
本文研究范圍限定在2014—2019年間我國已通車的城市。根據2014—2019年中國城市軌道交通協會發布的《城市軌道交通統計和分析報告》和住房和城鄉建設部發布的《城鄉建設統計年鑒》,得到城軌指標如表1所示。根據2014—2019年我國經濟社會大數據研究平臺收錄的各省市年度統計年鑒、《城鄉建設統計年鑒》和《中國城市統計年鑒》,得到社會經濟指標如表2所示。總體特征分類子模型會使用社會經濟指標和城軌指標,而發展特征分類子模型僅使用城軌指標。社會經濟指標和城軌指標的數據均由城市、年份和指標3個維度構成,例如北京2019年的常住人口總量為2 190.1萬人。
表1 城軌指標及內容
表2 社會經濟發展特征指標及內容
由于不同指標的單位或數量級不同,在進行聚類分析時,數量級較大的指標對結果會產生較大影響,因此需要預處理消除指標間數量級的差異。同一指標的數據不一定符合正態分布,為保留原始數據的分布特征,采用PCA(主成分分析)法提取特征信息,并對數據進行量綱一化預處理。
當數據缺失時,判斷數據是否為0(例如未通車城市的城市軌道交通客運量為0):如果是則填充0,否則使用線性插值法填充數據。
3.1.1 模型輸入
城市i在年份j的社會經濟發展數據和城市軌道交通運營數據分別用向量Sij=[sij1sij2…sijU]T和Rij=[rij1rij2…rijV]T表示。其中:siju表示城市i在年份j的第u個社會經濟指標,u= 1,2,…,U;rijv表示城市i在年份j的第v個城軌指標,v= 1,2,…,V。
將向量Sij和Rij進行組合,得到城市i在年份j所有指標向量Aij=Sij∪Rij=[aij1aij2…aij(U+V)]T,其中aijw表示城市i在年份j的第w個指標,w= 1,2,…,U+V。
設城市總數為N,該模型將年份j對應的Nj(Nj≤N)個已通車城市之Aij作為模型輸入。
使用模型進行分類后,得到年份j的第g類城市編號集合CAll,gj,其中CAll,gj中存放對應分類的城市編號,GAll為分類數量,g=1,2,…,GAll。
3.1.2 數據預處理
該模型采取量綱一化方法進行數據預處理:
(1)
式中:
aP,ijw——經過量綱一化處理后,城市i在年份j的指標w。
3.1.3 特征信息提取
先使用PCA法處理量綱一化數據,再根據累計方差貢獻率閾值δ篩選主因子。設最佳主因子數量為λ,載荷矩陣為Xj,維度為λ×(U+V),它的元素xqwj表示年份j指標w在主因子q坐標軸上的投影;主因子方差貢獻率向量為αj=[α1jα2j…αλj],αqj表示年份j主因子q的方差貢獻率。λ的選取流程如下:
步驟1:將主因子根據αqj從大到小進行排序;同時計算累計方差貢獻率,當累計方差貢獻率略微大于或等于δ時,參與方差貢獻率累計的主因子數量即為最佳主因子數量λ1。
步驟2:以區間[1,U+V]作為變化范圍,使用交叉驗證法計算不同主因子數量下使用PCA的重構誤差,誤差最小的主因子數即為最佳主因子數量λ2。
步驟3:確定λ=max(λ1,λ2)。
確定λ后,將篩選的主因子指標值作為ICA(因子分析)的輸入,使用ICA法將主因子指標轉化為獨立分量,以在聚類分析前盡可能消除主因子之間的相關性,其中主因子的數量等于獨立分量的數量。
3.1.4 聚類分析
聚類分析采用層次聚類(Ward準則)方法。最佳城市分類數量通過使用CVI(聚類有效性指標)評估不同分類數量下的分類質量確定。該聚類分析過程屬于無監督學習過程,沒有真實分類結果作為校核參考,故CVI應不要求真實分類結果。符合這一要求的CVI有Calinski Harabasz指標、輪廓系數、Davies Bouldin指數和Dunn指數等。這些CVI曲線的局部極值點或肘部即為最佳分類數量。
3.1.5 分類分數計算
分類分數的計算基于Xj和αj,其中Xj表示主因子和原始指標的投影關系,αj表示主因子重要度。在計算分類分數前,需要提前計算城市i在年份j的城市分數zAll,ij:
(2)
在此基礎上進一步計算總體特征分類g在年份j的分類分數yAll,gj:
(3)
3.1.6 多元線性回歸
αj和Xj相乘獲得不同城軌指標的權重向量,從向量中選取權重最大的城軌指標作為因變量。使用AIC準則(Akaike Information Criterion)來評價擬合優度,使多元線性回歸從自變量中提取盡可能多信息的同時,減少自變量的個數。自變量僅從社會經濟指標中選取,計算不同自變量組合下的AIC值EAI,EAI最低的組合即為最佳自變量組合。EAI為:
EAI=2k+GAllln(ESS/GAll)
(4)
式中:
k——自變量個數;
ESS——回歸預測值和實際值的殘差平方和。
3.2.1 模型輸入
構造三維張量M作為該分類模型的輸入,維度為N×J×V,其中它的元素為rijv。
根據輸入數據構造表示不同城市間客流發展趨勢區別的差異度矩陣。之后,與總體特征分類子模型中的過程類似,使用聚類分析得到第b類城市編號集合CRail,b,其中CRail,b中存放對應發展特征分類的城市編號,GRail為分類數量,b=1,2,…,GRail。
3.2.2 數據預處理
該模型采取量綱一化方法進行數據預處理:
(5)
式中:
rP,ijv——量綱一化處理后城市i的第v個城軌指標。
3.2.3 特征信息提取
設θ為指標權重閾值,重要指標選取流程如下:
(6)
3.2.4 聚類分析
與城市總體特征分類子模型直接利用ICA輸出的獨立分量計算城市間差異不同,該子模型在使用層次聚類(Ward準則)進行城市分類前,需構造二維差異度矩陣D={dih|i,h=1,2,…,N},其中:
(7)
式中:
dih——城市i和城市h間的差異程度,包括指標大小差異和趨勢差異。
D構造完成后,聚類算法將其作為依據和輸入進行城市分類。
3.2.5 分類分數計算
計算城市i的城市分數zRail,i,即:
(8)
則分類b的分類分數yRail,b為:
(9)
3.2.6 多元線性回歸
4.1.1 特征信息提取
以2014—2019年為研究期,使用PCA對所有指標進行分析。取δ=0.95,各年份選取的主因子數量均為4,則研究期內各主因子方差貢獻率和累計方差貢獻率如圖3所示。
圖3 研究期內的主因子方差貢獻率及累計方差貢獻率變化
表3為研究期內的指標主因子情況;顯示了2014—2019年貢獻率最大的主因子和部分原始指標的投影關系。由表3可見:投影較大的指標主要集中在城軌指標,說明城軌指標對城市總體特征的影響較大;各年投影較大的指標均比較穩定,特別是指標A1—A4、B1—B5、C4、D1、D3和D5在所有年份中均有出現。
表3 研究期內的指標主因子情況
4.1.2 聚類分析和分類分數計算
以2019年為例,劃分已通車城市的總體特征分類。最佳分類數量在區間[3,12]范圍內取值,不同分類數量的CVI變化曲線如圖4所示。不同年份部分城市所屬分類和分類分數變化如圖5所示。
a) 輪廓系數(正相關)
可以明顯看出,當分類數設置為8時,Davies Bouldin指數和Dunn指數出現極值,而輪廓系數則出現肘部,由此可以判斷最佳分類數量為8。
2019年總體特征聚類分析結果和表3中部分投影較大指標的組內均值如表4所示,其中分類排名根據分類分數排序得到。排名靠前的城市,社會經濟發展水平在國內處于較高水平,軌道交通系統的發展趨于成熟。排名靠后的城市,城市軌道線網規模較小,客流強度相對較低。
表4 2019年總體特征聚類分析結果和部分指標的分類內均值
從圖5看出,部分城市所屬分類和對應分數不斷變化,總體特征和城市間的差異也會隨之改變。因此未通車城市根據參照系獲得合理線網規模、預測客流強度時,應參考位于最新時間節點的參照系。如果需要參考一段時期內的規模和客流的變化趨勢,則要利用發展特征分類子模型的計算結果,以建立第二種參照系。
4.1.3 多元線性回歸結果
表5 基于2019年總體特征分類的自變量指標選取與多元線性回歸結果
由表5可知,基于分類的回歸分析比直接使用原始數據更優,分類后的擬合優度得到大幅提高,基于分類的回歸分析EAI(越小越好)和決定系數R2(越大越好)分別為3.27和0.890,直接基于城市的回歸分析則分別為16.34和0.558,前者遠優于后者。此外,客運強度同人口密度、第三產業增加值及小客車保有量正相關,基本符合現實情況。
選用部分城市軌道交通線網在建或社會經濟水平較高的城市作為計算實例,使用上述回歸方程預測其客運強度,結果如表6所示。由表6可見:唐山和煙臺的預測客運強度為負數,說明按照唐山和煙臺目前的社會經濟發展程度暫未達到建設城市軌道交通的水平;盡管泉州和嘉興的預測客運強度均大于0,但是非常小,說明城市軌道交通系統建成后的客流效益有限;南通的預測客運強度較大,建設的必要性相對較大。
表6 未通車城市的總體特征預測值
4.2.1 特征信息提取
表7 城軌指標的及選取判斷結果
4.2.2 聚類分析和分類分數計算
對已通車城市的發展特征進行分類,最佳分類數量的確定方法與總體特征分類子模型相同,使用CVI對聚類結果進行評估,最佳分類數量為7,分類結果和研究時期內部分重要指標的組內均值如表8所示。與總體特征分類子模型類似,基于分類的回歸分析擬合效果優于直接基于城市,前者EAI和R2分別為-8.72和0.985,后者分別為21.08和0.637。
表8 基于發展特征分類的自變量指標選取與多元線性回歸結果
表9所示分類排名根據分類分數計算和排序得到,與總體特征不同,發展特征反映一段時期內的軌道交通發展趨勢。排名靠前的城市,線網規模、建設速度、客流指標均處于較高水平。排名靠后的城市,城市人口規模較小,客運強度和線網規模保持在相對較低水平且增長速度緩慢,既有軌道交通設施已經能充分滿足現狀城市軌道交通出行需求。
表9 研究時期內發展特征聚類分析結果和部分指標的分類內均值
4.2.3 多元線性回歸結果
以表6的城市為例,使用回歸方程計算其在研究時期內的城軌指標平均水平,結果如表10所示。泉州和唐山的客運強度預測值均為負值,煙臺和嘉興的預測值接近0,這些城市建設城市軌道交通后的客流效益發展較慢,建設城市軌道交通的迫切性不足。南通的社會經濟發展水平和城市建設速度提升顯著,遠大于其他4個城市,建設城市軌道交通的必要性相對較高。
表10 未通車城市的發展特征預測值
本文基于主成分分析、因子分析和聚類分析提出了二維城市分類框架,提取城市的總體特征和發展特征,并進行分類,從兩個角度對城市進行評價和定位。此外,還提出了針對上述兩種分類的分類分數計算方法,用于分類間等級排序。基于分類結果進行多元線性回歸,得到預測重要城軌指標的回歸方程;利用社會發展經濟指標為未通車城市提供指標預測值,進而判斷在未通車城市建設城市軌道交通系統的必要性和迫切性。