鄒小林,秦書南
基于譜聚類的高鐵對沿線城市影響研究
鄒小林,秦書南*
(肇慶學院數學與統計學院,廣東肇慶526061)
貴廣高鐵和南廣高鐵開通后對沿線城市的影響,是決策者需要考慮的問題.將高鐵沿線城市映射為帶權無向圖,將通達時間距離代替空間距離,采用引力模型來構造相似度函數,并建立相似度矩陣,最后采用譜聚類NCUT算法對高鐵開通前后的沿線城市分別進行分類.結果顯示:高鐵大大提高了貴廣高鐵和南廣高鐵沿線城市(尤其是南寧市和貴港市)之間的場強;在肇慶市的縣區中,四會市和肇慶高新開發區與肇慶其它城市的場強得到明顯的提升.
高鐵;譜聚類;引力模型;通達時間
國務院于2004年制定“中長期鐵路網規劃”以來,中國高鐵建設高速發展,至2015年底,我國高鐵營業里程超過1.9萬km,占全球高鐵里程的60%以上,已形成覆蓋全國主要城市之間的高鐵客運網.高鐵縮短了城市之間、區域之間的時間距離,深深地影響了中國的社會發展,經濟發展,尤其是對高鐵沿線城市經濟的影響.2016年7月,國家發展改革委、交通運輸部、中國鐵路總公司聯合發布了《中長期鐵路網規劃》,勾畫了新時期“八縱八橫”高速鐵路網的宏大藍圖.
近年來,高鐵對經濟的影響研究成為一個研究熱點.文獻[1]建立“可達性”模型研究高鐵對沿線區域經濟發展的促進作用.文獻[2]采用區域活躍度模型分析某城市對周邊區域產生的集聚吸引效應分析入手探討高速鐵路的影響.文獻[3]采用區域經濟和回歸分析等建立高速鐵路對區域經濟影響的供給分析模型.文獻[4]采用區域可達性等研究高鐵的社會效應.
2014年12月26日,貴廣高鐵和南廣高鐵經建成通車,大大縮短了沿線城市之間的通行時間,那么高鐵對沿線城市經濟的影響到底怎樣,是一個值得研究的問題.本文嘗試采用譜聚類算法和引力模型來分析貴廣高鐵和南廣高鐵開通前后對沿線城市進行分類,根據開通前后分類結果的變化做出結論,為有關決策者提供參考.
譜聚類算法的本質是將聚類問題轉化為圖的最優劃分問題.如果每個數據點映射為圖的一個頂點,數據點間的相似度映射為頂點間的邊的權重,就可以構造了一個帶權無向圖G=(V,E),其中V是圖的頂點集合,E是圖的邊的集合;這樣就將聚類問題轉化為劃分圖G問題.
NCUT算法[5]的目標函數為:


其中d(xi,xj)表示兩個數據樣本之間的距離,如取||xi-xj||2,σ為參數.
相似度矩陣的某一行的元素全部相加的和就是該行所對應的頂點的度,由相似度矩陣的全部度值為對角元素構成的對角矩陣就稱為度矩陣,常用D表示.對稱Laplacian矩陣定義為:

設X={x1,x2,…,xn}是待聚類的數據集,構造數據集X的相似度矩陣W的相似度函數通常定義為:
其中I為單位矩陣.
NCUT算法步驟:
步驟1:將樣本集映射成一個帶權無向圖G,構造相似度矩陣W和度矩陣D,并根據公式(3)計算Lsym;
步驟2:計算矩陣Lsym的特征值及特征向量,選取前k個最大特征值所對應的特征向量ζ1,ζ2,…,ζk,構造矩陣M=[ζ1,ζ2,…,ζk]∈Rnxk,記M=[mij]nxk;
步驟4:將矩陣Y的每一行視為Rk空間中的點,然后采用K-means算法將其分為k類;
步驟5:將原樣本點xi劃分到聚類j中,當且僅當矩陣Y的第i行被劃分到聚類j中.
1858年,卡利參照牛頓的萬有引力定律提出城市引力模型[6]用來研究城市之間的經濟影響力.城市引力模型公式表示為:I=Pi×Pj/d2,其中:I為互動量,Pi,Pj為兩地的人口,d為兩地之間距離.文獻[7]將一定范圍內的城市區域稱為“城市場”,城市腹地稱為城市影響力的“力場”,影響力的大小稱為“場強”.“場強”的大小隨著距離衰減而增大.場強計算公式為:

式中:Sik為城市i在k點上的場強;為城市的綜合規模,P表示人口數,G表示生產總值;dik為i城市到k點的距離,本文采取高鐵開通前后通行時間作為測度i和k城市間的時間距離替代空間距離;α為摩擦系數,其取值為1.a
3.1算法思路
首先,根據城市引力模型中變量收集相應的數據,即在貴廣高鐵和南廣高鐵沿線城市的統計局網站上收集各城市的GDP和人口數據.其次在12306網站、汽車客運站網站和百度導航上收集通達時間數據;其次,計算任何兩個城市之間在高鐵開通前后的通達時間,做為引力模型中的空間距離;再次,根據公式(4)分別計算高鐵開通前后任意兩個城市之間的場強,建立高鐵開通前后基于場強的相似度矩陣,然后采用譜聚類NCUT算法分別對高鐵開通前后的城市進行分類,根據開通前后城市分類的變化獲得結論,即高鐵的開通對哪些城市的影響更大.
3.2算法步驟
算法步驟如下:

步驟1:根據公式(5)計算高鐵開通前后任意兩個城市之間的通達時間T前和T后.其中Th表示乘坐高鐵的時間,Tp表示乘坐普通火車的時間,Tb表示乘坐大巴或者汽車的時間.
步驟2:根據公式(4)的改進公式即公式(6)分別計算貴廣高鐵和南廣高鐵開通前后沿線城市中任意兩個城市之間的場強,因此本文的相似度矩陣W=[sij]n,并計算其歸一化相似度矩陣:

步驟3:根據公式(3)計算Isym.
步驟4:采用NCUT算法分別計算高鐵開通前后的沿線城市的分類,根據分類結果給出結論.
4.1數據來源和數據預處理
通達時間的處理方式:如果乘坐高鐵或普通火車能夠直達的城市,就選取12306網站中的到達兩個城市的最短時間作為建模的時間數據;如果大部分里程可以乘坐高鐵和普通火車的城市,兩個城市之間的通達時間由乘坐火車的時間加乘坐汽車的時間作為建模的時間數據;其他情況,就采用百度地圖導航時間作為建模的時間數據.
比較近的兩個區,在計算乘車時間時考慮市區內的乘車時間,如果兩個城市較遠,不考慮市區內的乘車時間.
4.2貴廣高鐵和南廣高鐵沿線城市的GDP和人口數
選取貴廣高鐵和南廣高鐵沿線主要城市作為本文研究對象,選取的城市如下:端州區、鼎湖區,高要市、四會市,高新區、廣寧縣、德慶縣、封開縣、懷集縣,南寧市、貴港市、梧州市、云浮市、肇慶市、佛山市、廣州市、貴陽市、桂林市和賀州市.端州區、鼎湖區和高要市作為一個整體參與討論,記為肇慶市區.四會市與高新區作為另一個整體參與討論,記為四會區.貴廣高鐵和南廣高鐵沿線城市在2014年的GDP和人口數分別如表1所示.

表1高鐵沿線城市的GDP和人口數
4.3貴廣高鐵和南廣高鐵沿線城市的通行時間
在貴廣高鐵和南廣高鐵開通前后,分別計算任意兩個沿線城市之間的通行時間如表2和表3所示.根據表2和表3的數據顯示,通達時間減少最多的城市是貴陽,這說明貴廣高鐵的開通,大大減少了其他城市到貴陽的通行時間.
4.4計算貴廣南廣高鐵開通前后沿線城市之間的場強
根據本文算法步驟2,分別計算選取沿線城市在高鐵開通前后的城市引力值,計算結果如表4和表5所示.表4和表5的數據顯示:高鐵開通后,所有城市之間的場強都增大了,說明高鐵的開通,增強了沿線城市之間的相互影響.

表2高鐵沿線城市在高鐵開通前的通行時間min

表3高鐵沿線城市在高鐵開通后的通行時間min
分別采用表4和表5的數據構造高鐵開通前后沿線城市之間的相似度矩陣,并對相似度矩陣做歸一化處理,根據本文算法步驟3計算相應的拉普拉斯矩陣Lsym.
4.5NCUT算法對貴廣南廣高鐵開通前后沿線城市分類
用NCUT算法對選取沿線城市(高鐵開通前)分成3類,分類結果是廣州市分為一類,南寧市、貴港市和桂林3個城市分為一類,其它12城市分為一類.
用NCUT算法對選取沿線城市(高鐵開通后)分成3類,分類結果是廣州市分為一類,南寧市和貴港市兩個城市分為一類,其它13個城市分為一類.
從分類的結果看,貴廣高鐵開通后,盡管16個城市(或區)之間的絕對城市場強都有很大提升,但城市之間的相對場強還是基本保持原有的格局,只有桂林市從原來與南寧市、貴港市所在類中分離出來,說明貴廣高鐵的開通對南寧市和貴港市的場強(與桂林市相比)提高較多,明顯增強了南寧市和貴港市與其它城市之間的相互影響,而桂林的場強增長與其他12個城市差不多,這從另一個角度說明了桂林處于沿線城市的中間位置且以前的交通狀況就比較良好.

表4高鐵開通前沿線城市兩兩之間的場強

表5高鐵開通后沿線城市兩兩之間的場強
4.6NCUT算法對貴廣南廣高鐵開通前后對肇慶市縣分類
本節討論貴廣南廣高鐵對肇慶市縣的影響.在表2、表3、表4和表5中選取肇慶市區、四會區、廣寧縣、德慶縣、封開縣、懷集縣相關的數據構成相應的表.根據4.5節的步驟進行處理.
用NCUT算法把高鐵開通前的6個區域分成3類,分類結果是肇慶市區單獨分為一類,德慶縣和封開縣分為一類,四會區、廣寧縣和懷集縣分為一類.
用NCUT算法把高鐵開通后的6個區域分成3類,分類結果是肇慶市區單獨分為一類,四會區單獨分為一類,其他4個縣分為一類.結果表明:高鐵開通后,對四會區的場強的提高,遠遠超過廣寧縣和懷集縣的,這說明高鐵對肇慶市縣的影響中,四會區是最大的,這可以為肇慶市政府的決策提供一個參考.
本文采用譜聚類算法和引力模型分析高鐵對沿線城市相互之間引力的影響.該方法將高鐵沿線城市映射為帶權無向圖,采用引力模型來構造權函數,建立相似度矩陣,接著采用NCUT算法對沿線城市進行分類,分類結果顯示:高鐵大大提高了沿線城市之間的場強,尤其提高了南寧市和貴港市與其它城市的場強.在肇慶市內,四會市與肇慶高新開發區與其它城市之間的場強提高很多,即在肇慶市內,受高鐵影響最大的是四會和高新開發區.
[1]王鳳學.中國高速鐵路對區域經濟發展影響研究[D].長春:吉林大學,2012:3-6.
[2]李成,葉梓涵,郭宏偉.高速鐵路對沿線經濟發展影響——以京滬高速鐵路為例[J].鐵道經濟研究,2016(6):21-25.
[3]張書明.高速鐵路對沿線區域經濟的影響分析與評估研究[D].天津:天津大學,2011:6-10.
[4]魏文剛.高速鐵路對沿線區域社會效應分析-以鄭西高鐵為例[D].成都:西南交通大學,2013:5-8.
[5]SHI J,MALIK J.Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000, 22(8):888-905.
[6]維基百科.城市引力模型[EB/OL].(2014-09-16)[2016-11-20].http://wiki.mbalib.com/wiki/城市引力模型.
[7]鄧思遠.武廣高鐵對衡陽市發展的影響研究[D].長沙:湖南師范大學,2014:30-38.
Study on the Impact of High Speed Railway on the Cities along the Railway Line Based on Spectral Clustering
ZOU Xiao-lin,QIN Shu-nan
(School of Mathematics and Statistics,Zhaoqing University,Zhaoqing 526061,Guangdong,China)
After the GuiGuang High-Speed Railway and NanGuang High-Speed Railway are put into use, policymakers need to consider the impact of those high-speed rails on the cities along the high-speed railway.In this paper,the cities along those high speed railways are mapped to the undirected weighted graph,with the distance of the arrival time being substituted for the spatial distance.The gravitational model is used to construct the similarity function,and the similarity matrix is established.Finally,NCUT algorithm is used to classify the cities along the high-speed railways before and after the operation of high-speed railways respectively.Results showed that the high-speed railway have greatly increased the field intensity between the cites(especially in Nanning and Guigang) along GuiGuang High-Speed Railway and NanGuang High-Speed Railway.In the counties of Zhaoqing city,the field strength between Sihui City,Zhaoqing hi-tech development zone and other counties are improved greatly.
high-speed rail;spectral clustering;gravity model;arriving time
O29
A%%%
1007-5348(2017)03-0009-06
(責任編輯:邵曉軍)
2016-11-28
廣東大學生科技創新培育專項資金項目(2016ZX023);肇慶市委政策研究室委托項目(2015223).
鄒小林(l975-),男,湖南衡陽人,肇慶學院數學與統計學院副教授,博士;研究方向:模式識別.*通訊作者.