潘福全,夏家琪,宋夫才,楊曉霞,張麗霞,陳德啟
(1.青島理工大學 機械與汽車工程學院,山東 青島 266520;2.青島市交通規劃設計院有限公司,山東 青島 266000)
城市功能結構由城市空間各功能區的相對區位關系和分布形式所決定,是城市用地規劃和居民對于城市空間實際使用情況共同作用的結果[1-2]。在土地存量更新的背景下,科學準確地識別各區域的城市功能,并掌握其一日之中到訪活動的規律,從靜態功能和動態使用兩個角度感知城市空間,有利于更加精細化地制定城市更新和管理策略。
傳統的功能區識別研究較多從“地”角度出發,采用遙感影像[3]或興趣點(point of interest,POI)[4]等靜態數據,對單元內各類地理要素進行識別和歸類以確定其承擔的城市功能。胡曉鳴等[4]基于“空間-影響力”二元權重標定模型,對單元內各類POI數據進行加權賦值后評估其功能類型。Gao等[5]基于各類POI在空間上的共現規律,建立用地主題模型,對各地塊單元的功能進行識別。此類方法可以識別各類功能區在地理上的分布,但其空間上的活動特征無法得知。
隨著手機信令數據[6]、出租車軌跡數據[7-8]等具有豐富時空信息的居民活動數據的涌現,為從“人”的角度挖掘各研究單元上的居民活動模式,進而識別其城市功能帶來了新的途徑。彭正洪[6]等利用手機信令數據,提取各單元內每小時的通話數量構建時間序列,采用余弦距離度量時間序列間的相似性,將具有共同通話時序模式的單元聚類并推測其城市功能。趙家瑤[7]等運用出租車出行數據,采用譜聚類方法對出行時序模式相似的單元進行聚類,并依據時序曲線所呈現的活動特征對各單元的城市功能進行識別,將城市空間分為居住區、商住混合區、辦公區等。此類方法不僅獲得了各單元的活動特征,還對單元所承擔的功能進行判定。但以往的研究[6-8]僅識別了功能區大類,未對識別的準確度進行校驗,對于具體功能類型也有待進一步精細化地標定。此外,由于未對識別結果進行定量化的分析,不能清晰呈現城市不同區域功能類型分布和出行時序特征的差異。
綜上,本研究首先采用規則網格將研究區域劃分為多個基礎單元,基于出租車上、下客數據構建各單元的出行量時序曲線;其次,采用時序曲線相似度度量和聚類算法分別挖掘各單元的出發、到達時序模式;再次,將同一單元的出發、到達模式耦合以判定其城市功能,計算各網格單元的POI富集指數以校驗和標定其功能類型;最后,在分區視角下對青島市區、市郊區、郊區的功能類型和出行時序模式的差異進行總結。研究結果對于辨識城市功能區的分布及其動態使用情況具有一定的理論和實踐價值。
以青島市6個市轄區作為研究范圍,如圖1(a)所示,包括市南區、市北區2個核心區域(市區),李滄區、嶗山區、黃島開發區3個次級區域(市郊),城陽區、黃島膠南片區2個發展相對獨立的城市外圍區域(郊區)。

圖1 研究區域與單元劃分
進行城市功能區的研究,首先需要將城市劃分成若干基礎研究單元。為使得各單元內城市功能突出,應盡量精細劃分研究單元但又不能因劃分過小導致缺乏足夠出租車上下客數據,本研究借鑒Liu[9]等對研究單元劃分的經驗,以500 m為邊長將研究區域劃分為1 465個正六邊形網格單元并對每個單元賦予唯一編號,如圖1(b)所示。
選取青島市2017年4月10—14日5個工作日出租車訂單數據,每條訂單數據包含的字段用一個6維元組表示:〈上車經緯度,下車經緯度,上車時間,下車時間,行駛里程,平均速度〉,剔除起訖點位于研究范圍外、行駛速度異常、字段缺失的數據后,共得到有效數據1 179 590條。
為提取各單元的出行特征需要構建各單元的出行時間序列數據集。利用訂單數據中“上車經緯度”“上車時間”字段構建上車時間表,“下車經緯度”“下車時間”字段構建下車時刻表。為避免單日出行流量具有稀疏性和隨機性,剔除日期屬性,保留時間屬性,以1 h為時間間隔,將各研究單元5個工作日內各時段的上客量分別累加至1天,構建該單元的上車時間序列數據集。用Si={x1,x2,…,xt,…,x24}表示i單元乘客上車時間序列數據集,xt表示5個工作日內(t-1)~(t)時段的乘客上車總量。
POI泛指一切可以抽象為點的地理實體,每條POI具有名稱、經緯度、所屬類別等信息,特定類型的某種POI或多種POI在空間上的聚集可以表征特定的功能類型[5]。本研究POI數據為高德地圖2017年青島市的全樣本POI數據,其數據分為餐飲服務、科教文化等13大類,中餐館、學校等72中類。

圖2 相異性距離的平方與時序相關系數的對應關系
由于網絡地圖的POI分類與城市功能劃分標準不同,本研究以識別各單元主導功能類型為目的,遵循高能級設施與低能級設施區分的原則對原始數據進行重分類。例如,在原始數據中酒店住宿類含有家庭旅館和星級酒店,但家庭旅館等低能級設施往往與居住區相融合,星級酒店多分布于商業區。為采用酒店住宿指標準確識別商業區,保留星級酒店而剔除家庭旅館。同理,采用醫療機構指標識別醫療功能區時,剔除村鎮衛生院而僅保留二級以上綜合醫院等高能級設施。基于以上原則,將數據劃分為14類,共113 852條,各類指標內容及選取目的如表1所示。

表1 POI重分類表
本研究以出租車出行數據和POI數據為基礎,建立動、靜數據結合的功能區識別與校驗模型。首先對研究區域進行單元劃分,構建單元內乘客上、下車時間序列數據集;其次,結合時序曲線相似度度量方法,利用基于中心點的聚類算法(partitioning around medoid,PAM)對各單元進行聚類分析;再次,耦合各單元的出發、到達模式,提取典型的出發-到達組合模式,結合各類功能區的活動經驗識別其功能類型;最后,計算各單元的POI富集指數校驗識別結果,精細化標定功能類型。
常用的時間序列曲線相似度度量方法有歐氏距離法[10]、動態時間規整法[11]、相關系數法[12-13]等?;谙嚓P系數的度量方法[13]以兩條時間序列曲線用各節點增長率和增長方向作為相似性度量指標,能更好地判斷其是否有相同的增長模式,是否在同一時刻出現出行峰值、低谷。由于同一類型的功能區域在同一時段出行量的增長趨勢和方向多具一致性,該方法與本研究依據出行模式對單元進行分類并識別功能區的目標契合,故采用相關系數法度量時序曲線的相似度。兩條時序曲線間的相關系數算法見式(1):
(1)

基于兩條時序曲線的相似度,采用一個單調遞減函數計算其相異性距離。通過計算各條曲線間相異性距離,構建相異性距離矩陣。時序曲線間相異性距離為:
(2)
式中:DC(Si,Sj)表示兩條時序曲線之間的距離,β值取0.5[13]。相似度越高的兩條曲線,其相關系數越大,相異性距離越小。相關系數C(Si,Sj)與相異性距離平方的對照情況如圖2所示。當兩條時序曲線相似時,相異性距離取值較小;不相似時,相異性距離取值較大,但保持在一個合理的范圍內。
相異性距離矩陣的構建,將尋找出行時序模式相似單元問題轉化為在一個相異性矩陣中尋找相似性最大的聚類簇問題。本研究采用PAM算法對矩陣進行聚類[14],與K均值算法相比,該算法的結果受簇中噪聲值影響較小,且更能突出波形的特征。
對于聚類個數K的確定同時考慮聚類目的和聚類效果。從聚類目的角度看,至少應該將早高峰、日間、晚高峰、夜間時段出現出行峰值的單元劃分至不同的類中,同時考慮到有些單元因功能混合,在兩個時段乃至三個時段均出現出行峰值,這些單元數量足夠多時,應劃分為另一類。聚類效果采用Calinski-Harabasz偽F統計量[15]度量,偽F統計量是全局中心點的平方誤差與聚類中心點平方誤差的比值。偽F統計量的值越大,聚類組間差異越大,組內差異越小,各類代表性曲線之間的差異越明顯,但每個聚類內部各曲線與該聚類的代表性曲線越相似。
2.3.1 出發-到達模式耦合識別
承擔特定功能的區域在出發和到達特征方面往往具有相關性,如居住區常在早上出現出發高峰,在傍晚或夜間出現到達高峰。以出發模式聚類結果為基礎,統計對應的各類到達模式所占比例,每一種出發模式對應一種或兩種主要到達模式,提取主要的出發-到達組合模式,分析其出發-到達時間序列特征與空間分布特征,并結合各類功能區的出行規律,對呈現不同出發-到達模式單元所承擔的城市功能進行識別。
2.3.2 功能區驗證
基于出行活動特征可對各單元的城市功能進行判定,采用POI數據對識別結果進行校驗,提高結果可信度。本研究采用POI富集指數,提取各類單元的主要POI特征驗證功能區識別結果,對于驗證通過的單元,進一步明確其主導功能類型。
首先,計算每個單元每類POI的密度頻數(frequency density,FD)
(3)
式中:Fpq為第p單元第q類POI的密度頻數,Npq為第p單元第q類POI的個數,Ap為第p單元的面積。
然后,為消除各類POI在數量級之間的差異對主導POI類別的提取造成影響,引入POI富集指數(concentration factors,CF)的概念,表征某類POI在某地塊單元上的聚集程度。某類POI在該單元上越聚集,其在該單元上的密度頻數越高,與該類POI在所有單元上密度頻數均值的比值越大,即富集指數越大,聚集效應越突出。POI富集指數計算式為:
(4)

最后,選取各單元富集指數最高和次高的POI類型對該單元的功能類型進行驗證。當最高或次高的POI類型與該單元的功能吻合時,即視為驗證通過,并采用該類型POI作為主導POI對該單元進行標定。最高、次高的POI類型均與該單元的功能不一致時,驗證不通過,主導POI類型標定為驗證不通過。
按照“數據預處理—時間序列數據集構建—時序曲線相似度度量—出行模式聚類”的處理流程,對上車和下車時間序列數據集分別進行聚類分析。綜合考慮聚類目的和聚類效果統計量,采用迭代方式尋找最佳聚類數,聚類數K從2~10依次迭代。
當K=5時,依據出行高峰出現的時刻,將上車時間序列數據集劃分為早高峰、日間雙峰、晚高峰、夜間高峰、日間雙峰+夜間高峰等5種出行模式;當K=6時,增加早高峰+日間雙峰出行模式;當K=7時,晚高峰出行模式被劃至兩個聚類中,屬于K值過大的情況。從高峰時刻的劃分結果看,K=6較為合適。同時,從偽F統計量角度看,如圖3(a)所示,K=5時,統計量值為285.54,K=6時,統計量值為275.92,兩者相差較小。綜合高峰時刻劃分表現和偽F統計量值,取出發模式最佳聚類數為6。

圖3 偽F統計量隨聚類個數的變化
同理對下車時間序列數據集進行劃分,當K=4時,劃分為早高峰、日間雙峰、晚高峰、夜間高峰4種出行模式;當K=5時,日間雙峰被劃分至兩個聚類中,屬于K值過大的情況。同時,如圖3(b)所示,K=4比K=5所取的偽F統計量高,故綜合判定,取到達模式最佳聚類數為4。
依據最佳聚類數,按出發模式將所有單元分為6類,命名為出發模式O1~O6。同理,按到達模式將所有單元分為4類,命名為到達模式D1~D4。
各類出發模式的空間分布和時序特征如圖4、圖5所示。

圖4 各類出發模式的空間分布圖

圖5 各類出發模式的時序曲線圖
O1:主要分布在郊區,有且僅在17:00—18:00出現出發高峰,峰值較其他時段突出,為典型的晚高峰出行模式。O2:市區和郊區的核心區均有分布,在日間出現兩個出發次高峰,最高峰出現于20:00—22:00,為日間雙峰模式和夜間高峰模式的疊加。O3:多分布在市區,7:00—9:00出現出發高峰,維持較高流量,在13:00—14:00出現一個較小的次高峰,可視為早高峰模式與日間雙峰出行模式的疊加。O4:主要分布在市郊,僅在7:00—9:00呈現出發高峰,此后出行流量均處于較低水平,為典型的早高峰出行模式。O5:在市區和市郊的核心區均有零散的分布,其全時段流量均較大,但在22:00—23:00點達到出行高峰,較其他時段峰值特征明顯,為夜間高峰模式。O6:主要分布于市區且沿青島海岸線分布較多,9:00—17:00出行流量均較大,僅在12:00—13:00出現低谷,為典型的日間雙峰出行模式。
各類到達模式的空間分布和時序特征如圖6、圖7所示。

圖6 各類到達模式的空間分布圖

圖7 各類到達模式的時序曲線圖
D1:主要分布于市區非核心區域,自10:00開始出現較多到達量,并隨著時間遞增,直至21:00—22:00達到頂峰,為夜間高峰模式。D2:市區核心區分布較多,到達量在9:00—10:00和14:00—15:00出現雙高峰,為日間雙峰模式。D3:主要分布于郊區,8:00—9:00出現到達高峰,此后到達量逐漸降低,為早高峰模式。D4:主要分布于郊區,自8:00—22:00均有少量到達,在18:00—19:00出現到達高峰,為晚高峰模式。
按出發模式將所有單元劃分為6類,按到達模式劃分為4類。統計每種出發模式對應的4種到達模式的比例,結果如表2所示。其中,每類出發模式對應一類或兩類主要的到達模式(占比超過30%),提取較為典型的出發-到達組合模式共計10種,分析其出發-到達時間序列特征與空間分布特征,并結合各類功能區的出行規律,對呈現不同出發-到達模式的地塊單元的城市功能進行識別,結果如圖8所示。

表2 每類出發模式對應的到達模式占比

圖8 基于出發-到達模式耦合的城市功能區識別結果
4.1.1 工業(產業園區)
O1D3:該類模式主要分布于郊區且呈現組團特征,其時序特征如圖9所示。在8:00—9:00出現到達高峰,17:00—18:00出現駛離高峰,其他時段流量較少。根據其地處郊區且在上班時間集中到達、下班時間集中離開的特征,將該類出行模式的單元識別為工業(產業)園區。

圖9 O1D3_工業(產業)園區出發-到達時序曲線圖
4.1.2 混合類功能區
O2D4:該類模式主要分布在市區和郊區的核心區域,其時序特征如圖10(a)所示。從8:00—9:00開始出現一定出發量,說明該區具有居住屬性,9:00—18:00出發、到達流量均較高,表明可能同時存在一定的商業辦公區。18:00—19:00出現到達流量的高峰,并在20:00—22:00出現駛離流量的高峰,這與商業區的出行特征較為相似:居民在工作日晚上下班后到達商業區進行餐飲、購物等消費活動,持續1~2 h后離開。因此,將呈現該類出行模式的單元識別為商業屬性較強的商業、居住和辦公混合功能區(偏郊區)。

圖10 混合功能區出發-到達時序曲線圖
O3D1:該類模式主要分布在市區和市郊,其時序特征如圖10(b)所示。7:00—9:00為出發高峰,21:00—22:00為到達高峰,符合居住區晝出夜歸的出行規律。同時,其在日間時段也有一定出發與到達量,說明該單元存在一定量的商業或辦公活動。故將呈現該類出行模式的單元識別為居住屬性較強的商業和居住混合功能區(偏市區)。
O3D4:該類模式在市郊和郊區均有分布,且郊區較多,其時序特征如圖10(c)所示。7:00—9:00為出發高峰,與O3D1模式夜間到達量出現高峰不同,該類單元在18:00—19:00出現到達高峰,此后未有大量駛離流量,說明該高峰多為居民返回居住區。同時,日間也存在一定的到離量。因此,將呈現該類出行模式的單元識別為居住屬性較強的商業和居住混合功能區(偏郊區)。
4.1.3 居住區
O4D1:該類模式主要分布在市郊、郊區,其時序特征如圖11(a)所示。在7:00—9:00為出發高峰,21:00—22:00為到達高峰,具有強烈的居住屬性,且由于日間其他時段到達和離開流量均較少,說明該區域內的商業、辦公類活動較少。故將呈現該類出行模式的單元識別為居住區(偏市郊)。

圖11 居住區出發-到達時序曲線圖
O4D4:該類模式主要分布在郊區,其時序特征如圖11(b)所示。在7:00—9:00為出發高峰,與O4D1模式不同的是,該區域在18:00—19:00出現到達高峰,符合居住區晝出夜歸的規律,故將呈現該類出行模式的單元識別為居住區(偏郊區)。
4.1.4 商業區
O5D1:該類模式在市區分布較多,在郊區核心區也有少量分布,其時序特征如圖12(a)所示。自18:00—19:00開始出現較多到達量,在21:00—22:00出現到達高峰,且在22:00—23:00出現駛離高峰。夜間到達量大可能是居民返回居住區休憩或前往夜間經濟活躍的商業區消費所致,但同時晚上駛離量也出現高峰,這與商業區的到離特征更為接近。故將呈現該類出行模式的單元識別為夜間經濟發達的商業區。

圖12 商業區出發-到達時序曲線圖
O5D4:該類模式在市區和郊區核心區分布較多,其時序特征如圖12(b)所示。在18:00—19:00出現到達高峰,且在22:00—23:00出現駛離高峰。這與購物中心類商業區的到離特征較為一致:居民在晚高峰時段到達商場,在商場結束營業后駛離。故將呈現該類出行模式的單元識別為購物中心類商業區。
4.1.5 泛辦公類功能區
O6D2:該類模式主要分布在市區核心區,其時序特征如圖13(a)所示。9:00—17:00出發流量均較大;到達曲線在9:00—10:00和14:00—15:00呈現雙高峰,該類模式在工作時段集中到達、離開的特征與辦公區、事務性出行目的地(政府機構、醫院)、景區的到離特征一致,故將呈現該類出行模式的單元識別為泛辦公類功能區(偏市區)。

圖13 泛辦公類功能區出發-到達時序曲線圖
O6D3:該類模式主要分布在市郊、郊區,其時序特征如圖13(b)所示。出發量多集中在工作時段,于O6D2模式相比,下午時段并未出現到達高峰,僅在8:00—9:00存在較多到達量,故推測為泛辦公類功能區(偏郊區)。
基于出發-到達組合模式將城市劃分為:工業(產業)園區、混合功能區、商業區、居住區、泛辦公類功能區,但基于出行模式僅能識別功能大類,其識別結果需采用異源數據進行校驗和進一步地細化。采用計算各單元POI富集指數的方法,對每一個單元所識別的功能區類型進行檢驗,各地塊單元的綜合識別驗證率為69.06%,各類功能區匹配結果如表3所示。其中,工業(產業)園區(O1D3)的識別準確度達87.13%,該類功能區地塊單元內功能較單一,出行特征明顯,識別效果最佳;泛辦公類功能區(O6D3、O6D2)的識別準確度較高,分別為82.42%、86.61%,并通過主導POI類型對該類功能區的功能類型進一步劃分為政府、醫療、辦公、風景名勝;商業區(O5D4、O5D1)及商業主導的混合類功能區(O2D4)識別準確度為68.97%、76.67%、63.16%;具有居住屬性的用地(O3D4、O3D1、O4D4、O4D1)功能區識別結果與富集POI類型匹配度為50.00%、63.11%、52.75%、78.95%,居住用地中生活、購物、餐飲、住宅小區等POI往往按照一定比例組合出現,但各類POI的特征并不突出,造成采用居住類指標評價識別結果時匹配度較低的情況。

表3 功能區識別結果與主導POI匹配度
對校驗后的功能區識別結果分區域統計,從區域功能類型分異和時序特征分異兩個角度對識別結果進行解讀。
4.3.1 市區、市郊、郊區功能類型分異
市區、市郊、郊區的主導功能類型分異明顯。如圖14所示,在市區,沿著海岸線形成了醫療、風景名勝、商業大廈連綿的泛辦公類功能區組團;而在郊區和市郊,泛辦公類功能區分布較少且離散。在市郊,分布了大量的居住區;在郊區,相較于市區和市郊,工業(產業)園區的比例大幅提高。表4也表明市區、市郊、郊區功能具有分層現象,在市區,泛辦公類功能區占比總計47.85%;在市郊,具有居住類屬性的功能區總計50.10%;在郊區,工業(產業)園區類占20.65%,而在市郊該類用地占比為7.92%,市區則為0。

表4 市區、郊區、市郊各類城市功能區的數量及比例

圖14 主導POI類型標定下的各類功能區分布圖
4.3.2 市區、市郊、郊區到達時序模式分異
由于地理位置不同,同類功能區的活動時序特征也存在一定差異。市區、市郊的居住區多在21:00—22:00出現到達高峰,而有許多郊區的居住區在18:00—19:00就出現到達高峰。如表4所示,呈現O4D1和O4D4出行模式的單元都被判定為居住區,前者在為夜間到達模式(D1)后者為晚高峰到達模式(D4),在市區兩者的比例為10∶1,市郊為46∶5,郊區則為49∶42。相對于郊區,市區的夜間經濟更活躍,導致這種到達時序上的差異。
同樣,市區泛辦公類功能區在8:00—9:00、13:00—14:00兩個時段都出現到達高峰,而郊區有大量的泛辦公類功能區在下午并未出現到達高峰。如表4所示,呈現O6D2和O6D3出行模式的單元都被判定為泛辦公類功能區,前者為日間雙峰到達模式(D2),后者為早高峰到達模式(D3),在市區兩者的比例為41∶15,而在郊區的比例為35∶41。
本研究通過構建出租車乘客出行時間序列數據集,挖掘各區域單元的出行模式,從居民出行活動的角度對城市功能區進行識別,并引入POI數據對識別結果進行校驗和主導功能類型標定,從分區視角對識別結果進行討論。以青島市為例,將功能區進行識別為5類功能區,分別為工業(產業)園區、混合功能區、商業區、居住區、泛辦公類功能區。從功能分布角度看,在市域層面,市區、市郊、郊區形成泛辦公類、居住類、工業產業類的功能區分布層級結構;從時序特征視角看,即便是同一種功能的單元,由于地處位置不同,在到達時序模式上分異明顯。依據城市不同區域呈現的功能類型和出行模式的差異,可以制定差異化的功能區布局和交通管控政策,以更好地建設和管理城市。
本研究采用出租車乘客上、下車數據進行城市功能區識別與分析,沒有采用共享單車等數據。不同出行方式背后的出行目的往往有所差異,其所呈現的時序特征也有所不同。在今后的研究中可以探討采用多數據源對城市功能區進行識別,橫向比較不同數據源識別結果的異同點,更加立體全面地辨識城市功能要素的空間分布及其空間活動規律。