欒文波 汪 林 張 寧 趙圣娜
(1.南京地鐵運營有限責任公司,210028,南京;2.東南大學ITS研究中心軌道交通研究所,210018,南京;3.北京城建設計發展集團股份有限公司,100045,北京∥第一作者,高級工程師)
列車時刻表是軌道交通系統合理安排行車組織的基礎,列車時刻表的設計將直接影響到線路上列車的調度,進而影響乘客的出行[1]。
為了提供更好的乘客出行服務,軌道交通運營公司通常會根據每日客流特征將運營日劃分為若干類別,并分別編制對應日的列車時刻表,以滿足不同類型運營日的多樣化客流需求。城市軌道交通客流由大眾出行需求產生,與市民日常生活密切相關,因而具備明顯的以“周”為周期的演變特征[2-3]。常見的運營日分類方法是根據其社會屬性,將一周運營日劃分為“工作日”、“周末”、“節假日”等幾類。該方法定性考慮了不同運營日群體出行規律間的差異,但未能給出類間差異的定量評價指標,并且缺乏對工作日群體出行規律的進一步深化研究。
本文結合統計學的觀點,在目標線路全日單向OD矩陣的基礎上提取全日單向OD概率矩陣,通過對所提取的矩陣樣本進行聚類分析,實現運營特征日的合理分類,為編制列車時刻表提供依據。
軌道交通OD矩陣反映了線路上起訖點之間的乘客出行分布[4]。不同運營日的乘客出行規律體現出較大的差異性[5]。為了有效區分不同運營日的乘客出行分布特征,本文指定目標線路上行方向為客流統計方向,以目標線路單向OD矩陣為例進行分析。將目標線路共J個站點依次編號為1,2,…,J。以自動售檢票(Automatic fare collection,AFC)系統采集的線網歷史交易記錄作為基礎數據,對特定統計時段Tk內的乘客出行分布進行統計(對于線網內的換乘客流,本文采用全有全無分配法對其進行路徑分配,即將起訖點不在同一目標線路上的單次交通出行分配到途經區間最少的路徑上),將Tk內抵達目標線路站點i候車,且選擇站點j下車的乘客人數記作=0(i≥j))。將目標線 TK路時段對應的單向 OD 矩陣記作 Sk,且有(Sk)ij=Sij,k。
在給定客流需求的前提下,線路運營之前抵達各站候車乘客的出行不受列車時刻表的影響,因此,本文僅針對線路運營后的站臺候車人數進行統計。
行估計,使得當
單向OD概率矩陣反映了目標線路上乘客在各起訖點之間的出行分布概率。將統計時段Tk內抵達站點i候車的乘客在站點j下車的概率記作aij,k(0≤aij,k≤1)。由于僅考慮上行客流,故有 aij,k=0
矩陣Ak反映了統計時段Tk內目標線路上行方向的客流轉移狀況,因此可用作表征相應時段目標線路(上行方向)群體出行規律的參數。
由伯努利大數定律[6]可知:?ε>0 ,有 lim P依概率收斂于aij,k。當統計時段內抵達站點候車的乘客數量足夠多時,“乘客選擇站點j下車”這一隨機事件發生的頻率與相應概率的偏差大于預先給定精度ε的可能性會任意小。因此,可構造矩陣Bk對Ak進足夠大時,Bk與 Ak存在較大偏差的可能性極小。Bk表達式為:
數據挖掘(Data mining)是20世紀80年代逐漸發展起來的一項智能分析技術,它以數據庫技術為基礎,融合了人工智能、模式識別、統計學和邏輯學等多門學科,致力于從大量歷史數據中通過算法提取隱藏于其中的信息[7]。
聚類分析作為數據挖掘的一個重要研究領域,是進行數據劃分和分組處理的重要手段和方法[8]。聚類分析的目標是,組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內的相似性越大,組間的差異越大,聚類效果就越好。聚類的方法有多種,結合本文應用需求,選取目前廣泛應用的系統聚類和快速聚類進行研究。
系統聚類法(Hierarchical cluster analysis)是一種自底向上的層次聚類方法。其基本思想是:先將每個樣本單獨作為一類,然后根據類間的距離,將最接近的兩類合并成新的一類;接著計算新類與其他類之間的距離,再將最接近的兩類合并。如此重復操作,至所有樣本合并為一類或達到某終止條件為止。
系統聚類中,測定樣本間距離是關鍵所在。通常會涉及以下兩類距離的計算:一是單個樣本間的距離,常用的距離有歐氏距離、切比雪夫距離、絕對值距離和閔科夫斯基距離;二是合并后的類之間的距離,類與類之間的距離有很多的定義方法,主要有類平均法、重心法、最近鄰法、最遠鄰法、組間連接法和離差平方和法。
設樣本集中共有n個樣本,每個樣本包含m個屬性,則樣本集S可表示為如下n×m矩陣:
式中:
Sij(1≤i≤n,1≤j≤m)——第i個樣本的第j個屬性觀測值。
記矩陣S的第i個行向量為Si。故?1≤k,L≤m,樣本集中第K個與第L個樣本之間的距離可通過行向量SK與SL間的距離來刻劃,利用歐氏距離來計算樣本間距離 d(SK,SL),其表達式為:
子類GP與子類Gq之間的距離Dpq可以利用組間連接法和離差平方和法計算得到,其表達式分別為:
式中:
np,nq——Gp和Gq的樣本數。
系統聚類是一種不可逆的單向聚類,某個樣本一旦被并入某一類,就無法再從該類分離,因此該方法對異常樣本值較為敏感;同時,樣本容量較大時,會導致聚類圖譜過于復雜,難以合理解釋最終選取的分類結果。因此,為了彌補系統聚類法的這一不足,引入了快速聚類法。
快速聚類法(K-means cluster analysis)是一種基于劃分的聚類方法。該方法先將樣本粗糙地分類,然后按照某種原則進行修正,直到分類比較合理為止。
設樣本數據集中包含k個聚類簇,隨機選擇k個樣本作為初始的聚類簇心。計算剩余樣本與各簇心的歐氏距離,將其分配到最近的聚類簇中。重新計算每個簇中的樣本均值,并以之作為新的簇心。重復上述過程,直到準則函數收斂[9]。準則函數E定義如下:
當某次迭代后E不發生顯著變化時,算法即收斂。
快速聚類算法中,聚類結果對初始簇心有較強的依賴性,不同的初始簇心可能產生不同的聚類結果,這將導致聚類過程的不穩定,極端情況下可能出現準則函數難以收斂的現象。因此,在具備先驗知識的情況下,可憑借相關領域研究經驗選取合適的初始簇心,以期得到較好的聚類效果。
本文以某城市軌道交通線路為例,從AFC系統采集2013年3月18日~2013年4月14日共計28 d的線網歷史交易記錄,以一個完整運營日為統計時段,提取目標線路上行OD概率矩陣樣本集。目標線路共有車站26座,所提取的概率矩陣為上三角陣。將各矩陣中的有效元素按行提取、合并成長度為25+24+…+2+1=325的行向量,并按運營日期將其排列為28×325的樣本數據矩陣,記為OD_RATE。
基于上文對系統聚類和快速聚類方法的分析,擬定運營日分類的聚類方案,具體步驟如下:
(1)使用系統聚類法對樣本矩陣OD_RATE進行初次分類,利用先驗知識確定大致分類數并檢查是否存在異常值(即分類后的孤立樣本點)。
(2)若存在異常值,則將其從樣本集中剔除。對剩余樣本再次進行系統聚類,根據先驗知識確定最終分類數并記錄各類重心位置。
(3)以(2)中得到的各類重心作為快速聚類的初始迭代簇心,利用快速聚類法對(2)中分類進行調整優化,從而得到最終分類。
按照上述方案,對樣本矩陣OD_RATE進行聚類分析。首先,得到全日單向OD概率矩陣初次系統聚類圖譜,如圖1所示。
經分析,圖1 a)、b)均無明顯孤立點,因此樣本數據集中不存在異常值。當聚類數目為5時,基于兩種聚類方法的初次聚類結果完全吻合,故將運營日分為5類較為合適。
最后,以初次系統聚類得到的各類重心作為初始迭代簇心,對樣本數據進行快速聚類,得到最終分類結果如表1所示。
表1 某線路客流概率轉移矩陣快速聚類結果
結合國家頒布的2013年清明放假及調休通知,可發現如下現象:
(1)分類編號為“1”的運營日中,均為正常上班的工作日,記為“正常工作日”。
(2)分類編號為“2”的運營日中,03-18、03-25、04-01均為周一,04-07(周日)公休按規定調至04-05(周五),因此為節假日后正常工作的第一天,記為“周初工作日”。
(3)分類編號為“3”的運營日中,03-22、03-29、04-12均為周五,04-03為節假日(清明節)前的最后一個工作日,記為“周末工作日”。
圖 1 全日單向OD概率矩陣初次系統聚類圖譜
(4)分類編號為“4”的運營日中,03-23~ 03-24、03-30~03-31、04-13~04-14均為正常休息的周末,04-06(周六)為清明假期的最后一天,記為“平常周末”。
(5)最后一類運營日中,04-04~04-05為清明假期中除去最后一天以外的其他時間,記為“節假日”。
由上述分析可見,群體出行目的與運營日的性質密切相關,并可通過當日的OD概率矩陣反映出來。在工作日中,人們上班、上學所產生的軌道交通通勤客流構成了客流的主體部分,相應的OD概率矩陣主要取決于各類企事業單位、學校、辦公機構等在目標線路沿線的布設。其中,周初工作日作為周末或節假日后的第一個工作日,周末工作日作為周末或節假日前的最后一個工作日,相應的OD概率矩陣又呈現出有別于正常工作日的規律;平常周末時,人們的活動是以休閑、逛街以及短期出行為主,相應的OD概率矩陣則受制于目標線路沿線區域各休閑、娛樂設施以及商業街區的分布狀況;法定節假日的客流因受到外來游客的沖擊,其OD概率矩陣主要由各旅游景點、休閑、娛樂設施以及商業街區的分布狀況和外來游客與當地居民的出行比例共同決定。
綜上所述,可將運營日分為正常工作日、周初工作日、周末工作日、平常周末和節假日5類。其中:周初工作日通常指周一,包含節假日后正常上班/上學的第一天;周末工作日通常指周五,包含節假日前正常上班/上學的最后一天;正常工作日是指除去周初工作日和周末工作日外的正常上班/上學的日期,包含部分調休的周末;節假日是指國家法定節假日;平常周末即為剔除節假日、正常工作日、周初工作日和周末工作日以外的正常休息的周六、周日。另外,由本分類結果可見,節假日的最后一天,外來游客基本都已返程,故應將其歸入平常周末的范圍。在此基礎上,軌道交通運營管理部門可根據各類運營特征日的實際客流情況,分別制定相應的列車時刻表。
城市軌道交通運營特征日的合理分類是進行高效運營管理的基礎。本文以目標線路運營日單向OD概率矩陣為樣本,利用系統聚類法和快速聚類法,根據站間客流轉移規律,將運營特征日分為正常工作日、周初工作日、周末工作日、平常周末和節假日5類,并將節假日的最后一天歸為平常周末的范圍。該方法量化了不同類運營日群體出行規律間的差異,可為運營管理部門(有針對性地)編制行車計劃提供決策支持。此外,除了不同運營特征日的客流依據外,時刻表編制過程中還需考慮同類特征日在不同運營時段的客流特征,這也是本文后續研究的重點。
[1] 張國寶.城市軌道交通運營組織[M].上海:上??茖W技術出版社,2012.
[2] 王奕,徐瑞華.基于周期時變特點的城市軌道交通短期客流預測研究[J].城市軌道交通研究,2010,13(1):46.
[3] 邱華瑞.城市軌道交通客流時空演變規律研究[D].南京:東南大學,2014.
[4] 徐瑞華,徐永實.城市軌道交通線路客流分布的實時預測方法[J].同濟大學學報(自然科學版),2011,39(6):857.
[5] 王雪梅.城市軌道交通常態與非常態短時客流預測[D].南京:東南大學,2013.
[6] 王紅,劉磊.概率論與數理統計[M].上海:同濟大學出版社,2014.
[7] HAN J,KAMBER M.數據挖掘概念與技術[M].范明,孟曉峰譯.北京:機械工業出版社,2001.
[8] 周濤,陸惠玲.數據挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100.
[9] 王千,王成,馮振元,等.K-means聚類算法研究綜述[J].電子設計工程,2012,20(7):21.