王煒煒,單杏花
(中國鐵道科學研究院 電子計算技術研究所,北京 100081)
基于時間序列聚類方法的小長假鐵路客流規律研究
王煒煒,單杏花
(中國鐵道科學研究院 電子計算技術研究所,北京 100081)
分析了小長假鐵路客流的行成原因,從出行者特征和出行目的兩方面總結了客流影響因素。以客票歷史數據為依據,從日發送量、乘車里程等級、席別等級等方面分析了小長假鐵路客流波動趨勢。定義小長假客流波動系數,根據小長假客流的變化趨勢特點,提出用基于波動趨勢的客流時間序列聚類方法進行小長假客流規律的研究。并對聚類過程中小長假時間序列的構建、表示方法、特征值提取及聚類步驟進行了詳細描述。
時間序列;聚類;小長假;客流波動
隨著2008年國家節假日改革以來,小長假的次數增多,為人們提供了更多的出行機會,從而形成客流高峰。這就需要對小長假客流波動特征進行研究分析,從而準確預測客流,更好地指導運輸組織方案優化以及客票預分。
文獻[1]~[2]以客票數據為基礎,繪制客流時間序列圖,對客流周期性、趨勢性進行了分析;文獻[3]~[4]利用客票歷史數據并通過市場調查,對京津線和京滬線旅客的出行結構、出行時間及特征進行了系統分析;文獻[5]采用譜分析方法對南昌站春運40天客流波動進行了周期性分析。
目前鐵路客流研究大部分集中在年度總量和春運客流上,而對于小長假期間客流的研究較少,本文研究內容主要面向節假日改革以來的小長假,主要包括“元旦”、“清明”、“五一”、“端午”、“中秋”5個假日。如無特別說明,下文所提小長假均指“3天”小長假。
1.1 小長假鐵路客流形成原因和影響因素
1.1.1 小長假鐵路客流形成原因
在小長假期間,旅客根據需要選用鐵路運輸方式,在一定的空間范圍內做有目的的移動便形成了鐵路小長假客流。近年來,隨著經濟不斷發展,人民對生活質量的要求不斷提高,外出旅游已經被越來越多的人所接受。
通過對歷史客流狀況分析,對客流形成原因歸納總結如下:在出行者心理和生理方面,小長假外出或旅游或探親,可以讓人從工作中解脫出來,緩解壓力;在經濟基礎方面,人們的生活水平提高,為小長假外出提供了經濟基礎,很大程度上增加了出行次數;在傳統文化和社會生活方面,如清明節掃墓等傳統文化習俗,促成了小長假期間客流高峰的形成;在國家政策方面,節假日改革以來的多個3天假期,為出行提供了相對充足的時間;在目的地資源方面,不同地區傳統文化、旅游景點、氣候變化、教育等資源都不盡相同,要體驗不同的文化,出行必不可少。
1.1.2 小長假鐵路客流影響因素
一般情況下,節假日期間,影響鐵路客流的主要因素有:出行者特性因素、出行目的、出行距離、假期時間長短、城市類型等。
出行者個性因素對客流有很大的影響。不同的出行者在家庭背景、教育程度、職業收入等方面有很大差異,這也決定了他們在出行動機、出行選擇、出行頻次上的差異。其次,出行目的對客流有直接影響。一般在小長假期間,出行者目的大部分都是以聚會、旅游、購物等為目的的私人旅游,如圖1所示。不同的小長假對客流的影響不同,這與假期性質、出行目的有直接關系。

圖1 節假日鐵路客流的形成示意圖
出行距離對客流也會產生一定的影響。在3天小長假期間,由于時間局限性,選擇長距離外出的旅客相對較少,而選擇中、短距離出行的出行者是客流構成的主力。因此,中、短途出行對3天小長假客流影響較大。
綜上所述,在小長假期間,出行者特性、出行目的、出行距離都將會影響到客流的變化。此外,城市類型也會影響到出行客流。因本論文選擇的均為3天假期,由北京出發的所有客流,因而將不再把假期時間長度及城市類型作為分析考慮的因素。
1.2 小長假鐵路客流數據統計分析
1.2.1 數據準備
本文所研究的小長假主要針對3天小長假,即“元旦”、“清明”、“五一”、“端午”、“中秋”5個節日。由上文分析得知,現行小長假自2008年施行以來,放假時間安排表如表1所示。

表1 小長假假期時間安排
由于2009年與2012年中秋節跟國慶節相遇,2014年元旦為周三,根據國家政策并不調休。因此本文選取2008年、2010年、2011年、2013年為研究樣本年份。本文選擇北京地區(包括北京站、北京西站、北京南站,北京北站,北京東站)的旅客發送數量為研究對象,研究小長假期間,其發出的所有列車的車票數據。研究時間段為各小長假期間及前后一周的客運數據。
根據以上分析,將客票歷史數據進行整理、篩選、匯總,建立相應的數據庫,以便分析使用。

圖2 “五一”期間旅客發送量
1.2.2 日發送量統計分析
本文研究通過對客票歷史數據整理,得到了各小長假在研究時段內北京地區的日發送量變化趨勢。圖2、圖3為 “五一”和“端午”客流趨勢圖。其中Fn(n=1,2,…,7)表示假日前第n天,如“元旦”客流趨勢圖中的F7表示為“元旦”往前第7天的旅客發送量。
分析各小長假歷年發送量數據,可以得到以下規律:
(1)旅客發送量自2008年始,有逐年上升趨勢;
(2)節前數據分析。小長假開始前3天發送量開始上升,前2天客流開始明顯上升,在小長假前一天客流達到峰值,小長假當天客流為最低值;
(3)節后數據分析。小長假假期最后1天發送量上升,節后第1天開始急劇下降,節后第2天開始緩慢下降,第3天基本穩定,直至回到小長假前的日發送量水平。

圖3 “端午”期間旅客發送量
1.2.3 按乘車里程等級分析
對研究樣本數據進行分析,得到研究時間段內最大發送里程為4 064 km,以100 km為里程間距,即乘車里程大于0并且小于等于100為第1個距離等級,以此類推,選取2013年“五一”小長假及其前后一周為研究時間段,得到不同距離等級的發送人數變化趨勢圖。分析數據發現里程大于1 500 km的發送量在小長假前后相差較小,4月22日~ 4月26日,5月3日 ~ 5月8日期間旅客發送量基本沒有變化,因此選擇100 km~1 500 km范圍內,4月26日~5月3日之間的發送量,進一步研究分析,得到按乘車距離旅客發送量變化趨勢如圖4所示。

圖4 按乘車距離旅客發送量
分析圖4變化趨勢,可以得到以下規律:
(1)在日期范圍的每一天內,里程等級大于1 300 km(含1 300 km)的客流量隨里程數的增加,客流量減少;在每個節假日的日客流量變化曲線中,里程等級為1 000 km的客流量既小于800 km的客流量,又小于1 300 km的客流量。
(2)里程等級為200 km的旅客數量最大,次之是里程等級為500 km和1 300 km的客流量。
(3)里程等級為200 km和500 km時,節假日第1天的日客流量均高于其他的日客流量;而里程等級為1 300 km時,客流量在小長假前1天達到最大值。
1.2.4 按席別等級分析
樣本數據包含有14種不同席別,其中包廂硬臥、一人軟包、混編軟臥、混編硬座4種席別日發送量最大不超過100,略去不做分析,以2011年為研究對象,得到“清明”和“端午”分席別發送量變化趨勢如圖5和圖6所示。

圖5 “清明”期間分席別旅客發送量

圖6 “端午”期間分席別旅客發送量
分析各小長假分席別發送量變化趨勢得到以下規律:
(1)小長假席別變化趨勢最大的是無座,這說明小長假運能不足;其次是動車二等座與硬座,變化最小的是硬臥,其他席別無明顯變化。
(2)對于變化明顯的席別,變化趨勢與總發送量基本一致:小長假最后1天發送量上升,節后第1天開始急劇下降,節后第2天開始緩慢下降,節后第3天基本平衡,直至回到小長假前的日發送量水平。
2.1 小長假客流波動系數提出
目前,客流波動系數比較多的應用在對春運期間客流規律的研究中,而對小長假期間的研究甚少。本文研究將小長假客流波動系數定義為:在小長假期間,假期當天旅客發送量與全年非節假日期間旅客日均發送量之比,設α為小長假客流波動系數,則可表示為:

2.2 客流時間序列構建
通過上文分析得知,小長假對平日客流的影響周期是節前4天~節后3天,本文根據小長假期間每天的客流波動系數來構建時間序列,則小長假客流時間序列可表示為:

顯然,小長假客流時間序列是一個步長較短的離散序列,序列中的每個對象都表示該點的波動系數,對象間的距離均為1,前后點的差表示變化趨勢,整個序列體現了小長假期間的客流變化趨勢。綜上分析,本文考慮用差分來表示該序列的動態變化趨勢。
2.3 客流變化趨勢序列構建
由2.2小節分析,需要構建小長假客流動態變化趨勢序列,該序列要求能表述客流時間序列內相鄰兩個元素之間的變化大小幅度。本文選擇用差分方法,通過客流時間序列內相鄰兩個元素的差分來構建小長假客流動態變化趨勢序列進行聚類分析。

依次計算出序列中任意相鄰兩天的差分值,并按照客流時間序列進行順序組合,就得到了小長假客流變化趨勢序列,如公式(4)。

2.4 小長假客流時間序列的表示方法
本文選用逐段線性化方法來對小長假客流時間序列進行聚類分析,可以直觀地反映時間序列的變化形態。

2.5 小長假客流時間序列的聚類
聚類的方法很多,系統聚類過程可形成聚類譜系圖,便于觀察。因此本文選取系統聚類來實現小長假客流時間序列聚類分析,步驟如下:
(1)確定聚類指標和建立樣本矩陣
根據文分析,聚類指標確定如下:

設聚類指標為p,則有p=10,設樣本數為 n,得到樣本矩陣為:

(2)數據標準化
數據標準化方法眾多,包括標準差、均差、協方差、極差等,本文選用Z-Score標準化方法,計算公式為:

式(9)中:

(3)距離矩陣
序列的聚類可以轉化為點聚類。本文以小長假時間序列作為樣本,聚類指標為p=10, n個樣本就組成了10維空間中的n個點。用表示兩個樣本間的距離,采用歐式距離作為聚類距離的度量,則表示為:

(4)選擇聚類方法
本文選用離合平和方法作為層次聚類方法,即兩類合并所產生的離差平方和的增量作為兩類的距離。
(5)聚類結果的實現
聚類基本步驟為:
a.將n個時間序列各自編成1類,即將樣本編為n類;
b.尋找n類中類間距離最小的兩類,并將其合并為1類,則樣本空間此時共有n–1類;
c.尋找n–1類中類間距離最小的兩類,再次合并得到n–2類;
d. 重復以上過程,直到樣本歸為1類;最后生成聚類譜系圖。
運用以上聚類分析方法,可以針對某城市、某條高速鐵路或者某車站進行小長假客流波動規律的研究。將分析結果(如不同節假日每一類客流的波動系數變化特征及具有同類別客流波動特征的不同OD區間的相關資料、客流波動系數等)全部記錄存庫,建立一個客流波動規律數據庫,用于后續的節假日客流預測和運輸組織優化。
本文以3天小長假為研究對象分析了小長假鐵路客流的形成因素和影響因素,基于客票歷史數據,對不同小長假假日期間旅客發送量分別從總發送量、按乘車里程等級、按席別等級3個角度進行了分析對比,總結出小長假客流波動規律;定義了小長假客流波動系數,并提出用基于波動趨勢的客流時間序列聚類方法來進行小長假客流規律研究的方法,最后給出了該方法的具體步驟。運用該方法得到的客流波動規律數據,對于節假日鐵路客流預測、臨客開行方案制定,具有重要指導意義。
[1] 馬彥祥,高 篙.鐵路短期客流時序規律分析[J].鐵道運輸與經濟,2010,32(2):87-90.
[2] 馬彥祥.基于客流激發能級模型的鐵路客流短期預測研究[D].北京:北京交通大學,2008.
[3] 張 敏,張 超.京津城際高速鐵路客流結構和出行特征分析[J].中國儲運,2010(6):88-89.
[4] 甄 靜.京滬線路客流規律分析[J].中國鐵道科學,2002,23(2):122-126.
[5] 廖智君.南呂客運站春運客流分析及對策研究[D].成都:西南交通大學,2003.
[6] 夏 青. 節假日鐵路客流波動規律分析及其在客流預測中的應用研究[D].北京:北京交通大學 ,2011.
責任編輯 方 圓
Study on regular pattern of railway passener fl ow in three-daw holiday based on clustering method of time series
WANG Weiwei, SHAN Xinghua
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )
The paper analyzed the causes of the railway passenger flow in the three-day holiday, summarized the factors of the railway passenger flow from the characteristics about passengers and travel purposes, based on the historical tickets data, analyzed the fl uctuation characteristics of passenger fl ow in three-day holiday from transport volume, the grade of the board distance, the grade of the seat type, etc, def i ned the three-day holiday passenger fl ow fl uctuation coeff i cient and based on a small holiday passenger trends, proposed a clustering method of time series to study the regular pattern of passenger fl ow in the three-day holiday and made detailed descriptions about the building of time series of the three-day holiday and its representations, eigenvalue extraction and clustering step.
time series; clustering; three-day holiday; fl uctuation characteristics of passenger fl ow
U293.2∶TP39
A
1005-8451(2015)04-0023-05
2014-09-23
王煒煒,副研究員;單杏花 ,研究員。