基于熵率的公交乘客出行重復性度量方法

2020-09-08 06:38:50崔洪軍朱敏清

公路交通科技 2020年9期

崔洪軍，趙銳，朱敏清，李霞

(河北工業大學土木與交通學院，天津 300401)

0 引言

在城市基礎設施日趨完善的今天，人們的出行變得更加多元化,隨之對出行規律的研究也逐漸成為熱門。研究方法多為通過對出行者時空變化進行有效地考量繼而總結出規律。

Alfred等[1]、Ma等[2]利用時空關聯理論分別分析了智能卡乘客在指定車站的乘降數量及關聯行程、針對北京智能卡出行者的出行時空特性規律進行了研究。Kusakabe T等[3-4]對地鐵出行乘客的智能卡數據加以研究進而得到出行者的出行時空關聯性信息。Ordóez等[5]對出行活動進行聚類，并利用分層選擇模型對為期7天的連續出行活動進行了分析。張晚笛等[6]基于多時間粒度對乘客的地鐵出行規律進行了研究。楊光[7]對快速公交乘客的出行時空規律特征進行了研究。Sang、Gordon、Nassir、Weng等基于智能卡數據對出行目的、出行鏈進行了分類研究[8-11]。由此可知，學者多注重研究出行者連續多日的出行習慣及行為，繼而總結出規律，同時需要大量連續的研究數據做以支撐。

1 出行重復性

乘客出行有著很強的時空關聯性；同時，在一定的時間閾值內，出行者因個體需要，會反復訪問某一地點并在此地點逗留近似時長。本研究將此定義為出行的重復性，即：一定時間跨度內，出行者訪問某一地點并逗留相近時長的反復程度稱為出行重復性。出行重復性可衡量出行者的出行偏好，在出行規律推算中有著重要的意義，但要在冗雜的數據中準確分析所選個體的出行規律時即需對出行重復性進行合理度量。在此有必要說明，本研究的重復性度量是對乘客出行重復程度的度量，研究乘客出行的重復程度可以輔助分析其出行規律，并可為交管部門提供交通線路優化的第一手數據材料。

2 出行重復性度量

2.1 出行序列生成

度量出行重復性首先需要對乘客多日的出行進行合理化排序。乘客的出行可鏈化為一系列出行序列，而出行序列中又包含了諸多出行關鍵特征事件，例如：地點、模式、路線、活動類型、活動持續時間等。這些特征事件的維度變化并不是獨立的[12-14]，如：一個乘客對出行方式及線路的選擇會影響到他的出行起始時間和出行持續時間；而探究序列的要點在于對各關鍵特征事件進行合理排序。

本研究將出行序列用數學方法呈現，通過排列關鍵特征事件順序來定義出行序列。將每名乘客在多日的出行活動看作一個隨機過程，該過程用以表示特征事件的發生頻率及發生次序。設給定乘客個體u出行所對應的隨機過程為Xu，在該過程中產生的特征事件為隨機變量Xu。同時假設每個特征事件均為一個離散變量x，該變量來自個體u出行時產生的可能出行特征事件集Eu，并以此識別特征事件的唯一性；當且僅當兩個特征事件具有相同的事件屬性組合時，二者的x值相同。對于x∈Eu，Xu具有離散概率分布p(x)=P{Xu=x}。

圖1 出行序列示意圖Fig.1 Schematic diagram of travel sequences

2.2 下車地點確定

本研究針對公交乘客的出行重復性進行研究。在國內大多城市中，公交車輛的收費方式為一票制，即只存在上車刷卡的數據，而乘客下車的站點數據無法直接得到。因此，要生成完整的乘客公交出行序列需要推算下車站點信息。本研究根據多日乘車數據，基于經典出行鏈方法對下車站點數據進行推斷，以得到乘客的下車站點信息，進而為后續出行地點狀態的標定奠定基礎。

乘客在日常出行中，往往以居住地為起點，經過一天中一系列的出行活動后返回起始居住地點,同時，在這一系列的出行活動中又多以各行程間首尾順次相接作為典型特征。因此，可將乘客的出行活動看做一個鏈狀結構，即出行鏈，通過以下3個基本假設對算乘客的下車站點信息：

(1)在同一出行日中，同一乘客的前一次出行終點為其緊鄰下一次出行的起點；

(2)在同一出行日中，乘客最后一次出行的終點為其當日首次出行的起點；

(3)在客觀條件不變的情況下，乘客總是選取離自己最近的乘車站點開始下一段行程。

依照以上3個假設，可推算出絕大部分乘客的下車站點信息，其準確率為93%[15]。

2.3 出行地點狀態標定

本研究側重于公交乘客出行的重復性，同時也因數據源的局限性，只對公交出行乘客的出行數據進行了分析。現實生活中，乘客可能采用公交、軌道交通等復合出行方式，繼而會影響到本研究對于乘客出行目的地的判斷。因而，針對此問題，本研究將可推算下車站點的出行即視為一次完整的出行。如該乘客在推斷的下車站點下車后采用了非公交的其他交通出行方式到達下一目的地，筆者則將其目的地一概劃入上文推算得到的下車站點中，而逗留時間起始值也按照該乘客在該站點下車的時間計算。簡言之：在乘客下車后，當無法判斷其是否還采用了其他非公交出行方式到達他處時即認為乘客在下車地點附近停留，并以此記錄逗留時長。基于該理論方法，可盡可能地減少因數據局限性引發的對于乘客出行規律以及公交出行需求的判斷誤差。

將乘客的出行地點狀態進行標定，其中狀態1,2…依照乘客出行的逗留時間予以劃分。具體描述如表1所示。

表1 出行地點狀態描述Tab.1 Description of travel location status

在此，以某持卡人出行記錄為例，其2018年1月1日—2018年2月1日的部分出行記錄如表2所示。

表2 持卡人出行記錄Tab.2 Cardholder’s travel record

以出行地點狀態為依據將其出行特征序列進行排序,故可將此持卡人在2018年1月1日—2018年2月1日期間的出行序列簡化為(1,2,1,2,3,1,2,1,4,3,5),基于簡化的出行序列可對乘客每一出行地點的出行概率p(x)進行計算，同時也將出行序列以數學方法進行了表述，為后續出行重復性的度量做好準備。

以收集到的2018年1月1日—2018年2月1日石家莊公交智能卡乘客出行數據為例，將乘客的出行記錄進行鏈化處理，依照前文所述方法將出行序列進行整理后得到如圖2所示的46 923名乘客的出行特征事件序列分布情況。其中橫坐標所示的出行特征事件序列長度指乘客出行中的地點狀態累計排列長度。

圖2 出行特征事件序列長度分布Fig.2 Distribution of travel characteristics event sequence lengths

3 度量方法

如前文所述，本研究將出行者個體多日的出行特征事件看作隨機過程X，以此來度量出行序列。隨機過程X中不同的特征屬性可提供關于個人出行的不同規律信息，集合E中的關鍵特征事件個數表達了出行活動的多樣性,而概率分布p(x)則可表現個人出行活動的頻率。下面針對以上諸多性質，介紹其推算方法，并以此來度量出行重復性。

3.1 出行序列的信息熵

無論出行特征屬性如何排序，首先均應核算出行序列的重復程度。在前文給定的假設下，隨機過程X(即出行特征序列)的規律性完全由概率分布p(x)決定。通常情況下：一個規律性的出行過程會產生更為確定且更易估計的出行規律結果。在信息論中，一個過程的隨機性或不可預測性可以用信息熵來衡量。信息熵以比特(bits)為單位，其可度量每次預測隨機變量時所需的平均信息，即基于現有信息推測乘客今后出行潛在訪問地點所需的信息量值。

當x∈E時，具有概率分布p(x)=P{X=x}的隨機變量X的信息熵H(X)可用公式(1)表示。其中X為出行序列中被看做隨機變量的乘客訪問地點狀態，E為給定個體出行時所有可能的特征事件集合。

(1)

對于乘客出行的地點序列而言，信息熵為考量出行地點在研究時段中被出行者訪問概率的方差，當乘客只有一個備選訪問地點時，其出行序列的信息熵為0。而當乘客出行地點隨出行時段分布越均勻時，其出行序列的信息熵就越大，出行重復性越高。

將上述46 923名乘客出行特征序列的信息熵按照式(1)計算后，分布情況如圖3所示。其中，信息熵分布的均值為2.53 bits。

圖3 智能卡乘客出行序列的信息熵分布Fig.3 Distribution of information entropies of smart card passengers’ travel sequence

3.2 出行序列熵率

盡管信息熵可以較好地度量出行序列中乘客訪問某一地點的重復性，但卻不能良好地反映隨時間變化時該乘客訪問某一出行地點的重復程度。與此同時，特征事件Xi的條件概率分布也取決于事件Xi-1，Xi-2的分布結果(p(Xi|Xi-1,Xi-2,…)≠p(Xi))，即出行地點排列的先后順序。因此，筆者在此引入熵率來度量出行的重復性。

(2)

由文獻[16-17]可知：在所有平穩隨機過程中此極限必存在，且等于式(3)所示，其中pn為長度n的子地點狀態序列的聯合分布概率。

(3)

結合式(2)、(3)可知，熵率測算的是隨機過程X中每一新產生的特征事件占之前特征事件信息熵的平均值,即反映了在乘客的出行地點狀態序列中，該乘客每新增一個訪問地點，對其整體地點序列信息熵的影響變化情況。出行序列熵率的上界為該出行序列信息熵的值，而當出行地點狀態序列中乘客新訪問的地點可完全由先前的地點狀態決定時(p(Xi=x|Xi-1,Xi-2,…)=1)，其熵率為0。

通俗來講，熵率是一系列事件中產生新生信息多少的度量，先前數據中存有的信息越多，可提供給后續數據分析的信息就越多，而可供挖掘的新信息就越少，相應的，其熵率就越小。因而熵率可用來度量乘客的出行重復性，出行序列的熵率越小，則該乘客的出行重復性越高，出行規律性越強。

3.3 熵率的計算

表3 BWT轉換過程示例Tab.3 An example of BWT transform process

在任一平穩隨機過程X中，通過BWT均可將有限記憶序列轉化為分段形式的無記憶序列，通過這一過程可推算出原始序列過程的熵率。將變換后的序列分割為等長的s段，根據式(4)估計每段的結果分布。其中，Ns(x)為字符x在段落s中出現的次數，而每一段s的信息熵由式(5)得到；q為字符出現次數的估計值，最后通過每一段信息熵的均值求得隨機過程X即乘客出行序列的熵率，由式(6)表示。

(4)

(5)

(6)

將上述46 923名乘客出行特征序列的熵率按上述方法計算后，分布情況如圖4所示。其中，熵率分布的均值為1.13 bits/事件。

圖4 智能卡乘客出行序列熵率分布Fig.4 Distribution of entropy rates of smart card passengers’ travel sequence

由上文可知，如不考慮事件發生順序所提供的信息，乘客的出行序列排序結果幾乎與公平擲骰子結果一致(擲骰子的信息熵為2.6 bits，而所研究乘客出行序列的信息熵均值為2.53 bits)。若一個人只在家庭和工作地(p(home)=p(work)=0.5)之間出行，則其熵為1 bits，等同于拋硬幣所產生結果的信息熵(信息熵為1 bits)。而熵率是考慮了事件發生順序時信息熵的值,文中考慮乘客的出行地點序列及目的地逗留持續時間。結合圖3、圖4可觀察到：出行序列的信息熵與熵率二者均值之差為1.4 bits，意味著考慮乘客出行事件的發生順序可使乘客出行重復性度量時的不確定性顯著降低，并有助于出行規律的推算。

4 應用與效果分析

以石家莊公交智能卡出行數據為例，介紹該方法的實際應用。分別選取編號為A、B、C、D的4名持卡人2018年1月1日—2018年2月1日期間的出行信息，將其出行記錄按照本研究所述方法進行排列，計算得到以上4人的出行序列信息的信息熵及熵率值如表4所示。

表4 所選乘客出行重復性度量指標統計Tab.4 Statistics of selected passengers’ travel repeatability measurement

根據不同地點的出行序列分布情況，結合乘客活動的持續時間，可得到其出行序列分布情況分別如圖5所示。圖中不同紋理圖案表示該乘客的不同出行地點。

圖5 乘客出行活動序列Fig.5 Travel sequence of passengers

由圖5(a)可知，該持卡乘客1月內訪問5個出行地點的次數幾乎相同，工作日時段，該乘客固定的已知出行地點為5個，而周末時多為2個；其在每周一13:00—15:00時左右均會產生未知出行。出行地點訪問順序較為一致。此外，雖此用戶的多日出行活動并不完全一致，但呈現出明顯規律，其出行重復性較強，此結論可通過熵率在研究數據均值以下而得以佐證。

圖5(b)、5(c)直觀來看并無規律性可言，但由出行序列的信息熵均在均值以上可知，兩位持卡用戶的出行較為規律。仔細分析圖像可見，圖5(b)用戶間隔兩周的出行序列顯示出重復性，即：第4周與第1周重復，第2周與第5周重復。基于本研究的重復性度量方法，有理由相信：該用戶1月第3周的出行在接下來的日歷周期中會有較大的可能出現重復。而圖5(c)用戶在1月第1，3，5周及第2、4周的出行分別顯示出重復性，單數周與雙數周的出行需求并不一致，但總體卻呈現出規律性。

圖5(d)展示了通過熵率測量而得到的另一個出行重復性度量實例。該乘客的出行模式在研究期間一直持續，卻并不是嚴格意義上的周期性重復，因而常規出行鏈模型可能無法捕捉到其間斷性的出行規律，但基于本研究提出的出行重復性度量方法，可明確地捕捉到數據集中此用戶的出行規律性。由圖可知，在4種不同的情況下，該乘客由主要位置(深色格紋)出行至次要位置(淺色斜紋)，并在1～2 天后進行反向出行。查閱ADCs系統數據可知，淺色斜紋所示位置區域臨近石家莊北站，該乘客可能在此處離開石家莊度過周末；該用戶在周五或周六離開，并在接下來一周的周一返回。

通過上述4名持卡人的出行記錄及經由本研究所述方法計算后可分析得到乘客的出行規律信息。基于該方法，在可獲得的研究數據較為有限的情況下可通過乘客的出行重復性判斷其出行規律特征，并依此推斷其今后一定時段內的出行需求。與此同時，基于乘客出行序列的信息熵及熵率可對新增出行信息的多少進行度量評價，因此，結合其概率特性，使用該法可對乘客今后一段時間內的出行進行預測。

此外，由本研究的出行序列與時間分布信息圖可看出乘客在具體某一地點的停留時間，通過分析大量持卡人的出行數據可得到公交站點的上下客人數及各站點的載客高峰時段，結合本研究的出行重復性可對公交線路進行站點選址、線路密度安排、車輛時間間隔優化等一系列交通規劃管理工作。

5 結論

(1)對出行重復性概念進行了定義及闡述。

(2)用數學方法結合隨機過程對乘客的多日出行片段進行鏈化排序，對乘客出行地點進行狀態標定，得到了度量出行重復性所需的基于地點狀態的乘客出行序列。

(3)利用信息熵及熵率對乘客的出行重復性進行度量。信息熵是對概率分布方差的考量，其分布越均勻，相應的信息熵就越大，出行重復性就越高；而熵率作為對事件中新生信息產生量的度量，可更好地表現隨機事件隨時間變化時事件的重復程度，新生信息越少，其熵率就越小，出行的重復性越高。

(4)結合石家莊智能卡乘客的出行數據，通過4名乘客的出行實例分析了本研究所述方法的實用效果，利用出行序列圖表直觀地反映了乘客研究時段內出行的重復性，同時，該法為以少量研究數據推算較長周期內乘客的出行規律提供了新思路。