基于強化學習算法原則的出行選擇行為建模與仿真

2021-01-04 10:42:44趙思萌

大連交通大學學報 2020年6期

趙思萌

(中鐵第六勘察設計院集團有限公司，天津 300308)*

為了有效減緩高峰時段交通擁堵，一方面是改善交通基礎設施，另一方面就是調控交通出行量 .調控交通出行量主要是調整出行者的出行時間和出行方式，即出行者避開高峰時段，采用公共交通方式出行，達到減少道路交通出行量的目的[1].

研究出行者出行時間選擇和出行方式選擇的文獻較多，大多基于期望效用理論和離散選擇模型[2-3].在一定時期內，出行時間選擇和出行方式選擇可以看作是一個動態學習和選擇的過程，研究者往往注重行為決策和模型建立，而缺少對客觀選擇行為的軌跡模擬[4-5].本文基于強化學習算法原則，結合出行者出行行為選擇的認知更新過程，構建了出行時間和出行方式聯合選擇的微觀認知模型，并通過仿真的方法模擬出行者群體出行選擇行為的變化規律，從而為交通管理等政策的制定和評估提供方法支撐，達到高峰時段減緩交通擁堵的目的 .

1 微觀仿真方法

本文提出的研究方法主要包括兩個部分：出行者個體和仿真系統.

1.1 出行者個體

在微觀仿真方法中，通過對每個出行者的學習、適應以及行為決策過程進行建模，來描述出行者出行選擇行為的過程，即將出行者作為一個智能體，通過積累經驗和接受環境的變化對行為選擇進行調整，這種方法通常可以拓展到多維的行為選擇，如出行時間、出行方式、出行路徑和目的地等[3].本文只研究了出行時間和出行方式的聯合選擇，更全面深入的研究將在后續中繼續深入.

1.2 仿真系統

在完成單個出行者的行為建模后，將這些出行者輸入到仿真環境中，給予出行者一定的屬性，模擬出行者在實際交通狀況變化下的學習、適應和決策過程，進而得到不同交通狀況條件下的出行行為決策結果 .本文采用MATLAB編碼實現出行者出行選擇行為的仿真 .

2 模型建立

2.1 強化學習原理的引入

強化學習算法的基本原理是：如果智能體的某一行為使得環境對智能體回饋了正的獎賞(reward)，則智能體以后采取這個行為的趨勢會加強[5-6]，其基本模型如圖1所示 .

智能體與環境交互式，會遵循以下順序事件[6]：

(1)智能體感知當前環境狀態；

(2)智能體結合環境和當前狀態，采取行為a；

(3)智能體執行a后，環境返回獎賞r；

(4)智能體更新自身狀態值 .

本文將出行者選擇出行時間所得到的節省時間和選擇出行方式的節省的交通費用作為獎賞，同時引入學習因子和折扣因子，對出行者的認知過程進行建模 .出行者的出行選擇行為一般分為兩部分：一部分是認知更新和搜索，另一部分是決策選擇[6]，原理圖如圖2 .

2.2 行為定義

假定出行者的每個選擇都是基于先前經驗積累才做出的，因此，定義一次出行方式選擇或出行時間選擇為一次行為[8]，用a表示，定義為：

a=(x,r,n,w)

(1)

式中：x表示一次行為的屬性，本文指選擇一個時間點出行或出行方式后的旅行時間及交通費用；r表示經過該事件后獲得的獎賞(reward)；n表示該事件發生過的次數；w表示出行者對該事件的認知重要度 .

2.3 微觀認知模型

2.3.1 出行方式微觀認知模型

首先，建立出行方式的微觀認知模型，模型中主要考慮的因素是出行方式的旅行時間和交通費用，用wi表示出行者記憶中對第i種出行方式的認知程度，定義為：

wi=θi·βi(i=1,…,m)

(2)

式中：θi表示該種出行方式在記憶中的重要程度；βi表示該出行方式在記憶中的衰減程度 .

當出行者選擇某種出行方式后的實際情況與出行者期望效果越相近時，則會對該出行方式的記憶程度加深，即環境給予的回饋值更大；反之，則會對該出行方式的記憶程度降低[9].記憶程度θi定義為：

(3)

結合出行者以往對出行方式的選擇情況，每一種出行方式會在出行者的記憶中形成優先級，優先等級不同的出行方式在出行者記憶中衰減的程度也不同，記憶衰減程度用βi表示，定義為：

(4)

式中：ranki表示第i種出行方式在所有出行方式中的優先級；γ為記憶衰減率(折扣因子)，取值為[0,1] .

2.3.2 出行時間微觀認知模型

與出行方式選擇的微觀認知模型構建相似，出行時間選擇的微觀認知模型中僅考慮旅行時間作為影響出行者對出行時間選項的因素，用wj同樣構建為：

wj=δj·φj(j=1,2,…,n)

(5)

式中：δj表示第j個出行時間點在記憶中的重要程度；φj表示第j個出行時間點在記憶中的衰減程度.

對出行時間點的記憶重要程度δj定義為：

(6)

同樣，出行者對不同的出行時間點會形成不同的優先級，優先等級不同的出行時間點在出行者記憶中衰減的程度也不同，記憶衰減程度用φj表示，定義為：

(7)

式中：rankj表示第j個出行時間點在所有出行時間點的優先級；χ為記憶衰減率(折扣因子)，取值為[0,1] .

2.4 離散選擇模型

2.4.1 Logit模型

在出行者通過經驗積累后，會在記憶形成幾個適宜的出行時間點或是出行方式，最后通過決策選擇出對自己效用最大的，本文采用多項Logit模型來描述出行者的選擇行為 .Logit模型通常用于計算個體在若干個可選方案中選擇其一的概率，尤其是對一些影響選擇決策且不能直接觀測到的因素，可運用Logit模型進行分析，Logit模型的一般形式為：

(8)

最終計算考慮認知度下的加權選擇概率如式(9)所示：

Pi′=Pi·wi′

(9)

2.4.2 效用函數的確定

(1) 出行方式效用函數

在第i種出行方式的選擇上，其中以所選出行方式的旅行時間和出行交通費用作為考慮因素，建立第i種出行方式的效用函數Vi如下：

Vi=βT·Ti+βC·cosTi

(10)

式中：Ti為第i種出行方式的旅行時間；cosTi為所選出行方式的出行交通費用；βT和βC為模型待標定參數 .

(2) 出行時間效用函數

在出行時間的選擇上，考慮了旅行時間和準時到達這兩個因素，定義效用函數Vt為：

(11)

SAE(t,Tt,PAT)=max[(PAT-Tt-t),0]

(12)

SAL(t,Tt,PAT)=max[(Tt+t-PAT),0]

(13)

式中,PAT表示偏好出行時間 .

(3)本文采用調查問卷發放的方式收集數據，每份問卷分別設置2個出行時間選擇場景和出行方式選擇場景，由參與調研的人員完成，并記錄每個參與調研者的基本出行信息 .其中兩個場景示例如表1、2所示.

表1 出行時間選擇示例

表2 出行方式選擇示例

問卷選擇在蜀漢路東地鐵站、公交站以及附近小汽車停車場發放，最終共收回452份有效問卷，數據統計分析如表3所示，可以看出參與調查者以中青年為主，出行目的主要為上班群體，且上班旅行時間主要分布在10～30 min .

表3 調研數據統計

(4)模型參數標定

模型參數標定借助NLOGIT 5.0軟件，標定結果見表4、5所示，由Pseudo-R2可以看出模型擬合度較好，t值表明待估計參數均顯著[10]，且符號與預期一致 .

表4 出行方式選擇模型參數標定結果

表5 出行時間選擇模型參數標定結果

為了驗證模型的精度，進一步收集了97份樣本數據 .通過對比實際出行時間、出行方式選擇和模型預測值，得到出行時間選擇模型整體預測精度為86.4%，出行方式選擇模型整體預測精度90.1% .同時，采用ROC(receiver operating characteristic curve)曲線說明模型的局部預測精度，如圖3所示，可以看出兩種模型的局部預測精度都較好，且出行方式選擇模型的局部預測精度略好于出行時間選擇模型[11].

3 仿真

本案例選取成都市的一段路程，線路如圖4所示，以蜀漢路東區域為通勤人員的起點，以騾馬市地鐵站區域為目的地；其中通勤人員有三種出行方可供選擇，分別是小汽車、公交車(341路)和地鐵(2號線換乘1號線) .

3.1 仿真流程圖

本案例仿真流程圖如圖5所示 .

3.2 案例說明

(1)本案例研究早高峰的交通狀況，研究時段為7∶00～9∶00，將其以10 min為間隔分成12個時間區段，即11個出行時間點；

(3) 仿真參數設置如表6所示.

表6 仿真參數

3.3 仿真結果

通過仿真主要得到了兩個結果：其一是出行者根據上班時間所做出的出行時間選擇分布；另一個是在小汽車交通費用變化下的交通方式的轉變 .

3.3.1 出行者出行方式選擇分析

在出行方式的選擇分析中，主要研究了在不同小汽車出行成本下出行者選擇小汽車、地鐵和公交出行的變化規律 .如圖6所示，隨著小汽車出行成本的增加，選擇小汽車出行者逐漸減少，并且當小汽車出行成本達到15元以上時，小汽車出行者減少的趨勢有所減緩，而公交和地鐵出行明顯呈上升趨勢；其次，可以發現當小汽車出行成本設定為15元時，對小汽車出行者的限制效果最佳.

3.3.2 出行者出行時間選擇分析

(1) 出行方式平均旅行時間

針對出行時間選擇分布，本節首先對三種出行方式不同出行時間點的平均旅行時間進行了統計 .圖7所示為小汽車出行成本為15元時的三種交通方式的平均旅行時間，可以看出：小汽車和公交受到道路通行能力的影響，出行時間呈現高峰現象；而地鐵為軌道運行，運行時間較為平穩 .

(2) 出行者出行時間選擇對比分析

圖8、圖9分別給出了小汽車出行成本為0元時和15元時的出行時間選擇分布圖 .對比發現：小汽車出行成本為0元時，9∶00上班的人群選擇8∶40和8∶50出行較為集中，通過旅行時間判斷為選擇小汽車作為出行方式；而當小汽車出行成本為15元時，9∶00上班的人群選擇8∶40和8∶50出行的次數明顯減少，選擇其他時間點出行的次數稍有增加，整體出行時間分布向均勻化轉變，進一步緩解局部時間段的擁堵狀況 .

對于SP調研數據，在小汽車出行成本為15元的條件下，僅有13%的調研者選擇了小汽車出行 .而對于仿真結果，當小汽車成本為0元時，汽車出行方式占了近60%，而當成本為15元時，汽車出行下降至8%，可以看出仿真結果與SP調研數據顯示的出行行為偏好一致，但模擬精度還存在一定的偏差，可能是模型參數標定的誤差所致.在后續研究中，應進一步完善場景實驗和屬性水平設計，提升模型參數標定的精確度 .

4 結論

仿真結果表明：

(1)隨著小汽車出行成本的增加，部分小汽車出行者逐漸選擇公共交通出行，并且當出行成本增加到15元以上時，出行方式選擇變化趨于平緩；

(2) 出行者的出行時間選擇分布趨于均勻化，進而減緩局部時間段的擁堵狀況 .

本文的研究成果可以為減緩高峰時段交通擁堵以及制定和評估交通管理等政策提供方法支撐.