999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

逆強化學習驅動的公共交通乘客路徑選擇建模

2023-02-23 08:24:24廖采盈
交通科技與管理 2023年2期
關鍵詞:公共交通成本模型

廖采盈,張 彤,黃 練

(1.武漢大學測繪遙感信息工程國家重點實驗室,湖北 武漢 430079; 2.深圳市易景空間智能科技有限公司,廣東 深圳 518052)

0 引言

路徑選擇建模,是通過最大化個人在出行中遵循的效用函數來估計可能選擇的路徑。傳統的路徑選擇模型多采用離散選擇模型(Discrete Choice Model,DCM),模型通常從連接起點和目的地(Origin and Destination,OD)的路徑選擇集里選擇一條路徑,模型簡單但需要提前對OD間的路徑進行采樣形成一個有限的選擇集,這在大型的城市公共交通網絡中是一項困難的任務[1]。同時大多數DCM假設了線性參數的效用函數,無法揭示復雜的路徑選擇偏好[2]。

近年來,深度學習因其良好的預測性能已經成為經典DCM的有力替代[3]。其中,深度逆強化學習(Inverse Reinforcement Learning,IRL)很適合用于路徑選擇問題,因為它在結構上與動態DCM相似[4],可以解釋選擇行為,并且足夠靈活,可以納入深度架構和高維特征捕捉非線性的偏好信息。IRL將路徑選擇問題表述為順序選擇路徑段的馬爾科夫決策過程,并從觀察到的真實路徑中恢復獎勵函數(類似于效用函數)。最近的幾項工作證明了IRL在路徑預測[5]和路徑生成[6]方面的潛力。

該文將在智能公交卡數據的驅動下,建立用于城市公共交通乘客路徑選擇的逆強化學習模型,利用深度神經網絡近似獎勵函數來納入更多高維特征以捕捉潛在的路徑選擇偏好(成本)。最后,以深圳市公共交通網絡為案例,進行分析。

1 方法

1.1 問題定義

該文將乘客的路徑選擇過程看作是一個馬爾可夫決策過程(Markov Decision Process,MDP),此時乘客路徑選擇的概率和出行行為的成本可以通過策略網絡、獎勵(成本)函數得到解釋。一個MDP通常可以描述為:智能體從某一個狀態sS出發,根據策略π(a|s)在aA選取動作執行后,環境將會以pa(s,s')的狀態轉移概率轉換到下一個狀態s',同時將給予智能體一個確定的獎勵r(s,s'),該過程將不斷進行直到終止狀態。逆強化學習的目標是要學習出一個獎勵函數rθ(s,a),再使用它來學習最優策略π*(a|s),其中θ是參數。

1.2 模型構建

1.2.1 環境描述

該文基于OpenAI的Gym庫[7]構建了城市公共交通網絡的模擬環境,將公交站點、地鐵站點定義為圖節點,節點的連接邊定義為交通線路和步行可達邊,從而抽象表達出城市的交通網絡結構,如圖1所示。

圖1 環境交互下的出行過程表達

1.2.2 狀態表達

狀態來自對智能體的描述,即對乘客的位置、行程完成度和出行意圖的特征表達。因此,該文設計了如圖2所示的狀態表達網絡結構來提取乘客的出行條件,希望具有相同行為序列的乘客被映射到相似的向量空間之中,以此區分不同出行的乘客狀態。

圖2 狀態特征表達網絡

1.2.3 行為設計

模型的動作空間由公共交通網絡環境中的路徑組成,考慮到路徑選擇與出行行為的對應關系,可將乘客的路徑選擇抽象為三個可解釋的出行行為:

(1)本站乘車:不下車,繼續乘坐本線路到下一站。

(2)本站換乘:在本站下車,乘坐本站其他線路到下一站。

(3)異站換乘:在本站下車,步行至其他站點,乘坐某一線路到下一站。

1.2.4 成本估計

成本具體體現為乘客每一次選擇路徑后進行狀態轉移所應花費的相應成本,在求解對不同出行行為的乘客偏好時,難以用一個統一的成本函數形式來參數化乘客對不同行為成本的衡量標準,因此我們通過構建一個對抗逆強化學習模型來優化由深度神經網絡近似的成本函數。

Finn[8]指出,逆強化學習目標函數公式(1)與生成式對抗網絡的目標函數公式(2)有著極其相似的性質,并證明了生成式對抗網絡優化的正是最大熵逆強化學習的目標函數:

因此將生成式對抗網絡的思想應用到逆強化學習問題,其中,判別器的目標函數D(s,a)由公式(3)給出,其中由狀態價值函數和狀態動作價值函數的優勢差由公式(4)得到。

1.3 用于路徑選擇的對抗逆強化學習模型

綜上,該文提出基于生成式對抗網絡的逆強化學習模型,迭代求解最優策略下的最優獎勵函數。模型流程如圖3所示。

圖3 模型流程圖

2 實驗

2.1 數據準備

該文以深圳市公共交通系統作為實例研究,使用的數據包括城市交通網絡數據和公共交通乘客出行數據如下所述:

(1)城市交通網絡數據:2017年深圳市公交站點、地鐵站點、公交線路、地鐵線路組成的交通路網,包括816條公交線路,8條地鐵線路。

(2)公共交通出行數據:基于深圳市2017年4月20日星期四的公共交通出行鏈數據,數量約為372萬,進行模型的訓練與測試。

2.2 結果分析

選取某一OD對,將起始站出行路徑的真實乘客樣本的起點狀態輸入模型,應用生成器進行模擬樣本的生成,再通過判別器輸出對真實樣本和生成樣本中各出行選擇行為的預測,結果如圖4所示。可以看出,生成樣本不同行為的成本與真實樣本能很好地匹配,在一些成本比較小的行為上也能達到良好的預測效果。因此除了應用判別器網絡來估計乘客出行行為成本外,模型還可為公共交通規劃模擬乘客出行、預測客流量提供一些決策數據支撐。

圖4 判別器對乘客樣本和生成樣本的行為成本估計

3 總結與展望

該文基于馬爾可夫決策過程,將乘客的路徑選擇表示為在環境中路網路徑的選擇,再基于站點-線路的組合抽象出出行行為;乘客的狀態集成了乘客當前的出行情況,定義為乘客當前位置、乘客的累積時間花費、乘客的出行行為序列。通過基于生成式對抗網絡的逆強化學習模型訓練出衡量乘客路徑選擇的成本函數,然后基于這一成本函數可從出行成本角度對乘客不同出行行為進行分析。該文提出的路徑選擇模型如何應用到公共交通運營規劃和資源配置中將是下一步的研究重點。

猜你喜歡
公共交通成本模型
一半模型
2021年最新酒駕成本清單
河南電力(2021年5期)2021-05-29 02:10:00
《城市公共交通》雜志社簡介
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
溫子仁,你還是適合拍小成本
電影(2018年12期)2018-12-23 02:18:48
基于計算實驗的公共交通需求預測方法
自動化學報(2017年1期)2017-03-11 17:31:10
3D打印中的模型分割與打包
公共交通一卡通TSM平臺研究
交通運輸部發布通知推進城市公共交通智能化應用工程建設事項
主站蜘蛛池模板: 夜夜拍夜夜爽| 欧美在线综合视频| 日韩在线成年视频人网站观看| 99性视频| 欧美激情综合| 欧美三级视频网站| 国产欧美视频在线| 亚洲高清无码精品| 色有码无码视频| 亚洲一区无码在线| 日韩视频免费| 99视频只有精品| 色国产视频| 亚洲精品无码高潮喷水A| 亚洲国产成人超福利久久精品| 黄色不卡视频| 日韩高清在线观看不卡一区二区| 国产高清色视频免费看的网址| 欧美天天干| 国产精品观看视频免费完整版| 欧美无专区| 性视频久久| 欧美天堂在线| 国产人成在线观看| 无码精油按摩潮喷在线播放| 国产精品无码作爱| 日韩成人午夜| 欧美午夜网| AV老司机AV天堂| 日韩精品无码免费专网站| 国产成人无码Av在线播放无广告| 国产精品成人免费视频99| 欧美色视频在线| 91精品国产无线乱码在线| 美女一级毛片无遮挡内谢| 91国语视频| 91系列在线观看| 国产精品嫩草影院视频| 不卡无码网| 国产成人在线无码免费视频| 永久成人无码激情视频免费| 国产SUV精品一区二区6| 欧美日韩福利| 91精品专区| 亚洲人成在线精品| 免费在线不卡视频| 日本精品视频| 中文字幕久久亚洲一区| 三区在线视频| 免费毛片视频| 最新国产你懂的在线网址| a亚洲视频| 欧美一区福利| 无码中文字幕精品推荐| 国产91色| 亚洲午夜福利精品无码不卡| 538国产视频| 国产91在线|日本| 成人永久免费A∨一级在线播放| 色噜噜久久| 71pao成人国产永久免费视频| 久久免费观看视频| 日韩成人免费网站| 国产精品亚洲欧美日韩久久| 日本免费高清一区| 真人高潮娇喘嗯啊在线观看 | 国产一区二区色淫影院| 香蕉国产精品视频| 日韩无码黄色| 国产小视频在线高清播放| 国产精欧美一区二区三区| 国产午夜看片| 熟妇丰满人妻| 欧美日韩高清| 亚洲日韩精品伊甸| 在线另类稀缺国产呦| 成人免费一级片| 成人在线亚洲| 免费AV在线播放观看18禁强制| www.国产福利| 粗大猛烈进出高潮视频无码| 天天色天天综合|