誘導信息條件下車輛路徑選擇——基于有限理性模糊博弈
周代平, 李康奇, 賀琳
( 重慶交通大學 交通運輸學院,重慶 400074)

摘要:誘導信息屬于建議性信息,當誘導信息發布以后駕駛員并不一定接受誘導信息;在行為強化理論基礎上,建立了基于有限理性模糊博弈的誘導信息條件下車輛路徑選擇模型,并通過仿真得出了不同初始狀態下的博弈平衡結果;仿真結果表明:誘導信息的發布并不一定能改善路網交通流分布,它與路網總流量以及初始接受誘導的車輛比例密切相關.
關鍵詞:模糊博弈;有限理性;交通誘導;自學習機制
doi:10.16055/j.issn.1672-058X.2015.0012.007
收稿日期:2015-06-10;修回日期:2015-08-07.
作者簡介:周代平(1990-),男,湖南人,碩士,從事交通運輸規劃研究.E-mail: zhoudaiping2015@sina.com.
中圖分類號:U491.23文獻標志碼:A
交通誘導是智能交通(ITS)的一部分,它的主要作用是將路況實時信息反饋給駕駛員,以便駕駛員選擇合理的出行路徑.Roth and Erev[1],Erev[2]認為出行者進行路徑選擇同時也是在不斷地實踐,通過多次不同的選擇,出行者會總結出幾次選擇的路徑中最佳的路徑,并將其作為自己今后選擇路徑的依據,所以路徑的選擇也是一個由學習過程轉化成自身經驗的過程.在交通領域逐漸發展的過程中,博弈論的應用越來越廣泛.Michael G.H. Bell(2000)[3]將博弈論運用到為了選擇最佳行駛路徑使自己花費最小的出行者個體和為了使整個路網的收益最大的破壞者之間,建立非合作博弈模型,在保證路網安全性下,得到了Nash 混合策略均衡解;李振龍[4]采用演化博弈建立了駕駛員在誘導信息下的路徑選擇模型;魯叢林[5]討論了在誘導信息條件下駕駛員的反應行為博弈模型,黃海軍[6]、秦進[7]等通過解析的方法對誘導信息的有效性進行了評價;劉建美[8-10]提出了駕駛員在有限理性的條件下車輛的路徑選擇博弈模型.但是,由于駕駛員本身的局限性,在有限理性的前提下,駕駛員的選擇往往是根據自身上一次選擇所獲取的利益來決定自己下一次的選擇,即自學習機制.在行為強化理論[11]的基礎上,以模糊數學和博弈論為工具,討論了誘導信息條件下車輛的路徑選擇模型,分析給出了博弈平衡結果,以期為交通誘導提供理論依據.
1模型建立
1.1模型基本假設
出行時間的長短是影響路徑選擇最重要的標準[12],美國聯邦總局(BPR)提出路段行程時間函數[13]:
(1)
其中:T表示自由行駛時(交通量為零)的路段行程時間,c為路段通行能力,q為路段實際交通量,α,γ為參數,一般取α=0.15,γ=4.
以駕駛員的實際行駛時間作為駕駛員選擇某條路徑所獲得的收益.考慮如圖1所示的簡單路網,A到B地有L1,L2兩條路徑,L1,L2的道路通行能力分別為C1,C2,表示駕駛員第k次通過L1,L2的實際交通量,t1,k,t2,k為車輛第k次通過L1,L2到達B點的實際通行時間,t0為駕駛員從A地開往B地的期望時間.

圖1 路網示意圖
1.2滿意度隸屬函數
滿意度是指駕駛員對從A地開往B地所花實際時間的滿意程度,它是個模糊的概念.取論域U=(0,+∞),u∈U,模糊集A1,A2,A3分別表示“滿意”、“一般”、“差”,則它們的隸屬函數分別為[14]
(2)
(3)
(4)
若Max(A1(t),A2(t),A3(t)),A=A1(t),則t∈A1,駕駛員對實際駕駛時間t感覺“滿意”,若Max(A1(t),A2(t),A3(t))=A2(t),則t∈A2,駕駛員對實際駕駛時間t感覺“一般”,若Max(A1(t),A2(t),A3(t)),A=A3(t),則t∈A3,駕駛員對實際駕駛時間t感覺“差”.
1.3模型建立
Skinner的“操作條件反射”理論認為,人或動物為了達到某種目的,會采取一定的行為作用于環境,當這種行為的后果對他有利時,這種行為就會在以后重復出現;不利時,這種行為就減弱或消失.人們可以用這種正強化或負強化的辦法來影響行為的后果,從而修正其行為[15].在行為強化理論的自學習機制下,駕駛員的第k+1次是否接受誘導取決于駕駛員的第k次接受(或不接受)誘導所獲得的收益;當駕駛員對第k次接受(不接受)誘導所獲得的收益t0為滿意時,則第k+1次繼續選擇接受(不接受)誘導,當駕駛員對第k次接受(不接受)誘導所獲得的收益t0滿意度為差時,則第k+1次選擇不接受(接受)誘導,當駕駛員第k次接受(不接受)誘導所獲得的收益t0滿意度為一般時,則駕駛員第k+1次將會有ξ概率選擇不接受(接受)誘導.設每次參與博弈的車輛總數一定,即qy,k+qn,k=Q,Q為參與博弈的車輛總數.根據駕駛員路徑選擇的實際情況,可將駕駛員分為兩大類qy(接受誘導的車輛)和qn(不接受誘導的車輛),設qy,k為第k次接受誘導的車輛總數,qn,k為第k次不接受誘導的車輛總數,k=1,2,3,…,則此博弈模型的戰略式表達如下:
1) 局中人:
2) 局中人的策略集:
3) 局中人的收益函數:
2模型求解算法
Step 0:h=h+1,v=1,m=0.1,給C1,C2(C1>C2),T,ξ賦值(定值);
Step 1:初始化,給出模型的初始狀態,Q=q0,qy,1=m*Q,qn,1=Q-qy,1,fabu(1)=g,(fabu(i)=g表示第i次誘導信息建議車輛走路徑Lg,g=1,2,m表示初始接受誘導的車輛比例);
Step 2:若fabu(i)=1,則q1,i=qy,i,q2,i=qn,i,若fabu(i)=2,則q1,i=qn,i,q2,i=qy,i;
Step 3:根據時間行程函數(式1)求得選擇路徑L1,L2的通過時間t1,i,t2,i;
Step 4:根據隸屬度函數,求得t1,i,t2,i的時間感受隸屬度,判斷駕駛員對第i次選擇收益的滿意度;
Step 5:由第i次的收益滿意度確定第i+1次的選擇是否接受誘導;
Step 6:比較qy,i+1和qn,i+1的大小,若qy,i+1>=qn,i+1,則fabu(i+1)=1;若qy,i+1 Step7:根據fabu(i+1)的值確定q1,i+1,q2,i+1;若fabu(i+1)=1,則q1,i+1=qy,i+1、q2,i+1=qn,i+1;若fabu(i+1)=2,則q1,i+1=qn,i+1、q2,i+1=qy,i+1; Step 8:i=i+1,若i<100,轉Step 2;否則轉Step 9; Step9:若m<1 ,Z(h,v)=q1,100,m=m+0.1,v=v+1轉Step 1,否則轉Step 10; Step10:q0=q0+Δq,若q0<3*(C1+C2),轉Step 0,否則結束. 3具體算例 算例中,C1=1500,C2=1000,T=30,ξ=0.333[16],q0=1000,Δq=500;仿真結果如圖2所示。仿真結果表明:在誘導信息條件下,不同的路網車流總量經過若干次博弈后都會達到穩定平衡;即若干次博弈后,路徑L1,L2上的量都呈現穩定狀態;路網車流總流量越接近路網總通行能力,初始接受誘導的車輛比例m對博弈平衡結果影響越顯著;參與博弈車輛數遠大于路網總通行能力時,通行能力較大的路徑(L1)更為擁堵;在路網總流量一定時,存在一個初始接受誘導的車輛比例m使得路網交通流分配達到最佳. 圖2 仿真結果 4結語 在考慮駕駛員的有限理性的前提下,以行為強化理論為基礎,建立了基于自學習機制的誘導信息條件下的車輛路徑選擇模型,并給出了算法和具體算例.仿真結果表明:誘導信息的發布并不一定能改善路網交通流分布,它與路網總流量以及初始接受誘導的車輛比例密切相關. 參考文獻: [1] ROTH A E,EREV I.Learning in Extensive-form Games:Experimental Data and Simple Dynamic Models in Intermediate Term[J].Nobel Symposium.Games and Economic Behavior,1995(8):164-212 [2] EREV I,BEREBY,ROTH A.The Effect of Adding a Constant to Allpayoffs:Experimental Investigation and Implications for Reinforcement Learning Models[J].Journal of Economic Behavior and Organization,1999,39:111-128 [3] BELL M G.A Game Theory Approach to Measuring the Performance Reliability of Transport Networks[J].Transportation Research Part B,2000,34(6):533-545 [4] 李振龍.誘導條件下駕駛員路徑選擇行為的演化博弈分析[J].交通運輸系統工程與信息,2003,3(2):23-27 [5] 魯叢林.誘導條件下的駕駛員反應行為的博弈模型[J].交通運輸系統工程與信息,2005,5(1):58-61 [6] 黃海軍,吳文洋.交通信息對交通行為影響的評價模型[J].系統工程理論與實踐,2002,22(10):81-83 [7] 秦進,黎新華.交通信息的有效性研究[J].公路交通科技,2005,22(2):104-107 [8] 劉建美,馬壽峰.基于有限理性的個體出行路徑選擇進化博弈分析[J].控制與決策,2009,24(10):1450-1454 [9] LIU J M,MA S F.A Dimension-reduced Method of Sensitivity Analysis for Stochastic User Equilibrium Assignment Model[J].Applied Mathematical Modelling,2010(34):325-333 [10] LIU J M,MA S F.Algorithms of Game Models on Individual Travel Behavior[C]∥The 8th International IEEE Conference of Chinese logistics and transportation professionals,Chengdu,China,2008 [11] SKINNER.The Behavior of Organisms An Experimental Analysis[M].New Yoro Appleton Century Company,1938:110-150 [12] OUTRAM V.E,THOMPSON.Driver Route Choice[C].Proceedings-PTRC Annual Meeting,London,1977 [13] 楊佩坤,錢林波.交通分配中路段行程時間函數研究[J].同濟大學學報:自然科學版,1994,22(1):41-44 [14] 楊綸標,高英儀,凌衛新.模糊數學原理及應用[M].廣州:華南理工大學出版社,2011 [15] SKINNER B F.The Behavior of Organisms:An Experimental Analysis[M].New York:Appleton-Century Company,1938 [16] 周元峰.基于信息的駕駛員路徑選擇行為及動態誘導模型研究[D].北京:北京交通大學,2007 Research on the Model of Vehicle Routing Choice Based on the Condition ofthe Bounded Rationality Fuzzy Game with Inducing Information ZHOU Dai-ping, LI Kang-qi, HE Lin (School of Transportation and Traffic,Chongqing Jiaotong University,Chongqing 400074,china) Abstract:The inducing information belongs to recommended information,so drivers do not necessarily accept the induction after the inducing information released.This paper,based on the theory of reinforcement ,establishes the model of vehicle routing choice based on the condition of fuzzy game with inducing information and obtains the result of balance of the game under the different initial state through simulation.The simulation results show that the release of the induction information does not necessarily improve the road network traffic flow distribution,which is closely related to the proportion of the total flow of the road network and the initial acceptance of the induction vehicles. Key words: fuzzy game; bounded rationality; traffic induction; self-learning mechanism