羅 佳,周代平,賀 琳
(重慶交通大學交通運輸學院,重慶 400074)
?

基于累積自學習機制的誘導信息條件下駕駛員路徑選擇
羅佳,周代平,賀琳
(重慶交通大學交通運輸學院,重慶400074)
摘要:將駕駛員視為有限理性,并以駕駛員的行程時間感受作為決策收益,建立基于累積自學習機制的誘導信息條件下的駕駛員路徑選擇模型。通過仿真驗證得出不同初始狀態下的模型博弈平衡結果。仿真結果表明:誘導信息的發布并不是一直有效的,它與路網的車流總量以及初始流量的分配密切相關。
關鍵詞:誘導信息;累積自學習機制;駕駛員路徑選擇
博弈論中復雜的邏輯分析,使其在交通領域得到廣泛的應用。文獻[1]建立靜態博弈模型,研究誘導信息的出行者選擇路徑的可能;文獻[2]運用博弈論的概念與方法,剖析駕駛員對誘導信息的反應行為,最終得到建議性誘導信息能夠有效地改善博弈的結果;文獻[3]針對誘導系統提供無誘導信息、完全誘導信息、描述型誘導信息和建議型誘導信息4種情況的駕駛員反應行為建立博弈論模型。以上研究都將駕駛員視為完全理性,與實際情況略有差異。由于誘導信息是建議性信息,因此當發布誘導信息時,駕駛員可以選擇接受和不接受誘導信息,并且駕駛員在做出路徑選擇策略時會受到其他駕駛員決策的影響,駕駛員之間彼此存在博弈的關系。
本文將駕駛員視為有限理性,分析討論誘導信息條件下基于累積自學習機制的駕駛員路徑選擇問題。
1自學習機制
雖然駕駛員在出行前追求的是自身利益的最大化,但是在做出路徑選擇時駕駛員之間存在博弈關系,因此有必要將博弈思想引入駕駛員出行路徑選擇的問題中[4]。交通出行是一項復雜的社會活動,受駕駛員自身的局限性限制(如信息了解不全面、判斷不準確等),駕駛員在作出決策時并不是完全理性的,故應將駕駛員看作是有限理性的決策者。另一方面,駕駛員每次出行對應的交通狀況不是固定不變的,駕駛員要在一次次的出行中學習和調整策略,故應將出行過程看作是一個學習過程來討論。因此,駕駛員的出行路徑選擇過程就是一個有限理性博弈過程。
最優反應動態模型[5]、復制者動態模型[6]和虛擬行動模型[7]是有限理性博弈中經典的三大學習模型。以上3種模型都要求局中人對其他博弈方的決策策略有一定的了解,然而在駕駛員的實際出行選擇中,駕駛員很難了解到其他大部分出行者的路徑選擇策略,駕駛員出行路徑的選擇更多的決定于自身的近期經驗[8]。
在出行之前駕駛員對行程時間有一個模糊預期。若駕駛員在第k次選擇的路徑行程時間能達到模糊預期,即駕駛員對第k次決策的收益感到滿意,則第k+1次將會繼續選擇該路徑;若駕駛員在第k次選擇的路徑行程時間未能達到模糊預期,則第k+1次就有可能改變決策,選擇其他路徑。在此機制下,博弈的演化過程中局中人是一種“自我學習”,即自學習機制。
2誘導信息條件下的累積自學習機制
2.1滿意度隸屬函數
出行時間的長短是影響路徑選擇最重要的標準[9],最常見的路段行程時間函數是美國聯邦公路局函數(BPR函數)[10],其表達式為:

式中:t為駕駛員實際駕駛時間;T為自由行駛時(交通量為0)的路段行程時間;c為路段通行能力;q為路段實際交通量,?、r為路段行程時間函數參數,一般取?=0.15,r=4。
滿意度是指駕駛員對從A地開往B地所花實際時間的滿意程度,它是個模糊的概念。本文將駕駛員的行程時間感受作為駕駛員的路徑選擇收益,并將其時間感受劃分成3個模糊集A1、A2、A3,運用模糊集的隸屬度函數[11],其中取論域U=(0,+∞),將A1、A2、A3分別表示為“滿意”、“一般”、“差”。
根據模糊集A1、A2、A3的隸屬函數A1(t)、A2(t)、A3(t)[11]的計算結果,若max(A1(t),A2(t),A3(t))=A1(t),則t∈A1,駕駛員對實際駕駛時間t感覺“滿意”;若max(A1(t),A2(t),A3(t))=A2(t),則t∈A2,駕駛員對t感覺“一般”;若max(A1(t),A2(t),A3(t))=A3(t),則t∈A3,駕駛員對t感覺“差”。建立路徑L1和L2的時間感受收益函數E1(t1)、E2(t2),令
式中t1、t2分別為車輛在路徑L1和L2上的實際行駛時間。
2.2累積自學習機制
誘導信息條件下的累積自學習機制是指在有限理性自學習機制下,第p位駕駛員第k+1次的車輛路徑選擇策略(是否接受誘導)取決其前k次接受誘導的累積時間感受收益和不接受誘導的累積時間感受收益,數學表達式為:
式中:Yp為第p位駕駛員前i次路徑選擇中,選擇接受誘導的累積時間感受收益;Np為第p位駕駛員前i次路徑選擇中,選擇不接受誘導的累積時間感受收益;Ypi為第p位駕駛員第i次路徑接受誘導的駕駛員時間感受收益;Npi為第p位駕駛員第i次路徑不接受誘導的駕駛員時間感受收益;Q為參與博弈的車輛總數(設每次參與博弈車輛總數不變,且每位駕駛員只能駕駛1輛車)。
若第p位駕駛員第i次接受誘導,則:Ypi=E1(t1),Npi=0。若第p位駕駛員第i次不接受誘導,則:Npi=E2(t2),Ypi=0。以choice(p,i)表示第p位駕駛員第i次的選擇,choice(p,i)=1表示第p位駕駛員第i次博弈接受誘導;choice(p,i)=0表示第p位駕駛員第i次博弈不接受誘導。
若發布信息建議路徑L1,有



圖1 路網示意圖
2.3模型基本假設
以駕駛員的實際行駛時間作為駕駛員選擇某條路徑所獲得的收益。考慮如圖1所示的路網,建立虛擬路徑:接受誘導路徑Ly和不接受誘導路徑Ln。將路徑Ly、Ln、L1和L2座位化處理,即:分別將各路徑劃分為具有Q個座位的方格化路徑。
設每次參與博弈的駕駛員總數等于Q,初始接受誘導的駕駛員比例為m,則初始接受誘導的車輛總數qy(i)=mQ,不接受誘導的車輛總數qn(i)=Q-qy(i)。將qy(i)位駕駛員隨機坐在路徑Ly上,將qn(i)位駕駛員坐在Ly空的位置所對應的Ln的座位上,并給每位駕駛員按照座位號標上從1~Q的號碼,且保持該號碼不變。若第p位駕駛員第i次選擇接受誘導,即choice(p,i)=1,則在路徑Ly上第p個座位為“有”,在路徑Ln上第p個座位為“空”,即:Ly(p)=1,Ln(p)=0;若第p位駕駛員第i次選擇不接受誘導,即choice(p,i)=0,則在路徑Ly上第p個座位為“空”,在路徑Ln上第p個座位為“有”,即:Ly(p)=0,Ln(p)=1;所以,若第i次發布信息建議駕駛員走路徑L1,則L1(p)=Ly(p),L2(p)=Ln(p);若第i次發布信息建議駕駛員走路徑L2,則L1(p)=Ln(p),L2(p)=Ly(p)。因此第i次路徑L1、L2上的交通量q1(i)、q2(i)的求解公式為:

2.4收益函數模型建立
在誘導信息累積自學習機制中,第p位駕駛員的第i+1次路徑選擇策略取決于其自身的累積時間感受收益Yp和Np。駕駛員通過對自身前i次接受與不接受誘導的經驗的累積與學習,判斷選擇出“有限理性的最優方案”,借以得出第i+1次是否接受誘導,即:若Yp>Np,則第i+1次駕駛員p選擇接受誘導(choice(p,i+1)=1);若Yp 式中:Gi為局中人;Sp為局中人所做的決定(即策略);Up為局中人收益函數。 3模型求解算法 1)初始化模型。給C1、C2(C1>C2)、T、ζ賦值(定值),其中C1、C2分別為路徑L1、L2的通行能力,T為自由流時從A到B地的行駛時間,ζ為當第p位駕駛員前k次路徑選擇中接受誘導的累積收益等于不接受誘導的累積收益時,駕駛員p第k+1次改變路徑選擇策略的概率。給m、Q賦初始值m=0.1,Q=1 000(m為路徑L1的初始分配比例,初始誘導信息的建議路徑為L1)。fabu(1)=1,座位化路徑Ln、Ly、L1、L2,確定初始接受誘導的駕駛員qy(1)=round(mQ),不接受誘導的駕駛員qn(1)=Q-qy(1),將qy(1)名駕駛員隨機坐到路徑Ly的座位上,將qn(1)名駕駛員坐到對應Ly上空位置的Ln的座位上。 Ln=zeros(1,q); Ly=zeros(1,q); %座位化虛擬路徑Ln、Ly L1=zeros(1,q);L2=zeros(1,q);%座位化路徑L1、L2 e=ones(1,q); qy(1)=round(mq);%確定初始接受誘導的駕駛員總數 qn(1)=q-qy(1); kk=randperm(q,qy(1)); forg=1:qy(1);%將接受誘導的車輛隨機坐到路徑Ly上 Ly(kk(g))=1; end Ly=e-Ly;%將不接受誘導的駕駛員坐在Ln上 forg=1:q ifLy(g)==1 choice(g,1)=1; else choice(g,1)=0; end end。 2)判斷第p位駕駛員第i次的路徑選擇策略choice(p,i)。若choice(p,i)=1,即:接受誘導,則Ly(p)=1,Ln(p)=0;若choice(p,i)=0,即第p位駕駛員不接受誘導,則Ln(p)=1,Ly(p)=0。 forp=1:q if choice(p,i)=1 Ly(p)=1; Ln(p)=0; else Ly(p)=0; Ln(p)=1; end end。 3)判斷第i次誘導信息發布的建議路徑。若fabu(i)=1,則L1=Ly,L2=Ln;若fabu(i)=2,則L2=Ly,L1=Ln;分別統計路徑L1,L2上的駕駛員數q1(i)和q2(i)。 if fabu(i)==1 L1=Ly; L2=Ln; else L1=Ln; L2=Ly; end q1(i)=sum(L1); q2(i)=sum(L2); %統計路徑L1、L2第i次博弈的流量(車輛數)。 4)計算路徑L1、L2上的駕駛員時間感受,并根據第i次的發布信息得出第p位駕駛員第i次的接受誘導信息的時間感受Ypi和不接受誘導信息的時間感受Npi。 5)累積駕駛員接受誘導信息的時間感受Ypi和不接受誘導信息的時間感受Npi。 Yp=Yp+Ypi;%累積駕駛員接受誘導的時間感受收益; Np=Np+Npi,%累積駕駛員不接受誘導的時間感受收益。 6)判斷Yp和Np大小,確定第p位駕駛員第i+1次的路徑選擇方案choie(p,i)。 7)根據choice(p,i+1)計算第i+1次接受誘導的駕駛員總數和不接受誘導的駕駛員總數,確定第i+1次發布的誘導信息fabu(i+1)。 8)判斷博弈次數是否>100。若i>100,則轉9),否則i=i+1,轉2)。 9)判斷初始接受誘導信息的駕駛員比例是否大于1。若m>1,則轉10),否則m=m+0.1,轉1)。 10)終止條件。若Q>3(C1+C2)則終止循環,否則Q=Q+Δq,轉1)。 4模型仿真 本算例中,C1=1 500,C2=1 000,T=30,ζ=0.333[12],Q=1 000,Δq=500。仿真結果如下:(本算例中,fabu(1)=1,即第1次誘導信息的建議路徑為L1)。第99次和第100次的博弈結果如圖2所示。 a)第99次博弈 b)第100次博弈圖2 誘導信息下累積自學習機制博弈結果 仿真結果表明:在累積自學習機制下,當參與博弈的車輛總數遠大于路網總通行能力時,初始接受誘導的駕駛員比例m對博弈平衡狀態無影響,其博弈結果均為峰谷平衡;當路網車輛總量接近路網總通行能力時,路網博弈平衡結果與初始接受誘導的駕駛員比例相關,其博弈結果會呈現穩定平衡或交替平衡;當路網車輛總量遠小于路網總通行能力時,初始接受誘導的駕駛員比例對路網博弈平衡結果無顯著影響,其博弈結果為穩定平衡。 因此,當路網車流總量小于或接近路網總通行能力時,若發布誘導信息,路徑L1、L2的擁擠度接近,對路網通行能力具有較高的利用率;當路網車流總量遠大于路網總通行能力時,若發布誘導信息,路網系統會形成峰谷平衡,路徑L1、L2的擁擠度出現“兩極化”現象,可發布誘導信息對路網總通行能力的利用率較低,可采取相應的交通管理措施,提高路網通行能力的利用率。 5結語 1)討論了基于累積自學習機制的有誘導信息車輛路徑選擇問題,建立以駕駛員累積時間感受為收益函數的博弈模型,并通過仿真得出模型的博弈平衡結果。 2)當路網車輛總量接近路網總通行能力時,發布誘導信息,路網的交通流分布也能達到穩定平衡,并且對路網通行能力具有較高的利用率;在路網總流量遠大于路網總通行能力或發生緊急交通事故及節假日時,發布誘導信息,路網交通流分布呈現峰谷平衡,不能有效利用整個路網系統,此時應采取相應的交通管理措施。 參考文獻: [1]董斌杰,李克平,廖明軍,等,誘導信息下基于博弈論的路徑選擇模型[J].北華大學學報(自然科學版),2007, 8(1):88-91. [2]李靜,范炳全.基于駕駛員反應行為的誘導博弈分析[J].上海理工大學學報,2003, 25(4): 398-400. [3]魯叢林.誘導條件下的駕駛員反應行為的博弈模型[J].交通運輸系統工程與信息,2005,5(1): 58-61. [4]劉建美.誘導條件下的路徑選擇行為及協調方法研究[D].天津:天津大學,2010. [5]謝識予.經濟博弈論[M]. 2版.上海:復旦大學出版社,2002. [6]王濟川,郭麗芳.抑制效益型團隊合作中“搭便車“現象研究——基于演化博弈的復制者動態模型[J].科技管理研究,2013,12(21):191-195. [7]劉建美,馬壽峰.交通誘導-出行信號博弈分析及其虛擬行動學習模型[J].武漢大學學報(工學版),2010,40(1):102-107. [8]EREV I,BEREBY-MEYER Y,ROTH A.The effect of adding a constant to all payoffs:experimental investigation and implications for reinforcement learning models[J].Journal of Economic Behavior and Organization,1999(39):111-128. [9]OUTRAM V E, THOMPSON E.Driver route choice Proceeding[C].London:PTRC Annual Meeting ,1977. [10]楊佩坤,錢林波.交通分配中路段行程時間函數研究[J].同濟大學學報(自然科學版),1994,22(1):41-44. [11]楊綸標,高英儀,凌衛新.模糊數學原理及應用[M].廣州:華南理工大學出版社,2011:1-67. [12]周元峰.基于信息的駕駛員路徑選擇行為及動態誘導模型研究[D].北京:北京交通大學,2007. (責任編輯:楊秀紅) Driver′s Route Choice with Help of Induced Information Based on Cumulative Self-Learning Mechanism LUOJia,ZHOUDaiping,HELin (SchoolofTraffic&Transportation,ChongqingJiaotongUniversity,Chongqing400074,China) Abstract:Regarding the driver as the bounded rationality and driver′s feelings of travel time as a decision benefits, a driver′s route choice model of the induced information based on the cumulative self-learning mechanism is established. The game balance results are verified by the simulation in the different initial states. The simulation results show that the induction information release is not always effective and it is closely related to the total network traffic flow and initial flow. Key words:induced information; cumulative self-learning mechanism; driver′s route choice 文章編號:1672-0032(2015)04-0034-06 中圖分類號:U471.3 文獻標志碼:A DOI:10.3969/j.issn.1672-0032.2015.04.008 作者簡介:羅佳(1993—),女,四川宜賓人,碩士研究生,主要研究方向為交通規劃. 收稿日期:2015-05-22
