宋成舉 張亞平 吳 彪
(黑龍江工程學院汽車與交通工程學院1) 哈爾濱 150050)(哈爾濱工業大學交通科學與工程學院2) 哈爾濱 150090)
出租車管理三方博弈與管理策略仿真*
宋成舉1)張亞平2)吳 彪1)
(黑龍江工程學院汽車與交通工程學院1)哈爾濱 150050)(哈爾濱工業大學交通科學與工程學院2)哈爾濱 150090)
出租車管理由于存在多個主體,主體之間的復雜關系使得出租車管理問題及內部運行機制尚不明確.綜合考慮出租車、出租車公司和管理部門之間的博弈關系,給出博弈參與者策略集,分析不同策略組合下各參與者的收益函數,建立不同策略組合條件下的收益矩陣,采用復制動態方程描述博弈參與者策略變化,應用系統動力學軟件構建管理策略仿真環境,仿真分析不同策略條件下博弈參與者策略變化曲線.結果表明,純策略、混合策略及各種經濟學策略條件下,系統均能達到穩定態,但波動過程呈現開放性.因此,單一策略無法令系統收斂.
出租車管理;博弈;系統動力學;管理策略;穩定態
出租車作為城市惟一的個性化公共交通方式,以其特有的靈活性、機動性、時間性,獲得居民出行的廣泛青睞.隨著居民出行要求的不斷提高和出行需求的持續增長,出租車管理中存在的問題日益凸顯,特別是在冬季的北方城市更為突出.出租車違規運營、出租車公司監管不到位、管理部門執法能力不足等問題都暴露出來,這使得出租車管理問題逐漸成為一個突出的交通問題.目前,我國出租車以“公司制”模式運營,即出租車接受出租車公司的日常管理,同時,出租車公司和出租車接受政府部門的監管.而作為商業化色彩濃重的出租車個體和出租車公司均具有逐利的本能,其從事出租運營服務行為的最終目的是實現利益的最大化,但受制于管理部門的監管,其具體行為仍受到管理約束.
圍繞出租車管理問題國內外學者開展了較多的理論研究與實踐,Viegas[1]分析了出租車在城市出行服務方面的機遇和挑戰,應用博弈理論剖析出租車新技術與監管水平之間的博弈關系,促進二者的協同聯系,進而提高出租車服務效率;Rosa等[2]應用遺傳算法解決了出租車在機場的管理問題,通過仿真模擬,應用圣保羅機場的數據證明了該方法的有效性;Bai等[3]應用博弈理論解決了出租車調度問題,通過計算納什均衡實現乘客和出租車之間的合作共贏; Li等[4]應用非合作博弈理論分析車道路選擇問題,并找出了納什均衡,采用SUMO,MOVE和TraCI的模擬方法驗證模型有效性;孫啟鵬等[5]運用博弈理論解析出租車公司與司機的動態博弈過程,明確各博弈路徑的收益函數和各主體的博弈均衡條件,通過求解最優子博弈納什均衡,給出管理費合理范圍的測算方法;袁長偉等[6]構建了神經元S特性函數形式的出租車拒載函數,引入出租車市場規模、等候時間、價格等市場參數,討論存在拒載行為的出租車市場供需平衡機制,并構建考慮拒載的以社會福利最大化為目標的出租車市場優化模型;莊立堅等[7]依托大規模浮動車數據的分析和預處理,提出面向出租車運營管理的大規模浮動車數據處理框架,構建基于浮動車數據的出租車運營管理指標體系及其計算模型.
當前的研究主要集中在出租車調度優化、路徑優化等方面,在出租車監管博弈分析與仿真方面有待深入開展研究.本文應用博弈論分析出租車管理中的博弈關系,采用系統動力學理論仿真分析出租車管理策略的實施效果.
在出租車運營與管理中,存在出租車、出租車公司和管理部門三個參與主體,在該三方博弈過程中,出租車作為交通服務的提供方,負責出租車的實際運營;管理部門作為出租車和出租車公司共同的管理方,負責對所轄的出租車和出租車公司實施監督與管理;出租車公司作為出租車的管理方和管理部門的被管理方,負責出租車的管理,并接受管理部門的監督.
假定博弈行為的三個參與主體均為有限理性的.假定管理部門以概率α(0≤α≤1)對出租車的運營狀況進行檢查,α值越高表示管理部門的檢查力度越強,出租車被檢查的頻率越高,反之則檢查能力越差.假定管理部門能夠嚴格執法,在執法過程中不存在權力尋租的情況,管理部門的檢查活動需要支付一定的成本,該成本包括:平均每次檢查的成本C1,如果出租車違規運營,管理部門將承受相關的期望損失C2;如果管理部門通過檢查發現出租車的違規運營問題,將對該出租車處以相應的罰款,罰款收益為C3,發現出租車公司存在不嚴格管理,對所在的出租車公司進行罰款,罰款收益為C4,檢查未發現違規運營和不嚴格管理行為時,則對出租車及所在出租車公司進行一定的獎勵,出租車的獎勵收益為C5,出租車公司的獎勵收益為C6.
出租車則以概率β(0≤β≤1)采取拒載、套牌車等違規運營策略,β值為出租車的違規行為的嚴重程度.假定出租車按管理規定運營時,其所獲得的正常收益為B1,而當采取違規策略時,其所獲得的額外收益為B2.
出租車公司以概率γ(0≤γ≤1)對出租車的日常運營進行監督與管理,γ值為出租車公司的管理強度,γ值越大表示出租車公司的管理越嚴格,出租車公司按照管理規定所獲得的正常收益為P1,但當管理強度下降時,出租車公司將承擔一定的機會成本P2,不嚴格管理時,出租車公司可節約管理成本P3,出租車公司通過嚴格管理,發現出租車存在違規行為,對出租車的懲罰收益為P4,當發現出租車不存在違規行為,對出租車的獎勵為P5.
根據上述分析,該博弈過程的參與人集合可表示為:i∈Ω,i={1,2,3}.其中:i=1代表管理部門;i=2代表出租車;i=3代表出租車公司.
每個博弈的參與者所對應的策略空間可表示為:Si,i={1,2,3};其中管理部門的策略空間為S1= {S11,S12}={檢查,不檢查},出租車的策略空間為S2= {S21,S22}={違規運營,遵規運營};出租車公司的策略空間為S3= {S31,S32}= {嚴格管理,不嚴格管理},每個參與者所對應的收益函數記為ui,i={1,2,3}.
當管理部門采取檢查策略,出租車采取違規運營,出租車公司采取嚴格管理時,管理部門收益函數可以表示為
u1{S11,S21,S31}=-C1+C3-C6
(1)
而對于出租車而言,其收益函數可以表示為
u2{S11,S21,S31}=B1+B2-C3-P4
(2)
對于出租車公司而言,其收益函數可以表示為
u3{S11,S21,S31}=P1+C6+P4
(3)
同理,根據上述假設,給出管理部門、出租車和出租車公司三者之間的收益矩陣見表1.

表1 三方博弈收益矩陣
將管理部門選擇檢查的期望收益記為Uα,選擇不檢查的期望收益為U1-α;出租車選擇遵規運營的期望收益為Uβ,選擇違規運營的期望收益為U1-β;出租車公司選擇嚴格管理的期望收益為Uγ,選擇不嚴格管理的期望收益為U1-γ.
根據期望計算公式,將管理部門的收益函數代入后整理可得
Uα=β(C5+C3)-γ(C6+C4)+
(-C1+C4-C5)U1-α=-βC2
(4)
則管理部門的平均期望收益可表示為
U1=αUα+(1-α)U1-α
(5)
將公式代入后整理得
U1=αβ(C5+C3+C2)-αγ(C6+C4) +
α(-C1+C4-C5)-βC2
(6)
在演化博弈中指出:在博弈過程中,某一參與者所采取的策略概率的變化率與兩個因素有關:一個是上一時刻的策略比例,另一個是純策略收益與平均期望收益之間的差值.用公式可以表達為

α(1-α)(β(C5+C3+C2)-
γ(C6+C4)+(-C1+C4-C5))
(7)
式(7)為管理部門的策略概率變化率.同理,出租車及出租車公司的策略概率變化率可表示為
Uβ=B1+B2-αC3-γP4
(8)
U1-β=B1+αC5+γP5
(9)
U2=B1+γP5+αC5+βB2-
αβC3-βγP4-βγP5-αβC5
(10)

β(1-β)(B2-αC3-γP4-αC5-γP5)
(11)

γ(1-γ)(α(C6+P2+C4)+
β(P4+P5)-P3-P5)
(12)
(13)
式中:X1~X8為鞍點;X9~X15為中心點.所以,該三方博弈中不存在穩定的演化均衡.
針對出租車管理問題,應用系統動力學仿真軟件Vensim PLE構建涵蓋管理部門、出租車公司和出租車三者的演化博弈模型,模型中分為三個模塊,包括三個水準變量、三個速率變量、13個外部變量、30個中間變量.
假設INITIAL TIME=0,FINAL TIME=1 000,TIME STEP=0.5.模型中涉及到的主要方程如下:
檢查=INTEG(檢查變化率)
違規=INTEG(違規變化率)
嚴格=INTEG(嚴格變化率)將變量值帶入表1,應用劃線法選擇純策略下的納什均衡,計算結果見表2.由表2可知,沒有一個純策略能夠保證所有參與者收益均有短線,即該博弈問題不存在純策略納什均衡.

表2 三方博弈收益矩陣計算值
3.1 純策略仿真
假定在博弈過程中,每個博弈參與者的策略初始值均為純策略,而各博弈參與者由于均具有0,1兩種選擇,因此,其對應的策略組合為23=8個,根據模型求解的特性可知,此時所形成的策略組合分別對應于X1~X8中的一項,通過上述的方程求解可以看出:在三方博弈過程中,當初始策略均為純策略時,所有參與者的策略變化方程取值為0,即沒有任何一方改變自身的純策略.但在實際中,上述組合卻并往往不是最優的,以X1=(0 0 0)T為例,在模型中,該組合表示:管理部門不檢查,出租車不違規,出租車公司不管理.在該條件下所形成的穩定可以看作是在整個博弈關系群體中沒有任何個體采取新策略,以出租車群體為例,表示在出租車群體中不存在任何個體改變自身策略的情況,因此,該博弈顯然屬于一種典型均衡的狀態,但可以預見,該均衡狀態是極其不穩定的,一旦在出租車或其他博弈參與者群體中某一參與者通過改變自身策略而獲取更大的收益時,該均衡態必將迅速打破.
為了證明該分析結論,仍以X1=(0 0 0)T為例,當管理部門與出租車公司的初始策略概率不變,而出租車開始僅以0.01的微小初值進行違規時,其三方博弈的演化過程見圖1.

圖1 出租車策略突變條件下三方策略演化
由圖1可知,盡管出租車初始策略變化很小,僅為0.01,但由于這種變化會使得出租車個體獲取較高的收益.因此,迅速成為出租車群體模仿和學習的對象,使得采取新策略成為群體的共識,因此,最終的系統穩定狀態由X1=(0 0 0)T演化為X3=(0 1 0)T.
3.2 混合策略仿真
當博弈參與者的初始策略為復制動態方程中的臨界點X9~X15時,即三方的初始策略為混合策略時,其博弈演化情況與初始策略為純策略的情況類似,三方受益均未隨著時間變化而產生波動,因此,其演化結果為均衡狀態,為了進一步分析出租車管理中三方博弈的均衡問題,利用前文所建立的動態博弈模型,通過仿真可以得到管理部門、出租車和出租車公司以初始策略(0.2,0.4,0.7)條件下的策略變化曲線,見圖2.

圖2 博弈三方策略變化曲線
圖2中的曲線分別表示管理部門、出租車和出租車企業選擇檢查、違規和嚴格策略的概率變化,從仿真結果中可以看出,在當前初始條件下,管理部門檢查策略、出租車違規策略和出租車公司的嚴格管理策略的變化均呈現波動放大的趨勢,波動幅度逐漸增大,波動頻率也逐漸增大,直至達到穩定狀態.
4.1 加大懲罰力度
在原有模型仿真環境下,假設第10 d開始加大對出租車違規以及出租車公司不嚴格管理的懲罰力度,即將對出租車違規運營的罰款收益值由5變為8,同時對出租車公司的不嚴格管理的罰款收益值由2變為5,通過仿真得到博弈參與者策略變化曲線見圖3.

圖3 加大懲罰力度條件下三方策略演變曲線
圖3中曲線分別代表管理部門、出租車和出租車公司選擇檢查策略、違規策略和嚴格管理策略的概率變化曲線,從仿真結果中可以看出,當在第10 d提高對出租車違規行為的懲罰力度后,出租車的違規運營概率均值并沒有增加,而是呈現了一定程度的下降;但對于管理部門和出租車公司來說,懲罰力度的加大對各自策略的選擇幾乎沒有影響.
4.2 改變檢查成本
在原有仿真環境下,假設檢查成本由0.5變為2,通過仿真得到管理部門和出租車違規運營的策略變化曲線見圖4.

圖4 不同檢查成本條件下策略變化曲線
圖4a)中的兩條曲線分別表示管理部門在低檢查成本和高檢查成本條件下采取檢查策略的概率變化曲線.從仿真結果中可以看出,隨著管理成本的增加,管理部門的檢查概率的幅值明顯降低,且波動頻率明顯增加,說明高檢查成本制約了管理部門檢查的積極性,使得管理策略的波動頻率呈現上升趨勢.圖4b)中的兩條曲線分別表示出租車在低檢查成本和高檢查成本條件下采取違規運營策略的概率變化曲線.從仿真結果中可以看出,隨著檢查成本的增加,出租車違規運營呈現一定的上升趨勢,且波動頻率明顯上升,這主要與管理部門的檢查強度有關,由于管理部門受制于檢查成本而降低檢查強度,出租車在違規收益的吸引下,更傾向于選擇違規運營策略.
4.3 提高獎勵額度
將對出租車遵規運營的獎勵額度由0.5變為2,對出租車公司嚴格管理的獎勵額度由3變為5,通過仿真得到管理部門檢查和出租車違規運營的策略變化曲線見圖5.

圖5 不同獎勵額度條件下策略變化曲線
由圖5a)可知,高獎勵額度使得管理部門選擇檢查策略的概率明顯降低,但該博弈的波動頻率增大.由圖5b)可知,高獎勵額度不但沒有使出租車的違規運營概率降低,反而有了一定程度的增加,波動進一步加劇.
1) 出租車管理過程中存在多個參與主體,主體之間存在明顯的博弈關系.
2) 純策略條件下,系統能夠保持穩定,且系統具有自學習功能,在收到微小擾動的情況下,系統可以通過學習而迅速恢復到穩態.
3) 混合策略條件下,系統波動呈現放大趨勢,直至穩定態.
4) 懲罰力度、檢查成本和獎勵額度的變化對于提高博弈參與者策略穩定性效果不明顯.
[1] VIEGAS J M. Taxis: bridging the gap between individual and collective transport[J]. Public Transport International,2008,57(2):118-125.
[2] ROSA L P, FERREIRA D M, CRUCIOL L L B V, et al. Genetic algorithms for management of taxi scheduling[C]. Proceedings on the International Conference on Artificial Intelligence (ICAI),The Steering Committee of The World Congress in Computer Science, Computer Engineering and Applied Computing, Las Vegas,2013.
[3] BAI R, LI J, ATKIN J A D, et al. A novel approach to independent taxi scheduling problem based on stable matching[J]. Journal of the Operational Research Society,2014,65(10):1501-1510.
[4] LI J P, HORNG G J, CHEN Y J, et al. Using non-cooperative game theory for taxi-sharing recommendation systems[J]. Wireless Personal Communications,2016,88(4):761-786.
[5] 孫啟鵬,張兆芬,鄒海波,等.利益博弈下的城市出租車管理費測算[J].交通運輸系統工程與信息,2014,14(5):87-92.
[6] 袁長偉,吳群琪,韋達利,等.考慮拒載的出租車市場平衡機制與優化模型[J].中國公路學報,2014,27(6):91-97.
[7] 莊立堅,韋清波,何兆成,等.基于浮動車數據的出租車運營管理特性建模與分析[J].重慶交通大學學報(自然科學版),2014,33(4):122-127.
Tripartite Game on Taxi Management and Strategy Simulation
SONGChengju1)ZHANGYaping2)WUBiao1)
(SchoolofAutomotiveandTransportationEngineering,HeilongjiangInstituteofTechnology,Harbin150050,China)1)(SchoolofTransportationScienceandEngineering,HarbinInstituteofTechnology,Harbin150090,China)2)
Because of the multiple subjects in taxi management, the complicated relationship between different subjects makes the taxi management and the inner mechanism not clear. Considering the game relationship among taxi, taxi company and management department, this paper presents the participants’ strategy set. The income function of each participant is analyzed lin different strategies, and the income matrix under different strategies combination is established. By adopting the duplicated dynamic equation to describe the strategy change and appling system dynamic software on establishing the management strategy simulation environment, the strategy change curves are simulated and analyzed in different strategy conditions. The results show that the system can achieve steady state under pure strategy, mixed strategy and various economic strategies, but the fluctuation process is open. Therefore, a single strategy can not make the system convergent.
taxi management; tripartite game; system dynamics; management strategy; steady state
U116.1
10.3963/j.issn.2095-3844.2017.05.005
2017-08-06
宋成舉(1983—):男,博士,講師,主要研究領域為交通管理策略仿真、交通結構優化
*黑龍江省青年科學基金項目資助(QC2014C060)