劉根旺,周 穎,張 磊,康增信
河北工業大學 人工智能與數據科學學院,天津300130
在人員疏散的過程中,挑戰研究人員的最有趣的任務之一在于對人群沖突機制以及一些自組織效應[1]的探索,這些探索對人員疏散[2-3]具有重要意義。人員疏散研究大多都是基于微觀模型,如社會力模型、格子氣模型、元胞自動機模型等。這些模型在一定的程度上可以描述許多典型現象,例如拱型、快即是慢、車道形成等,并且這些現象確實發生在真正的緊急撤離過程中。人員疏散是一種由具有強烈相互作用的行人組成的多智能體復雜系統。為了盡快逃離危險,撤離人員會盡可能靠近離出口更近的地點。在這個過程中,當兩個或更多行人的下一個移動步驟選擇相同的地點時,不可避免地會發生沖突。很多研究者采用社會力模型來探究這種現象。社會力模型是基于牛頓力學的多粒子自驅動連續模型,非常適合模擬行人的復雜運動[1]。然而,由于計算效率,社會力模型僅適用于小規模的人員疏散。而離散模型(例如格子氣體模型和元胞自動機(CA)模型)由于其特殊特征而沒有規模限制,因此被廣泛應用于疏散動力學研究,如在CA 模型基礎上,文獻[4]研究了出口障礙物對撤離人員逃逸狀態的影響,文獻[5]確定了視野條件不佳時信息的準確性對疏散效率的重要性,文獻[6]發現了視覺半徑和行人密度對撤離者疏散的影響。而文獻[7]提出一種三角形的元胞自動機模型來模擬高密度人群的疏散過程。但這些模型均沒解決撤離者之間如果發生沖突進行爭搶目標地點時應該如何處理的問題。為了進一步了解這一行為,試著將博弈論用于人員疏散。事實上,博弈論被認為是在疏散過程中探索人群沖突的好工具[8-9],行人之間復雜的互動力可以通過收益矩陣反映出來,行人可能的行動可以通過相關的收益來確定[10-11]。
在上述工作的推動下,本文提出了一種結合博弈論[12]的元胞自動機模型[13]來模擬行人疏散過程。在提出的模型中考慮了兩個重要因素,即人員的慣性系數和恐慌指數,并且研究它們的變化對人員演化和疏散效率的影響。
元胞自動機(CA)模型常用于描述疏散動力學。CA 可以充分代表現實世界中任意復雜性的現象,并揭示復雜系統的演化。它是研究動力學和非平衡系統的一個非常有用的工具,并且被應用于許多科學領域[14]。在人員疏散領域,人的移動的轉移概率可表示如下:

其中,Sij和Dij是網格(i,j)中靜態場和動態場的值,動態場Dij表示行人留下的虛擬軌跡。每當行人離開網格(i,j)時,(i,j)中的Dij值增加1,動態場反映了人們的從眾心理。反過來,靜態場Sij的值不會隨著時間改變,其值反映了網格到門口的距離,取決于房間的幾何形狀。有幾種方法[15-16]來計算靜態場的值,如歐幾里德距離、曼哈頓距離、Dijkstra 距離等等。在本文中,靜態場Sij是通過歐幾里德方法計算的。如圖1 所模擬的房間的靜態場,出口單元的靜態場的值等于0,這是最小值,在沒有動態場的干擾下,人會有由靜態場的大值走向小值的意愿。nij是占用數字。如果網格(i,j)為空,則nij=0。如果網格(i,j)被撤離者占用,則nij=1。ξij是布爾值,它是為了防止行人進入障礙物。它在公式(2)中當網格(i,j)屬于障礙物時等于0,否則等于1。而kS作為噪聲反映了撤離者和出口的距離感,本文中kS是一個比較大的數,代表撤離者對于自己和門的距離有很準確的認識。

圖1 模擬房間的靜態場
在模擬中,使用并行更新規則。當兩個或多個行人打算在同一時刻移動到同一個網格時,就會產生沖突。當沖突發生時,撤離者將保持溫和或激進的態度。對此設置了兩種行人策略,如果有人保持謙虛且禮讓,他/她將選擇合作策略,他/她被稱為合作者(C)。如果有人保持攻擊性,他/她將選擇有缺陷的策略,那么他/她被稱為叛逃者(D),叛逃者不耐煩且有競爭力。行人到目標網格的移動概率由囚徒博弈和公式(3)給出,囚徒博弈非常適合描述沖突個體之間復雜的相互作用。其收益矩陣如表1所示,其中R=1,T=b,S=0,P=0,分別代表合作獎勵,誘惑,支付,懲罰。人在較為恐慌時,叛逃者此時會更激烈地競爭下一個目標地點,將更有可能進入下一個有利位置,從合作者身上獲取的收益會更高,因此定義b 為恐慌指數。

表1 囚徒博弈收益矩陣
在這個模型中,為了描述撤離者的運動,使用了具有馮諾依曼鄰域的CA模型,如圖2所示,撤離者下一步行動會有上下左右四個方向的選擇。

圖2 人的方向選擇
當有多位撤離者想進入同一網格時,這幾個人將陷入博弈,撤離者將以公式(3)確定的概率進入格子:

其中,Ui 是平均收益,指的是在此次博弈中的撤離者兩兩進行博弈以后的收益總和除以參與此次博弈的人數,α 是一個某次博弈中隨著D 數目變大而變大的數,再現了叛逃者比較多的情況下,由于競爭過于激烈,撤離者進入網格的幾率變低的情況。Φ 是此次沖突所有參加博弈的人。
當撤離者在一次博弈中失敗了,導致他不能進入快速離開房間的目標地點,這時他沒有從此次博弈中獲益,所以他會試著改變自己的策略。這里采用費米更新規則來更新撤離者的疏散策略:

其中,sx代表當前策略,sy代表相反策略,πx表示在此次博弈中的收益,πy表示在此次博弈中假如采取相反的策略會獲得的收益,τ 代表人的慣性。慣性代表人保持當前策略的能力,假如人是懶惰的不敏感的,那么收益的吸引力將會對他們降低,他們根據實際情況更新自己策略的能力也會變弱,在費米函數中引入慣性可以有效降低人更新策略的概率。在此模型中,如果撤離者在此次博弈中獲得了勝利,那么他將不改變當前策略。
因為費米更新規則非常符合人類的心理和行為特征,因此被廣泛應用于演化博弈論中。公式(4)的演化是基于自我反思的機制。對于某一次博弈完成后,C策略的收益較低,在博弈中獲勝的幾率不高,尤其是在恐慌比較大時,進入目標格子的可能性越發得小,所以策略C 對D 的吸引力不高,體現在費米更新規則中就是D→C的幾率不高,但在人員疏散的這個復雜情景中,高理智的人仍有可能出于自利性而選擇合作者策略,所以D→C 概率并不是完全為零;對于C→D 過程則相反,恐慌越大,D的收益越高,D策略對于C的吸引力越大,這個策略變化的可能性越大,在費米更新規則中概率也就越大。
在人員疏散的過程中,撤離者的異質性經常會被搭建模型的人所忽略。在以往的模型中,當有多名撤離者搶奪同一地點而發生沖突時,這類模型的處理是非常粗糙的,它會根據隨機概率選擇一位撤離者進入此地點,這樣顯然是不符合常理的。因此本文在充分考慮人員異質性情況下,把撤離者分成兩類,通過博弈論的方式確定勝利者,并且在人員疏散這個復雜的系統中,人會根據自己所處的情況不斷地更新策略,這樣也可以通過不停影響身邊的人進而影響到整個系統中的人,增強了整個系統中信息的傳播性。
本文使用Visual Studio 軟件搭建基于博弈論的人群疏散仿真模型,在模型中,使用帶有一個出口的房間,房間由方形格子描述,大小為25 m×25 m。出口位于右側墻壁,寬度為1 m。撤離者的總人數設定為500人,每0.5 s移動0.5 m。所有的人初始狀態在場館中都是隨機分布的。并且每個參數值的仿真做了100次,以減少偶然誤差。初始狀態的合作者人數設置為NC,叛逃者人數設置為ND。
圖3 是人員疏散過程的一些快照,從圖中可以看出,在人群中更加密集的地方,由于擁擠會產生更多的叛逃者,同時叛逃者會成塊出現,叛逃者“侵入”合作者的現象很明顯,這反應了合作者對于叛逃者在沖突博弈中的高收益行為進行學習的過程,也說明了恐慌情緒是會傳染的。由行人運動的堵塞問題引起的拱形現象出現在圖中,這種自組織現象的產生極大支持了本文模型的正確性。

圖3 不同時間的疏散情形
當設置了ND=250,然后用不同的慣性系數和恐慌指數做仿真實驗,得到了表2,從中可以看出隨著恐慌指數b 的變大,疏散時間也有變大的趨勢,人們越是恐慌地去爭搶,想快速地逃離,最終的疏散時間越長,這成功再現了人員疏散這個復雜系統中快即是慢的這種自組織效應。

表2 在不同的恐慌和慣性情況下的疏散時間 s
如圖4所示,探究了在慣性系數為0,不同的恐慌指數下的疏散演化過程。當情況不太危急時,恐慌指數較小,人們處于比較輕松的狀態,這時人們對于成為叛逃者并且跟別人發生沖突不太熱衷,從圖中看出,此時疏散完成時叛逃者的數目是相對少的。當情況比較危急時,比如發生了火災地震等災害引起人們較大的恐懼時,這時恐慌指數b 是較大的,撤離者會更激烈競爭下一個可以抵達的地點,這種情況下疏散完成時,叛逃者的數目相對較大,這樣的情況跟實際情況較為相符。從表2可以看出恐慌指數越大,疏散的整體時間越長。這是很好理解的,恐慌變大將導致叛逃者變多,恐慌情緒傳染,叛逃者“侵入”合作者的現象會更加明顯。而叛逃者變多,群體中的惡性沖突會增多,由于模型中參數α的設定,叛逃者比例越大越會導致進行博弈的人都不能進入目標地點,這樣的惡性競爭會降低疏散效率,讓整個系統的收益變低,從而疏散時間變長。在圖中顯而易見的是,對于相同的恐慌指數,即使最初人們由于各種事故原因致使叛逃者的人數有所不同,最終合作者與叛逃者的比例也會趨同,這也是一種支持模型正確的自組織效應。
假如人都是理性的,由于叛逃者的高收益,叛逃者和合作者的比例應該不會趨于平衡,叛逃者的比例應該越來越大才對,但仿真表明事實并非這樣,這說明一個問題,人們選擇合作者的策略的原因并不一定是高素質,而可能是因為自利性,因為如果一味的爭搶可能會導致大家都不能達到指定地點,很多人才會選擇合作者策略。隨著恐慌的增大,帶給叛逃者的不只是簡單的高進攻性和高收益,同時會降低他們的理智,這樣的情況下,可能不會有太多人考慮到合作會給整體帶來更高的收益,所以在喪失理智和更高收益的吸引下,叛逃者的比例會越來越高。模型可以很好地還原人們在疏散時的心理。
慣性系數τ 和恐慌指數b 會影響策略更新過程。研究表明,慣性τ 和其他因素共同作用會在進化博弈中產生驚人的現象,圖5 和表2 詳細表示出了合作頻率與τ ,b 之間的關系。有趣的是,在圖中隨著慣性的變大,并不呈現出簡單的單調現象。可以通過評估τ 從小到大對整個系統的影響來理解這種現象。

圖4 慣性系數等于零時人的演化過程

圖5 慣性系數不為零對人群演化的影響
通過將慣性τ 引入費米更新規則來研究慣性對人員疏散中合作演化的影響。發現慣性確實會影響系統的協作水平。并且對于人員疏散這個系統來說,不同的緊急事件可能會導致不同的初始合作者的比例,而對于不同的初始比例存在可以引起高協作頻率的最佳慣性τ 。當初始的叛逃者頻率比較大時如在ND=400 或者ND=450 時,從圖中看出當慣性系數趨向于零可以獲得較好的合作者頻率。而當叛逃者的初始比例較小時如ND=50 或者ND=100 等,從圖中可以看出,可以在慣性系數τ 比較大時得到較高的協作水平。無論初始的人員比例如何,他們均在慣性比較適中時,得到較大的叛逃者比例,從而使得疏散時間變得很長。對于這些現象可以很容易聯想到:當τ 為零時,此時疏散者都是沒有慣性的,他們根據收益來更新策略,此時根據不同的恐慌指數b 將會有不同的平衡態,顯而易見,恐慌指數較大將會導致較多的叛逃者出現,從而導致疏散時間變長。而當把撤離者設置為具有中小程度的慣性時,比如當τ=1 或者τ=2 時,對于撤離者來說,他進行策略更新時,會有保持當前策略的能力,也就是策略更新的幾率會變低。可是策略更新有兩種情況,當慣性比較小的時候,對于C→D 和D→C 兩個演化過程來說產生的影響是不一樣的,對于C→D這個過程來說,因為叛逃者的收益比較高,小程度的慣性對于這個過程影響較小;而對于D→C這個過程,因為合作者的收益較小,這個策略對叛逃者的誘惑比較小,所以人們比較容易能夠保持住當前的策略。在這種情況下,叛逃者的恐慌情緒會比較容易傳染合作者,導致合作者的比例變低,反而會對疏散過程產生不利的影響。當慣性過大時(在模型中慣性大于4 時),所有的疏散者由于保持當前策略的能力過于巨大,而無法改變策略,此時系統會陷入凍結狀態,系統中的撤離者將以較低的速度更新策略,并且合作者可以形成集群抵抗叛逃者的入侵直到疏散完成。這是符合實際情況的,支持了所做模型的正確性。
從計算機的運算復雜度來說,本文的模型除了在每一個時間步都需要和傳統模型一樣計算動態場和靜態場以決定每一個撤離者下一步路線之外,還需要通過博弈計算收益確定沖突的勝利者,并且要進行策略更新,而傳統的模型在處理人的沖突過程只使用了一個隨機數來決定誰可以在競爭中進入目標地點,因此本文的模型要比傳統的模型運算復雜度高一些。但和社會力模型相比,因為本文的模型是離散模型,并且沒有引入積分微分等復雜的運算,每次仿真并不會占用太多的時間以及內存空間,因此可以進行成千上萬次的模擬,也可以大量增加疏散的人數。而本文模型又能較好地模擬人的心理和行為,這樣就可以有效地為場館設計時提供良好的疏散模擬。
(1)為了對疏散過程中的行人之間復雜的相互作用進行探索以及建模,本文在元胞自動機的模型上引入了博弈論的方法來解決行人的沖突。仿真結果顯示的“拱形”“快即是慢”的自組織效應表明模型是可行的。
(2)本文還研究了恐慌指數對人群演化和疏散時間的影響,當恐慌越大時,叛逃者越多,疏散時間越長,再現的真實場景證明了模型的合理性。并且相同的恐慌下,由于自組織效應,叛逃者和合作者的比例趨同。
(3)本文還研究了慣性對策略演化的影響,當慣性為零時,主要是恐慌引起的人群的演變;而當慣性較小時,在收益和慣性的共同作用下,將促使人群向叛逃者演變;當慣性較大時,人們保持當下能力過于巨大,系統策略演化會陷入凍結。這些研究可以對社會學以及復雜系統建模起到一定的推動作用。