陳鵬宇,王 芳,3,劉 碩,岳圣智,宋亞男,金兆一,林遠山,3
(1.大連海洋大學信息工程學院/2.遼寧省海洋信息技術重點實驗室/3.設施漁業教育部重點實驗室(大連海洋大學),遼寧 大連 116023)
在索餌、越冬或生殖洄游等時期,魚類常以集群行為方式運動。魚類集群行為引起統計物理學和理論生物學研究人員的極大興趣[1-4],這種高度協調且極度有序的集群行為的產生機理和內在機制,是動物行為學、心理學、認知學等領域的國內外學者研究的核心問題[5]。目前,魚類集群行為建模方法可分為基于規則和基于學習兩大類。基于規則的建模方法將魚個體抽象為運動粒子,其運動受周圍粒子影響,遵循“近距排斥-遠距吸引-中距同向”三個基本規則。經典的自驅粒子模型主要有Boids模型[6]、Couzin 模型[7]、Ⅴicsek 模型[8]等。為更真實地刻畫魚類個體的行為特點,學者們通過引入各類因素提出了大量的變種[9-16]。一些學者通過對個體運動過程進行采集、觀察,對數據進行分析與重建,推斷出一些個體在群體中遵循的規則[17-21],部分驗證了某些規則的有效性。然而,由于預設的規則嚴重依賴人的先驗知識,而以目前人們對魚類群體的認知水平,提出或構建更準確的規則極具挑戰,因而基于規則的自驅粒子模型可能無法很好地刻畫集群行為。鑒于強化學習善于自主學習到序列決策行為,并且近年在各領域涌現令人矚目的成果,國內外研究人員開始嘗試使用強化學習訓練個體決策,以學習的方式對集群行為進行建模[22-26]。其基本思路是構建魚類可交互的環境,將魚類個體建模成可根據感知做出動作的智能體,利用個體間距離[27]、群體模式誤差[28-29]等定義獎勵函數,以迭代試錯的方式學習到最終的策略。這些方法避免了直接將規則或運動定律強加于策略模型的問題。獎勵函數的設計顯式或隱式地參考排斥、同向、向心等規則,因而它們仍然沒有完全擺脫規則的束縛。為此,Durve 等[30]提出一種用鄰居數變化作為獎勵信號集群行為建模方法,驗證了速度對齊機制可能是最小化鄰居丟失率導出的自適應行為。然而,這種方法中魚個體的狀態和動作用離散值表示,策略用表格表示,難以表達真實世界中具有高度非線性時變特性的魚類行為決策。本研究嘗試利用經典的Deep Q-Networks(DQN)算法獲得魚類集群行為模型,建立智能體連續形式的狀態表示和動作表示,借鑒Durve 等[30]的思想用鄰居數變化構建獎勵函數,使用神經網絡表達魚類個體的運動策略,在單個學習者多個教師的環境中使用DQN 算法訓練神經網絡,獲得魚類個體運動策略,以期達到訓練后的模型能夠生成與真實魚群類似的集群行為的目的,為理解魚群形成、魚類洄游、漁場形成等提供新視角,為工廠化高密度養殖提供參考。
魚類通過感覺器官來感知周圍環境,并依據自身運動策略做出相應動作,所有個體匯集形成集群行為。若能獲得每尾魚的個體運動策略,便可實現對魚類集群行為的建模。為此,本研究將魚類個體建模成學習智能體,并采用DQN 算法獲得其運動策略。
魚類個體在運動過程中的動作受視野范圍內鄰居的影響。為降低個體間交互的復雜度,本研究依據平均場理論,將所有鄰居運動對該個體的影響等價為所有鄰居平均值對該個體的影響。為此,本研究將個體運動方向與其感知范圍內所有鄰居平均運動方向的夾角大小作為個體感知到的狀態(圖1)。

圖1 個體的感知狀態示意Fig.1 Individual's perceptual state
圖中空心實線箭頭為個體i,實心虛線箭頭為個體i感知范圍內的鄰居,空心虛線箭頭代表鄰居平均運動方向,為時間步t的狀態,可用式(1)表示:
從個體運動模型可知,線速度和角速度是魚類個體運動的控制量。參照大多數集群行為模型,在此假定線速度的大小為恒定值,這樣魚類個體的運動只受其角速度控制。由于魚個體轉向有一個極限的轉角,設為θmax,故其角速度的取值范圍為[-θmax,θmax]。為更好使用DQN 算法,在此將智能體的角速度動作空間離散為m個可執行的動作(圖2),其中,實線箭頭為個體在當前時間步的運動方向,以此方向作為基準,每間隔一定弧度定義一個動作,虛線箭頭即代表定義的m個動作。

圖2 個體的可執行動作示意Fig.2 Individual’s executable actions
獎勵函數是強化學習算法中非常重要的一部分,其作用是引導智能體朝獲得更高獎勵的方向發展,獎勵函數設計的好壞會影響到智能體策略的學習。魚類通過匯聚形成集群行為具有更好覓食、感知威脅、分散敵害注意力進而避開敵害等眾多好處,但不管是哪種好處,對于集群中的個體而言,都可以表現為個體的鄰居較多。受這種情況的啟發,本研究將鄰居數量作為獎勵函數的參數來設計獎勵函數,具體如式(3)所示。如果個體執行某個動作后鄰居數量減少,則該動作得到獎勵0,否則得到獎勵1。該獎勵函數鼓勵個體去選擇能使鄰居數量增加的動作。
為使個體在學習過程中既能從已知的經驗中獲得最大化獎勵,又能在同一狀態下探索更多不同的動作,利用ε-greedy 策略來選擇動作,如式(4)所示。
其中,ε∈(0,1),在訓練過程中ε的值從1向0逐漸遞減,隨著訓練的進行選擇隨機動作的概率逐漸減小。當智能體執行隨機動作時,智能體在預設的動作空間中隨機選擇一個動作執行。
為驗證學習者是否可學習到教師的運動策略,并形成集群行為,構建如下實驗:實驗中只有一個具有學習能力的智能體稱為學習者,其余個體為教師,所有個體處在具有周期性邊界的環境中運動,即個體從某個邊界運動出界后會從對面的邊界重新進入環境。所有教師的運動策略固定,不需學習,其運動策略使用Ⅴicsek模型[8]。Ⅴicsek模型中的個體僅遵循同向規則,假定個體運動的速率恒定,而個體的運動方向僅取決于感知范圍內所有鄰居的平均方向。
有序度ψ(t)是評價一個群體是否形成集群行為的關鍵指標,其計算方法如式(5)所示。有序度越接近1,說明群體中所有個體的運動方向越趨于一致;有序度越接近0,說明群體中所有個體的運動越混亂無序。
訓練過程中,記錄每個時間步學習者感知范圍內的有序度,每回合(5 000 步)的平均有序度變化(圖3)。由圖3 可見,在訓練的前100 回合,平均有序度處于0.5~0.8之間,隨著訓練的進行,平均有序度呈上升趨勢,當訓練到300回合后,平均有序度普遍達到0.9 以上,這說明學習者學會長時間地與其感知范圍內的鄰居進行有序運動。

圖3 平均有序度的變化趨勢Fig.3 Change trend of the average order parameter
聚集也是集群行為的表征之一。圖4展示訓練過程中每回合獎勵的變化趨勢。由圖4 可見,隨著訓練的進行,學習者獲得的獎勵不斷增加。由獎勵函數的設計可知,學習者在學習過程中,鄰居數越來越多,即學習者學習到的策略,使其周圍盡可能有更多的鄰居,并形成集群行為。

圖4 獎勵的變化趨勢Fig.4 Change trend of the reward

圖5 學習者與教師比例1∶49測試結果Fig.5 Learner to teacher ratio 1∶49 test results

圖6 學習者與教師比例25∶25測試結果Fig.6 Learner to teacher ratio 25∶25 test results

圖7 學習者與教師比例50∶0測試結果Fig.7 Learner to teacher ratio 50∶0 test results
為驗證習得的模型是否能在各種情況下形成集群行為,進行三組測試實驗(學習者與教師的比例分別為1∶49、25∶25、50∶0)。圖5-7 為三組實驗的典型測試回合中所有個體的運動情況。每組圖均從t=0 時刻開始記錄,每2 個時間步記錄一次,共記錄8 次。從圖5-7 中均可看出,三種情況下,習得的模型均能使學習者形成集群行為。
綜上,從模型的收斂性與集群行為有效性兩個方面,驗證了本研究所提方法可獲得魚類個體運動策略,且習得的策略在不同場景中均能涌現出集群行為。
為進一步分析產生集群行為的魚類個體策略,本節對習得的魚類個體運動策略進行可視化分析。習得的魚類個體運動策略本質上是表示Q函數的神經網絡,其輸入為魚類個體的狀態,輸出為不同動作的Q值,魚類個體選擇Q值最大的動作執行。由于本研究所提方法中學習者的狀態是連續值,為便于統計,借鑒Q-Learning算法[31]中的Q表,將神經網絡的策略轉換成表格形式進行可視化。
可視化的具體做法是直接對習得的模型進行測試。測試時,首先將狀態空間離散為3 600 種狀態,即每種狀態之間相差0.1°,再將3 600 種不同的狀態分別輸入模型得到不同狀態下所有動作的Q值。之后,為了能夠在只有32種狀態的表格上進行可視化策略,將3 600種狀態中,屬于表格上32種狀態中同一種狀態的不同動作的Q值進行求和。最后,將Q表中每種狀態下Q值最大的動作所在位置標為1(圖8-9 中,顯示為黑色),其余動作標為0(圖8-9 中,顯示為白色)繪制出策略熱圖。在繪制出的策略圖上,每種狀態的范圍大小是π∕16,其中16 號狀態的范圍是[-π∕32,π∕32 ]。
圖8 展示訓練過程中模型策略的變化趨勢,為了將學習者的運動策略同教師的運動策略進行對比,使用相同的策略可視化方法對教師的運動策略進行可視化(圖9)。

圖8 模型策略的變化趨勢Fig.8 Trends in model strategy

圖9 教師運動策略Fig.9 Teacher movement strategy
從圖8中可以觀察到,在訓練的早期階段,學習者的運動策略較為混亂,但隨著訓練的進行,學習者的策略逐漸規律并收斂為與教師的運動策略相似的運動策略,證明魚類個體能學習到教師的運動策略。
為進一步驗證本研究所提方法的有效性,本節將習得的運動策略產生的仿真集群行為與真實魚類集群行為進行對比分析。其中,真實魚群行為軌跡數據由一種大型集群跟蹤算法idtracker.ai提取得到[32],包含80 尾斑馬魚(Danio rerio)形成的集群的運動軌跡。有序度ψ(t)用于量化集群行為的有序程度;平均鄰居數M(t)用于評估集群行為的聚集程度,其計算方法如式(6)所示。鑒于有序度和平均鄰居數是刻畫集群行為的兩個重要指標,在此分析仿真與真實兩種集群行為的有序度和平均鄰居數。
圖10 分別展示仿真與真實集群行為的有序度和平均鄰居數對比結果。由圖10(a)可見,仿真集群行為的有序度普遍能夠達到0.9 以上,真實魚類集群行為的有序度則始終在0.8 上下浮動。由此可以發現,不論是仿真集群還是真實魚群,當它們形成集群行為時,它們通常具有較高的有序度。由圖10(b)可見,仿真集群行為的平均鄰居數主要在16~20之間浮動,真實魚類集群行為的平均鄰居數主要在18~19 之間浮動。兩種集群行為中的個體在運動過程中均能使自己擁有較多的鄰居。這說明仿真集群行為在聚集性上表現出同真實魚類集群行為一致的結果。從有序度與平均鄰居數對比結果可以看出,習得行為策略形成的仿真集群行為具有與真實魚類集群行為相似的有序性與聚集性,進一步證明本研究所提方法能夠有效地建模魚類集群行為。

圖10 仿真集群與真實集群的有序度與平均鄰居數對比Fig.10 Comparison of the order parameter and the average number of neighbors between the simulated cluster and the real cluster
魚類個體的感知能力在形成集群行為過程中發揮著關鍵作用。為探究在個體感知能力較弱的情況下是否依然能獲得形成集群行為的個體運動策略,本節將個體感知范圍縮小為R=0.5,其余設置不變,使用同樣的算法對個體運動策略進行重新訓練,并將習得的運動策略在學習者與教師比例為50∶0 的情況下進行測試,集群運動效果如圖11 所示。由圖11可見,即使在個體的感知能力較弱情況下,本研究所提方法依然能習得產生集群行為的個體運動策略,這表明本研究所提出的魚類集群行為建模方法不受個體感知能力的限制。然而,當個體感知范圍縮小后,所有個體形成集群行為所需的時間變長,且最終形成的集群也更加緊湊。這可能是因為當個體感知范圍縮小后,每個個體能感知到的鄰居變少,從而環境中會先形成若干個較小的集群。在經過一段時間的運動后,這些較小的集群才能匯聚成一個大集群。

圖11 小感知范圍模型的測試結果Fig.11 Test results of model with small perceptual range
從仿真集群行為與真實魚類集群行為對比可以發現,兩者在有序性和聚集性方面雖表現相似,但并非完全相同。仿真集群行為的有序度普遍高于真實魚類集群行為的有序度,甚至在一段時間步內十分接近于1。這可能是因為真實魚類的運動具有一定的隨機性,即使整個魚群保持集群狀態運動,每個個體的朝向仍有一定的偏差。此外,現實環境下個體的運動不僅受周圍鄰居的影響,還受到環境因素的影響,例如水質、水溫、光照等因素的變化都可能影響魚類的集群行為。而仿真環境則是一種理想的無噪聲環境,這種環境的差異可能導致仿真集群行為與真實魚類集群行為的表現不完全一致。因此,在后續的研究中,將進一步探究環境因素在魚類集群行為建模方法中的影響。
本研究提出一種基于深度強化學習的魚類集群行為建模方法。仿真結果表明,訓練后的模型能夠使個體形成有效的集群行為,從而證明在連續性狀態下,用鄰居數變化作為獎勵信號引導學習者學習,可獲得以神經網絡表示的魚類集群行為模型。通過對模型進行策略可視化分析,驗證模型所習得的運動策略是與環境中教師相似的運動策略。使用習得模型形成的仿真集群行為在有序性與聚集性上均表現出同真實魚類集群行為相近的特點,進一步證明本方法的有效性。本方法有助于探究真實魚群集群行為,為理解魚群形成、魚類洄游、漁場形成等提供新視角,同時有助于養殖者或研究人員理解魚類集群行為產生的原因,從而更好地進行魚類高密度養殖。