鄭習羽,徐梓毓,王京華,2*
(1. 長春理工大學 機電工程學院,長春 130022; 2. 長春理工大學 跨尺度微納制造教育部重點實驗室,長春 130022)
諸如無人機、 無人車的無人系統(機器人)近年來發展十分迅速,憑借其優秀的自主規劃與執行能力,在許多領域得到了廣泛應用,包括救援搜索、 行星探索、 軍事行動、 生產調度、 資源分配等。現代的工程及軍事任務變得越來越復雜,往往一個總體任務包含許多個不同類型的子任務,如戰場環境中的任務包含探索、 打擊和毀傷評估等,單個機器人已經無法滿足解決大范圍內的復雜任務,需要構建多機器人系統協同完成多項不同類型的子任務。
多機器人任務分配(MRTA)問題是多機器人系統協同控制的一個重要研究方向。該問題需要多個機器人在一定約束條件下,規劃出無沖突的任務分配策略,并獲得全局收益良好的解。這個問題在規定時間內求解是困難的,求解全局最優解需要花費大量的時間和計算量。當分配問題比較復雜時,解集無法窮舉出來,幾乎不可能求出最優解,所以為了保證算法的效率,通常用近似算法提供一個可接受的次優解。
任務分配方法可以分為集中式和分布式兩種。集中式方法需要中央處理器為整個系統生成任務計劃,然后將結果傳遞給各個機器人。蟻群算法、 粒子群算法、 遺傳算法等集中式智能優化算法在解決MRTA問題方面都具有較優的解。雖然集中式方法結果全局較優,但是依賴大量的通信負載和計算量。此外,集中式方法的魯棒性比較差,機器人容易出現單點故障,且對動態變化的通信響應較慢。分布式方法不需要中央處理器,每個機器人在內部生成任務清單,再和周圍的機器人通過通信解決沖突。分布式系統能夠快速響應外部環境的變化、 對通信帶寬的依賴性比較小。雖然優化結果不如集中式,但是算法效率和魯棒性更高,單點故障的影響更小,能夠很好地應對野外復雜環境的不確定性。分布式方法主要分為基于博弈論的機制和基于市場的機制,其中博弈論需要相對更長的收斂時間,目前基于市場機制的拍賣算法是廣泛應用的高效方法。
Choi等結合拍賣機制和信息共識機制,提出了基于一致性的束算法(CBBA),與傳統的拍賣算法不同,該算法不需要有中間拍賣商,每個機器人內部具有一致的任務投標規則。CBBA被證明可以在較短時間內收斂于至少50%的納什均衡解。一些研究在CBBA的基礎上進行了改進,使其適應更復雜的問題。Johnson等提出了異步解決任務沖突的規則,減少不必要的通信,盡量降低通信負載,實現了CBBA的異步通信。Buckman等考慮到時間敏感和動態出現的約束,提出一種重規劃的CBBA-RP,提高任務快速協調性。基于任務優先級約束,Binetti等提出了一種分散關鍵任務分配算法(DCTAA),將標記的關鍵任務優先分配給機器人,實現最大化獎勵且保證關鍵任務被全部分配。Ye等考慮到任務之間的耦合約束,通過引入插入位置可行性處理有沖突的任務規劃,并改進了任務規劃策略,減少不必要的任務選擇計算。一些研究受到CBBA的啟發,其中性能影響(PI)算法是針對搜救場景開發的,在解決時間約束問題上有良好的表現。但是過快的迭代容易使算法陷入局部最優。Whitbrook等改進PI算法,提出了PI-softmax算法,極大提高了算法的任務完成度和任務獎勵,但算法的收斂時間在規模較大的人物場景中是難以接受的。
針對大規模的任務場景,上述研究無法獲得很好的分配結果。Fu等將機器人分成若干個組,每組各自生成任務計劃,再由每個組的領頭機器人傳遞給其他組,用兩層共識規則將大規模問題細分為一個個小規模問題。Jang等利用博弈論方法,自組織地將機器人按照距離和任務喜好進行任務分配,解決了大規模機器人的分配問題。但是機器人之間的通信量依然沒有減少,且算法效率也比較低。
本文針對大規模任務分配問題,在有時間窗的約束下,改進CBBA算法,提出一種基于聚類分組的一致性的束算法(C-CBBA),解決了大規模問題的有限通信問題,在減少通信量的前提下,提高算法效率,保持任務分配結果具有較高的任務完成度和全局任務獎勵。
本文的主要貢獻為:
(1) 任務點和機器人的聚類分組
基于距離因素,用K-means算法對任務點進行分組,然后利用延遲接受(DA)算法將機器人分配給各個分組,減少任務分配算法消耗的通信量,提高算法效率。
(2) 改進任務序列包添加策略
建立未選擇任務包,將未被選擇的任務盡可能加入任務序列包中,提高任務完成度。
本文的MRTA問題屬于單任務單機器人延時分配(ST-SR-TA)問題,即每個任務只需要一個機器人完成,每個機器人一次只能完成一個任務。作戰場景如圖1所示,場景中有異構的無人機和無人車,要求在時間窗的約束下,分別完成多個任務。任務類型分為探索、 打擊和評估毀傷目標。針對本文研究的任務環境,做如下假設:
假設1 每個機器人在地圖中都是勻速移動的,具有相同的態勢感知(SA),且通信數據不會丟失。
假設2 地圖中沒有任何障礙物,機器人和任務之間的距離由歐氏距離或曼哈頓距離表示。

圖1 城市作戰場景示意圖
假設系統一共有個異構機器人和個不同類型的任務,機器人和任務集合分別為
={,,, …,, …,}
(1)
={,,, …,, …,}
(2)
本文考慮四種機器人: 固定翼無人機、 旋翼無人機、 小型偵察車和大型武裝車。其中固定翼無人機和大型武裝車只能執行打擊和毀傷評估任務,旋翼無人機和小型偵察車只能執行探索和毀傷評估任務。規定任務分組的組數為。
由于時間窗的約束,機器人執行任務的起始時間必須在規定的時間窗以內,滿足:

(3)

(4)
本文主要的目標是保證算法效率和通信量足夠低的基礎上,最大化每個分組的任務完成度和全局任務獎勵。其目標函數可以表示為

(5)

(6)

(7)
其約束為

(8)

(9)

(10)

C-CBBA算法整體流程框架如圖2所示。

圖2 C-CBBA算法整體流程框架
在三維空間中,既有高空任務,也有地面任務。受限于地面機器人無法執行高空任務,為了保證分配給各組的機器人能夠完成任務,在任務分組階段,將高空任務和地面任務區分開,單獨劃分出高空任務,其他地面任務再進行分組。即其中一組為高空組,剩余的-1組為地面任務組。
聚類算法屬于無監督學習,通過對任務點坐標值的無標記樣本訓練,對任務點的分組進行區分。考慮到訓練的目標只有任務點的坐標值,本文用K-means的方法對任務點進行分組。
K-means和K-medoid是兩種最常見的聚類分組算法。K-medoid對噪聲魯棒性比較好,可以避免“噪聲”對聚類結果的影響,但計算速度較慢。K-means的計算效率更高,針對大樣本學習的情況,少數的“噪聲”任務點對整體聚類中心的影響不大。所以, K-means更適應大規模任務點的聚類分組。
2.1.1 預定義聚類中心
針對聚類分組問題,K-means算法需要事先預定聚類中心,通常隨機尋找個任務點作為初始聚類中心。但在分布式系統中會造成不一致的分組,需要預定統一的初始聚類中心。
首先,定義高空任務組的初始聚類中心,假設任務點的出現在三維空間中服從高斯分布,將地圖正中心點作為高空組的初始聚類中心,組別為=1,其坐標向量可以表示為

(11)
式中:,,分別為地圖極限值。
然后,定義剩余的-1組地面任務組的初始聚類中心。假設地面組的初始全局中心為

(12)
如圖3所示,以地面中心為圓心,各分組聚類中心圍繞其圓心均勻分布。各分組聚類中心三個坐標軸的坐標值分別表示為

(13)

(14)

(15)
式中:=π/4。

圖3 地面分組聚類中心分布
2.1.2 K-means聚類
根據任務點坐標的樣本集={,, …,},以及初始定義的任務聚類組={,, …,},K-means的目的為最小化每個任務距離所在聚類分組的平方誤差:

(16)

算法流程如圖4所示,分別計算每個任務點距離聚類中心的距離,將任務點加入到距離最近的分組。循壞迭代訪問直到分組聚類中心不再更新為止。
K-means只是對任務分組的初步規劃,僅依靠任務點的距離關系進行分組,沒有考慮到分配給各組的異構機器人的數量是否滿足每個組的任務需求。本文提出了任務分組重規劃機制,最小化每個組的機器人數量需求總和,使每個組的任務需求能夠滿足提供的機器人數量,增大任務完成度。
2.2.1 分組任務類型
在任務點初步分組之后,計算每個組中三種任務的數量,表示為分組需求矩陣:

(17)
式中:,,分別為探索、 打擊、 毀傷評估任務的數量。

算法1 任務點初始分組算法輸入: 任務坐標點樣本集D、 聚類分組數K輸出: 任務點分組劃分S過程: (1)按式(11)~(15)計算每個組的初始聚類中心μ(2)while(3)初始化Ss=?(1≤s≤K)(4)for j=1, 2, …, NT do(5)計算任務j與各分組中心μs的距離: djs=dj-μs2(6)根據距離確定任務j的分組ξj=argmins∈{1, 2, …, K}djs(7)將任務j歸入相應的分組: Sξj=Sξj∪{j}; (8)end for(9)for s=1, 2, …, K do(10)計算新的分組聚類中心μ′s=1Ss∑d∈Ssd; (11)if μ′s≠μs then(12)μi←μ′i(13)else(14)保持當前分組聚類中心不變(15)end if(16)end for(17)until當前分組聚類中心不再更新(18)end
2.2.2 機器人供應數量問題模型


(18)

目的是最小化機器人供應數量,目標函數為

(19)
其約束為

(20)

(21)

(22)
≤
(23)

(24)

(25)
式中:為每個機器人可執行的最大任務數量;為旋翼無人機與小型偵察車數量之和;為固定翼無人機與大型武裝車數量之和。
當機器人數量需求不滿足式(23)~(25)時,則需求數量超量,此時需要將某些分組的任務點調整到其他分組,降低機器人數量需求。建立每個分組可接受任務的余量矩陣:

(26)

任務點分組重規劃算法如圖5所示,先判斷機器人數量是否超量,然后確定超量機器人的類型,選擇任務余量空間最大的分組,將多余的任務分配到其他有余量的分組。

算法2 任務點分組重規劃輸入: 分組需求矩陣Ω、 機器人數量分布Φ、 余量矩陣Ψ、 任務聚類分組S輸出: 分組需求矩陣Ω?、 機器人數量分布Φ?、 余量矩陣Ψ?、 任務聚類分組S?過程: (1)if式(23)~(25)不成立 then(2)尋找需要調整的任務點分組s?=argmaxs∈{1, 2, …, K}ms(3)計算需要調整的任務點數量nad=LT-ms?(4)while(5)for j=1→Ss組對應任務類型數量do(6)選擇距離最近的轉移分組ξj=argmins∈{1, 2, …, K}{s?}djs(7)if djs 循環迭代地執行算法2,直到式(23)~(25)滿足約束條件為止,則可以保證每個組的任務理論上可以全部完成。 假設任務開始時,所有機器人已經分布在地圖上,按照距離最近的原則,將機器人分配到相應的任務分組上。 目的是最小化機器人到對應的分組的距離之和,為了簡化計算,以機器人和各分組聚類中心的距離作為機器人與各分組的距離,其目標函數為 (27) 其約束為 (28) (29) 式中:為機器人距離分組的距離;∈{0, 1}為機器人分配組別的決策變量;為分配給每個組的機器人總數。 將機器人分配到各任務分組的問題建模為一對多類型的穩定匹配問題,匹配度由機器人到聚類分組中心的距離決定。 初始定義機器人分組表示為 ={,, …,} (30) 圖6為機器人分組算法,即延遲接受(DA)。首先每個機器人計算與聚類分組中心的距離,然后每個分組都系統性地從上到下遍歷機器人的最近距離分組,選擇距離自己最近的若干機器人,若機器人和另外的分組更匹配,則將該機器人讓給其他分組。經過多輪迭代后得到一個穩定的匹配結果。 算法3機器人分組算法輸入: 機器人集合R、 任務聚類分組S、 機器人數量分布Φ輸出: 機器人聚類分組A過程: (1) while(2)for i=1→NR do(3)ζi=argmins∈{1, 2, …, K}dis(4)將機器人i與分組ζi匹配(5)if分組機器人需求數沒滿 then(6)Aζi=Aζi∪{i}(7)else if分組機器人需求數已滿 then(8)分組Aζi刪除組內距離最遠的機器人k(9)Aζi=Aζi{k}, Aζi=Aζi∪{i}(10)end if(11)end for(12) until所有機器人都已分配到各聚類分組 利用CBBA算法對每個機器人-任務分組進行任務分配規劃,得到最終的任務規劃解。 CBBA的主要工作是,首先利用貪婪選擇算法構建任務序列包,然后使用共識規則建立任務沖突協商機制來解決機器人任務包之間的沖突。 4.1.1 任務包的建立 任務序列包的建立是在每個機器人內部并行運行的,然后通過投標信息解決沖突。投標信息主要包括: (1)任務包∈(∪{?}),儲存了機器人選擇的任務。 (2)任務序列包∈(∪{?}),代表按執行順序排列的任務集合。 (3)任務的中標報價列表∈(),其中∈(=1, 2, …,)為執行任務的最高報價,表示每個機器人內部執行該任務的獎勵。在共識協商階段,每個機器人之間對任務進行報價競爭,更新當前最高的任務獎勵(最高報價)。 (4)中標機器人列表∈(∪{?})為對任務報價最高的機器人,表示在共識協商階段,機器人獲取任務的執行權,將其序號儲存在中標機器人列表中。 任務序列包構建階段,機器人利用貪婪算法,每次將當前獎勵值最大的任務添加到包中,直到不能再繼續添加任務。每添加一個任務,除了將任務序號記錄在任務包和任務序列包中,還會在報價列表中記錄其任務獎勵,作為對任務的競標報價,并在中標機器人列表中記錄自己的機器人序號。 4.1.2 共識協商機制 在沖突協商階段,機器人利用共識協商策略調節任務沖突,即出價最高的機器人獲得任務的執行權,其他落選機器人將包中的任務刪除,之后所有機器人更新中標報價列表和中標機器人列表,記錄當前最高的報價(任務獎勵)和中標機器人序號。共識規則如表1所示。列表和的更新操作可以表示為 (31) 式中: update為中標報價和中標機器人兩個列表進行更新,保存當前最高報價和提供報價的機器人序號。Reset為當前任務進行重置,刪除列表相關任務的數據。Leave為不做任何修改,保持列表原有報價不變。 顯然,將大規模機器人和任務進行分組以后,每個機器人內部可選擇的任務減少了,同時省略了不同分組機器人之間的多余通信,大大降低了算法中機器人的通信總量。 基線CBBA的任務獎勵函數是嚴格基于邊際增益函數(DMG)計算的,當任務執行時間超過任務開啟時間,獎勵函數將趨于0,導致任務無法選擇。在計算任務點獎勵時設置固定獎勵,使得獎勵永遠大于成本代價,保證每個任務盡量被選擇。目標獎勵函數表示為 (32) ≥· (33) = (34) 式中:和分別為機器人執行任務的獎勵和代價;為機器人到任務點的距離公式,根據機器人的異構性,空中機器人采用三維歐氏距離,地面機器人采用二維曼哈頓距離;為距離代價常系數;為任務固定獎勵;為及時完成任務的獎勵。本文假設獎勵函數是非負的,所以固定獎勵不小于代價。 表1 機器人i與機器人k的共識協商規則 基線CBBA中,機器人在每次迭代過程中選擇任務時,總是要從上到下依次遍歷所有任務,這樣會造成已經競價失敗的任務重新添加到包中,且容易忽略到后續被所有機器人都忽略的任務,使任務完成度較低。 算法4 任務序列包構建算法輸入: 迭代次數t-1過程中的bi(t-1), Pi(t-1), yi(t-1), zi(t-1),ti(t-1)輸出: 迭代次數t過程中的bi(t), Pi(t), yi(t), zi(t), ti(t)過程: (1)bi(t)=bi(t-1), Pi(t)=Pi(t-1), yi(t)=yi(t-1), zi(t)=zi(t-1), ti(t)=ti(t-1)(2)構建任務未選包bnoi: bnoi=T∩(P1∪P2∪…∪Pa)(3)whilebi(t)≤LT do(4)cij(Pi) = maxn≤PiViPin{ j}-ViPi(5)hij=Π(cij>yij)(6)Ji=argmaxj(cij(Pi)×hij)(7)ni, Ji=argmaxjVPi⊕n{j}i(8)ti, ni, Ji=max[ti, ni, Ji-1+(Vni, Jii-Vni, Ji-1i)/vi, t0, ni, Ji](9)bi=bi⊕end{Ji}, Pi=Pi⊕ni, Ji{Ji}(10)yi, Ji(t)=ci, Ji, zi, Ji(t)=i, ti, Ji(t)=ti, ni, Ji(11)end while 通過改進的任務序列包構建算法,在每次任務訪問階段,都優先搜索還沒有被選擇的任務,提高任務完成度的同時,也減少了無用任務訪問的頻次,提高算法效率。通過任務序列包構建和共識協商兩個階段的循環迭代,最終收斂到任務完成度最大的無沖突分配方案。 為了測試C-CBBA的性能,在Intel(R) Core(TM) i7-10700K CPU @ 3.80 GHz and 16 GB RAM的PC上,用MATLAB2019a進行仿真。并和基線CBBA、 具有任務耦合約束的CBBA(TCC)進行對比。 在5 km×5 km×1 km的三維場景下,異構機器人團隊在總體時間窗[0, 5 000 s]內完成任務的調度。機器人最大任務數量=15,任務固定獎勵=30,任務完成獎勵=100,任務價值隨時間衰減因子=0.1。實驗中,模擬了五種機器人-任務點規模,分別為10-100,30-300,50-500,80-800,100-1 000,任務和機器人分組組數=5。每種規模分別進行了100次蒙特卡洛隨機模擬,每次模擬時算法的迭代次數最多為100次,當任務規劃迭代次數超過100,算法將強制停止,輸出當前的最優解。此外,為了顯示預設分組組數對任務分配結果的影響,對30-300規模的分配問題,分別模擬了分組組數為3, 4, 5, 6四種情況下的實驗。 為了清晰地展示機器人的任務路線圖,選擇展示在10-100規模下=5時的某一次實驗結果。實驗中最小的規模為10-100,其任務執行路線圖比較清楚,且在=5的情況下,任務分組的結果比較稀疏,有利于最終結果的觀察。相關信息如表2~3所示。 表2 機器人相關信息 表3 任務目標相關信息 圖8為任務分配路線圖,為了便于觀察,忽略了高度,只顯示二維平面的路線軌跡。表4為機器人分配方案,即機器人執行任務順序。 其中,算法收斂時間0.311 s,任務完成度100%,通信量(通信頻次)150次,全局任務獎勵4 083.396。 不同規模下機器人及任務的類型數量分布采用相同的比例構成,任務分組組數都為=5。表5為機器人和任務的類型數量分布情況與編號對應的類型,四種機器人的類型比例分布為0.3∶0.2∶0.3∶0.2,三種任務的類型數量比例分布為0.33∶0.33∶0.34。 通過算法在五種不同規模下的仿真,總體性能由算法收斂時間、 通信量(通信頻次)、 任務完成度、 全局任務獎勵、 任務平均花費時間五個方面體現。 其中算法收斂時間的計算從系統開始分組到最終輸出任務分配結果結束,運行時間依賴于實驗PC條件。多機器人之間的通信量依賴于系統通信模型、 機器人通信方式、 機器人拓撲連接方式、 通信損耗等多方面的因素,研究簡化了其通信量的計算,用機器人之間的通信頻次(沖突解調階段機器人之間的通信次數)作為通信量的計算依據,兩個機器人之間的一次沖突解調為1個通信頻次。每一次任務包構建和沖突解調的迭代為一輪通訊,一輪通訊中的通信頻次依賴于拓撲連接形式,本文按照全連接的形式進行通信,故一輪通訊的通信頻次為(-1)2,為每個分組的機器人數量。 表6~10分別表示不同規模下,五個性能指標的仿真實驗結果對比。可見在算法收斂時間、 通信量、 任務完成度方面,C-CBBA的性能是最優的,可以解決大規模任務分配問題的最大化算法效率和最小化通信量問題,并能保證大部分任務被機器人選中并執行。 圖8 各聚類分組的機器人任務路線圖 (1) 算法收斂時間和通信量方面,預先對任務和機器人進行了分組,每個分組的規模都變小了,任務分配算法需要計算訪問的對象縮減,提高了收斂的效率,同時也減少了機器人之間通信的總量,每個機器人只需要和自己組內的機器人進行通信。 (2) 任務完成度方面,在每次任務規劃階段,重點考慮了全局未被選擇的任務,所以C-CBBA可以規劃出接近100%的任務完成度,而基線CBBA和TCC需要頻繁地刪除任務重新規劃。三種算法的任務獎勵都是按照邊際效益遞減的規律進行計算的,為了貼合實際任務執行時,開始時間越晚,收益越低的情況,引入了邊際效益遞減因子。因此,算法對時間的增加比較敏感,CBBA算法的任務獎勵會隨著時間的增加快速降低,沒有任務固定獎勵,收益將小于0,導致任務無法選擇。而TCC雖然也引入了固定獎勵,但是算法執行時依然要頻繁地刪除任務,也會導致任務完成度不高。C-CBBA算法在引入固定獎勵的基礎上,還加入了未選任務優先訪問機制,盡量將全局未選擇的任務加入任務序列包中。 表4 不同規模下機器人及任務的類型數量分布 表5 機器人任務分配方案 表6 三種算法的收斂時間 表7 三種算法的通信量(通信頻次) 表8 三種算法的任務完成度 表9 三種算法的全局任務獎勵 表10 三種算法的任務平均用時 (3) 全局任務獎勵和平均任務花費時間方面,由于聚類分組本身會縮小分配解集,可能會將最優的解排除,所以C-CBBA的總獎勵并不是最高的,說明分配策略的獎勵不是最高的。其原因為C-CBBA的任務完成度高,機器人需要執行的任務多,任務平均花費時間相應增加,在時間窗約束下,部分任務的執行時間無法在任務開啟時立刻執行,導致任務獎勵不能達到理論最大值。 不同的分組組數對算法也有影響,對30-300規模的機器人-任務組進行仿真,分別將其劃分為3, 4, 5, 6組。 不同組數的算法性能如表11所示。在不同分組組數下,隨著組數的增加,算法收斂時間和通信量明顯降低,任務完成度和全局任務獎勵變小。這是因為分組越細,默認忽略的分配解集越多,增加算法收斂速度,降低了解的質量。所以在不同場合,應該根據不同的需求進行取舍。 表11 不同組數的算法性能 結合前兩種仿真情況,C-CBBA在收斂時間、 通信量、 任務完成度方面具有優勢,算法的設定條件是任務的位置和類型預先已知,機器人提前布置在任務環境中,且機器人和任務的類型數量是提前設定好的,這意味著在任務分配前的機器人分組調配必須是有解的,否則將造成算法失效。本文適用于具有時間窗約束的大型任務場景下的大規模任務分配問題中,最大化任務完成度及最小化的收斂時間的情況。表6顯示,從規模80-800開始,算法收斂時間超過了60 s,針對超大規模的任務分配問題,C-CBBA算法只能適用于靜態任務,不再適用于動態任務。針對規模小于50-100的問題,C-CBBA算法具有較好的適應能力。 本文針對具有時間窗約束的大規模MRTA問題,提出了基于聚類分組的一致性的束算法(C-CBBA),解決算法效率和降低通信量的問題。首先利用K-means算法對任務點按照距離分組,并用任務點重規劃機制最小化所需機器人資源,然后用DA算法將機器人分配到各聚類分組,最后改進CBBA算法,求解劃分好的若干小規模問題。仿真實驗結果表明,該算法能夠在較短的時間內,用較少的通信量達到可接受的任務完成度和全局任務獎勵。但是在性能檢驗方面,通信量受系統通信模型、 機器人拓撲連接方式等多種因素影響,本文對通信量的計算比較理想化,未來研究還應考慮實際情況,對通信進一步細化研究。而且聚類分組可能會忽略全局最優解,在更大范圍內,機器人并不能獲得所有其他機器人的信息。未來將考慮機器人之間的具體通信模型,并改進任務和機器人分組機制,在最小化資源需求的基礎上,最大化全局任務獎勵。3 機器人分組調配
3.1 機器人分組問題模型



3.2 延遲接受(DA)算法

4 分組任務分配
4.1 基線CBBA

4.2 任務獎勵函數




4.3 任務選擇優化


5 算法仿真實驗
5.1 場景參數設置
5.2 算法結果展示


5.3 不同規模的算法性能對比












5.4 不同分組規模的仿真

6 結 論