999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DBSDER-QL算法的應急物資分配策略

2025-08-18 00:00:00楊皓張池軍張辛未
吉林大學學報(理學版) 2025年4期
關鍵詞:分配動作成本

,12,3(1.,;2., ;3.大學 學生工作部, )

關鍵詞:物資分配;強化學習; Q -learning算法;動態探索率;動態Boltzmann Softmax中圖分類號:TP391 文獻標志碼:A 文章編號:1671-5489(2025)04-1105-12

Emergency Resource Allocation Strategy Based on DBSDER-QL Algorithm

YANG Haol,ZHANG Chijun 1,2 ,ZHANG Xinwei3 1.SchoolofComputerScienceand Technology,Changchun UniersityofScienceand Technology,Changchun13022,China; 2. International Business School, Guangdong University of Finance Economics, Guangzhou ,China; 3. Student Affairs Office, Changchun University ,Changchun ,China)

Abstract: Aiming at the problem of emergency resource alocation for natural disasters,we proposed a Q -learning algorithm based on dynamic Boltzmann Softmax (DBS) and dynamic exploration rate (DER)(DBSDER-QL). Firstly,the DBS strategy was used to dynamically adjust the weights of action values, promoting stable convergence of the algorithm and solving the problem of excessive of the maximum operator. Secondly,the DER strategy was used to improve convergency and stability of the algorithm, solving the problem of the fixed exploration rate Q -learning algorithm not fully converging to the optimal strategy in the later stage of training. Finally,the efectiveness of the DBS and DER strategies was verified by ablation experiments. Compared with dynamic programming,the greedy algorithm,and traditional Q -learning algorithm,the experimental results show that DBSDERQL algorithm is significantly better than traditional methods in terms of total cost and computational efficiency,showing higher applicability and effectiveness.

Keywords: resource allocation; reinforcement learning; Q -learning algorithm; dynamic exploration rate;dynamic Boltzmann Softmax

在自然災害應急救援中,應急物資的快速、有效且公平的分配對減輕災害影響、保障人民生命財產安全至關重要[1-3].目前,應急物資分配的研究主要采用精確算法、啟發式算法和強化學習算法解決問題. Yu 等[4]提出了一種近似動態規劃算法,解決了應急物流中資源分配的問題,在計算復雜性可控條件下實現了近似最優解.Zhang 等[5]借助Gurobi求解器,解決了公共衛生應急中的有限醫療儲備分配問題,為應急資源的優化分配提供了計算支持.Liu等[6]利用基因編程超啟發式算法,對不確定容量路徑問題進行求解,有效優化了應急物資分配中的路徑失敗和補救成本.Jain等7采用粒子群優化算法等元啟發式算法,求解災后應急資源分配問題.精確算法理論上可以求解全局最優解,但在大規模物資分配問題中,由于計算復雜度過高,導致難以求解;啟發式算法能在短時間內求解局部最優解,但會導致資源分配不均衡或浪費的問題.

隨著應急物資分配問題復雜度的逐漸增加,強化學習算法的應用成為解決動態和不確定性問題的一種有效方法[8-11]. Yu 等[12]提出了一種基于強化學習 Q -learning算法的應急物資分配方法,效果較好.Liang 等[13]提出了一種基于強化學習中多臂賭博機算法的緊急物流網絡優化方法,解決了在自然災害不確定性條件下的救援物資分配和位置規劃問題.Aslan 等[14]應用強化學習中的 Q -learning算法,解決了災區無人機路徑規劃問題.但隨著受災區域的擴大和可分配物資規模的增長, Q -learning算法的局限性逐漸凸顯,將無法求解全局最優解.

Q -learning算法在實際應用中存在如下兩個問題:

1)固定探索率導致探索與利用之間的不平衡問題.探索率用于控制利用與探索之間的平衡,決定智能體在每個訓練步驟中是選擇當前價值最大的動作(利用)還是隨機選擇其他動作(探索).固定探索率使智能體在整個訓練過程中始終以相同概率進行探索,難以在訓練后期收斂到最優解.

2)Boltzmann最優公式中的最大運算符導致過度貪婪問題.在訓練初期,動作價值估計通常不準確,最大運算符的硬選擇方式會使智能體過度依賴當前的動作價值估計,忽略了對其他潛在有價值動作的探索,特別在隨機性或噪聲環境中,該問題會阻礙算法的穩定收斂[15-17].

為解決上述問題,本文提出一種基于動態 Boltzmann Softmax(DBS)和動態探索率(DER)的Q -learning(dynamic Boltzmann Softmax and dynamic exploration rate based- Q -learning,DBSDER-QL) 算法,主要貢獻如下:

1)本文在文獻[5]的基礎上,利用模擬方法研究物資短缺情形下的分配策略,將原有研究中最多5個需求點的設定拓展至8個需求點,發現了原 Q -learning算法的不足,并在不同物資分配量和需求點數量的情形下,考察每個分配周期分配1,2和3個單位物資的分配問題.

2)使用動態探索率策略解決固定探索率導致的分配不平衡問題,動態探索率e隨訓練次數逐漸減小,在訓練初期保持較高的探索概率,可充分探索可能的動作,隨著訓練的深人,探索率逐步降低,更多地利用當前已知的最優策略,從而提高算法的收斂性和穩定性.

3)采用動態 Boltzmann Softmax 策略,替代 Boltzmann最優公式中最大值,解決Boltzmann 最優公式中最大值導致的過度貪婪問題.在 Boltzmann 最優公式更新中,DBS 對所有可能的動作價值進行指數加權求和,用加權和替代最大值.隨著訓練的深人,DBS中的指數權重動態調整,使動作價值估計更精確.

4)使用DBSDER-QL算法解決自然災害發生后關鍵 72h 內的多周期應急物資分配問題,并與動態規劃算法、貪心算法和 Q -learning算法進行對比,實驗結果表明,DBSDER-QL算法在總成本和計算效率方面均明顯優于傳統方法,展現出更高的適用性和有效性.

問題描述及數學模型

物資通常由集中分配點統一調配,本文研究構建包含一個分配點和多個需求點的物資分配網絡.

其中需求點為各地區的物資需求區域,分配點通過運輸工具將物資運輸到各需求點.由于自然災害的不可預測性和迅速爆發,導致物資需求激增且供應短缺,很難一次性滿足所有地區的需求,因此需采用多周期分配方案.自然災害發生后 72h 是救援行動的關鍵期,本文主要考慮在災后關鍵 72h 內的應急物資分配問題,將這一時間段劃分為多個等長的分配周期.

1. 1 問題描述

1)有一個物資分配點;

2)有多個物資需求點;

3)在物資短缺情形下;

4)分配物資分多個周期進行;

5)需求是將物資分配至各需求點;

6)最終實現最小化3個目標總成本,包括可達性成本、剝奪成本和懲罰成本.

因此,本文設計了如圖1所示的多周期應急物資分配框架.

圖1多周期應急物資分配框架

Fig.1 Framework of multi-period emergency resource allocation

1. 2 模型假設

針對本文研究的問題,提出以下假設:

1)在每個分配周期中,分配點可分配的物資數量相同且已知;

2)在每個分配周期中,每個需求點的物資需求量相同且已知;

3)單位物資運輸成本已知;

4)不考慮應急物資的裝卸和配送時間.

1.3 數學模型

大規模自然災害通常會導致關鍵資源嚴重短缺,因此衡量物資分配的有效性尤為重要.設 N 表示所有需求點 i 的集合, i∈N ; T 表示應急物資分配周期 ΨtΨΨ 的集合, t∈T ; C 表示分配點擁有物資的數量; a 和 b 表示剝奪成本函數的剝奪參數; ξ1 表示目標函數中可達性成本的權重; ξ2 表示目標函數中剝奪成本的權重; ξ3 表示目標函數中懲罰成本的權重; ci 表示從分配點到需求點 i 交付每單位物資的運輸成本; Yi,t 表示在分配周期 Ψt 對需求點 i 的物資分配量; Di,t 表示需求點 i 在分配周期 t 的物資需求量; Si,t 表示在分配周期 t 開始時需求點 i 的物資缺少量; Si,T+1 表示在分配周期 T 結束時需求點 i 的物資缺少量.

評估應急物資分配有3個關鍵指標:快速、有效和公平[12.18].具體目標函數如下:

Yi,t∈{0,1,2,?,C},?i=1,2,?,N,t=1,2,?,T,

Si,t+1=Si,t-Yi,t+Di,t,?i=1,2,?,N,t=1,2,?,T,

式(1)表示最小化總成本,包括三部分:可達性成本、剝奪成本和懲罰成本.根據文獻[19]可知, ξ1,ξ2 和 ξ3 是3個權重,用于平衡目標函數中3種成本的影響,權重設置為 (ξ1,ξ2,ξ3)=(1/3,1/3,1/3) 式(2)表示可達性成本,作為快速指標,即應急物資的物流運輸成本, ci 表示每單位物資的運輸成本,Yi,t 表示在分配周期 Ψt 對需求點 i 的物資分配量,運輸成本為二者相乘.式(3)表示剝奪成本,作為有效指標,剝奪成本用于衡量因物資短缺給幸存者帶來的痛苦,其中 Si,t 表示在分配周期 Ψt 開始時需求點 i 的物資缺少量, L 表示單個周期的時間長度, a 和 b 為剝奪參數.式(4)表示懲罰成本,作為公平指標,懲罰成本用于確保每位幸存者獲得平等程度的援助,避免幸存者在規劃期內出現嚴重不平衡.懲罰成本的計算與式(3)采用相同的函數,其中 Si,T+1 表示在分配周期 T 結束時需求點 i 的物資缺少量

約束條件(5)為容量約束,在每個分配周期內,所有需求點獲得的物資總量應小于或等于分配點的物資容量 C .約束條件(6)規定每個分配量 Yi,t 必須為整數,且最大值不得超過物資容量 C ,約束條件(7)為狀態轉移約束,如果需求點 i 獲得了 Yi,t 個單位的物資,則其狀態將減少 Yi,t-Di,t ,如果該需求點未獲得物資,即 Yi,t=0 ,則其狀態將增加 Di,t .約束條件(8)為在分配周期開始時所有需求點的狀態均為0.

2算法設計

首先,定義 Q -learning算法的核心元素,包括智能體、環境、狀態、動作和獎勵.其次,分析Q -learning 算法的局限性,并引人兩個改進策略:動態 Boltzmann Softmax 和動態探索率,得到DBSDER-QL算法.最后,介紹DBSDER-QL算法的訓練過程.

2.1 -learning算法元素定義

Q -learning算法是一種典型的強化學習方法,其通過智能體與環境的交互,學習在不同狀態下選擇最優動作以最大化長期回報.在應急物資分配問題中, Q -learning算法通過定義狀態、動作和獎勵函數描述智能體與環境的交互,逐步學習到最優的物資分配策略.圖2為應急物資分配方法的整體框架,可直觀理解這些元素及其在應急物資分配中的作用[20-25]

Q -learning算法中的關鍵元素定義如下.

1)智能體:表示分配點,相當于執行算法的實體,目的是學習如何最有效地分配應急物資.

2)環境:表示需求點,與智能體(分配點)進行互動.

圖2應急物資分配方法的整體框架Fig. 2 Overall framework of emergencyresourceallocationmethod

3)狀態:狀態 sι 表示所有需求點在分配周期 χt 的物資缺乏情況,可用狀態向量形式化表示為St=(S1,t,S2,t,?,SN,t) ,每個狀態 Si,t 反映了在分配周期 t 內需求點i的物資缺少量.

4)動作:動作 表示分配點在分配周期 t 對所有需求點的物資分配數量,動作向量可形式化表示為 Yt=(Y1,t,Y2,t,?,YN,t) ,其中每個元素 Yi,t 表示在分配周期 Ψt 內分配給需求點 i 的物資數量.

5)獎勵函數:本文的研究目標是最小化總成本,而強化學習的目標是最大化獎勵總和.為在強化學習框架下實現研究目標,將總成本的負值定義為獎勵函數.同時,為更好地描述物資分配問題,將規劃周期內的狀態劃分為初始狀態、中間狀態和最終狀態[5].

首先,物資分配周期 t=1 的狀態稱為初始狀態,其獎勵函數與 t=1 與即將轉移到的 t=2 的狀態有關.獎勵函數對應可達性成本和剝奪成本為

其次,分配周期 t=2~T-1 的狀態為中間狀態,獎勵函數對應可達性成本和剝奪成本為

最后,分配周期 t=T 的狀態為最終狀態,獎勵對應可達性成本和懲罰成本為

2.2 動態探索率策略

為解決固定探索率導致的探索與利用不平衡問題,本文采用動態探索率策略調整探索率 ε .在強化學習中, ε 是用于平衡探索與利用的參數,利用是指在已知某個動作價值最大時,優先選擇該動作以獲取更多回報;而探索則是在當前信息不足時嘗試其他動作,以發現潛在的更高價值動作.訓練初期,e值較高,以增加探索概率,幫助智能體充分探索可能的動作;隨著訓練的進行, ε 逐漸減小,更多地利用當前最優策略.這種動態調整確保了智能體在初期廣泛探索環境,在后期專注于最優動作,從而提高了算法的收斂性和穩定性[26],用公式可表示為

其中 k 表示當前訓練的次數, Ne 表示訓練的總次數.

探索率 ε 值的動態變化反映了探索與利用之間的平衡調整,如圖3所示.由圖3可見,隨著訓練次數的增加,探索率逐漸減小,智能體在后期逐步減少探索,以增強利用現有知識的能力.

2.3 動態Boltzmann Softmax策略

在強化學習算法中,動作價值函數( Q 函數)的更新基于Boltzmann最優公式:

Q(s,a)Q(s,a)+α?[r+γ?maxaQ(s,a)-Q(s,a)],

其中: Q(s,a) 表示當前狀態 s 下采取動作 a 的價值; α 為學習率; r 為即時獎勵;γ為折扣因子,用于衡量未來獎勵的重要性; maxa'Q(s',a') 表示在下一狀態 s 中所有可能動作的最大價值.Boltzmann公式通過最大運算符max直接選擇當前狀態下最優動作的價值,從而實現對策略的優化.然而,由于 Q 值的估計在訓練初期可能存在較大的噪聲和偏差,因此直接使用最大值運算符將導致算法過于依賴當前Q 值的估計,忽略其他潛在動作的探索,使算法收斂速度減慢,甚至可能無法收斂到全局最優解.

為解決上述問題,本文提出采用動態Boltzmann Softmax策略替代Boltzmann最優公式中的最大運算符.DBS在Boltzmann最優公式更新中,通過對所有可能動作的價值進行指數加權求和,使用動態溫度參數 βk 調整動作價值的估計[27].在訓練初期,由于對環境的了解不足,溫度參數 βk 較小,使動作價值的估計更平滑,避免因初期估計偏差導致的收斂速度緩慢,甚至無法收斂.隨著訓練的進行, βk 逐漸增大,使對較優動作的價值估計更突出,從而更好地利用已學得的策略.這種基于動態溫度參數的調整機制,使動作價值估計更精確,促進了算法的有效收斂.

溫度參數 βk 通常采用冪函數形式計算:

圖3動態探索率變化曲線

Fig.3Change curve of dynamic exploration rates

βk=k?

其中: k 表示當前的訓練次數,與式(12)中的 k 為同一個參數; p 為階數,通常取 p=2[27-28]

動態BoltzmannSoftmax算子的數學表達式為

其展示了溫度參數 βk 在值函數更新中的應用.將DBS策略引人Boltzmann最優公式以進行 Q 值更新,更新規則如下:

2.4 DBSDER-QL算法訓練流程

整個訓練過程從初始化步驟開始,包括初始化 Q 表、可達性成本 F1 、剝奪成本 F2 和懲罰成本F3 .訓練過程以循環迭代方式進行,分多個訓練輪次.在每輪訓練中,模型先將訓練次數 k 初始化為1,設置初始狀態 s ,并將分配周期 Ψt 初始化為1.

在每個周期內,模型基于動態探索率策略選擇動作 ,并結合當前周期的可達性成本 F1 、剝奪成本 F2 和懲罰成本 F3 計算獎勵函數值 Rt .通過所選動作和當前狀態計算下一時刻狀態 St+1 ,并基于下一狀態的值函數 V(St+1) ,用Boltzmann公式更新 Q 表數值.當分配周期 Ψt 未超過最大分配周期 T 時,循環繼續,直至完成當前次數的所有周期訓練.在每輪訓練結束后,模型更新訓練次數 k ,進入下一輪訓練,直至訓練次數達到最大值 Ne .通過反復迭代優化,模型逐步調整并收斂 Q 值,從而為物資分配問題提供優化策略.圖4為DBSDER-QL算法的完整訓練流程.

圖4DBSDER-QL算法流程 Fig.4FlowchartofDBSDER-QLalgorithm

3 實驗與分析

3.1 實驗環境及數據

本文實驗中,所有程序均基于Python 3.8,并在一臺配備RTX4090顯卡和22核AMD EPYC 處理器的云服務器上運行.實驗所用數據如下[26].

1)需求點初始狀態:所有需求點的初始狀態均為0,表示為 S0=(S1,0,S2,0,?,SN,0)=(0,0,?,0) :2)需求點需求量:每個需求點在每個周期的需求量為1個單位,即 Dt=(D1,t,D2,t,?,DN,t)= (1,1,?,1) ;3)可達性成本:各需求點與分配點之間的可達性成本 ci 取值于集合 C={200,250,300,350 ,400,?} ,例如,分配點到需求點2的可達性代價為 c2=250

3.2 靈敏度分析

在強化學習中,學習率 α 和折扣因子γ是關鍵參數.學習率 α 調節智能體適應新環境的速度,較高的學習率可以使智能體更快地適應新環境,但可能導致結果波動較大;折扣因子γ決定智能體對未來獎勵的重視程度,較高的折扣因子鼓勵智能體進行長遠規劃,而較低的折扣因子則使其更傾向于追求即時回報.

圖5為DBSDER-QL算法在不同學習率 α 和折扣因子γ組合下的加權成本,其中顏色深淺表示加權成本的高低,顏色越深表示成本越高.實驗選取2個單位的應急物資,對3個需求點進行6個周期的物資分配,針對每種學習率 α 和折扣因子 γ 的組合,進行1000次訓練,再計算每組參數下的加權總成本,生成熱力圖,通過分析熱力圖中的淺色區域,可識別出較優的參數組合.最終,通過該實驗選擇學習率 α=0.7 、折扣因子 γ=0.8 的組合.

1290 01277.531290.591285.141278.761266.431283.111241.841274.151265.701268.231270.42 0.1 -1 233.131223.72 1230.971232.19 1220.251227.51 1232.29 1212.33 1207.91 1205.53 1270.48 1260 0.2-1229.85 1 238.26 1 224.171 232.98 1222.571226.241217.021204.64 1202.94 1205.191201.98 0.3-1232.59 1232.301236.28 1231.49 1231.021231.491213.951205.861200.54:1200.791199.86 1230 0.4-1241.02 1231.81 1232.04 1245.411222.91 1234.381218.56 1201.23 1200.131199.85 1197.32 80.5-1-245.06 1235.41 1224.871239.05 1232.781229.161215.90:1201.251195.42 1195.04 1195.84 1200 0.6 -1235.74 1226.80 1231.861226.111241.091226.54 1216.951200.981194.65 1194.651194.65 1196 0.7-1 239.56 1229.21 1236.911234.381228.07 1223.69 1218.531203.871194.65 1194.651194.65 0.8-1238.62 1 233.12 1 239.531 228.67 1232.09 1 227.31 1213.01 1202.111195.061194.65 1194.65 1195 0.9-1235.051239.381236.161234.631227.691226.431217.021198.951194.661194.651194.65 1.0-1235.151235.251231.81 1241.231223.111217.591216.091200.771194.65 1194.651194.65 1194 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 2

3.3 消融實驗

為考察兩種增強策略對模型效果的影響,在DBSDER-QL算法的基礎上刪除不同的增強策略以產生兩種算法,如DBS-QL算法和DER-QL算法,通過比較不同算法的性能評估不同策略的作用.消融實驗中不同算法的設置列于表1,其中:“√\"表示包含該策略;‘ ?× ”表示不包含該策略.

表1消融實驗結果

Table 1 Resultsofablationexperiments

設計一組實驗,采用2個單位的應急物資,對3個需求點進行6個周期的物資分配,共進行1 000 次訓練.實驗中,DBS-QL算法采用固定探索率 ε=0.1 ,并與 DER-QL 和 DBSDER-QL 算法采用式(12)動態調整探索率的情況進行對比.圖6為不同算法在訓練中的對比結果.由圖6可見,DER-QL和DBS-QL算法的曲線在整個訓練過程中波動較大,未表現出明顯的收斂趨勢.而DBSDER-QL算法在動態探索率下表現最優異,能較快收斂,效果明顯優于前兩種算法.

3.4 算法測試

圖6消融實驗各算法性能對比 Fig.6Performance comparison of various algorithmsinablationexperiments

為驗證DBSDER-QL算法的泛化能力,實驗設置1個單位的應急物資,針對 3~8 個需求點進行6個周期的物資分配.如圖7所示,通過加權總成本評估算法性能,并對其收斂性進行展示,不同需求點數量下的算法訓練過程清晰地呈現了其表現.圖7中的 {N,C,T} 表示實驗參數,其中 N 為需求點數量, C 為物資單位數量, T 為物資分配的周期數量.由圖7可見,隨著需求點數量的增加,物資分配方案的復雜度隨之提高,導致算法所需的訓練次數有所增加.DBSDER-QL算法始終能找到最低成本的分配策略,驗證了其在解決物資分配問題上的有效性.

圖7DBSDER-QL算法在多需求點下的收斂性驗證 Fig.7Convergence validation of DBSDER-QL algorithm under multiple demand points

3.5 算法對比分析

下面對DBSDER-QL算法與動態規劃算法、貪心算法和 Q -learning算法進行對比,從加權總成本和計算時間兩方面綜合評估各算法的性能.為進一步揭示各算法在不同情形下的適用性,研究通過設置不同數量的物資(1,2,3個單位)以及不同數量的需求點( 3~8 個)對各算法進行全面對比分析,用{N,C,T} 表示實驗參數,其中 N 為需求點數量, C 為物資單位數量, T 為物資分配的周期數量.例如, {3,1,6} 表示3個需求點、1個單位物資和6個分配周期.表2列出了各算法的成本和計算時間對比結果,表3列出了 Q -leaning算法和DBSDER-QL算法的訓練次數 Ne 對比結果.由表2和表3可見,DBSDER-QL算法在不同規模問題中均具有優勢.

Table2Comparison results of cost and computation time for each algorithm

表3Q-learning算法和DBSDER-QL算法的訓練次數 Ne 對比結果

表2各算法的成本和計算時間對比結果

Table 3 Comparison results of training time Ne between -learning algorithm and DBSDER-QL algorithm

3.5.11個單位物資的對比分析

圖8為在不同需求點數量( (3~8 個)下,分配1個單位物資實驗中,DBSDER-QL算法與動態規劃算法、貪心算法和 Q -learning算法的求解情況.由圖8可見,DBSDER-QL算法和 Q -learning算法在加權總成本方面與動態規劃算法一致,均達到了最優解.動態規劃算法作為精確算法,通過遍歷所有可能情況找到全局最優解,從而保證最低的加權總成本,證明了DBSDER-QL和 Q -learning算法在該任務中的有效性.在計算時間方面,貪心算法雖然計算速度最快,但由于它在每個分配周期中僅選擇當前周期最低成本的方案并累加,因此其加權總成本最高.而動態規劃算法通過全局搜索確保最優解,但計算時間較長.強化學習算法通過試錯過程逐步優化策略找到最優解,DBSDER-QL算法比Q -learning算法能在更少的訓練次數下更快收斂,因此計算時間較短.

圖81個單位物資分配時各算法的加權總成本和計算時間對比結果

Fig.8Comparisonresultsof weighted totalcost andcomputation timeforvarious algorithms with1unitofresourceallocation

3.5.22個單位物資的對比分析

圖9為在不同需求點數量( 3~8 個)下,分配2個單位物資實驗中不同算法的求解表現.由圖9可見,在加權總成本方面,DBSDER-QL、 Q -learning、動態規劃和貪心算法的表現與1個單位物資分配實驗相同;在計算時間方面,隨著需求點數量的增加,DBSDER-QL算法的計算時間優勢逐漸凸顯,略快于動態規劃算法,明顯快于 Q -learning算法.

圖92個單位物資分配時各算法的加權總成本和計算時間對比結果

Fig.9Comparisonresultsof weighted totalcostandcomputation timeforvarious algorithms with2unitsofresource allocati

3.5.33個單位物資的對比分析

圖10為在不同需求點數量 (3~8 個)下,分配3個單位物資實驗中不同算法的求解表現.由圖10可見,隨著物資分配數量的增加,分配方案的數量也隨之增加,算法的計算難度變大.在加權總成本方面,當需求點較少( 3~6 個)時,DBSDER-QL算法性能優于 Q -learning算法,成本接近于動態規劃算法.隨著需求點數量的增加, Q -learning算法在7個和8個需求點時無法求解,動態規劃算法在8個需求點時也無法求解,而DBSDER-QL算法仍能成功求解,顯示了其在不同規模問題中的魯棒性.在計算時間方面,DBSDER-QL算法隨著需求點數量的增加,明顯優于動態規劃和Q-learning算法.

綜上所述,針對 Q -learning算法在實際應用中存在固定探索率導致探索與利用不平衡的問題和Boltzmann 最優公式中最大運算符導致過度貪婪的問題,本文提出了一種 DBSDER-QL算法.首先,引人動態 Boltzmann Softmax 策略替代 Boltzmann 最優公式中的最大值,有效解決了過度貪婪問題.其次,通過動態探索率策略提高了算法的收斂速度和穩定性.在不同物資分配量和需求點數量實驗中,考察了不同情形下算法之間的性能差異,驗證了DBSDER-QL算法的有效性和適用性.實驗結果表明,在大規模場景下,DBSDER-QL算法在加權總成本和計算效率方面優于動態規劃算法、貪心算

法和 Q -learning算法.

圖103個單位物資分配時各算法的加權總成本和計算時間對比結果

Fig.10Comparisonresultsof weighted totalcostandcomputation timeforvarious algorithmswith3unitsofresourceallocation

參考文獻

[1]龍海波,楊家其,尹靚,等.基于魯棒優化的不確定需求下應急物資配送多目標決策模型[J].吉林大學學報(工 學版),2023,53(4):1078-1084. (LONG H B,YANG JQ,YIN L,et al. Multi-objective Decision-Making on Emergency Material Distribution under Uncertain Demand Based on Robust Optimization [J]. Journal of Jilin University(Engineering and Technology Edition),2023,53(4):1078-1084.) [2]劉建輝,王瓊.基于多目標蟻群算法的多配送中心應急物資配送車輛調度優化方法[J].吉林大學學報(工學 版),2025,55(2): 631-638.(LIU JH,WANG Q. Optimization Method for Emergency Material Delivery Vehicle Scheduling in Multiple Distribution Centers Based on Multi-objective Ant Colony Algorithm[J]. Journal of Jilin University (Engineering and Technology Edition),2025,55(2): 631-638.) [3]張國富,管燕妮,蘇兆品,等.多階段應急物資多目標連續分配問題建模與求解[J].計算機工程,2024,

50(12):329-345. (ZHANG G F,GUAN Y N,SU Z P,et al. Modeling and Solving of the Multi-objective Continuous Distribution Problem for Multi-stage Emergency Supplies [J]. Computer Enginering,2O24,50(12):

329-345.)

[4]YU L N,YANG H S,MIAO L X,et al. Rollout Algorithms for Resource Alocation in Humanitarian Logistics [J].IISE Transactions,2019,51(8):887-909.

[5]ZHANG YW,LI Z P,JIAO P B,et al. Two-Stage Stochastic Programming Approach for Limited Medical Reserves Allocation under Uncertainties [J]. Complex Intelligent Systems,2021,7(6): 3003-3013.

[6]LIU Y X,WANG S X,LI X H. A New Coperative Recourse Strategy for Emergency Material Allocation in Uncertain Environments [J]. Frontiers in Physics,2022,10: 835412-1-835412-10.

[7]JAIN S, BHARTI K K. A Combinatorial Optimization Model for Post-Disaster Emergency Resource Alocation Using Meta-Heuristics [J]. Soft Computing,2023,27(18):13595-13611.

[8]白天,呂璐瑤,李儲,等.基于深度強化學習的游戲智能引導算法[J].吉林大學學報(理學版),2025,63(1):

91-98.(BAI T,LU L Y,LI C,et al. Game Inteligence Guidance Algorithm Based on Deep Reinforcement Learning[J]. Journal of Jilin University(Science Edition),2025,63(1):91-98.)

[9]郝嘉寧,姚永偉,葉育鑫.本體指導下的安全強化學習最優化策略[J].吉林大學學報(理學版),2025,63(1):

83-90.(HAO J N, YAO Y W,YE Y X. Optimization Strategy for Safety Reinforcement Learning Guided by Ontolog[J]. Journal of Jilin University(Science Edition),2025,63(1):83-90.)

[10]張一博,高丙朋.基于深度強化學習的AUV路徑規劃研究[J].東北師大學報(自然科學版),2025,57(1):

53-62.(ZHANG Y B,GAO B P. AUV Path Planning Research Based on Deep Reinforcement Learning [J]. Journal of Northeast Normal University (Natural Science Edition),2025,57(1) : 53-62.) [11]董小剛,韓元元,秦喜文.基于深度確定性策略梯度算法的股票投資組合策略研究[J].東北師大學報(自然科 學版),2025,57(1): 29-34. (DONG XG,HAN Y Y, QIN X W. Research on Stock Portfolio Strategy Based on Deep Deterministic Policy Gradient Algorithm [J]. Journal of Northeast Normal University(Natural Science

[12]YU L,ZHANG C R,JIANG J Y,et al. Reinforcement Learning Approach for Resource Allcation in Humanitarian Logistics [J]. Expert Systems with Applications, 2021,173:114663-1-114663-14.

[13]LIANG J, ZHANG Z J,ZHI Y P. Multi-armed Bandit Approaches for Location Planning with Dynamic Relief Supplies Allocation under Disaster Uncertainty [J]. Smart Cities,2025,8(1): 5-1-5-29.

[14]ASLAN S,DEMIRCI S. An Immune Plasma Algorithm with Q Learning Based Pandemic Management for Path Planning of Unmanned Aerial Vehicles [J]. Egyptian Informatics Journal,2024,26:100468-1-100468-19.

[15]VAN HASSELT H. Double Q-Learning [J]. Advances in Neural Information Processng Systems,2010,2: 2613-2621.

[16]VAN HASSELT H. Estimating the Maximum Expected Value: An Analysis of(Nested) Cross Validation and the Maximum Sample Average [EB/OL]. (2013-02-28)[2025-01-01]. https://arxiv.org/abs/1302.7175.

[17]FOX R,PAKMAN A, TISHBY N. Taming the Noise in Reinforcement Learning via Soft Updates [EB/OL]. (2015-12-28)[2025-01-01]. https://arxiv.org/abs/1512.08562.

[18]YU L N, ZHANG CR,YANG H S,et al. Novel Methods for Resource Allcation in Humanitarian Logistics Considering Human Suffering [J]. Computers Industrial Engineering,2018,119:1-20.

[19]HUANG K,JIANG Y P,YUAN Y F,et al. Modeling Multiple Humanitarian Objectives in Emergency Response to Large-Scale Disasters [J]. Transportation Research Part E:Logistics and Transportation Review,2015,75: 1-17.

[20]FAN JQ,WANG Z R,XIE Y C,et al. A Theoretical Analysis of Deep Q Learning [C]//Proceedings of the 2nd Conference on Learning for Dynamics and Control. [S.1.]: PMLR,202O: 486-489.

[21] JIN C,ALLEN-ZHU Z,BUBECK S, et al. Is Q -Learning Provably Eficient? [EB/OL]. (2018-07-10) [2024-12-10]. https://arxiv.org/abs/1807.03765.

[22] JANG B,KIM M,HARERIMANA G,et al. Q Learning Algorithms:A Comprehensive Classification and Applications [J]. IEEE Access,2019,7:133653-133667.

[23]CLIFTON J,LABER E. Q Learning: Theory and Applications [J]. Annual Review of Statistics and Its Application,2020,7:279-301.

[24]WATKINS C JC H, DAYAN P. Q-Learning [J]. Machine Learning,1992,8: 279-292.

[25]李石磊,葉清,袁志民,等.在線深度強化學習探索策略生成方法綜述[J].機器人,2024,46(6):753-768. (LI S L,YE Q,YUAN Z M,et al. A Survey on Online Deep Reinforcement Learning Exploration Strategy Generation Methods[J].Robot,2024,46(6):753-768.)

[26]SEMROV D,MARSETIC R, ZURA M,et al. Reinforcement Learning Approach for Train Rescheduling on a Single-Rrack Railway [J]. Transportation Research Part B: Methodological, 2O16,86: 250-267.

[27]PAN L,CAI QP,MENG Q,et al. Reinforcement Learning with Dynamic Boltzmann Softmax Updates [C]// Proceedings of the Twenty-Ninth International Joint Conference on Artificial Inteligence.New York:ACM, 2020:1992-1998.

[28]HAARNOJA T,TANG H,ABBEEL P,et al. Reinforcement Learning with Dep Energy-Based Policies [C]// International Conference on Machine Learning. [S.1.]: PMLR,2Ol7:1352-1361.

(責任編輯:韓嘯)

猜你喜歡
分配動作成本
2021年最新酒駕成本清單
河南電力(2021年5期)2021-05-29 02:10:00
應答器THR和TFFR分配及SIL等級探討
遺產的分配
一種分配十分不均的財富
溫子仁,你還是適合拍小成本
電影(2018年12期)2018-12-23 02:18:48
績效考核分配的實踐與思考
動作描寫要具體
畫動作
動作描寫不可少
非同一般的吃飯動作
主站蜘蛛池模板: 97青草最新免费精品视频| 色综合成人| 激情影院内射美女| 日韩av手机在线| 高清乱码精品福利在线视频| 亚洲—日韩aV在线| 色婷婷电影网| 亚洲成网站| 国产探花在线视频| 日本精品视频一区二区| 日韩高清中文字幕| 无码在线激情片| 国产在线欧美| 免费国产黄线在线观看| 国产日本一区二区三区| 国产Av无码精品色午夜| 国产成人精品三级| 久久毛片网| 玩两个丰满老熟女久久网| 亚洲高清国产拍精品26u| 波多野结衣一区二区三区四区视频 | 在线观看91香蕉国产免费| 手机在线国产精品| 亚洲天堂首页| 91探花国产综合在线精品| 18禁色诱爆乳网站| 色妞永久免费视频| 国产亚洲视频中文字幕视频 | 老司国产精品视频| 国产草草影院18成年视频| 女人18毛片一级毛片在线 | 国产农村妇女精品一二区| 日韩国产精品无码一区二区三区| 国产精品福利导航| 国产自在线播放| 亚洲无码日韩一区| 精品视频第一页| 国产一二三区视频| 夜夜操天天摸| 久久免费看片| 91精品国产综合久久不国产大片| 四虎亚洲国产成人久久精品| 丁香六月激情综合| 国产亚洲美日韩AV中文字幕无码成人| 婷婷99视频精品全部在线观看 | 国产成人综合日韩精品无码首页| 2021国产乱人伦在线播放| 亚洲精品777| 国产在线观看91精品亚瑟| 国产成人一区二区| 亚洲区视频在线观看| 亚洲第一综合天堂另类专| 亚洲视屏在线观看| 国产福利微拍精品一区二区| 免费视频在线2021入口| 亚洲日本中文字幕乱码中文 | 国产精品网址你懂的| 亚洲免费毛片| 色AV色 综合网站| 亚洲国产成人精品一二区 | 91麻豆精品国产高清在线| 国内精品小视频在线| 男女性色大片免费网站| 91在线日韩在线播放| 亚洲色欲色欲www在线观看| 亚洲成人精品| 国产农村1级毛片| 国产毛片基地| 欧美区一区二区三| 国产一在线观看| 国产精品私拍在线爆乳| 黄色三级网站免费| 色哟哟精品无码网站在线播放视频| 日韩精品毛片人妻AV不卡| www.国产福利| 久久精品一卡日本电影| 国产午夜一级毛片| 99热线精品大全在线观看| 激情在线网| 欧美a在线看| 91久久夜色精品国产网站| 精品欧美一区二区三区久久久|