基于深度強化學習的停車位智能動態分配方法

2023-12-05 12:46:48馮毅彬裴祥靜陳柱光黃星翔胡文豪陳向洋

科技創新與應用 2023年34期

馮毅彬，裴祥靜，陳柱光，黃星翔，胡文豪，陳向洋

（1.華南理工大學土木與交通學院，廣州 510641；2.廣東省外語藝術職業學院財會金融學院，廣州 510507）

停車位分配是由停車系統為每一個到達的車輛進行停車位分配，以避免車輛“低效尋泊”造成的時間損耗和能源損耗，并最大化利用停車資源。Mouskos 等[1]將停車問題刻畫為有限資源的時空分配問題，利用混合整數線性規劃模型求解了在最小化用戶費用下的最優解。張水潮等[2]提出了基于用戶預約信息的共享停車位分配模型，實現了用戶端步行距離和平臺端停車費收益的平衡。Kotb 等[3]以停車位時空利用率的最大化為目標，將停車需求分配與動態價格管理結合，設計了MILP 模型并用CPLEX 求解器進行求解。Zhao 等[4]提出了一種智能體數值仿真方法，考慮了停車需求到達和離開的不確定性，設計了具有魯棒性的停車位分配策略。與傳統基于模型和求解算法的方法相比，深度強化學習在處理復雜系統的決策問題上更具優勢[5]。Ke等[6]在網約車派單問題上提出了基于深度強化學習的智能延遲匹配的策略，結果表明該策略可以有效減少用戶的等待時間。Wen 等[7]提出了一種基于深度Q 學習（DQN）的共享汽車需求響應式的調度網絡，該方法可有效減少車隊規模和行駛距離。趙聰等[8]提出了基于多智能體深度Q 學習的停車系統智能延時匹配方法，智能體自主決策延時等待時間，進入分配池后由系統利用匈牙利算法進行泊位匹配，結果表明在停車供需相對平衡的環境下，可有效減少用戶的停車時間和步行距離。基于此，本研究結合智能延時匹配策略，利用DQN 深度強化學習算法進行停車位的智能分配，以其智能性和自適應性強的特點，實現系統的“長視性”收益，進一步提升停車系統的周轉效率和服務水平。

1 智能停車位分配系統

智能停車位分配系統的示意圖如圖1 所示。在系統準備階段，以目標停車場的環境信息作為狀態空間，構建基于DQN 算法的車位分配模型。通過歷史數據提取停車行為特征，并據此設置停車需求分布參數，以建立停車場的數值仿真系統。模型通過仿真系統訓練，輸出智能分配策略，最后加載至停車系統服務器即可投入使用。在系統應用階段，當用戶到達停車場入口時，系統會根據實時狀態信息，采取智能延時的決策，延時等待時間結束后，再為用戶動態分配最優停車位。其中，智能延時匹配策略指車輛到達停車場后，通過適當的延時等待，以獲得更優質的泊位資源。

圖1 智能停車位分配系統示意圖

2 馬爾科夫決策過程刻畫

2.1 智能體

將停車管理者設為智能體，為每個到達的停車需求分配一個最優停車位。

2.2 狀態

為智能體每一時刻所能觀測到的停車場環境信息和車輛信息。定義狀態空間

式中：Xocc為車位占有狀態，Xcha為充電樁分布信息，二者均采用One-hot 編碼；treal為實際時間；車輛為第i輛車的能源類型，0 為油車，1 為電車為第i輛車的累計延遲時間。

2.3 動作

包含是否采取延時匹配和分配車位編號。定義動作空間

式中：n為智能體采取的動作值；N為停車場內的車位數；當at＜N，表示對該車輛進行延時匹配；當at＞N，表示直接匹配，且匹配對應的車位編號為（at-N）。

2.4 獎勵函數

定義如下

式中：Rt表示獎勵函數，rpar表示停車位距離對應獎勵值，rcha表示充電需求對應獎勵值，rdelay表示延時匹配對應獎勵值。

式中：L為基準距離，使其距離越小，獎勵值越大；ldri為從入口到停車位的駕駛距離，lwalk為停車位到目的地的步行距離；vdri/vwalk為車輛行駛速度與人步行速度的比值；α 為用戶的步行意愿系數。

式中：β 為用戶延時等待的懲罰系數；twait為用戶延時等待的時間。

2.5 狀態轉移

由一個元組（s，a，R，s′）表示，可描述為：當車輛進入停車場時，智能體根據當前狀態s，輸出動作a為車位分配決策，并獲得相應的獎勵R，最后更新停車場環境到下一個狀態s′。

3 DQN 深度強化學習算法框架

本研究采用全連接神經網絡（FCNN）來逼近Q值函數，以有效處理高維度的狀態和動作空間。每一步中輸出最大Q值對應的動作為決策，訓練后得到車位分配策略πθ（s，a），并以權重參數的形式儲存在神經網絡中。目標網絡是一個與估計網絡（主網絡）結構相同的神經網絡，但其參數按一定的間隔更新。估計網絡用于估計當前狀態下的Q值，而目標網絡用于計算目標Q值。通過引入目標網絡來生成目標Q值，減少訓練中的目標值與估計值之間的相關性，以提高算法穩定性。其中Q值的計算公式如下

式中：Q（s，a）表示在狀態s下采取動作a的Q值；R為采取動作獲得的即時獎勵；γ 為折扣因子，maxQ（s′，a′）表示下一個狀態s′下所有可能動作的最大Q值，且由目標Q網絡估計。

在動作選擇過程中加入了ε-greedy 探索策略，以幫助智能體避免陷入局部最優解，更好地全面探索環境。其公式如下

式中：a為智能體選擇的動作，argmaxQ（s，a）表示在當前狀態s下選擇Q值最大的動作；N為停車場中的車位數，randint（0，N-1）表示[0，N-1]間的一個隨機整數，即對應車位的編號；p為選擇概率；ε 為探索率，會隨著訓練逐漸減小。

損失函數是目標Q值與估計Q值之間的差異程度，通過最小化損失函數，可以使估計Q值逐步接近真實的Q值函數，用于指導模型在訓練過程中的參數更新。本模型采用均方誤差（MSE）來計算損失函數L（θ），其公式如下：

式中：θ 為模型參數，N為樣本數量，si為輸入狀態，ai為模型選擇的動作，Qe（si，ai；θ）表示模型對狀態si所選擇動作ai的估計Q值，Qti則為目標Q值。

由于狀態和動作的維度較大，還需采取經驗回放策略，將智能體所經歷的經驗儲存在經驗回放池中，并在訓練時從中隨機抽取一定數量的經驗進行訓練，從而提高數據利用率和訓練穩定性。本研究的算法框架設計示意圖如圖2 所示。

圖2 DQN 算法框架設計

4 停車場數值仿真系統

本研究通過提取停車場訂單數據中的停車行為特征，建立數值仿真系統作為與深度強化學習智能體相交互的外界環境。仿真系統可實現車輛到達、充電需求、車位匹配和狀態更新等重要環節，以模擬實際停車場中的環境變化與停車行為，為智能體學習提供訓練材料。當一個停車需求產生時，系統會為其分配最優車位，該停車位的使用狀態隨即變為“占用”，其停車時長結束后則重新變回“空閑”。本仿真系統設定停車位數量為100 個，配有充電樁的停車位數量為50 個，到達車輛為電車的概率為50%。同時以現實中的1 s 作為仿真步長，且不同時段的停車行為特征具有差異。其中車輛到達服從泊松分布，參數λ 表示單位時間內平均到達的車輛數；停車時長服從正態分布，參數μ 和σ分別代表均值和標準差，具體參數設定見表1。

表1 停車行為仿真參數

5 算例分析

本研究采用PyTorch 框架對神經網絡進行構建，并將模型代入數值仿真系統，選用Adam 訓練器進行訓練。其中DQN 算法超參數設置見表2。

表2 算法超參數設定

為了測試本研究提出的停車位智能動態分配方法的有效性和魯棒性，本文設計了貪心算法、隨機狀態2種不同的分配策略作為對照，并將下述方法在數值仿真系統中進行同步測試，對不同評價指標進行對比分析。其中貪心算法是一種常用的啟發式算法，以“先到先得”“用戶最優”為原則，是最貼合人為邏輯的分配方法。貪心算法通過在每一步選擇當前狀態下的最佳選擇，具有簡單、高效的優點，但不能保證獲得全局最優解。而隨機狀態是用戶隨機選擇停車位，較符合日常生活中的停車行為特征，且反映了現實中普遍應用的由車輛隨機停放的傳統管理模式。

5.1 平均獎勵值分析

本研究將DQN 算法、貪心算法和隨機狀態3 種方法輸入到數值仿真系統，進行同步訓練測試。平均獎勵對比圖如圖3 所示，可見得雖然在訓練前期貪心算法的平均獎勵值最高，但隨著迭代次數的增加，DQN 算法的系統平均獎勵值要明顯高于貪心算法和隨機狀態。由此可見，DQN 算法對時空資源占用及變化規律的掌握，能夠有效學習到復雜狀態與動作間的映射關系，在分配策略上更具遠見性和魯棒性。

圖3 平均獎勵訓練對比圖

5.2 停車場周轉率分析

停車周轉率是停車場中每天每車位的平均使用次數，是衡量停車系統效率的重要參考指標。將上述3 種方法在數值仿真系統中進行100 次同步測試，得到如圖4 所示的停車場周轉率對比圖。由此可見在基于DQN 算法車位分配模式下的停車場周轉率為5.27 次/天/車位，對比貪心算法和隨機狀態，分別顯著提升了9.8%和6.7%。因此，停車位智能動態分配策略的應用，從系統層面顯著提升了停車場的運行效率和停車位的利用率。

圖4 停車場周轉率對比圖

5.3 平均停車總時間分析

對于停車用戶來說，個人停車效率是用戶最關心、提升用戶滿意度最顯著的重點。平均停車總時間，包括到達目標車位的駕駛時間和到達商場出入口的步行時間，是用戶停車效率最直觀、最明顯的評價指標。本文將采取延時策略的DQN 算法、不采取延時策略的DQN 算法、貪心算法和隨機狀態共4 種策略，在數值仿真系統中對平均停車總時間進行100 次測試對比，得到了如圖5 所示的平均停車總時間對比圖。由此可見，采取智能延時匹配策略的DQN 算法應用下的平均停車總時間最短，為67.45 s，低于不采取延時匹配策略的DQN 算法2.8%，低于貪心算法6.7%，低于隨機狀態15.9%。延時匹配策略雖然增加了一定的等待時間，但由于能夠獲得更優質的停車位，總體停車時間得以下降。因此，可認為DQN 算法框架下動態車位分配與智能延時匹配策略的結合，提升了算法性能和用戶停車效率，對比其他策略更具有全局性和遠視性。

圖5 平均停車總時間對比圖

6 結束語

本研究在DQN 深度強化學習算法框架下，實現停車位動態分配和智能延時匹配策略的結合。將停車場管理者抽象為智能體，通過數值仿真系統模擬不同的環境狀態進行學習，訓練得到停車位智能分配策略，能夠為每一個用戶實時選擇匹配等待時間，等待后再動態分配最優停車位。仿真測試結果表明，停車位智能動態分配方法能夠更有效減少用戶的平均停車總時間，提高停車系統的周轉率。本研究適用于諸多應用場景，如各大公共場所的配套停車場和自動化立體停車庫，還順應了智能代客泊車技術的發展趨勢，為車輛自動停泊過程中的車位匹配問題提供解決方案，豐富現有研究。