基于深度強化學習的車輛多目標協同巡航決策控制系統設計

2023-10-28 10:24:50羅富貴藍俊歡

計算機測量與控制 2023年10期

宋倩，羅富貴，藍俊歡

(1.河池學院大數據與計算機學院，廣西河池 546300；2.河池市供電局，廣西河池 546300)

0 引言

車輛多目標協同巡航過程中存在多障礙物，影響車輛多目標協同巡航決策的性能。車輛巡航避障在全方位控制方面存在一定的欠缺，為此車輛多目標協同巡航決策控制成為當前相關領域的重點研究課題。深度強化學習是一種極其接近人類思維方式的新型人工智能方法，將強化學習決策機制與深度學習感知思維完美結合起來，可以直接根據輸入圖像制定控制執行指令[1]。該算法的應用為解決復雜系統感知決策問題提供了全新的思路，既能夠根據預期回報結果對動作價值函數做出評價，也可以通過既定策略將當前執行狀態映射為相應的動作指令，從而在得到準確數值解的同時，制定與目標對象相關的最優策略執行原則。相較于其他類型的應用算法，深度強化學習行為打破了數據樣本之間的制約性關系，可以在推導完整信息學習規則的同時，定義多個獨立的神經元結構，不但解決了網絡環境中信息參量的不合理分配問題，還深化了學習主機的區域性主導地位，使得網絡設備能夠直接處理已存儲的數據樣本對象[2]。

文獻[3]提出自適應巡航控制系統。巡航決策系統對于車輛目標的管理主要包括軌跡規劃、全局路徑規劃與行為決策。車輛運動行為要求行進軌跡必須具有平順性、連續性的特征，所以構造連接始末位置的連續平滑軌跡是巡航決策系統的主要工作目標。自適應巡航控制系統借助卡爾曼濾波器及模型預測控制器原理，建立跟車動力學模型，再通過求解向量松弛因子的方式，求解決策控制指令的最優執行結果。文獻[4]提出基于變采樣時間模型的巡航系統。根據車輛速度變化率條件，建立MPC控制器閉環，再聯合Carsim、Matlab、Simulink等多個執行軟件，對決策指令與車輛巡航目標之間的適配性進行測試。

上述兩類系統的應用，只能實現車輛在某一特定巡航方向上的精準避障，在全方位控制方面存在一定的欠缺。為解決上述問題，針對基于深度強化學習的車輛多目標協同巡航決策控制系統展開研究。

1 巡航決策控制系統的主要應用結構

車輛多目標協同巡航決策控制系統的主要應用結構包括控制電路、處理器子模塊、多目標解耦模塊，本章節將針對上述模塊結構的設計方法展開深入研究。

1.1 主控制電路

巡航決策控制系統采用12 V直流電源提供傳感器所需的電量信號，因此需要ADC傳輸導線實現對電量信號的分配處理。STC12C5A60S2單片機自帶A/D轉換功能，可以在無外設AD模塊設備的情況下，調節巡航目標傳感器、航速傳感器對于決策對象的捕獲及處理能力，由于A/D轉換功能可以實現模擬信號與數字信號的轉換，所以在系統運行過程中，巡航目標傳感器可以在IN4007設備的配合下[5-6]，確定K1、K2設備兩端負載電壓的具體數值，面對車輛巡航目標時，K1設備負責檢測目標節點的橫向坐標，K2設備負責檢測目標節點的縱向目標。IN4007設備具備較強的電信號集合處理能力，可以根據車輛目標的具體航速水平，完成對電量信號的按需分配。具體的主控制電路結構如圖1所示。

圖1 主控制電路示意圖

航速傳感器在采集車輛目標行進速度的過程中，由于外界信號量大且雜亂，會導致航速傳感器采集到的信息出現細微振動狀態，但由于STC12C5A60S2單片機所輸出數字信號的總量有限，能耗保證信號傳輸過程的穩定性，這也是傳感器振幅能夠得到有效控制的主要原因。

1.2 處理器子單元模塊

1.2.1 ACC控制器

ACC控制器是主控制電路的下級負載結構，如圖2所示，可以在傳感器、決策主機等多個應用元件的配合下，制定多項執行指令，并能夠根據固定目標節點、運動目標節點的實時排列狀態，來判斷系統主機的當前執行狀態是否能夠滿足協同處理車輛目標節點的實際應用需求[7]。控制器主要部件由ACC執行設備、定向傳感器、動向傳感器、7280S控制器、PLC決策主機五部分共同組成。其中，ACC執行設備同時控制定向傳感器與動向傳感器，可以在輸出車輛行進指令的同時，標記固定目標節點、運動目標節點所處的實時位置，并可以借助傳輸信道組織，將已生成的指令文本反饋至系統核心控制主機之中。7280S控制器、PLC決策主機是兩個相互關聯的控制器執行結構，負責制定循環控制指令與決策執行指令，且為保證系統主機能夠對車輛目標進行不間斷地監測，這兩類設備元件可以在脫機狀態下保持長時間的穩定運行[8]。

圖2 ACC控制器結構簡圖

由于ACC控制器元件對于指令文件的寄存能力有限，所以在決策控制系統快速運行的過程中，有一部分信息樣本會被直接存儲至數據庫主機之中。

1.2.2 MPC軌跡跟蹤器

MPC軌跡跟蹤器控制指令的實現是以選定被控車輛目標為基礎，生成最優控制解與實際巡航軌跡。MPC調度主機通過全局規劃的方式，確定被控車輛目標在既定巡航區域內所處位置，再聯合深度強化學習算法應用原則，求解與車輛巡航軌跡相關的運動學方程。對于系統主機而言，求解所得結果會以狀態量參數的方式輸入既定執行模塊，以供ACC控制器、雙閉環控制器元件對其進行直接調取與利用[9-10]。MPC軌跡跟蹤器的運行原理如圖3所示。

圖3 MPC軌跡跟蹤器運行原理

已被輸入的被控車輛目標信息經過系統主機的計算與處理之后，會形成完整的動力學約束條件，隨著數據樣本的不斷傳輸，MPC調度主機中生成參考軌跡路線與動力學參考模型，而這些信息參量都會為決策指令的生產提供數據樣本支持。最終執行階段，MPC軌跡跟蹤器整合所得到的參考軌跡、決策指令與動力學模型表達式，并聯合真實的車輛目標對象節點信息，計算最優解結果，從而使系統控制主機能夠掌握完整的車輛巡航軌跡路線。

1.2.3 雙閉環控制器

相較于其他處理器子單元模塊，雙閉環控制器的運行模式較為復雜，由兩條完全獨立的巡航決策指令傳輸線路組成，能夠同時調度PI控制器、轉矩響應器、同步補償器與PMSM控制器，既可以在制定決策控制指令的過程中，更改數據信息文本的傳輸方向，也可以在不改變信息傳輸方向的情況下，提取系統運行所必需的關鍵數據樣本[11]。雙閉環控制思想的具體執行原理如圖4所示。

圖4 雙閉環控制回路

PI控制器與轉矩響應器之間的信息互傳：PI控制器作為巡航決策指令輸出端，可以直接控制下級轉矩響應器，當車輛目標行駛至既定巡航區域內，系統主機所生成的所有決策指令都會經由轉矩響應器設備，分發至其他應用元件。

PMSM控制器與同步補償器之間的信息互傳：PMSM控制器作為巡航決策指令輸出端，不具備直接控制同步補償器元件的能力，但卻可以在運行過程中，借助巡航決策指令干擾補償器設備的運行狀態，但這種干擾行為的表現能力具有明顯時效性，一般來說，車輛目標巡航軌跡在既定決策區域中的累積量越大，PMSM控制器對于同步補償器元件的干擾作用能力就越強[12]。

1.3 多目標解耦模塊

為適應雙閉環控制器的運行需求，多目標解耦模塊同時設置直軸解耦元件、曲軸解耦元件兩類執行設備，能夠對決策控制主機輸出的車輛巡航信號進行交叉分析，并從中選取數據樣本的重合部分，作為制定解耦信號所必需參考的信息參量。所謂多目標解耦就是指決策控制主機在單位時間內所能檢索到的車輛目標對象并不唯一，由于這些目標對象所描述的車輛運動狀態并不相同，所以處理器元件所表現出的執行情況也并不相同[13-14]。一般來說，直軸解耦元件負責記錄直行運動區域內的車輛巡航目標節點，而曲軸解耦元件負責記錄轉彎運動區域內的車輛巡航目標節點，雖然巡航節點的標記形式不同，但對于決策控制主機而言，這些標記信息都可供目標處理器設備的直接利用。多目標解耦模塊的運行原理如圖5所示。

如果直軸解耦信息、曲軸解耦信息存儲于相同的數據庫主機之中，則表示系統主機所選取車輛目標屬于相同的巡航區域，車輛執行往復巡航任務的可能性較大。

2 車輛位姿估計

為實現對車輛巡航目標的精準決策，還需借助深度強化學習模型，定義車輛目標數據集，并聯合相關系數指標，求解協同參數的實際取值范圍。

2.1 深度強化學習模型

深度強化學習模型是系統主機決策車輛巡航目標所遵循的核心處理原則，可以在一級、二級協同節點的作用下，分析所選目標對象的實時巡航狀態，從而使得系統主機能夠精準定義決策控制指令。深度強化學習模型表現形式如圖6所示。

圖6 深度強化學習模型

圖6中，一級協同節點對于車輛目標的提取具有不確定性，所以未進行強化學習處理的數據信息樣本并不滿足制定決策控制指令的應用需求[15-16]。二級協同節點負責對車輛目標進行整理，并可以按照核心處理器的運行需求，對已采集到的數據信息樣本進行強化學習，從而生成滿足決策控制需求的巡航對象信息。設δ表示一個無序的車輛目標對象，qδ、wδ表示兩個不相等的協同處理系數，χ表示強化度指標，α表示深度學習向量的初始取值，聯立上述物理量，可將深度強化學習模型表達式定義為：

(1)

在一個標準的巡航運動區域內，深度強化學習模型對于車輛目標對象的捕捉準確度必須達到100%，且模型表達式不存在為空值的可能，所以參數δ的取值只能屬于[0，+∞)的數值區間。

2.2 車輛目標數據集

車輛目標數據集是包含所有車輛目標協同巡航特征的樣本集合空間，對于深度強化學習模型而言，其在定義決策控制指令時所需應用的數據樣本都必須來自該樣本集合，所以該集合對于樣本數據的完整性提出了明確要求[17-18]。在深度強化學習模型中，車輛目標數據的單位累積量為ΔQ，隨著單位巡航時間的延長，ΔQ參數的實際取值也會不斷增大。q1，q2，…，qn表示n個可能出現的樣本學習參數，在滿足深度強化學習模型處理標準的情況下，可將學習參數求解結果表示為：

(2)

(3)

若目標車輛處于靜止狀態，且靜止節點處于單位巡航區域內，則表示整個巡航區域內只存在一個目標決策節點，當前情況下，深度強化學習模型規定車輛目標數據集中n參數的取值等于自然數“1”。

2.3 協同參數

協同參數決定了深度強化學習模型對于車輛目標對象的處理能力，系統主機制定巡航決策控制指令時，該項物理參數的取值越大，就表示單位車輛巡航區域的劃定范圍越大。系統主機對于車輛目標協同巡航的要求就是指所選定目標決策節點必須處于同一巡航區域之內，對應深度強化學習模型的約束要求，就是指所有目標決策節點必須屬于同一個車輛目標數據集合[19-20]。規定y1，y2，…，yn表示n個不同的車輛目標節點對象，ymin表示所選取目標節點對象的最小取值結果，ymax表示目標節點對象的最大取值結果，為滿足深度強化學習模型對于車輛目標的決策處理需求，要求目標節點對象取值應滿足式(4)：

(4)

設i表示單位巡航區域內的車輛目標分散度指標，聯立式(4)，推導協同參數定義式為：

(5)

如果式(5)的計算結果小于零，則表示車輛運動方向與系統主機對于決策節點的規劃方向相反；如果式(5)的計算結果大于零，則表示車輛運動方向與系統主機對于決策節點的規劃方向相同；如果式(5)的計算結果等于零，則表示所選車輛目標保持靜止狀態。

3 巡航決策軌跡規劃

在深度強化學習模型的基礎上，根據車輛運動坐標轉換原則，對選取決策目標進行量化分析，再參考所得計算結果，實現對巡航決策軌跡的規劃與控制。

3.1 坐標轉換

由于車輛運動行為只存在于平面區域內，所以對于巡航決策目標的坐標轉換處理也只需參考橫軸、縱軸兩個方向上的軌跡偏移量[21-22]。對于橫軸方向上的軌跡偏移量，需要參考X軸方向上的坐標轉換結果，對于縱軸方向上的軌跡偏移量，則需要參考Y軸方向上的坐標轉換結果。

X軸方向上的坐標轉換定義式：

(6)

Y軸方向上的坐標轉換定義式：

(7)

3.2 多目標量化分析

多目標量化分析就是根據車輛目標標記結果，制定巡航決策執行指令的過程，對于系統控制主機而言，只有保證多目標量化分析結果的唯一性，才能夠確保已定義車輛目標處于同一巡航區域之中[23-24]。g表示巡航區域分配系數，l1表示所選巡航區域內n個不重合的決策節點，f表示無誤差量化參數。在上述物理量的支持下，聯立式(6)、式(7)，推導多目標量化分析表達式如式(8)：

(8)

在不考慮非精準巡航避障問題的情況下，系統控制主機可以根據多目標量化分析結果，制定車輛多目標協同巡航決策指令，從而確保式(8)計算結果的合理性，是實現控制系統應用的必要條件。

4 對比實驗分析

4.1 實驗說明

本文設計了基于深度強化學習的車輛多目標協同巡航決策控制系統。

系統硬件通過調節ACC控制器、MPC軌跡跟蹤器、雙閉環控制器的實時連接狀態確定目標車輛所處巡航位置，利用多目標解耦模塊提供巡航決策控制系統硬件平臺。根據深度強化學習模型估計車輛巡航位姿，確定坐標轉換原則，結合巡航決策控制系統硬件，實現基于深度強化學習的車輛多目標協同巡航決策控制系統的設計。

為驗證基于深度強化學習的車輛多目標協同巡航決策控制系統的有效性，設計實驗環節。行駛車輛在巡航區域內只具備橫、縱兩個方向上的運動能力，所以本次實驗需分別在這兩個方向上以及全方位控制方面，對所選控制系統的避障準確度進行驗證。劃定長200 m、寬50 m的巡航區域作為實驗環境，在中部區域選擇5個決策節點作為避障性能測試位置，相鄰節點之間的物理間隔為10 m。設置障礙物物體的長度和寬度為0.3 m*0.3 m，具體實驗步驟如下：

1)當目標車輛運動至1、2、3、4、5號節點時，利用基于深度強化學習的車輛多目標協同巡航決策控制系統，統計車輛實際運動位置與障礙物位置之間的間隔數據，所得結果為實驗組數據；

2)利用自適應巡航控制系統重復步驟1)，所得結果為對照a組數據；

3)利用基于變采樣時間模型的巡航系統再次重復步驟1)，所得結果為對照b組數據；

4)由于設置的障礙物物體的長度和寬度為0.3 m*0.3 m，當障礙物與目標車輛之間的距離小于0.3 m時，會產生碰撞的風險，而當障礙物與目標車輛之間的距離大于0.3 m，表示當前情況下可以實現精準避障；

5)將所得實驗數值與最小避障距離對比，分析所選實驗系統是否能夠提升車輛的巡航避障能力。

4.2 橫向避障實驗

根據圖7設計巡航車輛的橫向避障實驗，具體實驗情況如圖8所示。

圖7 橫向避障實驗原理

圖8 橫向避障實驗結果

分析圖8可知，在橫向避障實驗中，應用實驗組、對照a組控制系統可以實現巡航車輛的精準避障，而應用對照b組控制系統則無法實現精準避障。

4.3 縱向避障實驗

根據圖9設計巡航車輛的縱向避障實驗，具體實驗情況如圖10所示。

圖9 縱向避障實驗原理

圖10 縱向避障實驗結果

分析圖10可知，在縱向避障實驗中，應用實驗組控制系統依然可以實現巡航車輛的精準避障，而對照a組、對照b組控制系統都只能在個別目標節點處實現巡航車輛的精準避障。

4.4 全方位避障實驗

根據圖11設計巡航車輛的全方位避障實驗，具體實驗情況如圖12所示。

圖12 全方位避障實驗結果

分析圖12可知，在全方位避障實驗中，應用實驗組可以實現巡航車輛的精準避障，而應用對照a組控制系統、對照b組控制系統則無法實現精準避障。

4.5 數據統計

聯合圖8、圖10中的實驗結果，求解障礙物與目標車輛之間距離的平均值，具體計算結果如表1所示。

表1 間隔距離平均值

分析表1可知，整個實驗過程中，實驗組橫向、縱向及全方位間隔距離平均值均大于0.3 m，表示應用該系統始終可以實現巡航車輛的精準避障；對照a組橫向間隔距離平均值大于0.3 m、縱向及全方位間隔距離平均值小于0.3 m，表示應用該系統僅可使實現巡航車輛的橫向精準避障；對照b組橫向、縱向及全方位間隔距離平均值均小于0.3 m，表示應用該系統不可以實現巡航車輛的精準避障。

綜上可知本次實驗結論為：

1)自適應巡航控制系統、基于變采樣時間模型的巡航系統的應用都無法保證障礙物與目標車輛之間的距離一直大于0.3 m，故而這兩種系統在實現巡航車輛精準避障方面的應用能力相對有限。

2)基于深度強化學習的協調決策控制系統可以保證障礙物與目標車輛之間的橫向、縱向距離均大于0.3 m，符合精準避障的應用需求，因此與其他類型的控制系統相比，該系統的應用可以大幅提升車輛巡航避障能力，實現對運動目標的精準決策。

5 結束語

車輛多目標協同巡航決策控制系統在深度強化學習算法的基礎上，聯合主控制電路、ACC控制器、雙閉環控制器、多目標解耦模塊等多個硬件應用結構，對車輛運動行為進行控制，又通過定義車輛目標數據集合的方式，求解協同參數的取值范圍，從而實現對多目標對象的量化分析。與自適應巡航控制系統、基于變采樣時間模型的巡航系統相比，這種新型控制系統在橫、縱兩個方向上的避障準確度都達到了100%，不但提升了行進車輛的避障能力，還可以對運動目標進行精準決策。未來相關研究單位可以在該控制系統的基礎上，提升巡航車輛對動態障礙物的運動避障能力，從而在滿足協同巡航作用需求的同時，實現對目標對象節點的精準捕獲與處理。