基于條件模仿學習的輔助駕駛決策模型研究

2023-06-22 11:33:43戴瑞儒

現代信息科技 2023年5期

摘? 要：隨著我國機動車數量的不斷增加，交通安全隱患問題越來越嚴重。針對傳統模仿學習效率低下的問題，提出一種基于條件模仿學習的輔助駕駛決策模型，在線模仿學習過程中，構建專家經驗池和個人經驗池來動態分配學習數據，提高輔助駕駛決策的準確度，同時采用圖像語義切割和先驗知識遷移技術提取圖像特征，提高預測的效率和準確性。模擬實驗表明，該輔助駕駛決策模型顯著降低了平均預測誤差，使得輔助駕駛決策更加貼合個人的駕駛習慣。

關鍵詞：輔助駕駛；條件模仿學習；時序語義；圖像特征提取

中圖分類號：TP18? ? 文獻標識碼：A? 文章編號：2096-4706（2023）05-0078-04

Research on Assisted Driving Decision-making Model Based on Conditional Imitation Learning

DAI Ruiru

（Department of Applied Technology， Sichuan Preschool Educators College， Mianyang? 621000， China）

Abstract： With the increasing number of motor vehicles in China， the problem of traffic hidden dangers is becoming more and more serious. Aiming at the problem of low efficiency of traditional simulation learning， this paper proposes an assisted driving decision-making model based on conditional simulation learning. In the process of online simulation learning， expert experience pool and personal experience pool are constructed to dynamically allocate learning data to improve the accuracy of assisted driving decision-making. At the same time， image semantic cutting and prior knowledge transfer technology are used to extract image features to improve the efficiency and accuracy of prediction. The simulation experiment shows that the average prediction error is significantly reduced by the assisted driving decision model， which makes the assisted driving decision more suitable for personal driving habits.

Keywords： assisted driving; conditional imitation learning; temporal semantics; image feature extraction

0? 引? 言

隨著居民生活水平的不斷提高，機動車數量越來越多，導致交通狀況越發復雜，堵車、環境污染、交通事故也隨之而來。輔助駕駛技術作為保證駕駛安全的手段，可以有效降低交通事故發生的概率，同時通過優化行車路線也可以有效降低碳排放，具有良好的環境效益和經濟效益。

近年來，隨著電動汽車的推廣和普及，智能自動化已經成為其區別于傳統燃油車的最大特點，各大車企、互聯網巨頭以及芯片公司將自動駕駛作為未來汽車發展的制高點，紛紛投入大量的資金推出各自的自動駕駛方案。隨著人工智能技術的日趨成熟，以深度學習為代表的技術引起大部分廠商的關注，越來越多的算法得以在自動駕駛中使用，如紅綠燈識別、行人檢測、車道檢測、主動剎車等。雖然這些技術無法在實際應用中取代人的作用，但不可否認的是它們極大地改善了駕駛環境。以圖像為輸入，經決策模型獲得控制信息，有效降低了控制信息的不確定性傳遞。然而這種決策的有效性很大程度上取決于對圖像中特征信息提取的效率和準確度。由于駕駛環境千變萬化，駕駛員的駕駛習慣各不相同，妥善處理環境中的不確定性并有效解決數據離散等問題成為基于模仿學習輔助駕駛決策系統必須面對的難點。

1? 基于圖像語義的模仿學習輔助駕駛決策模型

1.1? 條件模仿學習

在模仿學習過程中，輸入的觀察圖像和控制行為是一對一映射的，在復雜的路況環境下，不同時間不同地點的處理邏輯也不盡相同，基于單一對應關系的控制很難奏效。為了有效應對復雜狀況下的模仿學習處理邏輯，Codevilla等提出了條件模仿學習的方法，將目標信息和專家經驗建模為向量函數，然后與汽車感知模塊相結合進行模仿學習，使得車輛的控制行為更接近于正常處理的流程。

當車輛在t時刻感知到周圍的狀態信息為statt，對應的車輛控制信息為ctrlt，除了道路的環境信息外，此時正常形式的車輛控制指令為pctrlt，即pctrlt=E（statt， pctrlt），通過不斷積累的專家經驗將集合改為，損失函數為：

（1）

感知結果通過卷積神經網絡進行特征提取，然后與汽車測量值m進行融合，同時將乘客的命令輸入到決策網絡中，確定最終的控制信息。但這種卷積神經網絡的結構過于單一，難以實現復雜圖像的高維特征識別，且效率較為低下，導致模型預測不準（或者預測的時效性不足），從而導致自動駕駛決策失敗。

1.2? 基于圖像語義的模仿學習決策模型

實踐表明，專家經驗數據對于自動駕駛來說不僅是很好的訓練數據，也體現了一個不斷豐富并趨于完美的過程，而專家經驗數據的有效利用則是決定自動駕駛成敗的關鍵因素。基于圖像語義的模仿學習決策模型框架如圖1所示。

輔助駕駛決策模型的決策主要包括宏觀決策和微觀決策兩個方面，其中宏觀決策用于確定車輛的前進路線，如行車方向、行車車道、行車速度等。微觀決策主要是根據當前車輛運行狀態信息以及車輛感知的環境信息獲取車輛動態控制信息，如加減速、變換車道、緊急制動、轉向控制信息等。

1.3? 宏觀決策

宏觀決策信息是指根據駕車人的決策條件（如目的地、道路選擇等）確定宏觀的駕駛導航信息，同時加上對路徑上道路交通管理標識（如路段限速、車道選擇、紅綠燈信息、交通標志信息等）的識別。導航信息中關鍵節點的狀態，以及道路周邊交規標志形成的交規語義信息，在全連接層融合處理然后決定車輛在行駛過程中的主要宏觀路徑，在這里可以統稱為道路選擇條件。微觀決策信息是指根據當前車輛的控制參數信息獲取到的車輛狀態信息（如當前車速、油耗、車輛的運行路線等）以及通過車輛傳感器獲取到的車輛周邊信息（如車輛周邊的車輛信息及其速度、運行趨勢等），通過卷積神經網絡對圖像信息進行分析，連同車輛的狀態信息生成車輛周邊環境的時序信息。宏觀決策信息與微觀決策信息共同交由決策模型生成最終的控制信息。

宏觀決策信息是由導航信息和交規信息共同生成的，導航信息中包含很多的關鍵節點，這些關鍵節點是指導航路線中的位置坐標p（x， y， z），一般是由導航衛星計算得來，在輔助駕駛決策過程中，關鍵節點信息可以用特征向量ωi表示，整個行車路徑用W=f （ p，w1，w2，…，wn）表示，下一個導航點的平均航路朝向為：

（2）

其中，p和ωi表示當前位置p（x， y， z）和當前朝向θ組成，如圖2所示。

在計算宏觀導航信息時，必須考慮到交通規則對導航信息的影響，交通標識包括：危險標志、限速標志、強制標志，以及紅綠燈等交通信號。交通標識語義識別采用基于深度學習的語義提取方法，對交規語義信息的提取采用的是YOLOv5網絡，具體過程如下：

（1）輸入端采用mosaic數據增強點縮放、裁剪以及重新排布的方式提升特征點識別，同時采用不同的閾值計算不同環境下特征點的最佳錨框值，進而識別圖像中的關鍵特征點。

（2）使用Focus和CSP組件，實現圖像卷積值和殘差值的計算。

（3）預測網絡采用CIoU_loss損失函數作為目標邊界值的優化目標，精準識別具體的道路標志信息。

1.4? 微觀決策

微觀決策信息是指從車輛狀態信息和車載傳感器獲取的圖像信息分析得來。車輛的狀態信息主要包括車輛的速度、胎壓、車輛重量、剎車片壓力、制動距離、燃油量、氣缸壓力等，這些參數都是車輛微觀控制階段的重要參數，為圖像信息提供的決策信息提供直接的參考數據。車載傳感器獲取到的圖像信息以及部分交規語義信息是車輛微觀控制的決定性變量，其中交規語義信息在動態決策信息中屬于較為恒定的變量，因此在微觀決策信息中不做太多考慮，其他的數據可稱之為車輛微觀控制信息。微觀控制信息源于：圖像語義分割信息；通過遷移先驗知識增強對圖像的特征提取；記憶網絡中關聯時間內的圖像序列。

圖像語義分割的目的是通過對圖像的像素點進行標簽和分類，同時以像素組合的方式進行簡化，以便讓圖像的神經網絡表征更加明顯，用以區分如道路標識、車輛分割線、行人、其他車輛以及障礙物等對象。基于圖像語義分割的圖像如圖3所示。

本文決策模型的圖像語義分割模塊使用圖像分割網絡SegNet，同時將分割的圖像與原始圖像進行融合，從而提高圖像的特征提取能力。

先驗知識遷移學習是降低輔助駕駛決策難度的重要手段，一般來說，決策系統首先分析傳感器獲得的圖像信息，然后根據實際情況做出正確的行車決策，在此過程中，圖像語義信息的分析和識別占據了重要地位。所謂的先驗知識遷移就是將其他領域中被驗證或者廣泛使用的圖像識別模型或參數，根據輔助駕駛所需的特定參數進行相應的轉換之后遷移到輔助駕駛決策過程中。相對于從零開始的經驗積累來說，先驗知識遷移是提高決策效率，降低決策成本的重要手段。通過對先驗知識的學習，可以讓輔助駕駛決策在盡可能短的時間內完成基本的功能。

微觀決策的運作包括兩個部分：基于模仿學習的離線學習模塊和基于確定性策略梯度算法的在線學習模塊。通過離線學習模塊對輔助駕駛的標簽數據進行訓練，避免大量無用的探索，在線學習模塊可以在實際使用過程中不斷完善和修正輔助駕駛決策模型。微觀決策的主要過程如圖4所示。

微觀決策的主要過程如下：通過先驗知識對模擬學習網絡進行訓練，構建模仿學習網絡，然后使用部分先驗知識在模仿學習網絡的構建中形成專家經驗緩存池。與此同時，使用部分先驗知識的結果對在線學習網絡進行預訓練，得到基本的在線學習網絡。之后在線學習網絡開始運行，隨著車輛的運行，在線學習網絡通過學習駕駛員的處理行為，不斷地豐富個人經驗緩存池，同時借助先驗知識不斷豐富專家經驗緩存池，然后以專家經驗緩存池和個人經驗緩存池的內容作為數據支撐，強化訓練在線學習網絡，使得學習網絡不斷地逼近真實的車輛決策過程。

2? 仿真實驗及結果分析

2.1? 實驗環境

本實驗在ubuntu 20.04操作系統下進行，使用CARLA-simulator 0.9.9和Unreal Engine 4.24進行場景模擬，實驗具體參數如表1所示。

2.2? 宏觀決策測試

基于CARLA Benchmark進行測試，數據訓練場景為城鎮地圖T1，測試場景為城鎮地圖T2，兩個場景中分別設有紅綠燈、多岔路口等，如圖5所示。按照Benchmark的要求設定四種任務，分別為起點到終點的直行、轉彎、導航和動態導航等。

測試過程中，除了關注模擬車輛是否準確到達目的地外，還要關注測試結果的穩定性。因此測試的指標包括任務成功率、軌跡成功率和失敗懲罰比例。其中成功率是成功次數succ與總次數total的比值；軌跡成功率是實際運行長度L0與軌跡長度L1的比值；懲罰比例由設定系數C0和懲罰系數p組成。評估指標res如下：

（3）

將本文方法與基線方法CIL進行對比試驗，測試結果的評估指標積分如表2所示。

從測試結果中可以看出，在靜態場景下，兩種方法在訓練城鎮T1中都具有較高的成功率，但是在測試城鎮T2中的成功率會普遍下降，本文所提方法的成功率不管是在訓練城鎮中還是在測試城鎮中都很高。在動態導航測試場景下，CIL基線方法的成功率較低，且在訓練環境和測試環境中波動較大，而本文所提方法的波動性較小，表現出較強的魯棒性。

2.3? 微觀決策測試

在微觀決策測試過程中，采用TORCS模擬器中的兩張地圖進行試驗，每張地圖采集800組數據，然后使用這些數據來訓練模仿學習網絡。由于使用了模擬器，故只能通過打標簽的方式構建先驗知識，總共構建400組數據作為先驗知識。通過先驗知識指導模擬網絡的訓練，進而生成專家經驗緩存池，循環測試生成1 600組數據，TORCS模擬的加速和減速設置為自動，車輛自重、剎車性能等在本實驗中并未加以考慮。

兩張地圖上的訓練性能如圖6所示。

試驗結果表明，地圖的難度越大，模擬學習網絡性能越差，主要原因是收集的數據較少，但是兩張圖的最終訓練結果相差不多，這些結果足以訓練在線學習網絡，不會對整個模型的最終性能產生較大的影響。運行訓練好的模型，每隔100步記錄一下評估指標res的值，以此來檢驗算法的性能，結果如圖7所示。

雖然初期訓練數據的數量較少，但是在整體測試中的效率要明顯高于基準算法。從縱坐標的數據來看，在線學習模型的方式可以持續改進訓練結果，因此算法會隨著訓練次數的增加最終穩定下來。

3? 結? 論

隨著機動車數量的不斷增加，車輛越來越轉向其功能屬性，如何增強用戶的乘車體驗，降低能源消耗是當前車企需要著重考慮的問題。以圖像為輸入，經決策模型獲得控制信息，有效降低了控制信息的不確定性傳遞。有鑒于此，本文采用圖像語義切割和先驗知識遷移技術提取圖像特征，提高預測的效率和準確性，同時考慮到不同人駕駛習慣的不同，通過構建專家經驗池和個人經驗池來動態分配學習數據，既提高了輔助駕駛決策的準確性，又可保證輔助決策結果更加符合駕駛員的個人駕駛習慣。

參考文獻：

[1] 高波.基于多傳感器感知的輔助駕駛技術研究 [D].西安：西安工業大學，2021.

[2] 王強.基于深度強化學習的自動駕駛控制決策研究 [D].大慶：東北石油大學，2022.

[3] 李沛安.基于深度神經網絡的交通場景圖像語義分割研究 [D].北京：北京交通大學，2020.

[4] 趙樹煊，張潔，汪俊亮，等.基于兩階段深度遷移學習的面料疵點檢測算法 [J].機械工程學報，2021，57（17）：86-97.

[5] CODEVILLA F，M?LLER M，L?PEZ A，et al. End-to-end driving via conditional imitation learning [J/OL].arXiv：1710.02410v2 [cs.RO].[2022-11-05].https：//arxiv.org/abs/1710.02410v2.

[6] 李小艷，宋亞林，樂飛.殘差密集塊的卷積神經網絡圖像去噪 [J].計算機系統應用，2022，31（10）：166-174.

[7] 李壯飛，楊風暴，郝岳強.一種基于殘差網絡優化的航拍小目標檢測算法 [J].國外電子測量技術，2022，41（8）：27-33.

[8] 王海軍，何艷，周豪，等.基于YOLOv5網絡模型對鐵路軌道障礙物檢測與識別 [J].中國儲運，2022（9）：86-87.

[9] 林禹，趙泉華，沈昭宇，等.改進SegNet與遷移學習的遙感建筑物分割方法 [J].測繪科學，2022，47（6）：78-89.

[10] 王成康，黃李波.基于CARLA的駕駛仿真平臺搭建 [J].佳木斯大學學報：自然科學版，2021，39（3）：27-29.

[11] 符莎.基于UNREAL ENGINE的沉浸式加工中心造型定制設計技術 [J].機電產品開發與創新，2022，35（5）：162-165.

[12] 朱堅.基于深度強化學習的無人車路徑規劃研究 [D].西安：西安工業大學，2021.

作者簡介：戴瑞儒（1968.03—），男，漢族，陜西商洛人，講師，本科，研究方向：電氣設備自動控制、工業企業生產過程自動化、電機和儀表檢測等。

收稿日期：2022-11-08

現代信息科技2023年5期

現代信息科技的其它文章: 基于xUML與DODAF的指揮信息系統可執行體系結構建模研究; 基于PHP+MySQL的視頻上傳與刪除功能實現; 室外長距離基線數據的自動化計算; 基于深度學習的檳榔輪廓圖像分割算法的應用; 基于BERT-BILSTM-CRF的慢性支氣管炎中醫醫案實體識別; 基于HFSS的NFC天線設計與仿真