999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強化學習在自動駕駛系統中的應用綜述

2023-07-15 03:50:18韓勝明肖芳程緯森
西華大學學報(自然科學版) 2023年4期
關鍵詞:深度規劃策略

韓勝明,肖芳,程緯森

(1.成都汽車產業研究院,四川 成都 610101;2.四川傳媒學院,四川 成都 611745)

自動駕駛汽車作為未來新型移動智能終端,是當前人工智能、信息通信、云計算、大數據等新一代信息技術的最佳應用載體。隨著人工智能技術的快速發展,加快推動自動駕駛系統智能化等級不斷提高,當前機器學習(ML)、深度學習(DL)、強化學習(RL)等人工智能算法已從理論研究階段進入產業化應用階段。深度強化學習(DRL)兼具了DL 的感知能力和RL 的決策能力,可直接輸入輸出完成端到端控制,已開始在汽車自動駕駛技術領域開展大規模應用。如特拉斯公司推出了純視覺全自動駕駛系統(FSD),直接舍棄激光雷達和毫米波雷達,依托全真真實場景數據以及人工智能核心算法,通過“影子模式”不斷提升FSD 自動駕駛性能。深度強化學習在高階自動駕駛系統展現出強大的生命力,已成為當前自動駕駛技術應用研究的熱點。

1 深度強化學習概述

強化學習除監督學習、非監督學習外的機器學習子領域,強調如何基于環境而行動,以取得最大化的預期利益。強化學習可被建模為基于序貫決策的馬爾科夫決策過程(MDP)[1],核心目標是個體在與環境交互過程中獲得更多的獎勵,這里的狀態和動作通常都是離散且有限的,使用表格記錄這些概率。而在很多實際問題中,有些任務的狀態和動作的數量非常多,還有些任務的狀態和動作是連續的,采用類似表格的方式就變得不可行,除了基于策略梯度類型方法外,結合神經網絡的強化學習方法能一定程度解決這樣的問題。

深度學習是機器學習領域中一個非常重要的子領域,是一種以神經網絡為主體的架構,通過建立包含多個處理層的計算模型來構建多個級別的神經網絡層。傳統機器學習的特征提取主要依賴人工,而深度學習的特征提取依賴機器自動提取,這也使得深度學習在機器視覺、自然語言處理、信息推薦等領域取得了巨大的成功。

深度強化學習結合了深度學習和強化學習兩個領域,將在環境中獲取的目標觀測信息以及當前環境下的狀態信息作為輸入,通過深度強化學習算法模型,最終輸出當前狀態映射到的相應動作以及預期回報評判動作價值,如圖1 所示。深度強化學習是當前AI 領域的研究熱點,其核心在于采用了深度學習的方法,讓智能體(agent)可以直接基于非結構化數據來做決策,而不需要人為設計的狀態空間[2],可以實現從原始輸入到輸出的直接控制。當前DRL 方法已經在機器人、工業控制、視覺安防等領域取得了突破性進展。已開展商業化應用的深度強化學習算法主要分為基于值函數(valuebased)的深度強化學習和基于策略梯度(policybased)的深度強化學習[3]。

圖1 深度強化學習示意圖Fig.1 The diagram of DRL

1.1 基于值函數的深度強化學習算法

基于值函數的深度強化學習算法主要涉及深度Q 網絡(DQN)和深度Q 網絡的改進算法。Mnih等[4]將神經網絡(CNN)與Q 學習算法進行結合,提出了DQN,該模型主要用于處理基于視覺感知的控制任務。DQN 模型結構如圖2 所示。

圖2 DQN 模型結構Fig.2 The DQN model

深度Q 網絡的改進算法是通過向DQN 算法中添加新的功能模塊,如DRQN 模型就是在基于競爭架構的 DQN 基礎上引入深度循環 Q 網絡,通過DRQN 模型,Agent 可在策略評估過程中更快地識別出正確的行為。Hausknecht 和Stone[5]共同提出了 DRQN 模型,利用循環神經網絡結構來記憶時間軸上連續的歷史狀態信息,性能表現優于DQN模型。DRQN 模型結構如圖3 所示。

圖3 DRQN 模型結構Fig.3 The DRQN model

1.2 基于策略梯度的深度強化學習算法

基于策略梯度的深度強化學習方法是一種通過不斷優化策略獲得最優策略的方法,主要通過不斷優化策略的目標函數,獲取策略最大獎勵,最終在策略空間中尋找最優策略。主要策略有AC 算法(動作評價算法)、A2C 算法(優勢動作評價算法)、A3C 算法(異步優勢動作評價算法)[6]。其中,AC 算法是策略梯度學習方法與Q 學習方法的結合,Actor 為策略函數(策略網絡),常用神經網絡來表示,Critic 為評價函數(評價網絡),兩個模型同時進行訓練。A2C 算法使用優勢函數替代AC 算法中Critic 網絡中的原始回報。A3C 算法基于AC 模型,采用多個線程同時計算方式,相當于多個Agent 同時搜索,并行計算策略梯度[7]。

同時,相關科研機構正在分層DRL 算法、多任務遷移DRL 算法、多智能體DRL 算法、基于記憶與推理DRL 算法等[2]前沿領域開展深入研究,加快工程實踐應用。當前,國內外自動駕駛研發企業以及相關科研院所正加快利用深度強化學習算法解決高階自動駕駛系統中環境感知、規劃與決策、控制與執行等實際應用問題。

2 自動駕駛系統關鍵技術

自動駕駛系統(ADS)主要涉及環境感知、決策規劃、控制執行三大領域。其中:環境感知主要是利用激光雷達、毫米波雷達、超聲波雷達以及車載高清攝像頭等傳感器獲取汽車行駛過程中的外界環境信息;決策規劃主要通過收集的數據,對車輛的下一步行為作出判斷和指導;控制執行主要通過信號指令控制汽車的油門、制動、轉向等執行機構,完成車輛橫向和縱向控制。自動駕駛技術架構如圖4 所示。

圖4 自動駕駛系統技術架構圖Fig.4 The technical architecture diagram of autonomous driving systems

2.1 環境感知技術

環境感知技術是利用雙目攝像頭、單目攝像頭、激光雷達、毫米波雷達以及超聲波雷達等傳感器以及車聯網系統感知周圍環境,通過實時感知車輛周圍的目標物體,獲取道路標志標識信息,為自動駕駛汽車提供決策依據。如利用攝像頭可感知外界目標物體,在通過神經網絡圖像識別算法實現對每個目標物體分類和定位的基礎上,可實現多目標跟蹤,如圖5 所示。

圖5 環境感知技術示意圖Fig.5 The diagram of scene understanding

2.2 規劃決策技術

決策系統的任務是根據生成的行駛軌跡結合自車運行狀態以及外界環境信息等,計算出采用的駕駛行為及動作的時機。常用的決策方法包括決策樹、深度學習、增強學習以及深度強化學習等。決策機制應以安全為前提,在滿足不同行駛場景需求(如高速工況、城區工況等)的情況下同時進行舒適、節能、高效的正確決策,如圖6 所示。

圖6 規劃決策技術示意圖Fig.6 The diagram of planning and decision

2.3 控制執行技術

自動駕駛汽車的控制執行可以分為縱向(驅動、制動)、橫向(轉向)和橫縱向綜合控制,如圖7所示。縱向控制是指通過對驅動和制動的協同控制,實現利用加速度或減速度對目標車速或目標扭矩的精確響應。橫向控制主要是指通過對電動助力轉向系統(EPS)進行轉角或轉矩控制,實現汽車的自動轉向功能。

圖7 控制執行示意圖Fig.7 The diagram of control execution

3 深度強化學習在自動駕駛系統中的應用現狀

3.1 DRL 在環境感知領域的應用現狀

當前,深度強化學習算法已經在自動駕駛系統環境感知技術領域深入應用,主要涉及視覺控制、視覺導航等方面。視覺控制是指Agent 利用視覺系統的圖形信息進行后續控制操作,如視覺控制中,通過不同控制任務間遷移的可遷移狀態用于減少訓練樣本的大小是當前亟待解決的問題。Mu等[8]提出一種新的CtrlFormer 方法,旨在解決如何高效地將Transformer 移植到視覺控制中。該方法實現在視覺令牌和策略令牌之間學習自注意力機制,利用DRL 來訓練CtrlFormer 模型可以在不發生災難性遺忘的情況下學習和遷移多任務表示。視覺導航是指Agent 利用機器視覺技術實現實時建圖與定位,并構建語義地圖完成點對點路徑規劃,當前基于目標驅動的視覺導航任務存在泛化能力弱、數據效率低等問題。李鵬等[9]提出了一種基于深度強化學習的區域化視覺導航方法,主要根據分布式環境特征,在不同區域內獨立學習控制策略,構建區域化模型,實現導航過程中控制策略的切換和結合,同時增加獎勵預測任務結合經驗池回放獎勵序列,再添加景深約束,防止因碰撞導致的遍歷停滯。近年來自動駕駛系統怎么從2D-RGB圖像獲取交通參與者6D-pose(3 個自由度的位移和3 個自由度的空間旋轉)是計算機視覺的研究熱點,傳統的方法需要高算力支持,代價高。Shao等[10]提出了一種將6D 位姿增強信息建模為馬爾科夫決策過程(MDP),采用深度強化學習,并將6D 位姿增強信息作為輸入信息。該方法將傳統的弱監督6D 位姿信息替換為2D 圖像注釋信息,大大減少了計算消耗以及時間代價,同時利用序列性MDP 信息來優化延遲積累回報,以達到高效學習目的。

3.2 DRL 在決策規劃領域的應用現狀

自動駕駛決策規劃可分為路由尋徑、行為決策、運動規劃等技術,如表1 所示。其中,行為決策的作用是決定車輛的行駛意圖:對于靜態障礙物,決定往左繞還是往右繞;對于動態障礙物,決定減速避讓還是加速超車。以下分別從路由尋徑、行為決策、運動規劃3 個方面對DRL 在決策規劃領域的應用研究現狀進行分析。

表1 自動駕駛決策規劃領域的主要技術類別Tab.1 The major technology category of ADS planning and decision

3.2.1 路由尋徑

自動駕駛系統在路由尋徑方面被看成是一個尋優的過程,隨著深度學習和強化學習模型不斷優化,DRL 算法在自動駕駛領域快速工程化應用。如Kulkarni等[11]在端到端的深度強化學習框架中引入繼承表征(SR),提出了深度繼承強化學習(DSR),增加了遠端獎勵變化的敏感性,并能夠在給定隨機策略訓練SR 的情況下提取子目標,與DQN 相比,DSR 能更快適應末端獎勵值變化。Hsu等[12]提出一種不同局部區域的分布式DRL 模型,能夠在沒有預先構建地圖的情況下實現大規模室內復雜環境中的導航。Zhu等[13]提出了一種端到端的學習框架,使用當前agent 圖像和目標圖像,分別通過ResNet-50 得到2 048 維特征,使用4 幀歷史圖像特征作為輸入(共8 092 維),以解釋agent 過去的動作,再通過A3C 最終輸出4 維的動作概率分布和單個值函數。其核心是通過端到端的方式解決收斂性、目標和場景泛化性、Sim2Real 的泛化性及端到端導航的便利性問題。

3.2.2 行為決策

多智能體在復雜環境中的行為決策問題一直是L4 級自動駕駛系統核心技術之一。當前自動駕駛系統行為決策算法大致分為基于價值的決策模型、基于證書的推理模型、決策樹、有限狀態機和DRL 算法模型等。其中:基于價值的決策模型是通過可量化的指標來選出具備最佳性能指標的駕駛策略;基于證書的推理決策模型用于模仿駕駛員的行為決策過程,通過算法模型來實現車輛外部環境特征到橫縱向綜合控制直接映射;采用DRL 算法駕駛行為決策模型可定量評估當前的駕駛策略與目標任務的符合程度,從而篩選出最優駕駛決策行為。如Furda等[14]提出了一種應用于城區工況的多準則駕駛決策型,通過利用已有的輸入感知信息對可能性的決策方案進行最優排序并選出最優方案。

3.2.3 運動規劃

當前運動規劃相關控制算法正加快應用于自動駕駛汽車領域。應用較為成熟的運動規劃算法有直接優化方法、參數化曲線構造法、人工勢場法、基于搜索的規劃算法、基于采樣的規劃算法等,但傳統運動規劃算法存在搜索空間大、容易陷入局部最優等問題。一些研究人員正利用深度強化學習優化傳統運動規劃算法,如Waydo等[15]提出基于深度強化學習的流函數進行平滑路徑的規劃,Daily等[16]針對高速車輛提出了基于深度強化學習的諧波勢場路徑規劃方法。

3.3 DRL 在控制執行領域的應用現狀

自動駕駛系統控制執行技術可分為常規控制方法與智能控制方法。其中,常規控制方法主要包括PID 控制、最優控制、模型預測控制(MPC)等類型,基于受控對象的數學模型實現閉環控制,需要建立精準的數學模型。智能控制方法擁有基于大量數據的自主學習能力,通過數據驅動Agent 可適應各種未知的復雜環境,在自動駕駛領域得到快速應用,主要包括專家控制(ECS)、模糊控制(FL)、滑模控制(SMC)、CNN 和DRL 等。相較于其他智能控制方法,基于DRL 控制方法不需要直接建立精準的數學模型,而是直接在系統交互過程中對控制策略進行在線學習并不斷優化迭代。朱冰等[17]針對自動駕駛系統控制主車跟隨前車實現巡航功能場景,為降低因前車運動瞬態不確定影響主車控制功能,提出了一種基于深度強化學習算法融合前車運動隨機性的自動跟隨控制策略。首先建立主車跟隨控制策略和前車移動隨機過程模型,利用DRL 算法實現交互式迭代學習,從而訓練出融合運動隨機性的主車縱向控制最優策略。文獻[18]提出了一種基于深度強化學習的車道保持控制策略,通過設計合適的獎勵函數和深度卷積網絡,采用深度確定性策略梯度算法訓練橫向和縱向控制模型,在與環境交互過程中以試錯的方式進行不斷訓練直到找到最優控制策略。

4 深度強化學習在自動駕駛系統中的應用展望

自動駕駛環境感知主要任務是通過單一傳感器或多傳感器融合方案實現物體檢測和語義分割,并最大限度地獲取本車周邊三維空間的全景分割信息。DRL 應用于感知方面依賴DL 算法,其模型雖然泛化能力強,但仍然具有很強的不可解釋性,從整車功能安全層級DRL 算法感知結果僅能達到ASIL QM,無法達到ASIL B 以上功能安全要求,制約了DRL 在高階自動駕駛系統環境感知領域的進一步應用。為此,研究DRL 可解釋性,提升功能安全等級成為新的研究熱點。自動駕駛系統決策規劃目標是系統能夠成熟應對及時處理各種各樣復雜的交通場景,并在自身異常或故障情況下實現安全停車,最終達到經驗豐富的人類駕駛員的操作能力。當前,基于端到端的深度強化學習決策模型雖然簡化了車輛自主決策過程[19],但實車測試性能穩定性較差,僅作為冗余決策方案,如何提升DRL 模型的決策穩定性已成為商業化快速應用的發展方向。自動駕駛系統橫縱向綜合控制已成為其控制執行技術的主要發展方向,如何提升車輛橫縱向綜合控制能力,使其更加符合人類駕駛習慣已成為當前的研究熱點,采用DRL 算法獲取真實獎勵函數[20],讓自動駕駛系統綜合控制能力接近人類駕駛水平是當前亟待解決的問題。

5 結束語

深度強化學習(DRL)兼具了深度學習和強化學習的抽象感知能力和優秀的決策能力兩大優勢,能夠處理高維度的輸入與輸出數據,已被學術界和產業界證實可解決自動駕駛系統中的環境感知、決策規劃以及控制執行等一系列復雜問題,但仍面臨很大挑戰。高階自動駕駛系統要面對非常復雜的行駛工況并及時作出規劃決策需要相當復雜的AI 模型來支撐,采用深度強化學習算法AI 模型需要大量的訓練時間和反復模型優化,同時AI 模型的精度和自動駕駛系統的架構設計會影響深度強化學習算法的可用性。

猜你喜歡
深度規劃策略
深度理解一元一次方程
例談未知角三角函數值的求解策略
我說你做講策略
深度觀察
深度觀察
深度觀察
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 国内精品久久九九国产精品| 亚洲国产中文精品va在线播放| 天天操天天噜| 精品国产www| 精品久久久久久中文字幕女 | 91久久偷偷做嫩草影院免费看| 国产无码性爱一区二区三区| 欧美综合成人| 中文字幕精品一区二区三区视频| 国产视频久久久久| 国产精品大尺度尺度视频| 亚洲第一香蕉视频| 国产精品专区第1页| 亚洲精品麻豆| 成人av专区精品无码国产| 第一页亚洲| 玖玖精品在线| 久草青青在线视频| 国产亚洲高清视频| 久久精品免费国产大片| 中日无码在线观看| 日本三区视频| 九九香蕉视频| 国产一区二区色淫影院| 91精品国产91久久久久久三级| 欧美日本不卡| 久久青草精品一区二区三区| 无码人妻免费| 国语少妇高潮| 国产精品刺激对白在线| 亚洲成a人片| 国产永久无码观看在线| 久久综合五月| 欧美成人午夜视频| 亚洲视频在线网| 91精品小视频| 日本国产在线| 毛片a级毛片免费观看免下载| 一级毛片不卡片免费观看| 99久久精彩视频| 亚洲视频在线青青| 伊人色天堂| 四虎亚洲精品| a毛片在线播放| 国产黄视频网站| 亚洲无码熟妇人妻AV在线| 91小视频在线播放| 91免费在线看| 日本午夜影院| 国产午夜人做人免费视频| 丝袜无码一区二区三区| 亚洲浓毛av| 久久久受www免费人成| 狼友视频一区二区三区| 特级做a爰片毛片免费69| 成人av专区精品无码国产| 亚洲欧洲日韩综合色天使| 欧美精品一区二区三区中文字幕| 欧美成人午夜视频免看| 狠狠亚洲婷婷综合色香| 日韩在线影院| 国产99欧美精品久久精品久久| 亚洲AV无码一二区三区在线播放| 91小视频在线观看| 日韩精品中文字幕一区三区| 久久精品最新免费国产成人| 欧美福利在线| 日韩不卡高清视频| 国内精品自在自线视频香蕉| 亚洲精品桃花岛av在线| 狠狠v日韩v欧美v| 91原创视频在线| 国内毛片视频| 国产激情无码一区二区免费| 欧美精品1区| 九九免费观看全部免费视频| 人妻丰满熟妇αv无码| 蜜臀AVWWW国产天堂| 久久国产高清视频| 久久国产成人精品国产成人亚洲| 天天做天天爱夜夜爽毛片毛片| 欧美国产日本高清不卡|