梁耀中 呂澤正 種玉祥



摘要:無人駕駛系統的決策系統是決定無人駕駛汽車安全性、穩定性的關鍵技術,是無人駕駛汽車智能程度的體現。本文旨在研究一種基于因果推理的無人駕駛行為決策模型,即理性決策,而不是相關推理。建立了基于貝葉斯網絡和強化學習的決策模型,結合深度學習,基于規則的專家系統的特性,深入研究決策模型在樣本比較少或數據部分缺失的情況下,提高復雜場景下的適應性、提升泛化能力和遷移學習能力。
關鍵詞:無人駕駛;行為決策;貝葉斯網絡;數據缺失
【Abstract】Thedecision-makingsystemofanunmanneddrivingsystemisakeytechnologythatdeterminesthesafetyandstabilityofanunmannedvehicle,whichisamanifestationofthedegreeofintelligenceofanunmannedvehicle.Thisresearchaimstoexploreanddevelopaself-drivingcardecisionmodelbasedoncausalreasoning,thatis,rationaldecision-making,notrelatedreasoning.ThepaperestablishesadecisionmodelbasedonBayesiannetworkandreinforcementlearning,combinedwiththecharacteristicsofdeeplearningandrule-basedexpertsystems,anddeeplystudiesthedecisionmodeltoimprovetheadaptabilityofcomplexscenarioswhentherearefewersamplesorpartialmissingdata.Generalizationabilityandtransferlearningabilityareimproved.
【Keywords】unmanneddriving;behavioraldecision;Bayesiannetwork;dataloss
作者簡介:梁耀中(1995-),男,碩士研究生,主要研究方向:智能網聯汽車。
0引言
行為決策系統是智能網聯汽車的關鍵技術,作為無人駕駛技術的核心,其智能水平直接決定了無人駕駛車輛行車的安全性和可靠性,以及對復雜多變的實時交通環境的適應性[1]。
基于神經網絡、深度學習的方法透明性差,可追溯性也欠佳,對問題難以實現追溯和解釋,且對訓練數據依賴大,訓練時間較長[2];基于決策樹模型和狀態機模型對不同的駕駛場景需要設定不同的規則,存在環境適應性低的問題。
貝葉斯網絡是一個以概率為基礎,進行因果推理的決策,并在數據挖掘、因果推理和決策上有著良好的應用效果。例如,蔡炳萬等人[3]提出了基于本體的貝葉斯網絡知識推理研究方法;史志富[4]提出了基于貝葉斯網絡的UCAV編隊對地攻擊智能決策研究。貝葉斯網絡的因果推理邏輯可以在惡劣天氣條件下或者傳感器損壞導致數據缺失時的極端情況,在無人駕駛車遇到新的場景時,新的環境機制會對貝葉斯網絡進行激勵,從而激勵貝葉斯網絡進行更新,做出理性決策。
1學術研究概論
1.1無人車決策研究現狀
在當前復雜的駕駛環境中,狀態機模型存在環境適應性低的問題,需要針對研究中未曾遇到的駕駛場景重新設計決策規則。馬爾可夫的決策過程可以解決不確定環境下的決策問題,但其狀態空間很大,難以做到實時決策;基于深度學習/神經網絡的模型透明度差,難以實現目標追蹤。
決策樹模型在獲得數據方面較為困難,數據可靠性不足,并且數據離散化后的精度也不高。機器學習算法則存在決策結果可解釋性差,模型修正困難、學習樣本需要大量實驗數據的問題,而且當數據質量差、數據結構不合理時,決策結果也會較差[5]。
基于因果推理的決策模型可以對駕駛場景做出明確表達,且其行為決策結果是透明、可解釋的。當場景改變時,根據獎勵機制即可更新貝葉斯網絡的結構和參數。
1.2貝葉斯網絡用于決策的研究現狀
貝葉斯網絡用于決策,可以在小樣本或者沒有足量樣本的條件下,進行因果推理決策。貝葉斯網絡的因果推理邏輯在一定程度上能夠處理未知的極端情況。目前已然成為數據缺失時因果推理的最有效的理論模型之一。
貝葉斯網絡用于決策具有2個決定性的優勢,即:模塊化和透明性。
對于模塊化的優勢而言,當傳感器在極端天氣條件下輸入的數據出現錯誤或者缺失條件下,貝葉斯網絡能夠刪除這一錯誤子節點的信息,其余子節點信息依然是有效的。
對于透明性的優勢而言,自動駕駛過程中的透明性決策則尤為關鍵,因為對整個決策過程都可以進行可視、分析和理解。
1.3論文研究內容
無人駕駛行為決策系統是一個復雜的大系統。考慮到決策時,不僅要考慮周圍行人、車輛、障礙物等對象信息,還需考慮路面、天氣、光照等環境信息、以及道路類型、車道、信號燈等路況信息等,基于此,本文擬圍繞無人駕駛行為決策系統開展如下研究工作。
鑒于無人駕駛行為決策的綜合性、相對性、時效性、層次性的特點,本文提出了基于貝葉斯網絡的無人駕駛行為決策方法,建立了對應的數學模型,并對模型進行了仿真分析。
本文以提高無人駕駛車輛在復雜場景下決策的場景適應性、安全性、魯棒性和智能化程度為目標,針對無人駕駛行為決策系統的核心問題進行研究,本論文的創新點可表述如下。
(1)本文提出基于因果推理的貝葉斯網絡對無人駕駛行為進行決策。貝葉斯網絡是一個基于概率的因果推理系統,并且在數據缺失、數據挖掘和理性決策上具有良好的效果。同時,還有著2個決定性的優勢,也就是模塊化和透明性。
(2)貝葉斯網絡的因果推理邏輯在一定程度上能夠處理未知的極端情況,將貝葉斯網絡作為整個決策的頂層框架,利用貝葉斯網絡的模塊化,把深度學習系統作為一個子模塊融入其中,而專家系統作為另一個模塊,這樣的多重冗體構成了貝葉斯網絡的子節點;與此同時,貝葉斯網絡的透明性還使得可以對整個決策的過程進行分析與問題定位。
2貝葉斯網絡
貝葉斯網絡,也可稱作信度網絡,是目前因果推理常用的方法之一[6]。貝葉斯網絡又稱為有向無環圖,由父結點和子節點以及父節點和子節點之間的條件概率組成。貝葉斯網絡由父節點指向子節點,這樣就構成了相互關系,用條件概率來表達父節點和子節點之間的關系強度。
2.1構造貝葉斯網絡
貝葉斯網絡的構造可分為4個階段[7]:
(1)定義域變量。確定需要用來描述一個區域內不同場的變量以及每個變量的確切值。
(2)確定網絡結構。咨詢專家經驗,即可確定子節點和父節點之間的關系,從而獲知該領域的網絡結構。
(3)確定條件概率分布表。
(4)應用于實際系統,并根據新的場景傳感器檢測到的數據來更新貝葉斯網絡,再通過計算分析,對網絡結構和條件概率分布表做出調整。
貝葉斯網絡參數學習就是確定貝葉斯網絡模型各節點處的概率密度。基于貝葉斯網絡的因果推理法是一種用精確算法進行概率推理的方法,本文采用基于知識的因果推理來處理當傳感器數據缺失時的決策。
貝葉斯網絡的推理適用于數據缺失時的因果推理和決策。是一種以概率分布為基礎的推理方法。
2.2貝葉斯網絡推理的過程
貝葉斯推理是通過聯合概率分布公式計算某一事件發生的概率[8]。
給定一個建立在變量集合X={X1,X2,…,Xn},藉此來計算假設變量的條件概率。對任意的隨機變量,其聯合分布可由各自的條件概率分布相乘而得出:
3基于貝葉斯網絡實現無人駕駛決策
Netica是一個強大的,易于使用的貝葉斯網絡軟件。采用Netica貝葉斯網絡工具軟件構建無人駕駛行為決策貝葉斯網絡。建立并編譯了相應的貝葉斯網絡模型。
3.1構建無人車貝葉斯網絡模型
無人駕駛汽車上路行駛時面臨著錯綜復雜的環境,可以按照一定的分類方法將駕駛場景進行分類劃歸,具體如圖2所示。研究中將根據駕駛場景設定對應本體類集,通常可設定行為類、對象類、環境類以及路況類。其中,行為類表示無人車自身的行為狀況,例如無人駕駛車輛自身的位置、速度、加速度等狀況以及轉向、直行、轉彎等變道行為;對象類表示無人駕駛車輛在行駛過程中遇到的其他交通參與者;環境類表示無人駕駛車輛在駕駛過程中所有可能變化的環境因素,例如太陽光照、天氣以及路面等;路況類表示無人駕駛車輛行駛道路的狀況,例如交叉口類型、道路類型、交通管制方式、區域、車道。
本體模型可以結構化表達駕駛場景中的類與實例信息之間的狀態和語義關系[8],從而能夠解決不同的駕駛環境中多源異構信息表達不充分和先驗駕駛經驗無法有效利用導致的實時性差、泛化能力低和準確性較低的問題。
3.2構建無人車行為決策的貝葉斯網絡條件概率表
在確定了貝葉斯網絡結構后,就是構造條件概率表。無父節點的變量,只要對節點賦予一個初始的概率即可。先驗概率可以通過對原有數據進行學習計算或者咨詢專家意見來獲得[9]。
生成條件概率表可通過下列公式來表示父節點發生的條件下,子節點發生的可能性,即:
對于圖1中的無人車周圍環境貝葉斯網絡,以周圍車輛、障礙物、行人為例,其部分條件概率見表1。
貝葉斯網絡的參數學習,定義先驗概率,通過參數學習,計算后驗概率。選取最大的概率所對應的車輛動作,作為最終決策行為決策的輸出。
4基于無人駕駛行為決策結果分析
采用Netica作為貝葉斯網絡模型的可視化推理工具進行可視化推理無人駕駛車輛的行為決策。
4.1初始的無人駕駛貝葉斯網絡
在初始場景下,車輛傳感器對周圍環境的檢測數據為0,此時貝葉斯網絡各節點的先驗概率按照狀態變量均勻分布如圖3所示。
4.2更新后的無人駕駛貝葉斯網絡
在給定各節點的條件概率的情況下,可以對貝葉斯網絡進行自頂向下的推理得到各節點的狀態概率。從貝葉斯網絡的頂點開始計算。當傳感器檢測到新的無人車周圍路況發生變化時,就可以通過貝葉斯規則對網絡節點的狀態進行更新。得到的貝葉斯網絡狀態如圖4所示。
由圖4中可以看出車道上有障礙物時,前方車輛減速,右前方車輛減速,當右后方車加速時。當前車輛停車的概率為25.7%,減速的概率為20.7%。
當傳感器檢測到前方道路有行人在車道線上時的貝葉斯網絡決策如圖5所示。當道路上有行人時的無人車的停車概率為45.5%,而減速的概率為29.5%。
5結束語
采用Netica貝葉斯網絡工具軟件實現了對無人駕駛行為決策的仿真。仿真結果表明基于貝葉斯網絡無人駕駛行為決策系統可以對無人車傳感器收集到的各種數據進行判斷,充分利用所有可能會用的信息,將定性判斷與定量計算相結合描述無人車的行為決策,而且貝葉斯網絡的推理功能、且輔以獎勵機制來更新貝葉斯網絡的結構和參數,由此推理得到的結果即能對復雜的交通環境做出更為實時、智能、安全的決策。因此應用貝葉斯網絡對無人駕駛行為決策的研究必將有助于提高無人駕駛車輛在復雜場景下的決策智能性、安全性和魯棒性,使得無人駕駛車輛在落地應用上取得了階段性成果。
參考文獻
[1]黃璐.基于本體論的無人駕駛車輛場景評估與行為決策方法研究[D].合肥:中國科學技術大學,2019.
[2]王忠民,曹洪江,范琳.一種基于卷積神經網絡深度學習的人體行為識別方法[J].計算機科學,2016,43(z2):56-58,87.
[3]蔡炳萬,石宇強,李明輝,等.基于本體的貝葉斯網絡知識推理研究[J].機械設計與制造,2016(1):84-87.
[4]史志富.基于貝葉斯網絡的UCAV編隊對地攻擊智能決策研究[D].西安:西北工業大學,2007.
[5]熊璐,康宇宸,張培志,等.無人駕駛車輛行為決策系統研究[J].汽車技術,2018(8):1-9.
[6]謝斌.貝葉斯網絡在可靠性分析中的應用[D].成都:西南交通大學,2004.
[7]俞露.基于非同構動態貝葉斯網絡的研究與應用[D].南京:南京大學,2017.
[8]張琳.基于Ontology和XML的非結構化信息語義表示機制研究[D].武漢:武漢科技大學,2004.
[9]陸靜,王捷.基于超級貝葉斯方法的專家意見先驗概率修正研究[J].統計與決策,2013(1):15-18.