胡益愷,王春香,楊 明
(上海交通大學 自動化系;系統控制與信息處理教育部重點實驗室,上海 200240)
智能車輛是輪式移動機器人的一種,其利用車載傳感器來感知車輛周圍環境,獲取道路、車輛位置和障礙物等信息,生成車輛的轉向與速度控制指令,從而能夠安全、高效地到達目的地.經典的智能車輛系統框架由感知模塊、定位模塊、預測模塊、決策模塊、規劃模塊、控制模塊以及車身底盤等組成[1-2].
智能車輛系統的決策模塊輸入有感知結果、定位結果、預測結果以及環境先驗信息,根據決策方法,計算出合理的車輛行為決策,并發送給后續的執行模塊.決策模塊將影響智能車輛行駛的安全性與舒適性,是系統的重要中樞.
感知模塊通過收集激光雷達、超聲波雷達以及攝像機等傳感器的信息,獲取動態、靜態目標的位姿與速度,并對目標的類別進行檢測.定位模塊根據激光雷達、全球定位系統(GPS)以及車輛底層等傳感器的數據,獲取智能車輛自身的速度與位姿.預測模塊根據感知模塊計算獲得的周邊環境信息,對周圍環境進行推演.決策模塊作為系統的神經中樞,分別接受高精度地圖的先驗信息、感知模塊以及預測模塊的環境物體檢測信息、定位模塊的自車位姿信息,然后形成車輛行為決策.隨后,將生成的決策交由架構下游的規劃模塊.規劃模塊根據車輛的決策生成合理的軌跡,隨后控制模塊根據自身的定位信息,向底層線控輸出方向盤轉角及油門剎車大小等指令,實現對車輛的橫向控制以及縱向控制.
現階段已有部分學者對智能車輛的決策方法進行了歸納與整理.文獻[3]對具體的決策系統方法進行了歸納與介紹,其分別總結了Boss、Junior、Odin、Talos等系統的決策方法.然而,該文獻從決策系統的角度對決策方法展開歸納,并未對具體決策方法的類型進行分類,并且該文獻所包括的決策方法多為傳統方法,對現階段常見的學習類、博弈類等決策方法的論述較少.文獻[4]對智能車輛的決策規劃方法進行了歸納,其將車輛的決策方法分為基于博弈理論、基于概率、基于部分可觀察的Markov決策過程以及基于學習4個類別,該文獻清晰地對現有決策工作進行了總結.然而,該綜述并未對基于學習類的方法進行進一步細分介紹,并且基于博弈的決策方法與其他三類決策方法并未形成鮮明的對立關系,存在一定的重合性,從而該文獻的分類標準需要進一步優化.文獻[5]將智能車決策方法分類為基于規則的決策方法以及基于學習的決策方法,并將學習類算法進一步細分為深度學習方法與其他學習方法.該文獻的分類方式較為概括,不利于決策研究者快速了解現階段的決策方法及研究進展.通過對上述現有決策研究綜述的分析發現,其均缺少對不同類型決策方法的適用場景的分析,且目前對于如何評估決策方法的性能以及如何制定合理的評估指標,缺乏文獻對其進行歸納與總結.同時,現階段尚未有文獻對智能車輛決策方法研究常用的數據集進行整理與歸納.
考慮到從信息輸入到決策生成的信息流鏈路,本文將從決策模塊的輸入、輸出、車輛周邊環境交互方式以及決策模塊所采用的算法類型4個方面對現有決策科研工作進行總結與歸納,從而可以為后續對車輛決策方法進行研究的科研人員提供指引與幫助.
輸入信息根據是否經過計算處理可以分為,其他模塊計算結果信息與車載傳感器原始數據兩類.其中,其他模塊計算結果信息主要分為車載感知模塊計算信息與路測感知模塊信息,其常見形式為本車坐標系下的環境元素的位置、速度、加速度等;而車載傳感器原始數據信息則是將車載傳感器如視覺傳感器的圖像數據、激光雷達點云數據直接輸入至決策模塊.
以車載感知模塊計算結果作為模塊輸入的決策方法,由于遮擋和傳感器噪聲等因素,對其帶來了感知的不確定性和部分可觀的特性.感知模塊計算結果常見形式為,由視覺傳感器、激光傳感器等感知信息融合后得到的環境中物體的空間位姿、包圍盒尺寸、物體速度加速度以及物體類別.
文獻[6]以部分可觀信息作為決策模塊的輸入,運用部分可觀察Markov決策過程(POMDP)方法實現車輛的決策.文獻[7]運用真實的部分感知數據,結合概率估計方法,設計了高速公路場景下針對部分可觀環境的決策方法.文獻[8]同樣運用實車測試中得到的傳感器處理數據作為模型輸入,訓練了基于分層狀態機的智能車輛決策模型.
以車載感知模塊計算結果作為輸入的決策方法,將感知模塊與決策模塊分離,有較強的可遷移性及實用性.但傳感器感知范圍有限,且存在遮擋問題,因此感知模塊輸出的信息具有一定的局限性,從而對決策方法的穩定性提出了挑戰.
坡向對于太陽的光照、住宅的采光度有著重要的影響。客家人對住宅選址、布局、門的朝向上講究“風水”,坡向(圖4b)也是影響客家人的建筑分布的一個因子。對DEM數據進行坡度提取得到梅縣區內地形的坡度數據(圖4c)。使用ArcGIS的分類功能,按照城市建設劃分標準中劃分為地平地、平地、平坡地、緩坡地、中坡地、陡坡地6種類型分別占總面積的0.21%、5.48%、14.22%、23.58%、48.03%、8.48%,平均坡度為12.5°,坡度標準差為8.23°。
與車載感知模塊計算結果所不同,以路側感知模塊信息作為輸入的決策方法,常出現于學術研究成果與“車與任何事物的聯系”(V2X)場景中.該類型的輸入常將環境中參與者的位置、速度、加速度等信息,直接或間接地轉換為相對于智能車輛的位姿信息.
路側感知模塊信息常常由高空攝像機或無人機拍攝獲得,或者由仿真模擬器直接生成.在這種場景下,智能車輛可以獲得所有周邊車輛相對于其的位置、速度等信息.文獻[9]以高空攝像機生成的下一代仿真(NGSIM)數據集作為模型的輸入,運用pAC(Passive Actor-Critic)方法完成車輛匯流時的決策.文獻[10-11]同樣基于完全可觀數據,結合博弈論模型,解決了智能車輛變道場景下的決策問題.文獻[12]運用路側感知模塊信息作為決策模塊的輸入,在強化學習(RL)技術的基礎上,提出了一種合作的變道策略.
除了通過高空相機獲得路側感知模塊信息,現階段部分研究成果采用仿真器生成的路側感知數據作為決策模型的輸入.文獻[13]以三車道仿真平臺的完全可觀數據作為系統輸入,運用強化學習方法實現速度決策以及變道決策.文獻[14]結合基于規則的約束,將基于深度Q網絡方法用于自動駕駛車道變更決策任務.文獻[15]同樣以三車道仿真平臺的觀測數據作為模塊輸入,提出了一種基于進化學習的智能車輛決策方法.
路側感知模塊信息有著較為直觀的特性,屬于理想場景下的源數據形式,可以有效改善由于遮擋、噪聲等帶來的信息不完全可觀問題.在新算法的開發與早期驗證、以及在不同模型之間進行性能比較的場景中有著較大的優勢.然而在真實的車輛行駛環境中,由于基礎設施尚未全面部署,難以獲得全面的路側感知信息數據.但隨著通訊技術的不斷增強,車聯網技術逐漸完善,該類決策方法將會得到更為廣泛的應用.
口服固體制劑的體外溶出試驗及體內外相關性研究進展…………………………………………………… 趙悅清等(12):1718
現階段存在部分決策方法直接以傳感器的原始數據作為決策方法的輸入信息.文獻[16]以視覺傳感器獲得的圖像信號作為系統輸入,運用端到端算法設計車輛決策模塊,使車輛在即將駛入的路口作出合理的決策.文獻[17]基于遞歸神經網絡(RNN)以及生成的對抗網絡設計了端到端決策模塊.文獻[18-20]以車輛攝像頭的圖像信息作為決策模塊的輸入,訓練出決策指令.文獻[21]也同樣采用了車載傳感器的原始數據作為輸入.
當前鋼結構施工期間存在較多的項目環節,項目成本、質量、安全管理、進度管理以及控制等方面均存在問題。具體而言,在工程項目的推進過程中,施工環節存在較多的不確定性影響因素,工程變動難免會影響造價成本,為企業帶來了一定的經濟損失。安裝期間,由于技術人員沒有掌握正確的施工技術,也會影響工程的推進效果,甚至延誤工期,造成不良經濟損失。運輸與安裝鋼結構構件時,也會因損壞以及污染等問題延長施工進度,技術人員需要重新調配構件,導致工期延誤。工程項目推進期間,施工人員需要進行現場操作,會受多種因素的影響導致技術以及安全等問題,從而影響鋼結構的施工效果。
以車載傳感器原始數據信息作為輸入的決策方法是端到端算法的有效應用,其可以獲得環境感知的全部信息,并可以提取到環境中影響決策的深層特征.但該種類方法對訓練數據要求較高,并且對決策方法的可解釋性提出了挑戰.
按照決策方法輸出信息的類型,可以將其歸納為離散決策輸出以及廣義決策輸出.離散決策輸出的算法所生成的指令為獨立的動作,例如左變道、右變道、保持直行等等.廣義決策輸出的算法,亦可理解為端到端方法.該方法直接生成決策控制序列,例如方向盤的轉角時間序列、油門的時間序列、剎車的時間序列指令.決策模塊的輸出示意圖如圖1所示.其中:ti(i=0,1,…,N)為決策序列中的時間戳.

圖1 決策模塊輸出示意圖Fig.1 Schematic diagram of output of decision module
意圖決策輸出的指令集,常具有較高的抽象性,例如是否換道、是否避讓等,在生成該指令后,需傳遞給規劃模塊與控制模塊以生成具體的局部路徑與控制指令.
文獻[22]利用Bayesian網絡,將決策層的輸出劃分為采用自適應巡航控制(ACC)跟車策略、向左變道、向右變道以及保持當前速度4種離散決策以決定智能車輛是否進行超車行為.文獻[13]將強化學習決策模塊的輸出根據速度進行了更細一步的劃分.文獻[8]提出的分層狀態機決策方法以離散的決策作為輸出.文獻[23]基于強化學習的決策研究與文獻[24]基于POMDP的研究同樣以離散決策作為模塊的輸出.類似的,文獻[15]將決策模塊的輸出空間分為保持直行、左變道以及右變道3種離散決策.文獻[25]基于長短期記憶網絡-條件隨機場(LSTM-CRF)方法,為車輛變道場景做出決策,決策模塊的輸出為保持直行、準備變道、左變道和右變道4種決策.文獻[26]基于博弈論方法,生成6個離散的加速度,以實現智能車輛與環境車輛在路口的行為決策.
該方法的優點在于數據來源于真實環境,較有說服力,缺點在于數據中的車輛缺乏與智能車輛的交互性,不能有效驗證涉及交互的決策方法.
基于廣義決策輸出的決策方法,將輸出連續的決策指令,即輸出方向盤轉角、油門與剎車等控制量的時間序列.此種決策方法涵蓋了智能車輛框架中的決策模塊、規劃模塊以及控制模塊的功能,是端到端算法的應用實現.
文獻[27]運用卷積神經網絡(CNN)訓練了決策模型,并以方向盤轉角作為決策模塊的輸出.文獻[28-29]將車輛的方向盤轉角作為決策模塊的輸出.以廣義類型作為輸出的決策方法,在解空間上有更廣泛的遍歷,該特性賦予了決策方法更多求解優化的空間,從而可以得出更加貼近實際的決策.但廣義類型的決策輸出具有較高的意圖不確定性,如何通過可解釋性規則進行約束以提高決策方法的可解釋性以及安全性是當下研究的一個熱點方向.
綜合第2.1與2.2節內容,依據輸入輸出類型,智能車輛決策方法分類如表1所示.

表1 依據輸入輸出類型的決策方法分類Tab.1 Classification of decision-making methods based on input and output types
除了依據信息輸入與輸出形式進行分類外,決策模塊與環境的交互方式亦可作為決策方法歸納的重要指標之一.智能車輛在行駛過程中所進行的決策過程,可視為車輛與環境進行交互的過程.現階段智能車輛決策方法的研究已經度過了簡單場景的階段,開始聚焦于與環境具有沖突的復雜場景的決策方法研究.不同的環境交互方式所形成的決策方法在進行決策時會有較大的差異,本節將從兩種環境交互方式來進行歸納分析.
決定場地穩定性的因素主要為地層巖性和地質構造。巖性條件對填埋場選址至關重要,場地應盡量選在以細小顆粒為主的松散巖層或堅硬巖層基礎上,巖性適合為更新統粘土、粉質粘土以及板溪群、冷家溪群變質砂巖、板巖或致密的花崗巖,基巖風化程度最好為中風化~微風化,不宜為較粗顆粒的砂、礫石以及壺天群、棋子橋組等溶洞發育的灰巖區,以保證場地基礎及邊坡的穩定性;選址應選擇在無活動斷裂、充水斷裂、地震活動的地區,活動斷裂會造成地面不均勻沉降,威脅場地基礎穩定性,充水斷裂會大大增加地下水滲透性,增加場地基礎建設難度。
基于博弈論的決策方法認為智能車輛與環境中的周邊車輛存在博弈關系,常見的建模方式為將存在交互行為的所有決策個體視為博弈中的參與者,各方的狀態改變為博弈策略,以此構建雙方的收益矩陣,通過求解博弈模型的Nash均衡,作為雙方的最優駕駛策略組合.現階段研究常用的博弈參與者收益由自車的安全性、效率以及舒適性等指標構成[26].
文獻[10]通過在駕駛員之間運用博弈論方法,解決了高速公路匝道口匯入的困難場景問題.文獻[26]通過對路口場景的車輛進行建模,運用加減速度決策對建立Nash矩陣,并生成最終決策.在Nash矩陣中,每一個決策者的收益值會受其余所有決策者的決策影響,所以決策Nash矩陣的維度將隨著決策者數量的增加呈指數型增長,這將帶來計算時間的指數型增加.為了解決該問題,可以采用基于樹搜索的算法.文獻[31]運用蒙特卡洛樹(MCT)加速最優值的搜索.文獻[30]引入了車輛的運動學、動力學限制,通過遞歸的方式,減少了搜索的空間.文獻[28]則通過引入Stackelberg博弈來減少智能車輛自身的決策空間.Stackelberg博弈為兩階段的完全信息動態博弈,博弈雙方都是根據對方可能的策略來選擇自己的策略以保證自己在對方策略下的利益最大化,從而達到Nash均衡.在該文獻中讓智能車輛作為該博弈場景中的先導決策方,率先作出即使所有環境車輛做出最惡劣舉措下的自身最優決策.對于其他環境中的參與者,算法假設其均采取相同的策略,然后系統通過迭代直到收斂.該方案將決策方法的計算量減少為隨決策參與者線性增長,實現了運算的加速.
博弈論的思想已融入到眾多決策方法中,多策略決策(MPDM)方法將博弈形式作為決策方法的基礎.該方法為環境中的所有參與者設置了相同的策略空間,對全體參與者所有可能的選擇的決策組,MPDM設計了一個類似于模型預測控制(MPC)的推演窗口,計算出不同的子策略集所對應的全局損失函數cost,然后在cost集里面選擇cost最小值所對應的決策集作為當前的最優決策[29].文獻[32]針對動態不確定的智能車輛環境,設計了基于MPDM的決策方法.文獻[9]將MPDM與 pAC結合,運用MPDM計算匯流的候選點,使pAC的總體成功率達到了與人類駕駛員相當的92%.
半夏原植物性狀、功效、禁忌、毒性以及炮制工藝考證…………………………………………………… 靳曉琪等(23):3289
基于博弈的決策方法,是建立在環境中的決策參與者均為理性決策者的基礎上的一種方法.當智能車輛在真實場景中,遇到非理性駕駛員時,該方法常常會做出錯誤的決策.如何對決策者為理性決策者和非理性決策者進行建模分析,如何增強博弈決策算法的穩定性,是基于博弈論的決策方法需要面臨的挑戰.
與博弈形式所不同,禮讓形式的決策方法更加傾向于以對環境造成影響較小的最優決策.文獻[33]提出一種最大交互防御策略(MIDP),以完成車道匯流場景下的安全決策.文獻[34]將環境車輛的駕駛行為建模為樸素貝葉斯(Naive Bayesian)的形式,智能車輛首先對當前環境車輛進行觀測,如果環境車輛加速,那么該車輛禮讓智能車輛的可能性較低;如果減速,則該環境車輛有較大概率禮讓.基于此模型,該論文聚焦于高速公路的匯入車流場景,設計出禮讓形式的決策方案.智能車輛對不同的決策所帶來的代價函數進行計算,然后選擇最佳策略.文獻[35]使用粒子濾波器來估計環境中智能駕駛員模型的行為參數,例如最大加速度、期望加速度、期望速度、最小間隔距離等.隨后,該決策方法基于此模型,根據當前觀測,推演未來空間內各物體的位姿,從而獲得最優決策.文獻[36]將環境中的障礙物等信息以語義序列的方式提取出來,然后通過優化目標函數進行決策.
現階段已有眾多研究成果運用強化學習方法方法生成離散決策或連續決策[42-45].文獻[46]基于獎勵函數和更新函數開發了增強型Q學習算法.文獻[47]基于深度強化學習(Deep RL)設計了決策訓練器以進行智能車輛決策訓練.文獻[48]針對車輛駕駛性能的多目標問題,提出了基于最小二乘策略迭代(LSPI)的多目標強化學習(MORL)算法,并且應用于車輛智能駕駛決策問題.文獻[49]將三維點云以及攝像機圖片作為決策模塊的輸入,通過基于多重獎勵架構(MRA)強化學習方法,實現車輛在高速公路場景下的控制與決策.隨著解空間構型的逐漸復雜,強化學習的學習過程可能會急劇加長甚至不再收斂.現階段RL研究工作者分別提出了課程式學習[50-52]與對抗學習[53-54].
采取典型臨床癥狀患病羊新鮮血液進行血常規檢查,發現患病羊紅細胞數量下降到5.0×1012個/L,血紅蛋白數量下降到50 g/L(正常數值分別為13.0×1012個/L和110 g/L),患病羊血液中紅細胞數量和血紅蛋白數量嚴重下降,遠低于正常數值。采集患病羊耳尖靜脈鮮血滴加到載玻片上,向其中加入等量生理鹽水,混合均勻后,蓋上蓋玻片,在1 000倍的顯微鏡下觀察,發現血液中幾乎看不到成熟的血紅細胞,紅細胞形態為逗號狀月牙狀,血細胞核為幼稚紅細胞,在紅細胞內并沒有發現梨形蟲和弓形蟲[1]。
依據與環境的交互方式,智能車輛決策方法分類如表2所示.

表2 依據與環境交互方式的決策方法分類Tab.2 Classification of decision-making methods based on interaction with the environment
機器學習是現階段決策算法研究中常用的方法,是否基于機器學習方法以及所采用算法的類型是對決策方法進行總結歸納的一個重要依據.通過分析已有的科研工作,本小節將分別從非學習類方法與學習類方法兩大類進行介紹.
非學習類的決策方法又稱為傳統決策方法,其主要代表為有限狀態機(FSM)方法,該方法由于其穩定性在現階段仍得到了廣泛的應用.基于狀態機的決策方法有著結構簡單、可解釋性強的特點.FSM是一種離散輸入、輸出系統的數學模型,其由有限個狀態組成,當前狀態接收事件并產生相應的動作,進而引起狀態的轉移.狀態、事件、轉移、動作是有限狀態機的四大要素.根據狀態分解以及連接邏輯,將其分為串聯式、并聯式、混聯式3種體系架構[5].
文獻[37]運用決策樹方法對智能車輛決策模塊進行建模.決策樹方法可以視為狀態機方法的抽象方法,決策樹方法將狀態機中生成的決策以樹狀形式維護起來.當車輛處于不同的決策場景中時,通過計算車輛狀態,在決策樹中檢索具體的最優行為決策.文獻[8]提出一種基于層次狀態機的智能車輛換道決策方法,該決策框架由兩部分組成:微型場景信息模型和基于多屬性決策的車道變更行為的決策模型.
HEHE的超聲增強方式與其組織特征相關,活躍的腫瘤細胞主要位于周邊部,腫瘤組織中央部分可發生透明樣變,為此在超聲造影上腫瘤生長活躍的周邊部增強較明顯[21]。在增強CT上,如果注射造影劑后呈外周強化,有病灶融合趨勢,可診斷為HEHE。若HEHE出現病灶內緣短粗毛刺樣增強長度較穩定,增強始終不能達到病灶中央,需要在臨床上合理鑒別[22]。特別是但當病灶出現環狀增強要注意是否有HEHE存在的可能性,門脈期和延遲期快速減退為低回聲是提示HEHE的特征性表現[23]。
基于狀態機的決策方法擁有清晰的決策意圖,從而具備較強的可解釋性,但其難以涵蓋車輛真實行駛環境中的邊緣場景,難以保證決策方法在真實復雜多變的駕駛環境中的穩定性.
基于學習的決策方法隨著車載計算單元計算能力的增強,愈發得到學術界與工業界的關注.現階段學習類的決策方法主要可以分為基于深度監督學習、基于強化學習以及基于逆強化學習(IRL)3種,本節將以此進行分類與介紹.
(1)基于深度監督學習的方法.基于深度監督學習的決策方法主要形式為從大量的標簽駕駛行為數據中學習環境信息到車輛決策的有效映射關系.由于深度監督學習已經在圖像等領域得到了廣泛的應用與驗證,該類型在學習類方法中率先被應用于智能車輛的決策方法研究中.
現階段已有眾多國內外科研機構基于深度監督學習方法對車輛決策進行了研究.文獻[38]提出基于注意力機制的車輛決策方法,以實現在擁擠車流中的決策.文獻[39]運用多任務學習(MT-LfD)框架實現對環境車輛的決策預測.同樣基于監督學習開展科研工作的還有英特爾公司的端到端決策模塊[16],Comma.ai公司所提出的基于RNN的端到端決策模塊[17].文獻[25]以NGSIM數據集作為訓練數據,設計了基于長短時記憶(LSTM)神經網絡和條件隨機場(CRF)模型的類人決策算法,提高了車輛換道決策的成功率.相似的研究還有百度 Apollo 團隊的研究成果[40],其運用基于深度監督學習的決策方法,實現了對智能車輛的橫向控制與縱向控制.Apollo團隊運用CNN實現車輛的橫向控制,該決策模塊以前視攝像機的圖片作為決策方法的輸入,決策模塊直接計算出方向盤的期望偏角,以實現對路徑的跟蹤.同時,Apollo團隊采用LSTM模型,從圖像時間序列中獲取油門與剎車的控制量.
基于深度監督學習的決策方法,依賴于數據集的質量,其可以在特定場景下通過對已有專家數據的學習,做出精準、高效的決策.然而此類型方法仍然存在一些不足,例如當訓練數據集出現不均衡的情況或者數據集缺少難例樣本時,決策方法難以根據學習到的神經網絡做出正確的決策.同時,由于深度監督學習基于深度神經網絡以實現車輛決策的計算,其模型的可解釋性較低,難以獨立應用于車輛的決策系統.
車載傳感器通常有激光雷達、毫米波雷達、攝像頭,由傳感器獲得的數據有著數據形式貼合實際車輛行駛環境,數據信息量豐富等特點.
(2)基于強化學習的方法.強化學習與監督學習不同,監督學習中的決策方法從數據集中直接獲得正負樣本的標簽,而強化學習模型須通過在解空間內的反復試錯,才能獲得最優模型[41].
采用禮讓形式的決策方法,可以理解為與環境的單向交互,此類型的決策方法通常基于對歷史數據中先驗信息的提取,根據對未來場景的推演,生成智能車輛當前幀的決策以達到最優目標函數.該類方法較依賴于數據,并且缺乏對環境的主動交互,在長時域對環境車輛的駕駛行為以及運動軌跡的預測不足,短時域內可能會陷于局部最優,從而對決策方法的穩定性帶來了挑戰.除此之外,禮讓形式下的決策方法在交互場景中更傾向于選擇保守的決策,該特性雖然可以有效地提高車輛的安全性,但是在車流量較高的復雜場景中常陷入舉步不前的決策結果.
此類方法的主要優點是該類方法在訓練時不需要標注數據集,從而降低了標注的成本.除此之外,其可以處理非結構化數據,例如原始或經過稍微預處理的雷達或基于攝像機的圖像信息.然而該方法仍有不足之處,其學習與訓練的目標依賴人為設計的獎勵函數,該獎勵函數設計的好壞將直接決定強化學習決策方法的性能.同時,由于強化學習需要在仿真器內進行迭代訓練,仿真器對現實工況的模擬程度將影響決策方法從仿真環境到現實環境的可遷移性.
(3)基于逆強化學習的方法.針對強化學習需要人為設置獎勵函數的弊端,逆強化學習通過從專家演示中學到未知的獎勵函數來解決該問題.
文獻[55]在高速公路仿真中學習不同駕駛風格,此工作展示了具有未知獎勵函數的Markov決策過程在車輛行為決策中的優勢.為了避免逆強化學習的過擬合,現階段研究采用最大熵IRL方法來解決過擬合問題.文獻[56]應用了最大熵IRL的原理,因為最大熵分布顯示出對數據的最少承諾,這是避免過度擬合的自然選擇,.文獻[57]設計了一個風險敏感的IRL框架,能夠明確考慮專家的風險敏感度.該框架能夠捕獲從中性風險到最壞情況的不同風險偏好范圍.基于線性編程的算法可用于推斷專家的隱藏風險指標.文獻[58]提出了最大熵深度IRL框架,利用深度完全卷積神經網絡的表達能力表示潛在的駕駛行為成本模型.
基于逆強化學習的決策方法,彌補了強化學習方法中人為設計獎勵函數時的缺陷,是現階段決策研究的一個新方向,該方法將專家知識與算法的自我學習能力相結合,進一步提高算法的性能.然而和強化學習類方法相類似,逆強化學習類方法對仿真器的環境重現性能有較高的要求.
通過本節的總結與分析,依據其是否采用學習類算法以及所采用學習類算法的類型,智能車輛決策方法的分類歸納如表3所示.
部分民間投資者不講誠信,對招商協議及項目恰談中承諾的投資和設施(特別是水土保持工程措施)建設不落實,對建設生產過程中產生的水土流失不治理,工程項目不僅未能改善生態環境,還一定程度上加劇了項目區水土流失。部分投資者在經濟林建設中野蠻施工,對地塊周邊植被及原有水利水保設施損毀嚴重,項目區生物多樣性和生態環境被破壞。部分投資者只圖作業便利,在中藥材種植基地采取順坡起壟整地,地塊內水土流失嚴重。
隨著現階段科研水平的不斷提高,眾多科研工作者運用智能車輛在現實環境中創建仿真場景對決策方法進行測試.文獻[61]在真實車流中評估其決策算法.

表3 依據算法類型的決策方法分類Tab.3 Classification of decision-making methods based on algorithm types
如前文所述,現階段對于決策方法的性能評估標準尚未統一,且當前缺乏文獻對其進行歸納與總結.同時,現階段尚未有文獻對決策研究中常用的數據集進行整理與歸納.本小結將對決策效果評估方法進行討論,并將對常用數據集進行總結.
如何評估智能車輛決策方法的優越性,是算法研究中的關鍵問題.現階段決策方法的相關成果中,決策方法的評估手段可以分類為自建仿真場景的評估方法與基于數據集的評估方法.
5.1.1自建仿真場景的評估方法 自建仿真場景并設計智能機器人模仿環境參與者以進行決策方法的評估是現階段常見的評估方法.該方法中,科研工作者常搭建仿真環境,并定義具體的指標來衡量算法的優越性,例如安全、效率、舒適的量化指標,是否會發生碰撞以及碰撞發生的最小時間等.文獻[15]建立了三車道仿真平臺,并基于此評估了其提出的基于進化學習的智能車輛決策方法.文獻[22]設計了兩個評估指標:延長碰撞時間(ETTC)和動態預測距離分布(DPIDP),并在自建的仿真平臺上進行了決策方法評估與驗證.文獻[59]通過設計路口仿真器,驗證了其提出的基于可到達集的決策方法.文獻[60]設計了T型路口仿真器,通過對比碰撞率以及通過時間來評估其決策方法.文獻[13]以及[23-24]同樣采用自建仿真場景來進行評估.
觀察組患兒給予孟魯司特聯合阿奇霉素:阿奇霉素的運用方法與對照組患兒一致,對患兒給予孟魯司特(生產廠商即為杭州默沙東制藥有限公司,批準文號即為國藥準字J20130047,規格即為10 mg×5片/盒),年齡小于6周歲的患兒服用劑量單次4 mg,年齡大于6周歲的患兒服用劑量單次5 mg,每日2次,在早間與晚間加以服用,持續實施3周的治療。
5.1.2基于數據集的評估方法 另一種常見的評估方法是基于已有的數據集對決策方法進行評估.在運用數據集對智能車輛決策方法進行評估時,一個主要特點是數據集中的車輛軌跡是既定的.在眾多采用此方法進行評估的研究工作中,常見的方式為將數據集中的目標車輛(例如正在或即將進行換道、匯流的車輛)替換為采用目標決策方法的智能車輛,隨后根據該智能車輛能否安全順利完成指定目標來進行評估.同時,除了將目標完成度作為度量指標外,在模擬評估過程中車輛的碰撞率、平穩性、最小安全距離等指標也將作為評價函數的子屬性對決策方法進行評估.文獻[62]在論文中設計了評估指標,并運用NGSIM數據集對其提出的基于pAC的決策方法的評估.文獻[11]運用NGSIM數據集中的匯流場景,對其基于博弈論的決策方法進行評估驗證,并以匯流是否成功作為評估指標.文獻[25]運用NGSIM數據集驗證其車輛換道決策的類人性與安全性.
智能車輛所面臨的決策問題可以概括為一個在復雜條件下的優化問題,而意圖類型的決策輸出讓智能車輛在充滿非凸問題的復雜環境中,獲得將問題轉化為凸問題再求解的能力.同時,此時的輸出使決策模塊更加穩定,因為和單純的數值優化求解器相比,單純的數值優化方法很難保證每一幀的解是相對穩定的,但是意圖決策輸出可以保證決策的連續性和穩定性.除此之外,意圖輸出也簡化了決策模塊的輸出數據結構,成為了眾多決策方法研究的輸出形式.但意圖輸出同樣存在不足之處,現實車輛行駛環境較為復雜,通過離散決策難以枚舉全量解空間,所以可能會丟失最優解.
專項整治后我院住院患者抗菌藥物使用量與大腸埃希菌耐藥率的變化及其相關性分析 ………………… 奚彩萍等(2):204
5.2.1NGSIM數據集 美國聯邦公路局于2002年發起的NGSIM計劃.通過在路段上方安裝高清攝像機的方式采集檢測路段上的車輛運行數據,再利用視頻處理軟件,以10幀/s或15幀/s的頻率對車輛軌跡數據進行還原[63].
該數據集包括I-80、US-101、Lank、Peach 4個路段上的車輛軌跡數據.其中,I-80和US-101為高速公路,Lank和Peach為城市道路.此數據集在車輛跟馳、車輛變道、交通流演化和車輛軌跡預測等方面有著廣泛的應用[64-67].針對智能車輛決策研究領域,NGSIM數據集可用于進行決策方法的功能性驗證.同時,由于該數據集采集時間較早且使用廣泛,適合研究人員用于不同決策方法之間優越性的對比.但該數據集的不足在于其場景比較單一,并且在車輛的邊緣提取上存在一定的誤差.NGSIM數據集的數據結構如表4所示.
5.2.2High-D數據集 High-D數據集由德國亞琛工業大學汽車工程研究所提供,為德國高速公路的大型自然車輛軌跡數據集[68].此數據集由高空懸停無人機拍攝并經由后期圖像處理,包括來自6個地點的11.5 h測量值和1.1×105輛車,所測量的車輛總行駛里程為4.5×104km,還包括 5 600 條完整的變道記錄.該數據集定位誤差平均小于10 cm.該數據集的車輛定位精準、車輛邊緣識別準確,且車流密度較大,適合于高車速場景下的決策方法研究.但不足之處在于場景較為單一,聚焦于高速公路場景.High-D數據集的數據結構如表5所示.

表4 NGSIM 數據集數據格式Tab.4 Data format of NGSIM dataset

表5 High-D數據集數據格式Tab.5 Data format of High-D dataset
智能車輛決策模塊是車輛安全性、舒適性與高效性的決定因素之一,而車輛行駛環境的高度動態性與復雜性對決策方法的研究提出了挑戰.近年來,學術界和工業界進行了廣泛和深入的研究,并提出了一系列的決策方法.然而,目前的研究依舊存在如下挑戰亟待解決.
針對智能車輛決策方法研究領域,該數據集適用于駕駛員決策風格的提取、對抗性場景下決策方法研究以及車流密度較大的、復雜場景下的決策預測與研究.同時,該數據集收集了危險場景、碰撞場景的案例,可以供科研工作者進行危險場景下的研究.但由于該數據集的信息并非由傳感器直接收集獲得,所以不能應用于端到端的算法開發中.INTERACTION數據集的數據結構如表6所示.
⑴沒有完善信息管理制度。從目前形勢看來,信息化管理制度處于初步發展階段,也可以說是保持在雛形,其還需要長時間完善和發展,而且很多醫院缺乏軟件和硬件設施,根本不滿足辦公自動化的基礎需求。而且患者電子檔案也缺乏相應的保障措施,在沒有安全措施的保護下,患者資料很容易泄露出去,不僅會給患者帶來很大影響,也會造成患者對醫院的不信任,讓醫院正面形象受損。隨著醫院對辦公自動化研究的深入,很多醫院都在檔案管理中投入大量資金,不過由于缺乏完善的信息管理制度,很多資金都沒能用在關鍵地方,導致硬件和軟件在配套上存在很大問題,其中的差距很難彌補。

表6 INTERACTION 數據集數據格式Tab.6 Data format of INTERACTION dataset
5.2.4Level 5數據集 Level 5數據集由美國Lyft公司提供,該數據集包含了超過 4 000 個車道段的基礎高精度空間語義地圖、197個人行橫道、60個停車標志、54個停車區、8個減速帶和11個減速帶[70].
數據集約有 3 000 個駕駛場景,總計16.7 h的視頻數據共6×105幀,以及大約2.5×107個3D邊界框和2.2×107個2D邊界框.Level 5由兩個子數據集組成,分別是感知數據集與預測數據集.感知數據集的數據格式沿用nuScenes 格式,由7個攝像頭和3個激光雷達傳感器采集生成.預測數據集包含1.7×105個場景,這些場景捕獲了自動駕駛汽車周圍的環境,并且每個場景都會在給定的時間點對車輛周圍的狀態進行編碼.Level 5數據集的數據格式如表7所示.
綜上所述,介紹了4個在決策方法研究中常用的數據集,本文對各數據集的特性以及引用情況進行了總結分析,如表8所示.

表7 Level 5 數據集數據格式Tab.7 Data format of Level 5 dataset

表8 數據集總結表Tab.8 Summary of datasets
5.2.3INTERACTION數據集 INTERACTION是由加州大學伯克利分校機械系統控制實驗室(MSC Lab)等建立的一個國際性、對抗性、協作性的數據集[69].該數據集場景較為豐富,包含了城市道路、公路、匝道合并、帶有禮讓停車標志的環形路口以及信號燈交叉路口等.同時,該數據集采集地點來自不同的國家,以便自然地包含不同文化中的駕駛偏好和風格,并且該數據集具有完整語義的地圖信息,包括物理層、參考線、道路連接以及交通規則.
(1)數據不均衡問題尚未解決.決策方法的設計與驗證離不開數據,然而現階段智能車輛決策方法研究中所用的真實數據常存在不均衡問題.例如車輛在正常行駛狀況下,直道的行為遠多于彎道的行為,簡單場景的決策會遠多于復雜危險場景的決策.不平衡數據集在訓練模型時,反饋的梯度分布也會失衡,從而使模型的能力偏向于數據分布較大的數據,而對少分布的數據估計、預測能力較差.
(2)可解釋、穩定性的決策方法尚未實現.現階段學習類方法在決策方法中得到了較為廣泛的應用,為了提高決策方法的可解釋性并建立用戶與決策模型之間的信任關系,消除模型在實際部署應用中的不穩定性,近年來學術界和工業界已經在可解釋性上取得了一定的進展.然而該方向的研究還處于初級階段,依然存在許多的關鍵問題尚待解決.
(3)決策模塊中的倫理問題尚未得到深入探討.自“電車問題”提出以來,眾多學者對如何做出符合倫理的決策產生持續的爭論.智能車輛的決策模塊由于其功能的特殊性,也常受到倫理問題的挑戰.例如在博弈環節中如何設置遵循倫理的目標函數,如何在路權被侵犯時合理地與環境車輛進行交互等.
(4)噪聲、不完全可觀場景下決策方法的穩定性需要進一步提高.環境的感知與定位信息對于智能車輛的決策生成而言至關重要.但當車流密度較大時,感知信息中常存在噪聲,并且由于環境車輛的遮擋而導致不完全客觀環境的問題難以避免.以上問題對決策方法的穩定性提出了挑戰.
(5)實際應用場景中車輛決策實驗亟需開展.目前的車輛決策方法研究仍然以實驗室環境驗證為主,缺乏實際應用場景的驗證.
針對現階段智能車輛決策方法研究中存在的問題,本文從5個方面指出未來的研究方向.
(1)針對邊緣場景的決策方法研究與數據集設計工作.隨著智能車輛研究工作的展開,現階段決策方法逐漸聚焦于解決邊緣場景、困難場景下的決策生成.因此,設計應對訓練數據不均衡,解決現實中不常見場景下的決策問題,將會成為智能車輛決策方法研究的方向之一.同時,由于當前數據集缺乏對危險場景、沖突場景等邊緣場景的數據采集,設計具有針對性的數據集亦將成為未來研究工作的方向之一.
(2)第三代人工智能背景下可解釋、魯棒決策方法研究.現階段決策方法難以兼顧解釋性與穩定性,原因在于當下的學習類決策方法,較多地依賴于數據驅動,卻忽略了專家知識信息.未來車輛決策方法的研究將會把數據驅動與知識驅動結合起來,通過同時利用知識、數據、算法和算力等4個要素實現決策方法的開發.
(3)考慮倫理道德的車輛決策方法研究.決策是否遵循倫理道德,將會直接影響在車輛遇險等場景下的責任追究與法律判定.同時,決策是否符合倫理規范將會影響用戶與公眾對決策模型的信任,進而影響智能車輛在社會范圍大規模推廣的進程.因此,將倫理問題量化,并為決策模塊中的倫理問題設計合適的代價函數,亦成為未來決策方法的研究方向之一.
圖1描述了2008年和2009年中國城鎮居民主觀幸福感的核密度分布圖,從圖中可以看出,2008年和2009年的核密度分布走勢相似,且峰值均出現在30左右;平均來看,公眾的主觀幸福感較高。
(4)基于路側感知與車間通訊的決策方法研究.隨著通訊技術的進步以及路側基礎設施的普及,以路側感知信息和車間通訊信息作為輸入的決策方法將有效解決感知噪聲干擾和不完全可觀場景下的決策問題,因此該方向將成為未來的決策方法研究熱點之一.
Lambert-Beer定律視粒子的散射過程與吸收過程等同,該方法局限于粒子的單次散射條件.在實際傳輸過程中,吸收現象使得光子不再向前傳播,造成了能量的衰減.散射則是通過改變光子的行進方向,使接收到的粒子數減少,造成探測到的能量減小.而粒子經過多次散射后可能被接收到,這種多次散射情況會對透過率產生貢獻,卻不能被Lambert-Beer定律計算得出.
(5)實際復雜場景下的智能車輛決策實驗.結合實際的車輛行駛場景,如開放、擁堵場景下的車輛變道行為、匯流場景下的車輛博弈決策行為、路口場景中的車輛決策行為、車輛與行人等多種交通參與者的混合場景下的決策行為等展開實驗.